2026-03-27

18 篇热帖

We haven't seen the worst of what gambling and prediction markets will do

美国赌博现状:三个故事 (Měiguó Dǔbō Xiànzhuāng: Sān Ge Gùshì)

本文通过三个故事揭示了美国赌博的现状,并引发对潜在风险的担忧。

1. 棒球作弊 (Bàngqiú Zuòpǐ): 克利夫兰守护者队两名投手,埃曼纽尔·克拉斯和路易斯·奥蒂兹,因涉嫌操纵比赛结果而被指控。他们与几名赌徒串通,后者投注投手故意投出坏球,以此获利,总计赢取了45万美元。 这种作弊手法简单巧妙,且几乎难以被观众察觉。

2. 战争赌注 (Zhànzhēng Dǔzhù): 在俄罗斯袭击伊朗后,用户“Magamyman”在预测市场Polymarket上,在极低赔率下,豪赌美国将在特定日期轰炸伊朗。 几小时后,轰炸事件确实发生。 还有其他数百万美元的类似投注,暗示可能存在内幕消息泄露。

3. 记者受威胁 (Jiězhě Shòuwēixié): 在伊朗战争期间,记者埃曼纽尔·法比安报道了伊朗导弹袭击耶路撒冷的消息。 预测市场上的用户为了获得巨额投注回报,试图胁迫法比安修改报道内容,甚至威胁他的生命安全。

赌博的蔓延与风险 (Dǔbō de Mànyán yǔ Fēngxiǎn): 这些事件表明,赌博已经渗透到体育、政治和新闻领域。 过去,职业体育联盟强烈反对赌博,但2018年最高法院的裁决改变了这一局面。 体育博彩规模迅速扩大,从2014年的50亿美元增长到2024年的160亿美元。 预测市场也蓬勃发展,2025年的收入高达500亿美元。

文章指出,赌博的快速发展带来了以下风险:

  • 个人赌徒风险: 增加了赌徒成瘾和破产的风险。
  • 运动员和从业者风险: 赌徒可能会对运动员施加压力和威胁,破坏比赛的公平性。
  • 体育及其他机构的完整性风险: 赌博可能导致对体育比赛结果的操纵以及对其他机构的腐蚀。
  • 政治风险: 存在政府官员利用赌博信息牟利,甚至影响政策的风险。

文章认为,在信任度下降、机构衰落的社会中,市场逻辑逐渐取代了传统道德规范,金钱成为了衡量价值的最终标准。 这种趋势令人担忧,因为它可能导致对死亡的冷漠和对社会价值观的进一步侵蚀。

总而言之,文章警示,虽然赌博可能带来娱乐和信息效率,但过度发展将带来严重的社会风险,需要加以警惕和规范。

Hold on to Your Hardware

技术变革:价格上涨、选择减少,个人电脑的重要性日益凸显

本文警告称,价格上涨、消费者选择减少,以及未来个人电脑可能比以往任何时候都更加重要的局面正在到来,因为硬件、算力和控制权正逐渐向数据中心转移,远离个人用户。

核心要点:

  • 黄金时代的终结: 过去二十年,消费者享受了技术发展的黄金时代,内存价格下降,存储容量增加,硬件速度提升且价格低廉,升级换代成为常态。但这一时代正在结束。
  • 结构性转变: 当前的硬件行业变化并非简单的价格周期或短期短缺,而是一场结构性的转变,对消费者而言前景堪忧。建议消费者尽可能保留现有硬件,因为未来可能难以以可承受的价格更换。
  • “RAM-pocalypse”(内存灾难): 内存价格大幅上涨,主要原因是数据中心和“AI”技术带来的需求激增。主要供应商如Western Digital和Micron已退出或忽视消费者市场,导致消费者内存市场被Samsung和SK Hynix垄断。
  • 原因:数据中心需求: “AI”公司如OpenAI等的数据中心需要大量硬件,包括内存、存储驱动器和GPU。企业需求远超全球产能,并压制了消费者市场。OpenAI的Stargate项目每月 reportedly 需要90万片DRAM晶片,可能占全球DRAM产量的40%。
  • 连锁反应: 内存价格上涨只是开始,硬件各个方面都受到影响,例如LPDDR内存价格上涨,影响了智能手机、笔记本电脑、平板电脑等设备的成本。
  • 产能已售罄: Western Digital和Kioxia等主要制造商已经将2026年的全部HDD和NAND闪存产能售出,预计至少到2027年供应依然紧张。
  • 行业重心转移: 硬件制造商不再以消费者为中心,而是将重心转向数据中心、AI公司和企业客户,以追求更高的利润和长期合同。
  • 潜在的未来: 硬件租赁模式可能成为常态,消费者不再拥有硬件,而是通过云平台付费使用,失去数字主权。
  • 希望之光: 中国制造商CXMT和YMTC正在积极扩产,试图打破垄断局面,为消费者带来一丝希望。

总结:

硬件行业正经历一场深刻的变革,消费者面临着价格上涨、选择减少的困境。 个人电脑的重要性可能会日益凸显,消费者应该珍惜和维护现有硬件,并理性升级。

TL;DR:

硬件价格上涨,消费者选择减少,数据中心成为重心。 建议保留现有硬件,理性升级,因为未来拥有个人电脑可能比以往任何时候都更加重要。

New York City hospitals drop Palantir as controversial AI firm expands in UK

纽约市公共医院系统终止与 Palantir 的合同,英国 NHS 合作面临审查 (NYC Public Hospital System Terminates Contract with Palantir, UK NHS Collaboration Under Scrutiny)

主要内容 (Main Points):

纽约市公共医院系统 (NYC Health + Hospitals) 宣布将不会续签与数据分析和人工智能公司 Palantir 的合同,这正值该公司在英国因政府合同而面临隐私争议之际。合同将于 10 月到期。

纽约市合同细节 (NYC Contract Details):

  • 合同目的: 最初的合同旨在帮助医院追回保险理赔,专注于收入周期优化。
  • 合同费用: 自 2023 年 11 月以来,NYC Health + Hospitals 已向 Palantir 支付近 400 万美元。
  • 数据访问: Palantir 可以审查患者的健康记录,并帮助医院通过医疗补助等项目获得更多公共福利资金。合同允许在获得城市机构许可的情况下,Palantir 对患者的受保护健康信息进行“去标识化”,并将其用于“非研究目的”。
  • 数据安全: 医院声称存在“绝对防火墙”,防止 Palantir 将信息与美国移民及海关执法局 (ICE) 共享,并表示没有发生过违规事件。
  • 未来计划: NYC Health + Hospitals 将过渡到完全内部开发的系统,合同到期后将不再与 Palantir 共享数据或使用其应用程序。

英国 NHS 合同争议 (UK NHS Contract Controversy):

  • 审查: Palantir 与英国国民医疗服务体系 (NHS) 的 3.3 亿英镑合同正面临类似的隐私审查,英国卫生官员担心争议可能阻碍该公司的系统全国推广。
  • 部署缓慢: 截至去年夏天,不到一半的英国医疗机构已开始使用 Palantir 的技术。
  • 潜在风险: 健康公正慈善机构 Medact 警告称,Palantir 的软件可能导致“数据驱动的国家权力滥用”,例如美国风格的 ICE 突袭。Palantir 否认数据可能被用于此类目的。
  • 其他合同: Palantir 还与英国国防部有合同,并且正在努力获取敏感的英国金融监管数据,引发了议员的担忧和呼吁政府停止该协议。

数据隐私担忧 (Data Privacy Concerns):

  • 去标识化风险: 数据隐私专家表示,即使数据经过“去标识化”,Palantir 访问纽约市民的健康数据并将其用于非研究目的也存在风险,尤其考虑到该公司对政府记录的广泛访问和分析大型数据集的能力。人工智能技术使得重新识别数据变得更容易。
  • 过度依赖: 批评人士担心政府可能对 Palantir 缺乏足够的控制权,或者对潜在风险缺乏认识。

活动家视角 (Activist Perspective):

  • “Purge Palantir” 运动: 由护士、亲巴勒斯坦活动家和社会和气候正义团体发起的全国运动“Purge Palantir”一直对 Palantir 与政府机构合作施加压力。
  • 胜利: 活动家将纽约市公共医院系统终止与 Palantir 合同视为一场胜利。
  • 英国活动家: “No Palantir in our NHS” 运动的活动家希望纽约市的决定能激励他们终止 NHS 与 Palantir 的合同。

Palantir 声明 (Palantir's Statement):

Palantir 声明该公司作为一家软件公司,不拥有或对客户数据拥有任何权利,并且每个客户环境都通过强大的安全控制得到保护,这些控制可以由客户完全管理和审核。

总结 (Summary):

Palantir 公司因数据隐私问题,在美国和英国都面临着越来越大的审查压力。纽约市公共医院系统选择终止与 Palantir 的合作,这可能对英国 NHS 的类似合同产生影响。活动家和专家都对 Palantir 访问和使用敏感数据的能力表示担忧,认为存在潜在的滥用风险。

Judge blocks Pentagon effort to 'punish' Anthropic with supply chain risk label

美国联邦法院阻止五角大楼对 Anthropic 的惩罚措施 (美国联邦法院阻止五角大楼对 Anthropic 的惩罚措施)

摘要:

美国加州联邦法院法官丽塔·林 (Rita Lin) 裁定,五角大楼将 Anthropic 公司列为供应链风险,并试图切断与该公司的政府联系的行为,侵犯了该公司宪法权利,因此对其采取的措施予以无限期阻止。 法官林认为,五角大楼的这些行动是对 Anthropic 公司表达与政府不同意见的惩罚,缺乏法律依据。

主要内容:

  • 法院裁决: 法官林在 43 页的判决书中指出,五角大楼的行为违反了 Anthropic 公司的第一修正案和正当程序权利。她允许政府在未来一周内提出上诉,但明确表示反对政府的行动。
  • 事件起因: 五角大楼与 Anthropic 公司的争端源于后者拒绝放弃关于其 Claude AI 模型在自主武器和大规模监控中的使用的合同限制条款。
  • 五角大楼的行动: 在 Anthropic 公司坚持其限制条款后,国防部长 Pete Hegseth 采取了前所未有的措施,将 Anthropic 列为供应链风险,并指示联邦机构停止使用其产品,并切断与该公司的联系。
  • Anthropic 的回应: Anthropic 公司认为,这种做法侵犯了其第一修正案权利,损害了其声誉,并危及数亿美元的合同。该公司提起了诉讼,并对法院的裁决表示欢迎。
  • 国防部的理由: 国防部希望获得对 Claude 的无限制访问权限,特别是在战争时期。他们认为,如果公司将不同的政策偏好“内置”到模型中,可能会导致作战人员获得无效的武器和装备。
  • 核心争议: Anthropic 公司坚持其 AI 系统不得用于自主武器或国内大规模监控的红线。
  • 后续行动: 另一项挑战 Hegseth 援引的授权以确定供应链风险的案件,仍在华盛顿特区联邦法院审理中。国防部首席技术官 Emil Michael 表示,国防部计划上诉,并称法院的裁决是“耻辱”,并指责判决中存在事实错误,但未具体说明。
John Bradley, author of xv, has died

总结:纪念Booster Patrol创始人John Bradley

John Bradley,Booster Patrol乐队的创始人、制作人及主音吉他手,于3月20日去世,享年61岁。

为了纪念这位朋友和乐队伙伴,一位作者创作了一首歌曲,并将其风格模仿Bradley擅长的音乐类型。歌曲的初版可以在https://sigmagame.substack.com/p/lay-it-down-johnny-b 试听,最终版将在Unauthorized的Booster Patrol版块发布。

歌曲以诗歌形式描绘了Bradley去世后的场景:

  • 他于一个星期五的夜晚逝世,Booster Patrol乐队的音乐仍在余音袅袅。
  • 圣彼得在天堂门口迎接他,并告知他因其精湛的音乐技艺而被选中。
  • 莱奥·芬德为他打造了一把金吉他。
  • 天堂的合唱团需要一位擅长悲伤音符的人,而Bradley正是他们所寻找的对象。
  • 他弹奏出撼动天庭的琴声,天使们驻足聆听,圣马修也因此落泪。
  • 天堂现在每天晚上都有着前所未有的声音:一把金吉他演奏着既优美又悲伤的旋律。
  • 上帝也为之倾听和点头,Bradley在天堂的街道上尽情演奏,并对现状感到满意,他将怀旧的布鲁斯音乐从 Beale Street 传到 Monsignor。

歌曲反复吟唱“Lay it down, Johnny B” 和 “Make that sound, Johnny B”,表达对他的怀念和致敬,并以“为上帝演奏”作结。

讨论可以在https://socialgalactic.com/micropost/f7411944-f06d-413b-99d1-950a0eb329ee 进行。

A Faster Alternative to Jq

jsongrep:基于 DFA 的快速 JSON 查询工具

本文介绍了作者开发的 JSON 查询工具 jsongrep,并详细解释了其内部高效搜索引擎的原理。同时,文章还讨论了用于与其他 JSON 查询工具进行性能比较的基准测试策略。

工具概述

jsongrep (可执行文件为 jg) 接收一个查询和一个JSON 输入,并打印出所有路径与查询匹配的值。它可以安装:

cargo install jsongrep

jsongrep 借鉴了 Andrew Gallant 的 ripgrep 工具和其博客文章,并使用 Rust 语言编写,支持跨平台。

查询语言

  • 点路径: 使用点(.)分隔字段名,表示嵌套字段的路径,例如: jg 'roommates[0].name'
  • 通配符: * 匹配任意单个键,[*] 匹配任意数组索引。例如: jg 'favorite_drinks[*]'
  • 或运算: | 匹配分支,类似于正则表达式的或运算。例如: jg 'name | roommates'
  • 递归下降: 使用 *[*] 在 Kleene 星号中实现,用于深入 JSON 树的任意深度。例如: jg '(* | [*])*.name' 或者使用 -F 标志作为简写:jg -F name
  • 可选: ? 匹配零或一次出现。例如: jg 'roommates[0].favorite_food?'

jsongrep 的优势

jsongrep 的核心优势在于其将 JSON 文档视为树形结构,并将查询视为树形路径的描述。它采用正则表达式的查询语言,并将其编译成 确定性有限自动机 (DFA)。DFA 可以在单次遍历中以 $O(1)$ 的工作量处理输入,避免了递归和回溯带来的性能开销。

jsongrep 的局限性

  • 相比 jq 等工具,jsongrep 的查询语言表达能力较弱,主要用于搜索而非转换。
  • jsongrep 尚处于发展阶段,未经广泛测试。

技术原理

jsongrep 的搜索引擎采用五阶段流水线:

  1. 解析 JSON 文档: 使用 serde_json_borrow 进行零拷贝解析。
  2. 解析查询: 将用户查询解析为抽象语法树 (AST)。
  3. 构建 NFA: 使用 Glushkov 算法从查询构建非确定性有限自动机 (NFA)。
  4. 确定化 NFA: 使用子集构造法将 NFA 转换为 DFA。
  5. 搜索: 深度优先搜索 (DFS) 并使用 DFA 状态转换遍历 JSON 树,记录匹配项。

Glushkov 算法主要通过线性化查询、计算 First 和 Last 集合、Follows 集合以及组装 NFA 来构建 NFA。

子集构造法将 NFA 转换为等价的 DFA,每个 DFA 状态对应于 NFA 状态的集合。

搜索过程通过深度优先搜索 JSON 树,并在每个节点上执行 DFA 状态转换,从而找到与查询匹配的路径。

基准测试

作者使用 Criterion.rs 框架进行基准测试,比较了 jsongrep 与其他五个 JSON 查询工具的性能,包括 jsonpath-rustjmespathjaqjql

测试数据集包括四个大小不同的 JSON 文件,并针对文档解析、查询编译、查询搜索和端到端搜索四个方面进行测试。

基准测试结果

  • serde_json_borrow 在文档解析方面表现最佳,由于零拷贝特性。
  • jsongrep 的查询编译时间相对较长,这是因为需要构建 DFA。
  • jsongrep 在查询搜索和端到端搜索方面表现出卓越的性能,尤其是在大型数据集上。

总结

jsongrep 是一款基于 DFA 的快速 JSON 查询工具,通过将查询编译成 DFA 并采用零拷贝解析,实现了高效的搜索性能。虽然其查询语言表达能力有限,但对于需要快速搜索 JSON 数据的场景,jsongrep 是一个极具吸引力的选择。

We rewrote JSONata with AI in a day, saved $500k/year

gnata: 使用 AI 重写 JSONata 引擎,节省 $50 万/年

这篇文章讲述了Reco Labs 如何使用 AI 模型在短短七小时内,以 $400 的 token 成本,用纯 Go 语言重新实现 JSONata 2.x 引擎,并最终节省了 $50 万/年的成本。

背景:

Reco Labs 的策略引擎需要评估 JSONata 表达式,对数据管道中的数十亿事件进行处理。JSONata 是一种 JSON 查询和转换语言,但参考实现是 JavaScript,而他们的管道是 Go 语言编写。这导致了大量 Node.js 进程(jsonata-js pods)在 Kubernetes 上运行,并通过 RPC 调用 Go 服务,带来了高昂的计算成本(约 $300K/年)和性能瓶颈(RPC 延迟)。

解决方案:gnata

借鉴了 Cloudflare 使用 AI 重写 Next.js 的经验,Reco Labs 采用了类似的方法:

  1. 定义目标: 将官方 jsonata-js 测试套件移植到 Go 语言。
  2. AI 实现: 使用 AI 模型编写代码,直到所有测试通过。
  3. 结果: 7 小时内完成了 13,000 行 Go 代码,包含 1,778 个测试用例,token 成本 $400。

gnata 的架构:

gnata 采用两层评估架构:

  • 快速路径: 处理简单的表达式(例如字段查找、比较和 21 个内置函数),直接在原始 JSON 字节上进行评估,无需完全解析文档,实现零堆分配。
  • 完整路径: 处理更复杂的表达式,包含完整的解析器和评估器,只解析所需的 JSON 子树。

此外,gnata 还包含一个流式层 (StreamEvaluator),针对其工作负载进行了优化:

  1. 合并所有表达式的字段路径,只扫描一次原始事件字节。
  2. 热路径评估无锁,缓存评估计划,实现原子加载。
  3. 内存受限,缓存容量可配置,超出容量时会淘汰旧条目。

效果:

  • 成本节省: 仅 gnata 就节省了每月 $25K 的成本(相当于 $300K/年)。
  • 性能提升: 简单查找速度提升主要是由于消除了 RPC 开销,复杂表达式速度提升 25-90 倍。
  • 错误检测: gnata 在影子模式下运行,检测到 jsonata-js 参考实现本身存在不符合规范的错误。
  • 进一步优化: 通过 gnata,Reco Labs 简化了规则引擎的内部实现,实现了批量处理,进一步节省了 $200K/年。

部署过程:

  1. 第一天构建 gnata 并提交代码。
  2. 接下来的 5 天进行代码审查、QA 测试,并在预生产环境以影子模式部署,记录不匹配情况并修复边缘情况。
  3. 连续三天未发现不匹配,gnata 正式上线。

总结:

Reco Labs 使用 AI 成功地重写了 JSONata 引擎,不仅节省了大量成本,还提高了性能,并发现了 jsonata-js 本身的缺陷。 这表明人工智能在代码重构和优化方面具有巨大的潜力,标志着 AI 辅助开发的新阶段。

CERN to host a new phase of Open Research Europe

开放研究欧洲 (ORE) 平台新阶段启动:欧洲核研究组织 (CERN) 承担运营

欧洲核研究组织 (CERN) 将承接开放研究欧洲 (Open Research Europe, ORE) 平台的新阶段运营,这是欧盟委员会支持的一项倡议,并由新的欧洲国家资助机构和研究组织的联盟共同资助。此举标志着开放科学领域的重要进展。

核心要点:

  • 平台简介: ORE 旨在提供一种社区主导的学术出版替代方案,与传统出版模式不同。它最初于 2021 年由欧盟委员会启动,为欧盟研究项目的受益者提供无费用开放获取出版平台。
  • 新阶段的扩展: 新阶段将扩大作者资格,允许来自参与联盟国家的机构的研究人员参与。目前联盟成员包括:奥地利、法国、德国、意大利、荷兰、挪威、葡萄牙、斯洛文尼亚、西班牙、瑞典和瑞士。欧盟委员会将作为常驻观察员参与治理机构,并提供专门的财政支持。
  • CERN 的角色: CERN 将提供 ORE 平台的技术和运营基础设施,利用开源软件 Open Journal Systems (OJS)。 治理和编辑监督仍将由 ORE 联盟负责。
  • 出版模式: ORE 采用“发表-评审-策展”模式,强调研究严谨性和透明度。文章首先进行完整性检查,然后公开发表和同行评审。 评审报告公开,通过评审的文章将被整理到特定学科的集合中。
  • 成果与增长: 自启动以来,ORE 平台稳步发展,已发表超过 1200 篇文章,来自全球 3000 多家机构的 6300 多名作者参与其中。
  • 目标与意义: ORE 的目标是促进学术交流的公平性、多样性和透明度,同时保持高质量和完整性。 旨在使公共资助的研究更透明、可访问和可持续。
  • 未来展望: CERN 与欧盟委员会、国家代表和研究组织之间的合作将进一步深化。 预计 ORE 将支持每年越来越多的研究成果,为欧洲及其他地区的公平出版倡议树立标杆。

关键功能和结构:

  • 技术基础设施: 基于 Open Journal Systems (OJS) 开源软件构建。
  • 治理结构: 由 ORE 联盟负责治理和编辑监督,欧盟委员会作为常驻观察员。
  • 出版流程: 发表-评审-策展模式,强调公开性和透明度。
  • 访问权限: 欧盟委员会资助的研究人员和来自参与国家的作者可以免费发表。

更多信息: https://ore.eu

Schedule tasks on the web

Claude 代码定时任务总结 (Claude Code Scheduled Tasks Summary)

本文介绍了 Claude Code 的定时任务功能,允许用户在 Anthropic 基础设施上定期运行 Prompt,从而实现自动化工作流程。即使电脑关机,任务也能持续运行。

主要功能和用途:

  • 自动化重复性工作: 例如每日审查拉取请求、分析 CI 失败并生成摘要、同步文档(合并 PR 后)、每周进行依赖性审计等。
  • 面向所有用户: Claude Code 在网页版的所有用户(包括 Pro、Max、Team 和 Enterprise)都可使用此功能。

定时任务选项:

Claude Code 提供三种定时任务方式:

选项 运行环境 是否需要机器开启 是否需要会话保持 是否能访问本地文件 MCP 配置 权限提示 定时自定义 最小间隔
云端 (Cloud) Anthropic 云端 否 (新鲜克隆) 每个任务配置 1 小时
桌面 (Desktop) 本地机器 配置文件和连接器 可配置 1 分钟
/loop & CLI 本地机器 继承会话配置 继承会话 1 分钟

创建定时任务:

可以通过以下三种方式创建任务:

  • 网页端: 访问 claude.ai/code/scheduled 并点击 "新建定时任务"。
  • 桌面应用: 打开 "Schedule" 页面,点击 "新建任务",选择 "新建远程任务"。
  • CLI: 在任何会话中运行 /schedule 命令。

重要细节:

  • 频率选项: 提供预设频率(如:每小时、每日、每周)自动处理时区转换。
  • 仓库和分支权限: 默认情况下,Claude 只能推送到以 claude/ 开头的分支。 可以为特定仓库启用“允许不受限制的分支推送”来移除此限制。
  • 连接器: 可以使用 MCP 连接器连接外部服务,例如 Slack、Linear 等。
  • 环境: 每个任务在云环境中运行,可以配置网络访问、环境变量和设置脚本。

管理定时任务:

  • 可以在任务详情页查看任务信息、历史运行记录。
  • 可以立即运行任务("立即运行"),暂停或恢复任务。
  • 可以编辑任务的名称、Prompt、时间表、仓库、环境或连接器。
  • 可以通过 CLI 使用 /schedule 命令来管理任务,例如 /schedule list (列出所有任务),/schedule update (更新任务),/schedule run (立即运行任务)。

补充说明:

  • 桌面定时任务可以访问本地文件。
  • /loop 和 CLI 定时任务是会话范围内的轻量级定时。
  • 可以参考文档了解更多关于云环境、MCP 连接器和 GitHub Actions 的信息。
DeployTarot.com – Tarot card reading for deployments

内容总结:软件发布与团队角色 (软件发布与团队角色)

这份内容以一种幽默、略带讽刺的方式,描绘了软件发布过程中常见的场景和团队角色。它并非一份技术文档,而是一种对软件开发和发布流程的观察和调侃。

核心主题: 软件发布永远充满不确定性,即使是看似简单的发布,也可能引发各种问题,并且团队成员的角色和职责常常模糊且充满矛盾。

主要内容:

  1. 发布类型 (发布类型): 列举了多种软件发布类型,包括:

    • 常规发布: A/B测试、新功能发布、全面发布
    • 紧急修复: 漏洞修复、生产环境热修复
    • 技术升级: 数据库迁移、依赖更新、认证系统重写、基础设施变更
    • 流程改进: 配置变更、性能优化、SEO优化、代码重构、弃用功能
    • 特殊事件: IPO、GDPR合规、开源发布、品牌重塑、移动应用发布
    • 其他: “Just Vibes”(一些不明确的改进)、Feature Flag(已上线但未通知用户)。
  2. 团队角色 (团队角色): 描绘了参与软件发布过程中的各种角色,并用简短的描述突出了他们的典型行为和心态:

    • 业务角色: 业务分析师、CEO、产品经理、项目经理、销售
    • 技术角色: 工程师(初级、高级、技术负责人)、DevOps工程师、SRE、安全工程师、DBA、数据科学家、架构师
    • 支持角色: QA工程师、文档撰写员、HR、清洁工、前台
    • 非典型角色: 影子IT团队、合同工、实习生、海外开发人员
    • 特殊角色: AI Agent, 橡皮鸭, 塔罗牌读者 (象征着无助和迷茫)
  3. 整体风格:

    • 塔罗牌主题: 整个内容以塔罗牌占卜为框架,将软件发布比作命运,暗示其不可预测性和潜在风险。
    • 幽默讽刺: 通过夸张和反讽的描述,揭示了软件开发中常见的沟通问题、流程缺陷和角色冲突。
    • 强调不确定性: 强调了软件发布过程中的不确定性和风险,即使是看似简单的操作,也可能导致意想不到的后果。

总结: 这份内容旨在以一种轻松幽默的方式,提醒人们软件发布并非易事,需要充分的准备、清晰的沟通和对潜在风险的预判。它也反映了软件开发团队中普遍存在的角色冲突和工作压力。

OpenTelemetry profiles enters public alpha

OpenTelemetry Profiles 公开发布 Alpha 版:生产性能分析的新标准

OpenTelemetry Profiles 信号已正式进入公开发布 Alpha 阶段,标志着生产性能分析领域朝着统一行业标准迈出了重要一步。该标准与 Traces、Metrics 和 Logs 并列,旨在为开发人员提供更全面的可观测性解决方案。

核心内容:

  • 生产性能分析的重要性: 持续捕获低开销的性能分析数据有助于快速定位生产环境问题,提升用户体验,并降低计算成本。
  • OpenTelemetry Profiles 的目标: 提供一个开放、中立的行业标准,用于生产性能分析,并整合社区和生态系统支持。
  • 主要组成部分:
    • 统一的数据表示: 采用新的数据表示格式 (基于 protobuf),兼容现有的 pprof 格式,并支持高效编码和数据归一化。
    • eBPF 性能分析 Agent: 基于 Elastic 捐赠的 eBPF 性能分析 Agent,可在 Linux 系统上实现低开销的系统级性能分析,无需额外代码埋点。
    • OpenTelemetry 生态系统集成: 将 Profiles 融入 OpenTelemetry 生态系统,例如与 OTel Collector 集成。

Alpha 版主要改进:

  • 数据表示标准化:
    • 栈表示进行去重,提高数据编码效率。
    • 支持资源属性,方便与 Logs、Metrics 和 Traces 相关联。
    • 支持跨信号关联,例如将分析数据与 Tracing 的 trace_id /span_id 相关联。
    • 提供符合性检查工具,验证分析数据是否符合 OpenTelemetry Profiles 技术规范。
    • 支持与 pprof 格式互相转换,确保无损兼容。
  • eBPF 性能分析 Agent:
    • 作为 OpenTelemetry Collector receiver 集成,利用现有的 OpenTelemetry 处理管道。
    • 支持 Go 语言自动符号化。
    • 支持 ARM64 平台上的 Node.js V8。
    • 初步支持 BEAM (Erlang/Elixir)。
    • 支持 .NET 9 和 10。
  • 生态系统集成:
    • OTel Collector 支持接收 Profiles 数据,并支持通过 Kubernetes attributes processor 添加 Kubernetes 元数据。
    • 支持 OTTL 规则,进行数据转换和过滤。
    • 更新 OTLP 资源模型,优化信息共享。

快速入门:

  • 访问 OpenTelemetry 文档中的 Profiles 概念 页面。
  • 使用 OpenTelemetry eBPF profiler 结合支持 OTLP Profiles 的后端进行部署。

后续计划:

  • 继续完善信号定义,并与其他信号 (如 OBI) 进行集成。
  • 标准化符号化 API、存储格式,并提供参考实现。
  • 共享运行时信息,实现跨信号关联。

参与方式:

  • 在工具中添加对 OTel Profiles 的支持。
  • 测试 eBPF agent 和 OTel Collector 集成,并提交 issue 或 PR。
  • 审查文档并提出改进建议。

注意: OpenTelemetry Profiles 仍处于 Alpha 阶段,不建议用于关键生产环境。

Apple discontinues the Mac Pro

苹果 Mac Pro 停产:Mac Studio 成未来“专业”台式机

根据 9to5Mac 的报道,苹果已确认Mac Pro 已被停产,并已从苹果官网下架。购买页面现已重定向至 Mac 首页,所有相关信息已被移除。苹果还明确表示未来不会再推出新的 Mac Pro 硬件

Mac Studio 取代 Mac Pro

现款 Mac Pro 自 2019 年推出以来,经历了多次更新。最初搭载 Intel 芯片,2023 年 6 月更新至 M2 Ultra 芯片。然而,由于苹果推出了搭载 M3 Ultra 芯片的 Mac Studio,后者在配置上更具优势(最高可配置 32 核 CPU、80 核 GPU、256GB 统一内存和 16TB SSD 存储),Mac Pro 的更新速度明显滞后,价格也相对较高($6,999)。因此,Mac Studio 被视为未来苹果产品线中“专业”台式机的重点。

苹果现有台式机及笔记本电脑产品线

Mac Pro 停产后,苹果目前销售的三款台式机包括:

  • 24 英寸 M4 iMac
  • M4 和 M4 Pro Mac mini
  • M4 Max 和 M3 Ultra Mac Studio

以及三款笔记本电脑:

  • MacBook Neo
  • MacBook Air
  • MacBook Pro

macOS Tahoe 26.2 的新功能

去年发布的 macOS Tahoe 26.2 引入了低延迟功能,通过 Thunderbolt 5 的 RDMA 技术,允许将多台 Mac 连接在一起,为高端用户提供了扩展性能的途径。

总结

苹果最终决定停产 Mac Pro,并专注于 Mac Studio 的发展。继续销售价格高昂的 M2 Ultra Mac Pro 被认为是不利于消费者的。尽管部分 Mac Pro 忠实用户可能会感到失望,但这一举动已是预料之中的结果。

Show HN: I put an AI agent on a $7/month VPS with IRC as its transport layer

总结:George 的“数字门卫” - 一个基于 IRC 的 AI 代理系统

这篇文章介绍了 George Larson 构建的名为 "Nully" 的 AI 代理系统,旨在解决传统简历驱动的 AI 聊天机器人无法提供实质性信息的问题。Nully 旨在提供基于实际代码和个人数据的具体答案,而不是简单地重复简历内容。

核心问题与解决方案:

传统 AI 聊天机器人仅能重复简历信息,无法回答深入问题。George 构建 Nully 旨在直接访问代码仓库、配置和个人数据,提供更准确的答案。

系统架构:

  • 双重代理架构: 系统由两个独立的代理组成:
    • Nullclaw (公共门卫): 运行在最小化的 perimeter box 上,处理访客的问候和初步问题,可以克隆代码仓库进行验证。使用轻量级 Zig 二进制文件,资源占用少。
    • Ironclaw (私有代理): 运行在更强大的独立系统上,拥有访问邮件、日历和更深入个人上下文的权限,负责处理 Nullclaw 转发的复杂查询。
  • IRC 通信: 使用 IRC 作为通信协议,理由包括:符合终端 UI 风格、完全自主控制基础设施、协议简单稳定且具有零厂商锁定。
  • 模型选择: 采用分层模型策略:
    • Haiku 4.5: 用于快速的问候和简单问题的处理。
    • Sonnet 4.6: 用于需要代码分析和推理的复杂查询。
  • 成本控制: 每日成本上限设置为 $2,每月上限 $30,防止滥用和超支。

安全性:

Nully 采取了多重安全措施:

  • 最小化攻击面: 仅开放必要的端口 (SSH, IRC, HTTPS),直接访问被 Cloudflare 代理。
  • 代理沙箱: Nullclaw 运行在受限环境下,访问仅限于工作空间,命令允许列表为只读。
  • 审计日志: 记录所有工具调用。
  • 自动更新: 自动安全升级。
  • A2A 协议安全: 严格控制哪些请求可以转发到 Ironclaw,防止恶意指令。

通信堆栈:

  • Ergo: 自托管的 IRC 服务器。
  • gamja: Web IRC 客户端,作为静态页面提供。
  • nullclaw: AI 代理运行时。

功能:

Nully 能够:

  • 回答关于项目语言和测试结构的具体问题。
  • 提供项目细节。
  • 提供联系方式。
  • 通过 Google A2A 协议与 Ironclaw 交互,安排会议。

关键学习:

  • 模型选择是系统设计的一部分。
  • 通信堆栈和安全配置比代理本身更耗时。
  • IRC 协议的价值被低估了。
  • 公共代理和私有代理的分离至关重要。
  • A2A 协议需要结构和可见性。
  • 避免重复凭证,采用代理间共享 API 密钥的方式。

总结:

Nully 是一个创新的 AI 代理系统,它利用 IRC 和分层模型,在保证安全性的前提下,提供基于实际代码和个人数据的具体信息。通过精心设计的架构和安全措施,George 创建了一个既实用又安全的 AI 助手。

Show HN: Turbolite – a SQLite VFS serving sub-250ms cold JOIN queries from S3

Turbolite: SQLite VFS for S3 with Low Latency

Turbolite 是一个用 Rust 编写的 SQLite VFS,旨在直接从 S3 提供点查询和连接,冷启动延迟小于 250 毫秒。它还提供页面级别的压缩 (zstd) 和加密 (AES-256),用于数据静态存储的安全和效率,这些功能可以单独使用,不依赖于 S3。

重要提示: Turbolite 仍处于实验阶段,可能存在 bug 并可能损坏数据,请谨慎使用。

设计理念与目标

项目的名称和设计灵感来自 turbopuffer 的理念,即围绕云存储的限制进行无情的架构设计。最初的目标是击败 Neon's 500ms+ 冷启动,并已达成。

Turbolite 适用于每个服务器一个数据库的场景,而它本身探索了如何支持数百或数千个数据库(例如,每个租户、每个工作区或每个设备一个),不希望为每个数据库使用单独的卷,并且可以接受单个写入源。

主要功能

  • S3 集成: 与任何兼容 S3 的存储 (AWS S3, Tigris, R2, MinIO 等) 协同工作。
  • 页面级别压缩: 使用 zstd 压缩数据,提高存储效率。
  • 数据加密: 使用 AES-256 加密数据,确保数据安全。
  • SQLite 兼容性: 作为标准的 SQLite VFS 运行,支持 FTS、R-tree、JSON、WAL 模式等 SQLite 功能。
  • 多种语言支持: 提供 Rust 库、SQLite 可加载扩展 (.so/.dylib)、Python 和 Node.js 语言包,以及 Go 的 Github 依赖项。

性能表现

以下是冷启动(从 S3 读取数据)的性能测试结果:

Query Type Cold (S3 Express) Cold (Tigris)
Post + user 点查询 + 连接 77ms 192ms
Profile 多表连接 (5 JOINs) 190ms 524ms
Who-liked 索引搜索 + 连接 129ms 340ms
Mutual friends 多重搜索连接 82ms 183ms
Indexed filter 覆盖索引扫描 74ms 173ms
Full scan + filter 全表扫描 586ms 984ms

性能取决于缓存级别:

  • 无缓存 (none): 所有数据都从 S3 读取。
  • 内部页面缓存 (interior): 内部 B-tree 页面已缓存。
  • 索引页面缓存 (index): 内部和索引页面已缓存。
  • 数据页面缓存 (data): 所有数据都已缓存(相当于本地 SQLite)。

设计原则

Turbolite 的设计基于 S3 的限制:

  • 慢的 Round Trip: 尽量减少请求次数,批量写入,积极预取读取。
  • 带宽瓶颈: 最大化带宽利用率。
  • PUT 和 GET 费用: 优化请求次数,而非字节效率。
  • 对象不可变: 避免就地更新,写入新版本,交换指针。
  • 存储廉价: 不追求空间优化,过度配置,保留旧版本,让垃圾回收器清理。

架构

Turbolite 在 SQLite 和 S3 之间添加了内省和间接层,以高效地分组、压缩、跟踪和获取页面。

  • 页面分组: 将相同类型(内部 B-tree、索引叶子、数据叶子)的页面分组存储在 S3 中。
  • Manifest 文件: 使用 manifest 文件来间接页面查找,替换了 SQLite 的隐式 offset = page * size
  • 大页面: 默认使用 64KB 页面,减少 S3 请求次数。
  • Seekable 压缩: 使用 zstd 帧进行 seekable 压缩,允许仅获取所需的页面子块。
  • **预
Stripe Projects: Provision and manage services from the CLI

Stripe Projects 开发者预览总结

Stripe Projects 是 Stripe 推出的开发者预览功能,旨在通过命令行界面 (CLI) 简化和自动化应用程序栈的配置、管理,解决目前手动配置多个服务、管理账户、安全 API 密钥、在不同仪表盘间切换等繁琐问题。

核心功能与特点:

  • 快速配置: 通过 CLI 命令或代理,快速添加应用程序所需的各种服务,例如托管、数据库、认证、AI、分析等。
  • 统一工作流: 提供统一的工作流,用于配置服务、管理凭据、升级计划,取代针对每个服务提供商的独立工具和流程。
  • 集中账单管理: 只需设置一次账单信息,即可安全共享至 SaaS 栈。支持通过 CLI 管理层级升级/降级、监控使用情况和订阅。
  • 环境可移植性: 使环境变量能够在本地环境、机器、团队成员以及代理之间轻松移植。
  • 安全凭证管理: 生成、存储并返回服务凭证,保障开发者和代理的安全。
  • 可审计和可重复性: 所有更改都可审计,并且可以重复执行。
  • 支持的提供商: 目前支持部分服务提供商,未来将增加更多。

总结:

Stripe Projects 通过 CLI 提供了一个自动化、安全且可移植的应用程序栈配置和管理方案,旨在提高开发效率,简化基础设施管理流程,并提供更好的可审计性和安全性。 它将服务配置、凭证管理和账单管理整合到一个统一的 CLI 工具中。

Order Granting Preliminary Injunction – Anthropic vs. U.S. Department of War [pdf]

总结:美国法院对Anthropic公司与美国国防部纠纷的初步禁令裁决

案件背景:

Anthropic是一家人工智能公司,其开发的Claude模型被美国国防部(DoW)用于国家安全目的。在讨论新的部署方案时,Anthropic坚持要求DoW不得将Claude用于大规模监控美国公民或自主杀伤性武器。DoW则认为应允许对Claude的“所有合法用途”进行使用。双方在这一问题上产生分歧。

政府的反应:

美国总统特朗普发布命令,禁止所有联邦机构与Anthropic合作;国防部长Hegseth宣布Anthropic为“供应链风险”,禁止与Anthropic有商业关系的承包商与DoW合作。此外,DoW还采取了其他措施,对Anthropic造成了严重打击。

Anthropic的诉讼:

Anthropic认为政府的这些措施是对其进行报复,侵犯了其第一修正案的权利,违反了正当程序,以及超出了法定权限。Anthropic向法院申请初步禁令,以阻止政府继续实施这些措施。

法院的裁决:

法院支持Anthropic的初步禁令申请,主要理由如下:

  • 第一修正案报复: 证据表明,政府的措施是为了惩罚Anthropic公开批评政府的合同立场,而非出于真正的国家安全考虑。
  • 正当程序: 政府在采取行动之前未给予Anthropic任何事先通知或申辩的机会,违反了正当程序。
  • 行政程序法: 政府的“供应链风险”认定缺乏合理的依据,且未遵循行政程序法规定的程序。
  • 不平衡的利益衡量: 法院认为,Anthropic可能遭受的损害(包括经济损失和言论自由受限)与政府可能遭受的损害(使用AI模型可能受损)相比,前者更为重要。

法院的命令:

法院命令禁止政府机构实施针对Anthropic的措施,包括禁止使用Anthropic技术、将Anthropic列为“供应链风险”以及禁止与Anthropic有商业关系的承包商与DoW合作。

其他事项:

  • 法院允许政府在七天内向上诉法院申请紧急暂缓执行。
  • 法院要求政府支付象征性的保证金。

影响:

该裁决对Anthropic而言是一个重要的胜利,有助于缓解政府措施对其造成的损害。同时,也对人工智能领域的政府监管和企业言论自由之间关系的平衡提出了新的问题。

Colibri – chat platform built on the AT Protocol for communities big and small

Colibri:开源社区聊天平台总结

Colibri 是一个基于 AT 协议的开源聊天平台,旨在为各种规模的社区提供聊天功能。

核心特点:

  • 开源透明: Colibri 的代码托管在 GitHub 上,任何人都可以查看和贡献。
  • 基于 AT 协议: Colibri 建立在 AT 协议之上,这意味着社区聊天默认情况下是公开可见的,促进了透明度,便于新成员发现社区,并避免数据被锁定在单一平台。
  • 数据自主: 用户的数据存储在 ATmosphere 个人数据服务器上,用户真正拥有自己的数据。
  • 实时互动: 支持快速聊天、语音/视频通话以及组织论坛讨论,满足社区的不同交流需求。
  • 易用管理工具: Colibri 提供了简单的管理工具,管理员可以轻松地屏蔽和删除消息,移除或禁止成员加入社区。
  • 未来发展: 团队正在密切关注 AT 协议的发展,一旦该协议支持安全私有数据,Colibri 将实现私密空间功能,兼顾公开与私密。

关于 AT 协议:

AT 协议是由 Bluesky 团队创建的开放、去中心化网络。它允许用户真正拥有自己的身份和数据,账户、帖子和社会关系网络不会被锁定在任何单一平台。目前拥有超过 4000 万用户,是下一代社交应用的基础。

更多信息:

$500 GPU outperforms Claude Sonnet on coding benchmarks

A.T.L.A.S:自适应测试时学习与自主专业化

A.T.L.A.S

A.T.L.A.S 旨在通过约束驱动生成和自验证迭代优化,在单个消费级 GPU 上,利用冻结的 14B 模型实现 74.6% LiveCodeBench pass@1-v(k=3),较 V2 提升了 36-41%。其核心理念是将冻结的小型模型包裹在智能基础设施中——结构化生成、能量基验证、自验证修复——从而使其性能可以与前沿 API 模型相媲美,但成本仅为其一小部分。无需微调、无需 API 调用、无需云端服务。完全自托管——数据不出机,无需 API 密钥,无需使用计量。只需一个 GPU,一个设备。

基准测试结果

基准 得分 任务数 方法
LiveCodeBench v5 74.6% pass@1-v(k=3)* 599 V3 流程:PlanSearch + 自验证 PR-CoT 修复,V3 得分
GPQA Diamond 47.0% 198 k=5,多项选择知识推理,V2 得分
SciCode 14.7% (子问题) 341 k=1,跨领域科学编码,V2 得分

*pass@k-v(k=3) = 每个任务提交一个解决方案,但通过最佳的 3 个候选方案 + Lens 选择 + 迭代修复失败进行生成。不是单次生成,因此不是 pass@1。 参见 方法论

V3 消除研究分解

条件 配置 通过率 变化
A 基线 (无 V3) 54.9% --
B + 第一阶段 (PlanSearch + BudgetForcing + DivSampling) 67.3% +12.4pp
C + 第一阶段+第二阶段 (Lens 路由) 67.3% +0.0pp
D + 第一阶段+第三阶段 (自验证精修) 74.6% +7.3pp

第三阶段使用自生成测试用例进行内部验证——在修复过程中模型从未见过答案。PR-CoT 修复了 36/42 个任务(第三阶段修复的 85.7% 任务)。完整报告:V3_ABLATION_STUDY.md

成本与性能对比

系统 LCB pass@1 每任务预估成本 备注
DeepSeek V3.2 Reasoning 86.2% ~$0.002 API, 单次生成
GPT-5 (高) 84.6% ~$0.043 API, 单次生成
ATLAS V3 (pass@1-v(k=3)) 74.6% ~$0.004 仅电力成本,最佳 3 个 + 修复流程
Claude 4.5 Sonnet 71.4% ~$0.066 API, 单次生成
Claude 4 Sonnet 65.5% ~$0.066 API, 单次生成