2026-03-19

21 篇热帖

A sufficiently detailed spec is code

摘要:关于代理编码和规范文档的误解

这篇文章探讨了代理编码(agentic coding)的兴起,以及围绕其的一些常见误解,并指出当前实践与最初的期望存在差距。作者认为,尽管代理编码的倡导者声称可以通过规范文档生成代码,但这种说法具有误导性,主要源于两个常见的误解:

1. 规范文档比相应的代码更简单: 代理编码的倡导者将其视为一种外包形式,工程师编写规范文档,然后由代理执行。然而,要编写一个足够精确以可靠生成工作代码的规范文档,实际上需要将文档转化为代码或类似代码的形式。这与 Dijkstra 的观点一致,即精确的界面需要精细的代码设计。

2. 规范工作必须比编码工作更具思考性: 倡导者认为规范文档可以提高质量和工程实践。但作者认为,在当前技术公司追求速度交付的环境下,这并非理所当然。规范工作需要深思熟虑,而优化交付速度可能会导致缺乏连贯性和清晰度的规范文档。

具体案例分析:OpenAI 的 Symphony 项目

作者以 OpenAI 的 Symphony 项目为例,该项目声称是从规范文档生成的。然而,作者指出 Symphony 的 "规范"(SPEC.md)更像是伪代码,包含数据库模式的描述、代码片段,甚至是直接的代码块。这表明规范文档并没有取代代码,反而将其伪装成规范文档。

其他问题:可靠性和“垃圾进,垃圾出”

作者还强调了代理编码的可靠性问题。即使是像 YAML 这样的成熟规范,其实现也经常不完全符合规范。此外,规范文档的质量直接影响生成代码的质量。如果规范文档本身就是“垃圾”,那么生成的代码也必然是“垃圾”。

结论

文章最终认为,规范文档并非为了节省时间而存在。在追求交付速度的环境下,直接编写代码可能更有效。代理编码的成功依赖于高质量的规范文档,而这需要深入的思考和精细的表达。 当前的代理编码实践,往往因为规范文档质量不高,导致“垃圾进,垃圾出”的局面,未能实现其理想化的目标。

FBI is buying location data to track US citizens, director confirms

FBI 恢复购买美国公民数据以协助调查 (FBI Resumes Purchasing American Data for Investigations)

核心内容:

联邦调查局 (FBI) 已经恢复了购买数据经纪商的数据,以协助联邦调查。 此举标志着自 2023 年以来 FBI 首次公开确认其正在购买此类数据。

关键细节:

  • 数据来源: FBI 从数据经纪商处购买数据,这些经纪商通常从普通消费者手机应用程序和游戏等来源收集信息,包括位置数据。
  • FBI 的立场: FBI 局长 Kash Patel 在国会作证时表示,该机构“使用所有工具”来完成其任务,并购买符合宪法和《电子通讯隐私法》的商业信息,并声称此类数据采购有助于获取有价值的情报。
  • 立法者的担忧: 俄勒冈州参议员 Ron Wyden 批评这种做法是“绕过第四修正案的离谱做法”,第四修正案保护美国公民免受非法搜查和扣押。
  • 规避搜查令: 政府机构通常需要获得法官授权的搜查令,才能从科技或电话公司获取个人信息。但近年来,美国机构通过从积累大量个人位置数据的公司购买商业数据来规避这一法律程序。
  • 数据获取方式: 例如,美国海关与边境保护局 (CBP) 曾从实时竞价 (RTB) 服务购买数据,这些服务是移动和网络广告行业的核心,收集位置和其他可识别数据用于定向广告投放。 监控公司可以观察这一过程并收集用户信息,然后将其出售给经纪商或希望规避搜查令的联邦机构。
  • 法律挑战: FBI 声称,在联邦调查中使用此类信息无需搜查令,但该法律理论尚未在法庭上得到检验。
  • 立法回应: Wyden 及其多位议员共同提出了《政府监控改革法案》,该法案要求联邦机构在购买美国公民信息时必须获得法院授权的搜查令,旨在堵住数据经纪商监控的漏洞。
  • FBI 回应: FBI 拒绝就其购买商业数据发表评论,仅引用了 Patel 的声明。

总结:

FBI 恢复了从数据经纪商处购买数据的做法,以协助其调查工作。 此举引发了关于隐私权和第四修正案的担忧,并促使立法者提出法案,旨在要求联邦机构在购买此类数据之前获得搜查令。 FBI 认为这种做法符合法律,且有助于获取情报,但该观点尚未经过法庭验证。

Afroman found not liable in defamation case brought by Ohio cops who raided home

Afroman胜诉:音乐视频诽谤诉讼案告终

核心内容: 饶舌歌手Afroman(真名Joseph Foreman)在俄亥俄州的一场民事诉讼中获胜,法院裁定他并未因制作讽刺音乐视频而诽谤当地警察。该视频使用了房屋监控录像,记录了警察在2022年8月对其住所进行搜查的场景,但未发现任何犯罪证据。

事件经过:

  • 搜查与音乐视频: 2022年8月,亚当斯县警局对Afroman的住所进行了搜查,结果未发现任何犯罪证据。Afroman随后创作了歌曲“Lemon Pound Cake”,并制作了音乐视频,其中包含了搜查过程的监控录像。他表示制作视频是为了筹集资金,用来弥补搜查过程中造成的财产损失。
  • 警方诉讼: 2023年3月,亚当斯县警局的七名警员起诉Afroman,指控他制作的音乐视频构成了诽谤、侵犯隐私权,并造成了精神上的痛苦。诉讼中还指出,Afroman在制作视频后,还在社交媒体上发布了警员的姓名,并发布了一些虚假信息。
  • 虚假指控: 警方指控Afroman在社交媒体上声称警员“偷了他的钱”和“伪装成执法人员的罪犯”,还声称他们是“白人至上主义者”,指控警官Brian Newman曾吸毒并告密,以及警官Lisa Phillips的性别认同问题。
  • Afroman的辩护: Afroman的律师辩称,这首歌是喜剧和音乐的结合,属于言论自由的范畴。律师表示,对公共官员的批评是正常的,并且该歌曲是对警察工作不当行为的社会评论。
  • 警方的诉求: 警方的律师则要求法院判处Afroman总计390万美元的赔偿金,分摊给七名涉案警员。
  • Afroman的证词: Afroman在法庭上作证时表示,如果警察没有非法搜查他的住所,就不会有这场诉讼,他也不会知道这些警员的名字,他们也不会出现在他的家中监控系统中,也不会有相关的歌曲,并且他的钱也不会丢失。

法院裁决: 法院最终裁定Afroman并未构成诽谤或侵犯隐私权,胜诉。Afroman在得知裁决结果后,在法庭上举起双手欢呼,并拥抱了周围的人。

Austin’s surge of new housing construction drove down rents

奥斯汀的住房改革:应对增长挑战,改善可负担性

在经历了数十年的爆发式增长后,2010年代的奥斯汀,得克萨斯州,成为了自身成功的受害者。大量被高科技工作岗位和城市时尚声誉吸引的人口,导致住房供不应求,租金和房价飙升。

问题与应对:

  • 住房危机: 2010年至2019年间,奥斯汀的租金上涨了近93%,房价上涨了82%,均超过了得克萨斯州其他任何城市。
  • 政策改革: 从2015年开始,奥斯汀市政府实施了一系列政策改革,旨在鼓励新建住房,特别是租赁住房。措施包括:
    • 修改分区条例,允许建设大型公寓楼,尤其靠近就业中心和公共交通。
    • 2018年,选民批准了2.5亿美元的债券措施,用于建设和修复经济适用房。
    • 改革审批流程,加快开发速度并降低成本。

改革成果:

  • 供应增加: 2015年至2024年,奥斯汀增加了12万套住房,供应量增加了30%,是美国整体增长率的三倍以上。
  • 租金下降: 租金开始下降。2021年12月,奥斯汀的平均租金为1546美元,是历史最高水平之一,高于美国平均水平15%。到2026年1月,平均租金下降至1296美元,低于美国平均水平4%。即使城市人口从2022年至2024年增加了1.8万,租金仍然下降。
  • Class C 建筑租金下降尤为明显: 50套以上公寓的租金从2023年到2024年下降了7%,这是任何大城市中记录的最大降幅。面向低收入租户的较旧的Class C建筑的租金下降了约11%。

政策细节:

奥斯汀的住房改革涵盖了多个方面:

  • 混合用途 (VMU): 2007年引入,允许更高密度的项目,减少停车要求,截至2024年2月,已建成或正在建设超过1.76万套单元。
  • 有针对性的分区调整: 在特定区域(如市中心和德克萨斯大学奥斯汀分校附近)通过密度奖励计划增加住房密度。
  • 附属居住单元 (ADU): 2015年放宽ADU的规定,允许更多单户住宅拥有ADU,从2015年到2024年批准了2850个新的ADU。
  • 停车要求: 2023年取消了全市范围内的最低停车要求,成为美国最大的城市做出此举。
  • 经济适用房补贴: 通过密度奖励、债券措施等手段鼓励经济适用房建设,2024年成为美国经济适用房建设领先城市,新增4605套经济适用房。
  • 市政债券: 2022年选民批准了3.5亿美元的债券措施,用于购买土地和建设住房,或修复低收入居民的现有住房。

当前状况与未来展望:

  • 租金下降与可负担性改善: 租金下降使奥斯汀的租户负担能力得到改善。
  • 住房类型多样化: 新增住房包括大型公寓楼、单户住宅、ADU等,城市住房结构正在发生变化。
  • 需求依然存在: 尽管住房供应增加,但仍然存在2.3万套住房短缺,特别是对于低收入购房者。
  • 持续改革: 奥斯汀正在继续推进简化审批流程、修改建筑规范、鼓励多种住宅类型等改革,以进一步增加住房供应,改善可负担性。

总而言之,奥斯汀的经验表明,通过积极的政策改革,可以有效应对住房短缺,改善租金可负担性,并促进住房供应的多样化。

AI coding is gambling

AI 编码是赌博:总结

这篇文章探讨了在人工智能编码变得普遍后,作者对这种工作方式的感受和思考。文章的核心观点是,AI 编码本质上是一种赌博行为,它剥夺了程序员在编码过程中获得的满足感和精神滋养。

以下是文章的主要内容:

1. AI 编码的现状:

  • 自 2026 年 11 月起,AI 编码能力显著提升,能够快速生成看似不错的代码。
  • 尽管如此,AI 生成的代码细节和系统组件仍然存在挑战。
  • 作者通过 Claude 运行代码 8 天,积累了大量听起来很棒的项目,但实际上存在问题。

2. 赌博的本质:

  • 以前,程序员需要权衡任务的难度、所需的研究、代码理解等因素。
  • 现在,AI 能够处理任务或假装处理任务,即使结果往往是“模糊可信但经常出错”。
  • 这种模式不再是真正的编码,而是类似于拉彩票机,将“通用智能”变成了赌博机器。
  • 这种行为令人上瘾,但同时也令人不满意。

3. 精神上的损失:

  • 作者将任务分为“对灵魂有益”和“对灵魂有害”两类。
  • 传统的编码和寻找灵感都属于前者,因为它们涉及思考、解决问题和创造性。
  • AI 编码剥夺了程序员在寻找解决方案、创造性地解决问题和获得成就感的过程,作者的工作变成了清理 AI 留下的问题。

4. 作者的特殊情况:

  • 作者并非典型的开发者,很少参与大型团队项目,并且很少从头开始构建项目。
  • 他擅长代码重用、最小化和优化,同时也是一名设计师。
  • 作者质疑 AI 是否真的让他成为了更好的开发者,或者仅仅是在赌博,不断尝试直到获得期望的结果。

总结:

文章认为,AI 编码虽然提高了效率,但也可能导致程序员丧失创造性和满足感。作者呼吁程序员克服惰性,积极参与代码的编写和优化,而不是仅仅依赖 AI 生成的代码,从而在工作中获得精神上的滋养。文章也暗示了程序员需要重新思考自己在 AI 时代的角色和价值。


中文翻译:

这篇文章探讨了人工智能编码变得普遍后,作者对这种工作方式的感受和思考。文章的核心观点是,AI 编码本质上是一种赌博行为,它剥夺了程序员在编码过程中获得的满足感和精神滋养。

以下是文章的主要内容:

1. AI 编码的现状:

  • 自 2026 年 11 月起,AI 编码能力显著提升,能够快速生成看似不错的代码。
  • 尽管如此,AI 生成的代码细节和系统组件仍然存在挑战。
  • 作者通过 Claude 运行代码 8 天,积累了大量听起来很棒的项目,但实际上存在问题。

2. 赌博的本质:

  • 以前,程序员需要权衡任务的难度、所需的研究、代码理解等因素。
  • 现在,AI 能够处理任务或假装处理任务,即使结果往往是“模糊可信但经常出错”。
  • 这种模式不再是真正的编码,而是类似于拉彩票机,将“通用智能”变成了赌博机器。
  • 这种行为令人上瘾,但同时也令人不满意。

3. 精神上的损失:

  • 作者将任务分为“对灵魂有益”和“对灵魂有害”两类。
  • 传统的编码和寻找灵感都属于前者,因为它们涉及思考、解决问题和创造性。
  • AI 编码剥夺了程序员在寻找解决方案、创造性地解决问题和获得成就感的过程,作者的工作变成了清理 AI 留下的问题。

4. 作者的特殊情况:

  • 作者并非典型的开发者,很少参与大型团队项目,并且很少从头开始构建项目。
  • 他擅长代码重用、最小化和优化,同时也是一名设计师。
  • 作者质疑 AI 是否真的让他成为了更好的开发者,或者仅仅是在赌博,不断尝试直到获得期望的结果。

总结:

文章认为,AI 编码虽然提高了效率,但也可能导致程序员丧失创造性和满足感。作者呼吁程序员克服惰性,积极参与代码的编写和优化,而不是仅仅依赖 AI 生成的代码,从而在工作中获得精神上的滋养。文章也暗示了程序员需要重新思考自己在 AI 时代的角色和价值。

Denmark was reportedly preparing for full-scale war with the US over Greenland

内容摘要

根据ChrisO_wiki (@chriso-wiki.bsky.social) 在bsky.social上发布的帖子,丹麦在今年1月 reportedly 曾准备与美国就格陵兰岛爆发全面战争。

主要内容:

  • 战争准备: 丹麦 reportedly 正在准备与美国就格陵兰岛问题进行全面战争。
  • 支持力量: 丹麦 reportedly 获得了法国、德国和北欧国家(Nordic nations)的军事支持。
  • 军事部署: 丹麦 reportedly 部署了精锐部队和携带实弹的F-35战斗机。
  • 防御措施: 丹麦 reportedly 计划炸毁跑道,以防止美国入侵。

发布信息:

  • 发布者: ChrisO_wiki (@chriso-wiki.bsky.social)
  • 发布日期: 2026年3月19日
  • 互动统计:
    • 点赞数:2560
    • 评论数:80
    • 分享数:1296

请注意: 该帖子使用了 "reportedly" (据报道),暗示信息的真实性尚未得到确认。

Cook: A simple CLI for orchestrating Claude Code

Cook:自动化工作流工具概述 (Cook: An Overview of the Automation Workflow Tool)

Cook 是一个用于自动化软件开发任务的工具,它通过解析和执行一系列指令(称为“cook”)来完成这些任务。其核心理念是将复杂的工作流程分解为更小的、可管理的单元,并利用循环、并行和条件逻辑进行自动化。

核心概念:

Cook 解析三种类型的 token:

  • Work (工作): 代表一个独立的任务或提示,是 Cook 的基本单元。
  • Loop Operators (循环操作符): 用于在 Work 之间添加迭代,例如重复执行、代码审查和任务列表推进。
  • Composition (组合): 用于并行运行多个 Work,并根据预定义的规则合并结果。

循环操作符:

  • xN (重复): 将 Work 执行 N 次,每次迭代使用前一次的输出作为输入。
  • review (审查): 添加一个审查-门控循环。Work 执行完毕后,审查者评估质量,门控决定是否“DONE”(完成)或“ITERATE”(迭代)。迭代步骤在每次迭代中运行。可以自定义审查和迭代的提示,并设置最大迭代次数。支持为不同步骤指定不同的代理和模型。
  • ralph (Ralph): 将 Cook 包装在一个外部门控中,用于管理任务列表的推进。Work 提示是自导自控的,读取项目状态以确定当前任务。审查门控决定“DONE”或“ITERATE”,Ralph 门控决定“DONE”(退出)或“NEXT”(推进到下一个任务,重置迭代)。

组合操作符:

组合操作符在隔离的 Git 工作树中并行运行多个 Cook,然后使用解析器合并结果。

  • vN / race N (版本/竞速): 并行运行 N 个相同的 Cook。pick 是默认解析器。
  • vs (对比): 并行运行两个不同的 Cook。每个分支都是一个完整的 Cook,可以包含自己的循环操作符。

解析器:

  • pick ["criteria"]: 选择一个获胜者并合并该分支(默认)。
  • merge ["criteria"]: 合成所有结果为一个新的实现。
  • compare: 生成一个比较文档,保存在 .cook/compare-<session>.md 中,不进行合并。

配置:

使用 cook init 命令在项目根目录下创建配置文件。这会生成:

  • COOK.md: 项目说明和代理提示模板。
  • .cook/config.json: 代理、模型和沙箱的默认设置,以及每个步骤的覆盖设置。
  • .cook/Dockerfile: Docker 沙箱模式的项目依赖项。
  • .cook/logs/: 会话日志(gitignore)。

沙箱模式:

  • Agent (默认): 代理在自己的操作系统级别沙箱中运行,无需 Docker。
  • Docker: 代理在 Docker 容器中运行,具有受限的网络访问权限。

速率限制恢复:

Cook 会在代理达到 token 配额或速率限制时自动等待并重试,而不是直接失败。 可以在 .cook/config.json 中配置等待行为。

总结:

Cook 提供了一种强大的方式来自动化软件开发流程,通过模块化、循环、并行和条件逻辑,可以显著提高开发效率和代码质量。 它的灵活配置和沙箱模式使其适用于各种开发环境。

Warranty Void If Regenerated

软件机械师:关于农业技术转型的故事 (Ruǎnjiàn Jīxièshī: Guānyú Nóngyè Jìshù Zhuǎnxíng de Gùshì)

这篇文章讲述了在“转型经济”中出现的新职业——软件机械师的故事,并通过一位名叫汤姆·哈特曼的软件机械师的经历,探讨了技术变革带来的职业和社会变化。

背景:技术转型与职业演变

“转型经济”指的是技术进步导致经济结构和就业模式发生重大改变的时期。文章指出,这并非孤立事件,历史上工业革命(例如容器化、电气化、印刷术、青铜器发明等)都伴随着类似的职业转变。最初的铁匠并非从小梦想成为铁匠,他们只是擅长敲打金属,后来发现金属可以被有趣地塑造。软件机械师也是如此,他们最初可能从事IT支持工作,但随着技术转型,他们成为了诊断技术与实际应用之间差距的专家。

汤姆·哈特曼的故事

汤姆·哈特曼最初是一位农业设备技术员,负责维修拖拉机、联合收割机和GPS引导系统等。然而,随着技术的转变,软件维修不再是维修,而是“再生”。用户只需输入所需内容,软件即可生成,若出现问题,只需重新输入即可。硬件维修仍然存在,但软件层被生成的工具取代,用户自行配置和使用。

汤姆适应了这种变化,参加了认证课程,开设了“哈特曼软件机械”店铺,同时保留了“哈特曼设备维修”的招牌,因为当地农民并不区分软件和硬件。

硬件与软件的界限消失

文章的核心观点在于,技术转型消除了硬件和软件之间的传统界限。过去,硬件和软件是独立的领域,拥有独立的公司、职业路径和思维方式。然而,当软件由自然语言规范生成时,关键的专业知识不再是“软件”本身,而是软件所针对的领域。软件机械师需要了解相关领域,并能够诊断规范问题。

软件机械师的日常工作

文章通过几个案例展现了汤姆·哈特曼的日常工作:

  • 玛格丽特·布伦南 (Margaret Brennan): 她的收割时机工具推荐过早收割,导致损失。汤姆发现问题在于天气服务更新了历史数据,导致模型计算结果发生了微小变化,从而影响了收割时机的判断。他建议增加监控机制,当上游数据源版本发生变化时,工具会发出警报,以便用户进行验证。
  • 伊桑·诺瓦克 (Ethan Novak): 他生成了40个工具,它们之间相互连接,形成了一个复杂的“意大利面条式”系统。当一个工具被重新生成时,可能会影响其他工具的运行,导致牛奶定价工具输出错误的价格。汤姆建议他聘请“软件编舞师”来管理整个工具生态系统。
  • 卡罗尔·林德格伦 (Carol Lindgren): 她的小型有机农场安装了自动灌溉系统,但她仍然希望保留手动控制的权利。汤姆安装了一个物理开关,允许她随时覆盖自动灌溉系统的设置,并在日志中记录她的操作。

“地面移动”问题与软件维护

文章指出,软件机械师最常见的问题是“地面移动”问题,即外部数据源发生变化,导致软件运行结果与预期不符。这要求用户不断维护软件,而不是简单地修复故障。

软件编舞师的作用

软件编舞师负责绘制整个工具生态系统的地图,规范各个工具之间的接口,并在工具重新生成时验证接口的正确性,从而确保整个系统的稳定运行。

总结

文章探讨了技术转型对就业和社会带来的影响,强调了软件机械师这一新兴职业的重要性,以及软件维护和系统管理的必要性。它揭示了技术变革带来的挑战,以及在复杂的技术环境中,人类经验和判断的重要性。最终,文章强调了在拥抱技术进步的同时,保持对自身专业知识和传统经验的尊重。

Conway's Game of Life, in real life

康威生命游戏实体化:一个基于机械开关的互动展示

本文描述了作者构建的一个实体化的康威生命游戏展示装置。该装置使用机械开关和LED灯来模拟生命游戏的过程,并提供用户交互功能。

核心概念:

  • 康威生命游戏: 一种基于简单规则的细胞自动机,在二维网格上模拟细胞的生死变化。
  • 实体化: 将软件模拟转化为物理设备。

硬件设计:

  • 开关矩阵: 使用17x17矩阵的NKK JB15LPF-JF机械开关,总共289个开关,每个开关上集成LED。
  • 微控制器: 使用Microchip AVR128DA64微控制器控制整个系统。
  • 驱动电路: 由于MCU无法直接驱动LED,采用n-channel MOSFET (DMN2056U)和 complementary p-channel transistors (DMG2301L)进行驱动。
  • 电源: 5V电源,每个LED电流约为150mA。
  • 速度控制: 使用 Vishay ACCKIS2012NLD6旋钮连接的10kΩ电位器控制游戏速度,通过ADC读取旋钮位置,控制模拟频率 (0-10 Hz)。
  • 输入: 通过按压开关来切换单元的生死状态。

软件设计:

  • 控制方案: 使用MCU的GPIO引脚控制LED的行和列,通过点亮LED的交叉点来显示游戏状态。
  • 安全机制:
    • 游戏状态更新和屏幕刷新分离,防止在刷新期间代码崩溃导致LED持续高电流。
    • 使用MCU的看门狗定时器,防止程序卡死。
  • 用户交互: 每次按压开关都会暂停游戏状态评估两秒,方便用户绘制图案。

外壳:

  • 装置被放置在一个手工制作的木制外壳中。

总结:

该项目展示了作者将康威生命游戏实体化的过程,利用机械开关和LED灯构建了一个独特的互动艺术装置。虽然成本较高(主要由开关成本决定),但提供了触摸式界面无法比拟的物理操作乐趣。 作者也提供了源代码和PCB生产文件,方便他人学习和参考。

Mozilla to launch free built-in VPN in upcoming Firefox 149

Mozilla Firefox 149 将推出免费内置 VPN

Mozilla 宣布,Firefox 149 版本将于 2026 年 3 月 24 日推出免费的浏览器集成 VPN 服务。该功能旨在提供比通常带有隐藏代价的“免费 VPN”服务更安全的替代方案,并强调其实现建立在定义 Firefox 的相同隐私原则之上。

主要特点与细节:

  • 功能介绍: 内置 VPN 将通过代理路由浏览器流量,隐藏用户的 IP 地址和位置,无需单独下载或安装扩展。
  • 初始数据限制与区域: 免费版本最初将为美国、法国、德国和英国的用户提供每月 50GB 的数据流量。
  • 逐步推出: Mozilla 采用分阶段推广方式,可能旨在评估性能、需求和支持要求。
  • 隐私承诺: Mozilla 强调,该服务建立在其长期坚持的数据最小化原则之上。Firefox 设计原则之一是,即使 Mozilla 本身也应该不知道用户访问哪些网站以及他们在网站上做什么。Mozilla 声明不销售个人数据,并使用端到端加密来保护同步浏览数据(如历史记录和书签)在离开设备前的信息安全。
  • 技术独立性: Firefox 基于 Mozilla 的开源 Gecko 引擎,而非 Google 的 Chromium 引擎,这使其在浏览器市场中具有独特的竞争优势,尤其是在 AI 工具、广告技术和平台锁定日益增长的环境中。
  • 其他新增功能: Firefox 149 还包括:
    • 分屏浏览 (Split View): 支持并排浏览。
    • Tab Notes(Firefox Labs): 标签页备注功能。
    • Smart Window: 之前名为“AI Window”的浏览辅助功能,现在改为“Smart Window”,是可选的,需要用户主动启用。
  • 适用范围: 需要注意的是,该 VPN 工具仅处理浏览器流量,不提供全设备保护。激活 VPN 后,并不意味着所有 Firefox 之外的网络流量都已安全。

总而言之,Firefox 149 版本的免费内置 VPN 功能代表了 Mozilla 在隐私保护方面的又一努力,并旨在为用户提供更安全、更可靠的浏览体验。

Show HN: Duplicate 3 layers in a 24B LLM, logical deduction .22→.76. No training

LLM 电路查找工具包:无需训练提升推理能力

该项目旨在探索和利用大型语言模型(LLM)内部隐藏的“推理电路”。通过简单地将特定层重复多次,无需任何训练或权重调整,就能显著提升模型在特定任务上的表现。

核心思想: LLM 的某些连续层块可以被视为独立的认知单元。重复这些层块,相当于让模型对输入进行二次处理,从而提升其推理能力。

主要发现:

  • Devstral-24B: 重复第 12-14 层,逻辑推理能力从 0.22 提升到 0.76。
  • Qwen2.5-32B: 重复第 7-9 层,推理能力(包括因果推理和逻辑推理)提升了 23%。

工具与环境:

  • 使用了 David Ng 的 RYS 方法作为基础,并进行了扩展。
  • 在两块 AMD RX 7900 XT 和 RX 6950 XT 显卡上,用时一个晚上完成所有发现。
  • 提供了一个名为 llm-circuit-finder 的工具包,包含用于查找和利用这些电路的代码。

详细结果:

  • Devstral-Small-2-24B: 重复层 12, 13, 14 后,在数学推理和因果推理方面有所提升,但在指令遵循和代码生成方面有所下降。
  • Qwen2.5-Coder-32B: 重复层 7, 8, 9 后,推理能力提升明显。

电路的本质:

  • Transformer 模型在训练过程中会形成功能性的电路,这些电路是由多层组成的处理单元,负责执行完整的认知操作。
  • 不同的模型在不同的位置拥有不同的电路。例如:
    • Devstral-24B (40 层) 的推理电路位于第 12-14 层。
    • Qwen2.5-32B (64 层) 的推理电路位于第 7-9 层。
  • 电路的边界非常明确,略微调整位置就会影响效果。

模式发现:

通过不同的重复模式,可以创建具有不同认知特征的模型:

  • 双重通道 13-16 层: 擅长数学
  • 三重通道 13-16 层: 擅长情感理解
  • 交错通道 13, 14, 15, 16: 纯粹的数学模式

快速上手:

  • 查找模型中的电路: 使用 sweep.py 脚本扫描模型,找到最佳的层重复配置。
  • 应用已知电路: 使用 layer_path.py 脚本将已知电路应用到模型中。
  • 验证结果: 使用 lm-evaluation-harness 进行基准测试,比较不同模型的性能。

工具文件:

  • sweep.py: 主要扫描程序,用于查找最佳层重复配置。
  • layer_path.py: 用于构建具有明确层执行路径的 GGUF 模型。
  • gguf_surgery.py: 低层 GGUF 层重复 (由 sweep.py 使用)。
  • math_probe.py: 困难的算术探测器。
  • eq_probe.py: 情感理解探测器。
  • reasoning_probe.py: BBH 派生的因果/逻辑/导航/数学问题。
  • compare_eval.py: 比较运行结果。
  • visualize.py: 扫描结果的文本和 PNG 热图。

要求:

  • Linux 系统,带有构建好的 llama.cpp (CPU, CUDA, Vulkan, 或 Metal)
  • Python 3.10+,安装 gguf, requests, tqdm
  • 足够的 VRAM/RAM 来运行模型 + 额外重复层。

总结:

该项目提供了一种无需训练即可提升 LLM 推理能力的有效方法,通过找到并重复模型内部的“推理电路”,可以显著提升模型在特定任务上的表现。

What 81,000 people want from AI

Last December, tens of thousands of Claude users around the world had a conversation with our AI interviewer to share how they use AI, what they dream it could make possible, and what they fear it might do.

Ask HN: How do you deal with people who trust LLMs?

总结:如何应对对大型语言模型 (LLM) 盲目信任的人?

该 Hacker News 帖子探讨了人们对大型语言模型 (LLM) 产生盲目信任的问题。 核心问题是:许多人将 LLM 作为获取“客观事实”的来源,即使简单的搜索就能找到更可靠的信息。

主要观点:

  • LLM 作为事实来源的误用: 很多人在遇到问题时,会直接向 LLM 提问,并毫不怀疑地接受 LLM 的回答,而不是通过搜索找到权威来源。
  • LLM 的局限性: LLM 存在“幻觉”问题,即生成不真实或无意义的内容。它们缺乏对真假概念的理解。
  • 应对策略的困境: 帖子提出了一个问题:当遇到对 LLM 盲目信任的人时,应该如何应对?是应该告知他们 LLM 的局限性,还是让其自行承担后果?
  • 影响与应对: 当 LLM 作为信息来源影响到个人利益时,该如何处理?

帖子内容并未包含以下信息:

  • 具体的 LLM 模型名称 (例如,ChatGPT, Bard 等)
  • LLM 幻觉的成因分析
  • 如何有效地向其他人解释 LLM 的局限性
  • 在不同情境下 (例如,与家人、同事、公众) 采用不同应对策略的建议。
2% of ICML papers desk rejected because the authors used LLM in their reviews

ICML 2026:关于LLM使用在同行评审中的政策与执行情况总结 (ICML 2026: Summary of LLM Usage Policies and Enforcement in Peer Review)

以下是对ICML 2026关于LLM使用在同行评审中政策及执行情况的总结:

背景与问题:

人工智能 (AI) 正在日益成为研究人员工作流程的重要组成部分。然而,不当使用AI可能会损害同行评审的完整性。ICML 2026 旨在通过制定规则和政策来应对这一挑战,并对违反规则者采取纪律处分,维护评审过程的信任。

政策框架:

ICML 2026 采用了两项关于LLM使用的政策:

  • 政策A (保守): 禁止使用LLM。
  • 政策B (宽松): 允许使用LLM来理解论文和相关工作,以及润色评审。

该框架的制定是基于社区的偏好和反馈。

执行情况:

  • 审查员分配: 审查员可以选择他们希望遵守的政策,并被分配到相应的政策组。为了确保公平,只有明确选择“政策A”或“政策A或B均可”的审查员才被分配到政策A组。
  • 违规检测: 共有795篇 (约占所有评审的1%) 由506名审查员撰写的政策A (禁止 LLM) 评审被检测出使用了LLM。
  • 检测方法: 使用了基于水印的技术来检测LLM使用。具体来说,论文PDF被嵌入隐藏的LLM指令,这些指令指示LLM在评审中包含特定短语,而人类读者无法直接看到。该方法参考了Rao, Kumar, Lakkaraju, and Shah 的相关研究,并结合了一个包含17万个短语的词典。
  • 纪律处分: 对于由政策A审查员撰写的、被检测出使用LLM的评审,采取了以下措施:
    • 评审被从系统中删除。
    • 如果一个政策A审查员提交的评审中超过一半被检测出使用LLM,则所有评审都被删除,审查员将被移除评审池。
    • 总共497篇论文被因审查员违规而直接拒稿。
  • 强调: ICML强调,此次行动并非对评审质量或审查员意图的评估,而是对审查员违反既定协议的声明。

影响与应对:

此次行动对同行评审流程造成了一定程度的干扰。ICML 正在与受影响的SAC和AC进行沟通,并提供支持。可能需要寻找新的评审员,并可能导致一些提交的论文被直接拒稿。

技术细节补充:

  • 水印技术并非万无一失,审查员可能能够规避或修改水印。
  • 为了避免虚假判决,所有被标记的评审都经过人工审核。
  • 尽管存在这些限制,水印技术在提交截止日期前仍然能够成功检测到LLM使用率超过80%。

结论:

ICML希望通过对违反政策的行为采取强硬措施,提醒社区在快速变化的领域中,最需要积极保护的是彼此之间的信任。适应信任基础的评审系统至关重要,否则这些系统很快就会变得过时和毫无意义。

EU Inc.: A new harmonised corporate legal regime

欧盟“EU Inc.” 公司法律框架:核心要点总结

根据欧盟委员会2024-2029年的政治指导方针以及负责民主、正义和法治的专员的任务信函,欧盟委员会2025年1月发布的《竞争力指南》宣布建立“第28个制度”,作为加强欧洲经济竞争力的更广泛战略的一部分。 该制度旨在为创新型企业提供一套统一的、欧盟范围内的规则,涵盖公司、破产、劳动和税收法律的相关方面。

核心内容:

欧盟委员会计划建立一个全新的、在整个欧盟范围内统一的公司法律制度,名为“EU Inc.”。 虽然该制度特别为创新型公司和初创企业设计,但任何认为适合的创始人都可以选择使用,并可与现有的国家公司形式并行存在。

主要特点与优势:

  • 快速便捷的注册: 公司注册将在48小时内完成,费用不超过100欧元,并完全数字化。
  • 简化流程: 公司生命周期内的各项程序将得到简化。
  • 数字化股份转移与资本运作: 提供更便捷的数字化股份转移和资本运作流程。
  • 现代融资支持: 支持现代化的融资工具。
  • 公共股权市场准入: 允许成员国允许EU Inc.公司进入公共股权市场。
  • 数字化破产程序: 引入完全数字化的破产程序。
  • “一次性”数据传输: 公司数据将自动传输给相关部门,符合“一次性原则”,同时包含防欺诈和滥用的保障措施。
  • 员工持股期权计划: 提供一个共同的、可选的员工持股期权计划,并实行统一的递延纳税,从而帮助EU Inc. 公司吸引顶尖人才。

相关文件:

  • 《关于欧盟公司第28个制度的沟通文件》 (Communication: Towards a 28th regime for EU companies)
  • 《欧盟公司(EU Inc.)公司法律框架提案》 (Proposal for an EU Inc. corporate legal framework)
  • 《欧盟公司(EU Inc.)公司法律框架提案附录》 (Annex to the Proposal for an EU Inc. corporate legal framework)
  • 《欧盟公司(EU Inc.)公司法律框架提案事实表》 (Factsheet: Proposal for an EU Inc. corporate legal framework)
  • 《欧盟公司(EU Inc.)公司法律框架影响评估报告:执行摘要》 (Impact assessment report for an EU Inc. corporate legal framework: Executive summary)
  • 《欧盟公司(EU Inc.)公司法律框架影响评估报告第一部分》 (Impact assessment for an EU Inc. corporate legal framework part 1)
  • 《欧盟公司(EU Inc.)公司法律框架影响评估报告第二部分》 (Impact assessment report for an EU Inc. corporate legal framework part 2)
  • 《欧盟公司(EU Inc.)公司法律框架影响评估报告第三部分》 (Impact assessment report for an EU Inc. corporate legal framework part 3)

总结:

欧盟正在建立一个新的公司法律框架“EU Inc.”,旨在简化公司注册和运营流程,支持创新型企业和初创企业,并通过数字化手段提高效率,并提供更具吸引力的员工激励计划。该框架将与现有的国家公司形式并行存在,为企业提供更多选择。

Oil nears $110 a barrel after gas field strike

中东冲突引发市场动荡:能源价格飙升,经济前景黯淡 (Market Turmoil Following Middle East Conflict: Soaring Energy Prices, Gloomy Economic Outlook)

事件背景: 伊朗对中东能源基础设施发动袭击,包括卡塔尔的主要天然气设施,导致全球市场出现剧烈波动。

市场反应:

  • 能源价格飙升:
    • 布伦特原油价格一度升至每桶119美元,最终收于每桶108美元以上。
    • 英国天然气价格上涨11.3%,达到每热值154.8便士,盘中一度接近183便士。
  • 股市下跌:
    • 英国富时100指数下跌2.4%,收于10049点。
    • 巴黎和法兰克福股市也出现下跌。
    • 日本日经指数下跌3.4%。
    • 美国主要股指收盘小幅下跌。
  • 债券市场承压:
    • 大西洋两岸的债券价格下跌,投资者对通货膨胀风险加剧的担忧。
    • 英国国债收益率(gilts)升幅显著,远超德国和美国国债。
    • 两年期国债收益率有望创下自2022年Liz Truss迷你预算以来最大的单日增幅。
    • 国债收益率上升可能导致抵押贷款利率上升。

关键影响因素:

  • 卡塔尔能源设施受损: 伊朗袭击卡塔尔主要液化天然气(LNG)出口设施 Ras Laffan,造成“重大损失”。 卡塔尔能源公司预计设施维修将导致LNG产量减少1280万吨,持续3至5年。 卡塔尔此前已因冲突暂停部分生产,其LNG产量占全球五分之一。
  • 全球能源供应担忧: 专家认为,Ras Laffan的袭击将减少全球LNG供应,且难以快速替代。
  • 对全球经济的影响: 世界贸易组织(WTO)警告称,冲突将对全球经济产生重大影响。
    • 预计全球商品贸易增速将从去年的4.6%降至今年的1.9%,如果高油价持续,可能降至1.4%。
    • 油气市场中断还会影响化肥供应,导致食品供应减少,价格上涨,泰国、印度和巴西等国尤其脆弱。
  • 伊朗立场: 伊朗外交部长表示,如果再次遭到袭击,将“不加约束地”采取行动。
  • 美国政策: 美国总统特朗普表示已指示以色列总理不攻击伊朗能源设施,并采取措施增加石油供应,例如暂停对俄罗斯石油的制裁和放宽港口之间的船舶运输规定。

其他重要信息:

  • 伊朗已暂停向伊拉克供应天然气,以确保国内供应。
  • 伊朗国内消耗了其大部分天然气(94%)。
  • 全球每日石油消耗量约为1亿桶。

希望这个摘要对您有所帮助。