2026-04-01

18 篇热帖

Claude Code Unpacked : A visual guide

Claude Code 源码解析:Agent 循环、工具系统及隐藏功能

本文基于 Hacker News 上一篇关于 Claude Code 源码分析的文章,总结了 Claude Code 从用户输入到最终呈现响应的内部运作机制,包括 Agent 循环、工具系统、命令目录以及一些尚未发布的功能。

1. Agent 循环 (The Agent Loop)

文章着重分析了用户输入信息到 Claude Code 呈现响应的整个流程,即 Agent 循环。 具体步骤未详细展开,但暗示了 Claude Code 内部存在一个复杂的 Agent 循环机制。

2. 架构概览 (Architecture Explorer)

Claude Code 的架构可以大致分为以下几个层级:

  • Tools & Commands: 工具和命令,是 Claude Code 的核心交互接口。
  • Core Processing: 核心处理,负责 Agent 循环中的主要逻辑运算。
  • UI Layer: 用户界面层,负责与用户交互的显示和输入。
  • Infrastructure: 基础设施层,支撑整个系统的运行环境。
  • Support & Utilities: 支持与实用工具,提供辅助功能。
  • Personality & UX: 个性化与用户体验,负责用户交互的风格和体验设计。

代码库包含大量文件,主要分布在以下目录:

  • utils/: 564 个文件
  • components/: 389 个文件
  • commands/: 189 个文件
  • tools/: 184 个文件
  • services/: 130 个文件
  • hooks/: 104 个文件
  • ink/: 96 个文件
  • bridge/: 31 个文件
  • constants/: 21 个文件
  • skills/: 20 个文件
  • cli/: (未明确文件数量)

3. 工具系统 (Tool System)

Claude Code 提供了丰富的内置工具,可分为以下几类:

  • 文件操作 (File Operations): 6 个工具
  • 执行 (Execution): 3 个工具
  • 搜索与获取 (Search & Fetch): 4 个工具
  • 代理与任务 (Agents & Tasks): 11 个工具
  • 规划 (Planning): 5 个工具
  • MCP (Multi-Component Planning): 4 个工具
  • 系统 (System): 11 个工具
  • 实验性 (Experimental): 8 个工具

文章鼓励用户点击工具名称查看详细信息和源代码。

4. 命令目录 (Command Catalog)

Claude Code 支持大量斜杠命令,可分为以下几类:

  • 设置与配置 (Setup & Config): 12 个
  • 日常工作流程 (Daily Workflow): 24 个
  • 代码审查与 Git (Code Review & Git): 13 个
  • 调试与诊断 (Debugging & Diagnostics): 23 个
  • 高级与实验性 (Advanced & Experimental): 23 个

用户可以点击命令名称查看详细信息和源代码。

5. 隐藏功能 (Hidden Features)

Claude Code 的源代码中包含一些尚未发布的隐藏功能。这些功能可能通过特性标志 (feature-flagged)、环境变量 (env-gated) 或注释 (commented out) 方式存在。

文章鼓励用户探索这些隐藏功能。

总而言之,本文概述了 Claude Code 的内部架构和关键功能,强调了其 Agent 循环机制、丰富的工具系统、强大的命令目录以及不断迭代的隐藏功能,为开发者提供了深入了解 Claude Code 的窗口。

GitHub's Historic Uptime

GitHub 月度可用性概览 (2016-2026)

本描述旨在提供一个查看 GitHub 月度可用性的工具,涵盖 2016 年到 2026 年的范围。

主要功能:

  • 可视化 GitHub 可用性: 该工具允许用户直观地查看 GitHub 在过去和未来(预测)的每月可用性情况。
  • 时间范围: 涵盖 2016 年到 2026 年的整个时间段,方便用户分析长期趋势。
  • 数据来源: 具体数据来源未明确说明,但可以推断是基于 GitHub 官方提供的可用性数据。
  • 预测: 工具包含对未来可用性的预测,这可能基于历史数据和趋势分析。

目的:

该工具的主要目的是让用户能够了解 GitHub 服务的可靠性和稳定性,并进行长期的可用性评估。 这对于依赖 GitHub 进行代码托管、协作和持续集成的开发者和团队来说尤其重要。

总结:

该工具是一个用于可视化 GitHub 月度可用性的工具,覆盖了 2016 年到 2026 年的时间范围,并包含未来可用性的预测。 它旨在帮助用户评估 GitHub 服务的可靠性。

OkCupid gave 3M dating-app photos to facial recognition firm, FTC says

OkCupid 数据共享与 FTC 投诉摘要

以下是对原文内容的摘要,重点阐述了 OkCupid 与 Clarifai 之间的数据共享事件以及随之而来的 FTC 投诉:

核心事件:

  • 数据共享: 在 2014 年 9 月,Clarifai (一家人工智能公司) 的 CEO 通过邮件联系了 OkCupid 的创始人之一,请求访问 OkCupid 的大量用户照片数据集。
  • 利益关系: 尽管 OkCupid (Humor Rainbow) 与 Clarifai 之间没有正式的商业协议,但 OkCupid 的创始人,包括 Humor Rainbow 的总裁和 Match Group (OkCupid 母公司) 的 CEO,都对 Clarifai 有财务投资。 正是基于这种利益关系,Humor Rainbow 提供了数据。
  • 数据规模: Humor Rainbow 向 Clarifai 提供了近三百万 OkCupid 用户照片以及其他个人数据,包括人口统计信息和地理位置信息。
  • 缺乏协议: 数据共享过程中,Humor Rainbow 未签订任何正式协议,也未对 Clarifai 对 OkCupid 用户数据的访问和使用设置任何限制。Clarifai 也没有为此支付任何费用,也没有为 Humor Rainbow 或 OkCupid 提供任何服务。

Clarifai 的用途:

  • 面部识别技术开发: Clarifai 使用 OkCupid 的照片来构建识别检测到的面部的年龄、性别和种族的服务。
  • 潜在客户: Clarifai 的 CEO 曾表示,如果情况合适,该公司将向外国政府、军事行动和警察部门出售其面部识别技术。

OkCupid 的回应:

  • 否认合作: OkCupid 的发言人表示,Clarifai 曾于 2014 年联系该公司,讨论合作,但未达成任何商业协议,并且目前与 Clarifai 没有任何关系。 发言人没有回应 Clarifai 是否未经同意访问了 OkCupid 照片的问题。
  • 否认数据泄露: 当 OkCupid 用户询问 OkCupid 和数据接收方 (Clarifai) 时,Humor Rainbow 强调其并未参与数据接收方,并表示任何暗示 OkCupid 向数据接收方泄露用户信息的说法都是虚假的。

FTC 的投诉:

  • 虚假宣传: 美国联邦贸易委员会 (FTC) 在一份投诉中指出,OkCupid (由 Match.com 于 2011 年收购) 做出关于如何使用客户数据的“虚假和具有误导性的声明”。
  • 数据共享的掩盖: FTC 投诉揭示了 Humor Rainbow 掩盖数据共享安排的事实,即使其总裁和首席技术官直接参与了数据传输。

总结:

OkCupid 与 Clarifai 之间的数据共享事件涉及利益冲突、缺乏协议以及对用户隐私的潜在风险。FTC 的投诉表明 OkCupid 在数据使用方面存在虚假宣传,并试图掩盖数据共享的事实。

OpenAI closes funding round at an $852B valuation

OpenAI 完成创纪录融资,估值高达 8520 亿美元

主要内容:

OpenAI 于 2024 年 3 月 26 日宣布完成一轮创纪录的融资,总额达到 1220 亿美元,公司估值高达 8520 亿美元。 此前该公司在 2 月份宣布了 1100 亿美元的融资承诺,此次融资额度因此增加。

主要参与者:

  • 软银 (SoftBank):与 Andreessen Horowitz 和 D. E. Shaw Ventures 等投资者共同领投。
  • 亚马逊 (Amazon):此前承诺投资高达 500 亿美元。
  • 英伟达 (Nvidia):此前承诺投资 300 亿美元。
  • 微软 (Microsoft):长期合作伙伴,已投资超过 130 亿美元,但本次投资额未公开。
  • 个人投资者:通过银行渠道募集了 30 亿美元。

关键数据与指标:

  • 用户规模: ChatGPT 拥有超过 9 亿周活跃用户,其中超过 5000 万用户为订阅用户。
  • 月收入: OpenAI 每月产生 20 亿美元的收入,2023 年总收入达到 131 亿美元。
  • 盈利状况: 公司目前尚未盈利,仍处于烧钱阶段。

公司战略与调整:

  • OpenAI 凭借 ChatGPT 在人工智能领域迅速崛起,推动了人工智能的快速发展。
  • 公司面临着对高估值进行合理化的压力,尤其是在潜在 IPO 前夕。
  • 为控制成本,OpenAI 近期退缩了一些雄心勃勃的计划,并关闭了部分产品和功能,例如短视频应用 Sora。
  • OpenAI 认为人工智能正在推动生产力提升、加速科学发现并拓展个人和组织的能力。

公司愿景:

OpenAI 将此次融资视为构建人工智能基础设施的关键一步,并相信这种投资最终将为经济、企业、社区和个人带来价值。

声明: 本文仅基于原文信息进行整理,不包含任何个人观点。

CERN levels up with new superconducting karts

欧洲核子研究中心 (CERN) 推出超导卡丁车,加速地下隧道维护工作

欧洲核子研究中心 (CERN) 正在积极测试新型车辆,计划在今年夏季开始的大型工程施工前,将其投入到大型强子对撞机 (LHC) 地下隧道中。

主要内容:

  • 背景: 为了配合即将开始的第三次长期停机期 (LS3),CERN 将对 LHC 进行改造,升级为高亮度 LHC (High-Luminosity LHC)。在停机期间,工程师和技术人员需要快速到达需要改进的区域进行工作。此前,他们使用自行车进行交通。
  • 新车辆: CERN 工程师开发了一种名为“超导卡丁车”的新型车辆,旨在提高维护期间的效率。
  • 技术特点:
    • 每辆卡丁车配备 64 个超导引擎。
    • 当引擎冷却到临界温度以下时,会产生迈斯纳效应,使卡丁车悬浮,从而实现高速行驶。
    • 项目负责人 Mario Idraulico 称这些卡丁车为“超速”状态。
  • 测试进展: 早期测试结果喜人,下一步将进行不同设计卡丁车的地下比赛测试。
  • 安全措施: 安全协调员 Luigi Fratello 确保每位驾驶员都将配备“长期和有限停留安全与健康设备 (SHELLS)”。
  • 社会应用: 虽然卡丁车项目是为了支持 CERN 的基础研究项目而开发的,但它也具有明确的社会应用前景。CERN 知识转移组已与欧洲初创公司 Quantum Mushroom 开始讨论,探讨其在航空航天领域的应用,以及为下一代反重力车辆提供动力。
  • 创意来源: 令人惊讶的是,该项目最初源于 CERN 工程师与当地幼儿园儿童的合作,体现了 CERN 致力于激励下一代科学人才的承诺。幼儿园的设计启发了工程卡丁车的最终设计。
  • 幼儿园贡献: 幼儿园的贡献对即将到来的高亮度 LHC 项目做出了重要贡献,因此幼儿园的学生被戏称为“Luma”。

总结:

CERN 正在利用超导卡丁车加速其地下隧道维护工作,这不仅提高了工程师和技术人员的效率,还展示了超导技术的潜在社会应用,并突出了 CERN 与教育机构合作,培养未来科学人才的努力。

I Quit. The Clankers Won

总结:在认知暗森林中,继续写博客的重要性

这篇文章表达了对当前技术趋势的担忧,特别是人工智能(AI)的快速发展及其对人类创造力和交流的影响,并强烈建议人们继续写博客。

核心观点:

  • 对“博客已死”、“编程已过时”的质疑: 作者反对这种观点,认为现在正是写博客的最佳时机,因为我们正面临着人类交流和真实声音被稀缺的局面。
  • AI的阴影: 作者认为AI行业充斥着炒作,其核心是建立在价格标签化创造的基础之上,并且其带来的价值被泛滥的平庸内容所掩盖。他们批评了像 Sora 这样的 AI 工具,认为其产出的内容毫无价值,甚至比 NFT 还要逊色。
  • 博客的价值:
    • 个人优势: 在每个人都依赖大型 AI 工具的情况下,分享原创思想变得更有价值。
    • 认知提升: 写博客可以提高记忆力,强化决心,并迫使人们质疑自己的假设。作者提到 Cunningham's Law,即即使研究失败,公开写作也能受益。
    • 专业成长: 即使读者群体较小,博客也能帮助他人,并提升专业能力。
  • 拒绝屈服: 作者敦促读者不要接受被动地被技术趋势所裹挟的命运,而是要坚持自己的能力和独特的表达方式。
  • 抵制“大科技”: 文章呼吁人们摆脱对“大科技”的依赖,不要购买其推销的叙事,并指出 AI 行业如同赌场一样,其盈利模式存在缺陷。
  • 回归“旧互联网”/“开放互联网”/“独立互联网”: 作者鼓励人们转向更去中心化、更开放的网络空间,支持他们希望看到的互联网。他们对那些沉迷于技术乌托邦的人表示不屑,认为他们正在助长一个技术极权主义的未来。

总而言之,文章的核心信息是:面对 AI 带来的挑战,保持人类的创造力、表达和交流至关重要,而写博客是实现这一目标的一种有力方式。

A dot a day keeps the clutter away

电子元件整理系统:基于彩色点标记的简单高效方法 (Diànzǐ zèliào zhěnglǐ xìtǒng: Jīyú cǎisè diǎn biāojì de jiǎndān gāoxiào fāngfǎ)

本文讲述了一个作者在大学期间开始收集电子元件,并随着项目增多,面临元件存储和管理难题的过程,以及他最终开发并使用的一种简单、低成本的组织系统。

问题:元件堆积与管理 (Wèntí: Zèliàn duījī yǔ guǎnlǐ)

作者从2011年开始收集电子元件,包括电阻、电容、微控制器、电机等,并随着时间的推移,元件数量迅速增长,最终超出所有现有容器的容量。 他需要一个简单易用的系统,能够有效管理大量元件,但又不想像大型电子元件供应商那样需要复杂的条形码和电脑库存管理。

解决方案:彩色点标记系统 (Jiějué fāng'àn: Cǎisè diǎn biāojì xìtǒng)

作者的解决方案非常简单:

  • 透明容器: 将所有不透明的工具箱和组件收纳盒替换为透明的4L盒子,便于查看内部元件。
  • 分类整理: 将元件按自然类别分门别类,如电容器盒、电阻盒、电机盒等。
  • 点标记: 每次打开一个盒子时,贴上一个彩色点标记。为了避免记录每次打开,作者将规则简化为每天为一个盒子贴一个点。
  • 颜色编码: 为每一年分配一种颜色,以便跟踪元件的使用年限。
  • 成本低廉: 整个系统的成本仅为3美元,只需要彩色点标记贴纸。

系统运作与迭代 (Xìtǒng yùnzuò yǔ diébù)

作者将系统比作计算机的文件系统,盒子相当于顶级目录,袋子相当于子目录,元件相当于文件。他建议每个盒子里大约有十个袋子,每个袋子里大约有十个袋子。所有袋子都贴有日期标签。作者逐步迭代优化了系统,包括使用更厚的透明袋子,以及对元件进行分类。

系统价值与启示 (Xìtǒng jiàzhí yǔ qǐshì)

经过四年的使用,该系统揭示了许多有价值的信息:

  • 核心元件: 胶水、胶带、连接器、电池、磁铁、LED、DC-DC转换器、USB-C转公头线、电容和电阻是使用频率最高的元件。
  • 元件使用率: 通过点标记,作者可以直观地了解哪些元件被频繁使用,哪些元件很少使用。
  • 工具评估: 作者惊讶地发现,他认为必不可少的示波器、函数发生器和逻辑分析仪的使用频率远低于预期。
  • 冷存储: 对长时间未使用的元件进行“冷存储”,以便在需要时重新使用,或者最终捐赠或出售。

总结 (Zǒngjié)

该系统强调了简单、实用和持续迭代的重要性。 它的核心在于利用彩色点标记来可视化元件的使用情况,帮助作者做出明智的决策,优化元件存储和管理。 整个系统成本低廉,易于实施,并且能够随着项目和兴趣的变化而不断演变。 最终,该系统为作者提供了一个清晰的实验室环境,并揭示了元件使用模式,帮助他更好地组织和利用他的资源。

关键原则 (Guānjiàn yuánzé)

  • 使用透明、尺寸一致的盒子。
  • 在盒子正面贴标签,而不是盒盖。
  • 为所有物品标注日期。
  • 使用厚的透明袋子,并对袋子进行标注。
  • 确保所有物品都有明确的归属。
  • 定期整理分类。
My son pleasured himself on Gemini Live. Entire family's Google accounts banned

总结:Google账户因未成年人使用Gemini被封禁,造成严重损失

以下是对原文内容的总结:

事件经过:

  • 一名14岁的青少年在家庭平板电脑上使用Google的Gemini AI,并使用了其实时摄像头功能。
  • Gemini AI识别到该青少年未成年,Google随即封禁了该家庭的所有Google账户。
  • 平板电脑上设置了家长控制,用于阻止观看不适宜的内容,但Gemini并未受到这些控制的限制。
  • 家庭所有Google账户都链接到该平板电脑。

损失情况:

  • 账户全面封禁: 包括所有家庭成员的Google账户,无法访问。
  • 商业损失: 15年的商业记录完全无法访问,包括邮件、Google Drive文档等。
  • 网站受影响: 与Google账户链接的网站也被锁定。
  • 财务危机: 由于失去商业记录,面临3个月后无法支付抵押贷款的风险,以及无法按时为会计师提供年度财务资料的困境。

后续行动:

  • 家庭已经向Google提交了申诉,请求恢复账户,但Google以保护儿童为由拒绝了请求。

法律咨询:

  • 提问者正在寻求法律途径,以尝试恢复其Google账户。

关键词: Google账户,Gemini,未成年人,封禁,商业损失,法律途径,家长控制,平板电脑,儿童保护。

U.S. exempts oil industry from protecting Gulf animals, for 'national security'

墨西哥湾莱斯鲸面临威胁:特朗普政府免除濒危物种法保护

主要内容:

本文报道了特朗普政府官员委员会一致投票,免除墨西哥湾油气行业《濒危物种法》的要求,此举将解除对濒危鲸鱼、海龟和其他动物的保护。

关键细节:

  • 国家安全理由: 国防部长Pete Hegseth以“国家安全”为由,要求内政部长Doug Burgum召集委员会,理由是稳定的、可负担的能源供应对国家安全至关重要。
  • 莱斯鲸的脆弱性: 莱斯鲸是世界上最濒危的鲸鱼之一,仅剩约51头,全部生活在墨西哥湾。2010年Deepwater Horizon溢油事件导致其种群数量下降了高达22%。由于种群数量极低,即使失去一头鲸鱼也可能导致其灭绝。
  • 保护措施的取消: 此决议将取消此前要求油气公司采取的保护措施,例如避免向海湾倾倒垃圾和在发现鲸鱼时暂停使用噪音技术。
  • “上帝小队”的罕见召集: 如此重要的委员会(被称为“上帝小队”)的召集非常罕见,过去50年仅召集三次,且只有一次生效。本次会议的通知发布时间极短,公众知情权受到限制。
  • 法律挑战: 生物多样性中心已对内政部长提起诉讼,指控政府未采取适当措施并提供足够的公共信息就召集委员会。
  • 石油行业的游说: 石油和天然气公司自10月份以来,就《濒危物种法》、许可改革以及莱斯鲸问题游说政府,花费了超过800万美元。
  • 更广泛的影响: 该决议不仅影响莱斯鲸,还将影响墨西哥湾的其他受威胁或濒危物种,如抹香鲸、西印度群岛海牛和多种海龟。
  • “能源紧急状态”: 此举是特朗普政府利用“国家能源紧急状态”来削弱动物保护法律的更大趋势的一部分。
  • NOAA的意见: 国家海洋和大气管理局(NOAA)明确表示,油气公司将不再需要遵守保护措施。
  • 替代方案: NOAA之前的报告表明,油气行业可以通过减缓船速和保持安全距离等措施来避免伤害莱斯鲸,但政府选择免除保护。
  • 新技术的应用: 一些公司已经开发出减少声波能量的新型勘探技术,但行业应用并不广泛。

总结:

特朗普政府的这一举动引发了环保组织和民主团体的高度关注,他们认为此举违背了法律,并利用虚假的“国家安全”理由来保护油气行业。此决议可能对莱斯鲸和其他墨西哥湾物种造成严重影响,并反映出政府削减环境保护力度、优先发展能源行业的政策。

Cohere Transcribe: Speech Recognition

Cohere Transcribe:一款开源、高性能的自动语音识别模型

Cohere 发布了 Transcribe,一款开源、先进的自动语音识别 (ASR) 模型,现已开放下载。该模型旨在满足企业 AI 工作流程的需求,并已在 Hugging Face Open ASR 排行榜上获得第一名。

核心要点:

  • 目标: Cohere Transcribe 的目标是在实际条件下实现高精度的 ASR 模型,并注重生产实用性。
  • 开源可用: 该模型可供开源使用,并提供基础设施控制选项。用户可以选择本地利用或通过 Cohere 的 Model Vault 安全、托管的推理平台使用。
  • 模型概览:
    • 名称: cohere-transcribe-03-2026
    • 架构: conformer-based 编码器-解码器
    • 输入: 音频波形 → Log-Mel 频谱图
    • 输出: 转录文本
    • 模型大小: 2B 参数
    • 训练目标: 标准的监督交叉熵,从零开始训练
    • 支持语言: 14 种语言,包括英语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语、中文(普通话)、日语、韩语、越南语、阿拉伯语。
    • 许可证: Apache 2.0
  • 性能表现:
    • 准确性: 在 Hugging Face Open ASR 排行榜上,平均词错误率 (WER) 为 5.42%,优于包括 Whisper Large v3、ElevenLabs Scribe v2 和 Qwen3-ASR-1.7B 在内的其他开源和闭源 ASR 替代方案。在多个数据集(例如 AMI、Earnings 22、Gigaspeech、LS clean、LS other、SPGISpeech、Tedlium、Voxpopuli)上表现出色,具备处理多说话环境、类董事会式声学环境和多样化口音的能力。
    • 吞吐量: 在保证高准确率的同时,Transcribe 实现了最佳的吞吐量,适合生产环境。
    • 人工评估: 人工评估显示,Transcribe 在准确性、连贯性和可用性方面均获得高度评价,甚至超越了其他模型,如 OpenAI Whisper Large v3 和 NVIDIA Canary Qwen 2.5B。
  • 部署方式:
    • Hugging Face 下载
    • Cohere API (免费,有速率限制)
    • Model Vault (生产部署,无速率限制,按小时计费)

未来发展:

Cohere 计划将 Transcribe 更深地集成到其 AI 代理编排平台 North 中,并将其发展为企业语音智能的基础设施。

总而言之,Cohere Transcribe 是一款高性能、开源的 ASR 模型,为企业 AI 工作流程提供了强大的语音识别能力,并具有广泛的应用前景。


中文总结:

Cohere 推出了 Transcribe,一款开源、领先的自动语音识别 (ASR) 模型。该模型旨在提供高精度、生产级别的语音转录服务,已经在 Hugging Face 的 ASR 排行榜上排名第一。Transcribe 支持 14 种语言,拥有 2B 参数,采用 conformer 架构,在准确性和吞吐量方面都表现出色。用户可以通过 Hugging Face 下载、Cohere API 或 Model Vault 进行部署,为企业 AI 应用提供强大的语音智能支持。

Ministack (Replacement for LocalStack)

MiniStack: 免费的 LocalStack 替代方案

LocalStack 已经转为付费服务,MiniStack 提供免费替代方案。它在一个端口上提供 34 个 AWS 服务,并包含 真正的 Postgres、Redis 和 Docker 容器。无需账户、许可证密钥或遥测数据。

主要特点:

  • 快速启动: 约 2 秒启动。
  • 资源占用低: 空闲状态下占用约 30MB RAM,Docker 镜像大小为 150MB。
  • 34 个 AWS 服务: 涵盖了核心服务,例如 S3、SQS、DynamoDB、Lambda、IAM、RDS、ElastiCache、ECS、Athena 等。
  • 真正的基础设施: RDS 运行真正的 Postgres 或 MySQL 数据库容器,ElastiCache 运行真正的 Redis 容器,ECS 启动真正的 Docker 容器,Athena 通过 DuckDB 执行真正的 SQL 查询。
  • SDK 兼容性: 与 boto3、AWS CLI、Terraform、CDK、Pulumi 等工具兼容。
  • MIT 授权: 永久免费使用,可自由分发和修改。
  • 使用方法: 通过简单的 Docker 命令启动:docker run -p 4566:4566 nahuelnucera/ministackcopy

服务列表 (部分):

  • 存储: S3 (桶、对象、版本控制等)
  • 消息: SQS (队列、FIFO、DLQ)、SNS (主题、订阅)
  • 数据库: DynamoDB (表、CRUD 操作)、RDS (Postgres/MySQL 容器)
  • 计算: Lambda (Python 执行)、ECS (Docker 容器)
  • 缓存: ElastiCache (Redis 容器)
  • 查询: Athena (SQL 查询,依赖 DuckDB)
  • 其他: IAM、STS、Secrets Manager、CW Logs、SSM Params、EventBridge、Kinesis、API Gateway (v1 & v2)、Route53、Cognito、EC2、EMR、EBS、EFS、ALB/ELBv2、ACM、SES、WAF、CloudFormation

LocalStack 与 MiniStack 对比:

特性 LocalStack Free LocalStack Pro MiniStack ⚡
核心服务 付费 ✅ 免费
Lambda, IAM, SSM, EventBridge 付费 ✅ 免费
RDS (真实 DB) ✅ Postgres/MySQL
ElastiCache (真实 Redis) ✅ Redis
ECS (真实 Docker) ✅ Docker
Athena (真实 SQL) ✅ DuckDB (可选)
启动时间 ~15-30s ~15-30s ~2s
内存占用 ~500MB ~500MB ~30MB
镜像大小 ~1GB ~1GB 150MB
许可证 BSL (限制) 专有 MIT
价格 付费 $35+/月 免费

总结:

MiniStack 提供了一个免费、轻量级且功能强大的 LocalStack 替代方案,它使用真正的基础设施,并具有与 LocalStack 相同的开发体验,但成本更低,资源占用更少。通过一个简单的 Docker 命令即可启动,并且采用 MIT 授权,可以自由使用。

Show HN: 1-Bit Bonsai, the First Commercially Viable 1-Bit LLMs

1-bit Bonsai 模型系列概要

以下是对1-bit Bonsai模型系列的概要:

该系列模型旨在实现高效率和低资源消耗,适用于机器人、实时代理和边缘计算等场景。其核心特点是采用1-bit权重技术,显著降低了模型体积和计算资源需求。

主要模型及特点:

  • 1-bit Bonsai 8B:

    • 内存占用:1.15GB
    • 优势: 相比全精度8B模型,体积缩减了14倍,运行速度提升了8倍,能耗降低了5倍,同时在基准测试中表现与领先的8B模型相当。 总体来说,其“智能密度”是全精度8B模型的10倍以上。
    • 适用场景:机器人,实时代理,边缘计算。
  • 1-bit Bonsai 4B:

    • 内存占用:0.57GB
    • 优势:速度快,在M4 Pro上可达每秒132个token。 兼顾了强大的准确性和出色的能耗效率。
    • 适用场景:需要兼顾性能和速度的工作负载。
  • 1-bit Bonsai 1.7B:

    • 内存占用:0.24GB
    • 优势:在设备端实现高速运行,在iPhone 17 Pro Max上可达每秒130个token。 结合了行业领先的能耗效率和可靠的准确性,是一个轻量级模型,适用于处理复杂的任务。
    • 适用场景:对设备端速度要求高,资源受限的场景。

总体特点:

  • 1-bit 权重: 所有模型都采用了1-bit权重技术,是其核心优势。
  • 资源效率: 显著降低了内存占用、运行速度和能耗。
  • 准确性: 在降低资源消耗的同时,保持了良好的准确性。
  • 适用性: 适用于机器人、实时代理、边缘计算等对资源和速度有要求的场景。

参考资料: https://github.com/PrismML-Eng/Bonsai-demo/blob/main/1-bit-bonsai-8b-whitepaper.pdf

We intercepted the White House app's traffic. 77% of requests go to 3rd parties

白宫 iOS 应用动态分析:流量监控与隐私问题

本文是对先前发布的白宫 iOS 应用静态分析的补充,旨在通过中间人代理 (MITM) 观察应用实际发送的流量,从而验证静态分析的发现。

测试环境与方法:

研究人员在 macOS 上安装了 mitmproxy,并将 iPhone 设置为通过 mitmproxy 路由流量,并在设备上安装了 mitmproxy CA 证书。随后,他们打开了白宫应用 (v47.0.4, build 81),并浏览了所有标签页 (首页、新闻、直播、社交、探索)。所有 HTTPS 流量被解密并记录,未经任何修改。

主要发现:

  • 流量目的地: 在一次完整的浏览过程中,应用发起 31 个 独特的 HTTP 请求 (不包括 iOS 系统流量),其中仅 48 个 (23%) 请求发送到 whitehouse.gov。其余 158 个 (77%) 请求发送到第三方服务,包括 Elfsight、OneSignal、YouTube、Google DoubleClick、Facebook 和 Twitter。

  • OneSignal 数据收集: 应用在启动时向 api.onesignal.com 发送包含以下信息的 HTTPS 请求:

    • 语言和时区
    • 国家/地区
    • IP 地址 (IPv6 或 IPv4)
    • 首次打开和上次活跃时间戳
    • 设备型号和操作系统版本 (设备指纹)
    • 是否使用 Wi-Fi 或蜂窝网络
    • 运营商信息
    • 设备是否越狱
    • 应用启动次数
    • 每次会话的时长
    • 持久的唯一标识符,用于跨会话跟踪用户。
    • 应用会定期发送 PATCH 请求更新 OneSignal 上的用户资料。
  • Elfsight 集成: 研究人员确认了先前静态分析中发现的 6 个 Elfsight 组件以及两阶段 JavaScript 加载器。应用通过多个 Elfsight 控制的域名进行数据交互,包括:

    • elfsightcdn.com
    • core.service.elfsight.com
    • static.elfsight.com
    • storage.elfsight.com
    • phosphor.utils.elfsightcdn.com
    • universe-static.elfsightcdn.com
    • widget-data.service.elfsight.com
    • video-proxy.wu.elfsightcompute.com
    • cors-proxy.utils.elfsightcdn.com
    • apps.elfsight.com
    • dash.elfsight.com
    • service-reviews-ultimate.elfsight.com
    • Elfsight 基础设施设置了 10 多个 cookie。
  • Google DoubleClick 广告跟踪: YouTube 嵌入视频加载了 Google DoubleClick 的广告跟踪基础设施。

隐私声明与现实的差距:

应用在隐私声明中声称“未收集任何数据”,但动态分析显示,应用实际收集并发送了大量用户数据给第三方服务,例如:

  • 设备型号、操作系统、IP 地址、时区、语言、会话计数、会话时长和持久唯一标识符给 OneSignal
  • 与 Elfsight 基础设施交互并设置多个跟踪 cookie
  • 加载 Google DoubleClick 广告跟踪基础设施

结论:

白宫 iOS 应用通过第三方服务收集了大量用户数据,与应用隐私声明中声明的“未收集任何数据”存在显著差异。 这突显了在移动应用隐私保护方面,动态分析对于验证静态分析结果至关重要。

Ordinary Lab Gloves May Have Skewed Microplastic Data

微塑料研究可能因手套而产生偏差:一项新研究

一项发表在 RSC Analytical Methods 杂志上的新研究表明,科学家在研究微塑料危机时,可能无意中加剧了数据偏差。罪魁祸首竟然是他们常用的手套。

主要发现:

  • **手套释放“硬脂酸盐”:**来自密歇根大学的研究人员发现,实验室常用的腈橡胶和乳胶手套会释放出名为“硬脂酸盐”的颗粒。这些碳氢化合物是由手套制造商添加,以防止手套粘在模具上,它们在光谱分析仪中很容易被误认为聚乙烯,并且在电子显微镜下几乎无法区分。
  • **意外发现:**研究人员最初在研究大气中的微塑料时,发现他们准备的金属基材上存在异常高的微塑料水平。经过调查,他们最终将污染源追溯到手套。
  • 不仅仅是湿法制备: 之前的研究表明,湿法制备样品时使用的一次性手套会影响微塑料数据,但这项研究首次发现,即使在干法制备中也存在类似现象。
  • **假阳性数量:**研究人员测试了七种不同类型的手套,发现平均每平方毫米的接触面积产生约 2000 个假阳性结果。而无硬脂酸盐的洁净室手套,每平方毫米的接触面积仅产生 100 个假阳性结果。

解决方案与建议:

  • 使用洁净室手套: 如果必须佩戴手套进行实验,建议使用无硬脂酸盐的洁净室手套。
  • 改进研究方法: 研究人员强调,这并不意味着微塑料污染不存在,而是科学家们需要改进研究方法,避免因手套造成的偏差。
  • 保持警惕: 科学家需要更加注意他们所戴的手套,并意识到它们可能对研究结果产生影响。

结论:

这项研究揭示了微塑料研究中一个潜在的盲点。虽然科学家们可能高估了微塑料的污染程度,但微塑料污染问题仍然非常严重。

I traced my traffic through a home Tailscale exit node

Tailscale 出口节点详解:原理、优势与实践

这篇文章详细介绍了 Tailscale 出口节点的功能和原理,以及如何将其应用于家庭环境。作者分享了自己使用 Tailscale 多年,最近才配置出口节点以实现更深入理解的经验。

核心概念:出口节点 (Exit Node)

  • 没有出口节点: Tailscale 设备之间的服务可发现,但正常网页流量通过本地网络或 ISP 传输。
  • 启用出口节点: 你的设备将默认互联网流量路由到选定的出口节点设备,该设备再将流量发送到互联网。这相当于一个传统的 VPN 网关,但 Tailscale 并非所有流量都通过 VPN 隧道(只有出口节点模式是)。
  • 流量加密: 流量到出口节点的传输是加密的,网站看到的 IP 地址是出口节点的公共 IP,而不是你的 ISP IP。

出口节点的优势

  • 信任边界转移: 出口节点将信任移到你控制的设备上,而不是依赖公共 Wi-Fi 或 ISP。
  • DNS 行为可控: 可以通过 Tailscale 的 DNS 设置,实现 Split DNS,将特定域名流量路由到 AdGuard 等私有 DNS 服务器,实现广告过滤和隐私保护。

Tailscale 的底层原理

  • 网状网络 + 控制平面: Tailscale 并非传统的 VPN,而是基于 WireGuard 构建的网状网络,并增加了控制平面。
  • 控制平面 vs. 数据平面:
    • 控制平面: 负责设备发现、身份验证、策略分发、路由管理等,类似于地图和交通警察。
    • 数据平面: 负责传输加密数据包,类似于道路。
  • 连接流程:
    1. 设备验证到 Tailscale 控制平面。
    2. 控制平面共享每个节点的可用端点和密钥。
    3. 设备尝试进行 NAT 打洞 (NAT hole-punching)。
    4. 如果打洞成功,建立直接的 WireGuard 加密连接。
    5. 如果打洞失败,通过 DERP 继电器 (DERP relay) 作为中继。

出口节点的工作原理

  • 路由变化: 启用出口节点通常会安装默认路由 (0.0.0.0/0::/0) 指向 Tailscale 隧道接口,并添加一个“逃生舱”路由,用于避免隧道循环。
  • IP 转发和 NAT: 出口节点需要启用 IP 转发,并配置 NAT/Masquerade,将 Tailscale 流量伪装成出口节点的公共 IP 地址。
  • Proxmox LXC 限制: 在 Proxmox LXC 容器中运行 Tailscale 需要手动配置 /dev/net/tun 访问权限。
  • 出口节点广告: 出口节点需要向控制平面广播 0.0.0.0/0::/0 路由。

与 OpenVPN 的比较

  • 相似点: 两者都能实现全隧道 VPN。
  • 不同点:
    • 路由方式: OpenVPN 会重写整个路由表,而 Tailscale 使用策略路由和独立的路由表。
    • 协议和拓扑: WireGuard vs OpenVPN 协议,网状拓扑 vs 客户端-服务器模式。
    • 身份验证: Tailscale 使用设备身份验证,OpenVPN 使用证书。
    • NAT 穿越: Tailscale 使用 NAT 打洞和 DERP 继电器,OpenVPN 需要手动配置端口转发。

为什么你的流量不经过 Tailscale (以及为什么这可以免费)

  • 控制平面而非数据平面: Tailscale 的协调服务主要负责控制平面,而不是传输数据平面。
  • 流量路径: 正常流量路径是 客户端 -> 出口节点 -> 互联网,如果无法直接连接,则通过 DERP 继电器: 客户端 -> DERP 继电器 -> 出口节点 -> 互联网
  • 成本优势: 由于你的 ISP 和出口节点设备承担了出口流量,Tailscale 避免了带宽成本,因此可以提供免费套餐。

信任边界

出口节点并非完全消除信任,而是将信任边界转移到你控制的设备上。

总结

Tailscale 出口节点提供了一种安全、灵活的方式,将你的互联网流量通过你信任的设备进行路由。它简化了传统 VPN 的配置和管理,并提供了独特的优势,例如 DNS 行为控制和潜在的成本优势。 通过理解其底层原理,可以更好地利用 Tailscale 提供的功能,并根据自己的需求

Claude Wrote a Full FreeBSD Remote Kernel RCE with Root Shell (CVE-2026-4747)

好的,以下是基于您提供的文档的摘要,使用 Markdown 格式,并使用中文编写:

CVE-2026-4747 — FreeBSD kgssapi.ko RPCSEC_GSS 栈缓冲区溢出

漏洞概述: FreeBSD 的 kgssapi.ko 模块存在 RPCSEC_GSS 身份验证过程中的栈缓冲区溢出漏洞 (CVE-2026-4747)。攻击者可以通过发送特制的 RPC 数据包,在内核中执行任意代码,获取 UID 0 (root) 的权限,并建立反向 shell。

受影响版本:

  • FreeBSD 13.5 (未应用补丁)
  • FreeBSD 14.3 (未应用补丁)
  • FreeBSD 14.4 (未应用补丁)
  • FreeBSD 15.0 (未应用补丁)

攻击面: 启用 kgssapi.ko 模块的 NFS 服务器 (TCP 2049 端口)。

1. 漏洞根源

漏洞位于 svc_rpc_gss_validate() 函数中。该函数用于验证 GSS-API 签名,它将 RPC 头部复制到 128 字节的栈缓冲区 rpchdr[] 中。

  • 首先写入 32 字节的固定 RPC 头部字段。
  • 然后复制 RPCSEC_GSS 凭据主体 (oa_length 字节) 到剩余空间。

问题在于,代码中没有检查 oa_length 是否超过了剩余空间 (128 - 32 = 96 字节)。 如果 oa_length 大于 96 字节,就会发生栈缓冲区溢出,覆盖本地变量、保存的调用者保存寄存器以及返回地址。

修复方案 (14.4-RELEASE-p1): 补丁添加了边界检查,在复制之前验证 oa_length 是否超过最大允许长度。

2. 溢出几何结构

通过反汇编 kgssapi.ko 可以观察到,rpchdr 数组位于 rbp - 0xc0。 溢写发生在 [rbp - 0xa0]。 栈布局如下:

栈布局 (低地址 → 高地址):
  [rbp - 0xe0]  本地变量
  [rbp - 0xc0]  rpchdr[0]
  [rbp - 0xa0]  rpchdr[32]  ← 溢出开始位置
  [rbp - 0x40]  rpchdr[128] ← 缓冲区末尾
  [rbp - 0x28]  保存的 RBX
  [rbp - 0x20]  保存的 R12
  [rbp - 0x18]  保存的 R13
  [rbp - 0x10]  保存的 R14
  [rbp - 0x08]  保存的 R15
  [rbp + 0x00]  保存的 RBP
  [rbp + 0x08]  返回地址

由于 GSS 凭据主体包含一个 16 字节的上下文处理程序,实际的偏移量会增加 32 字节,导致返回地址位于凭据主体数据的第 200 字节。

3. 触发漏洞的条件

  • NFS 服务器: kgssapi.ko 模块实现了 RPCSEC_GSS 身份验证,NFS 服务器是主要使用此身份验证机制的内核 RPC 服务。
  • Kerberos: 溢出发生在 GSS 验证代码路径中。只有在满足以下条件时才会触发:
    1. RPC 数据包使用 RPCSEC_GSS 身份验证 (flavor = 6)。
    2. GSS 过程为 DATA (而非 INITDESTROY)。
    3. 服务器找到匹配上下文处理程序的有效客户端条目。
    4. 重放序列检查通过。

4. 漏洞利用

利用策略: 攻击者通过多轮溢出攻击,覆盖返回地址,并最终执行 shellcode。

  • 第一轮: 使用 pmap_change_prot() 将内核 BSS 区域的权限更改为读写可执行 (RWX)。
Show HN: Postgres extension for BM25 relevance-ranked full-text search

pg_textsearch 概览 (Overview of pg_textsearch)

pg_textsearch 是一个为 PostgreSQL 提供的现代排名文本搜索扩展,旨在提供简单易用的语法、高性能和可扩展性。

主要特点 (Key Features):

  • 简单语法 (Simple Syntax): 使用 <@> 运算符进行文本搜索,例如 ORDER BY content <@> '搜索词'
  • BM25 排序 (BM25 Ranking): 采用 BM25 算法进行排名,并支持配置 k1b 参数。
  • 与 PostgreSQL 文本搜索配置集成 (Integration with PostgreSQL Text Search Configurations): 支持 PostgreSQL 提供的各种文本搜索配置(例如:英语、法语、德语等)。
  • 快速 Top-K 查询 (Fast Top-K Queries): 通过 Block-Max WAND 优化实现快速 Top-K 查询。
  • 并行索引构建 (Parallel Index Builds): 支持并行构建索引,加速大型表的索引过程。
  • 分区表支持 (Partitioned Table Support): 兼容分区表。
  • 高性能和可扩展性 (High Performance and Scalability): 提供卓越的性能和可扩展性。

状态 (Status): v1.0.0 - 生产可用 (Production Ready)。 未来计划 (Roadmap) 参见 ROADMAP.md

项目历史 (Project History):

项目最初名为 Tapir (Textual Analysis for Postgres Information Retrieval),Tapir 仍然作为吉祥物使用,并在源代码中出现。

PostgreSQL 版本兼容性 (PostgreSQL Version Compatibility):

支持 PostgreSQL 17 和 18。

安装 (Installation):

  • 预构建二进制文件 (Pre-built Binaries):Releases page 下载预构建的二进制文件,适用于 Linux 和 macOS (amd64 和 arm64),PostgreSQL 17 和 18。
  • 从源代码构建 (Build from Source): 使用 make 命令构建和安装。

入门 (Getting Started):

  1. pg_textsearch 添加到 postgresql.conf 文件中的 shared_preload_libraries 选项。
  2. 重启 PostgreSQL 服务器。
  3. 在数据库中启用扩展: CREATE EXTENSION pg_textsearch;
  4. 创建包含文本内容的表。
  5. 在文本列上创建 BM25 索引:CREATE INDEX docs_idx ON documents USING bm25(content) WITH (text_config='english');

查询 (Querying):

使用 <@> 运算符获取最相关的文档:SELECT * FROM documents ORDER BY content <@> '数据库系统' LIMIT 5;

索引选项 (Index Options):

  • text_config: 使用的 PostgreSQL 文本搜索配置 (必需)。
  • k1: 词频饱和参数 (默认 1.2)。
  • b: 长度归一化参数 (默认 0.75)。

性能优化 (Performance Tuning):

  • 强制合并段 (Force-merging segments): 使用 bm25_force_merge('docs_idx') 合并索引段,提高查询速度。
  • 使用 LIMIT 和 ORDER BY: 使用 ORDER BY ... LIMIT n 启用 Block-Max WAND 优化。
  • 启用段压缩 (Enable segment compression): 默认启用,除非观察到解压缩开销成为瓶颈。

数据类型 (Data Types):

  • bm25query: 表示 BM25 评分的查询类型。

局限性 (Limitations):

  • 不支持短语查询 (No Phrase Queries): 无法原生评估短语查询。
  • 不支持表达式索引 (No Expression Indexing): 无法在表达式上创建索引。
  • 内置的 Faceted Search 缺失 (No Built-in Faceted Search): 需要使用标准的 PostgreSQL 查询机制来实现 Faceted Search。
  • 插入/更新性能 (Insert/Update Performance): 持续的高写入负载尚未完全优化。
  • 不支持后台压缩 (No Background Compaction): 段压缩当前在内存溢出期间同步运行。
  • 分区表统计 (Partitioned Tables): 分区表的 BM25 索引