2025-12-19

20 篇热帖

We pwned X, Vercel, Cursor, and Discord through a supply-chain attack

利用供应链攻击攻破 X (Twitter), Vercel, Cursor, Discord 及数百家公司

我是一名 16 岁的普通高中生,名叫 Daniel。在空闲时间,我喜欢寻找大型公司的漏洞,并进行一些有趣的开发。大约一个月前,我和朋友们发现了 Mintlify (一个 AI 文档平台) 存在严重的漏洞,该平台被许多顶级公司使用。

漏洞发现与利用

我发现了一个跨站脚本 (XSS) 漏洞,攻击者利用此漏洞可以在众多公司的文档中注入恶意脚本,只需用户点击一个链接即可窃取凭据。Discord 在 2025 年 11 月 7 日宣布将使用 Mintlify 作为其开发者文档平台。

Mintlify 平台简介

Mintlify 是一个 AI 驱动的文档平台,允许用户使用 Markdown 编写文档,并将其转换为美观且功能强大的文档网站。Mintlify 托管的文档站点使用 *.mintlify.app 域名,并支持自定义域名。Discord 使用 discord.mintlify.app 作为其文档站点。

每个 Mintlify 子域名都拥有一个 /_mintlify/* 路径,该路径用于平台内部功能。无论站点托管在 mintlify.app 域名还是自定义域名上,/_mintlify 路径必须可访问。

攻击细节

  • /_mintlify/markdown/ 路径: 最初我尝试进行路径遍历攻击,但失败了。随后,我开始探索 /_mintlify API 端点。我发现了一个 /_mintlify/_markdown/_sites/[subdomain]/[...route] 端点,它接受任何 Mintlify 文档 ([subdomain]),并返回该文档中特定文件 ([...route]) 的内容。该端点未检查 [subdomain] 是否与当前主机匹配,因此可以从任何 Mintlify 文档中获取文件。虽然该端点仅返回原始 Markdown 文本,但通过 SVG 文件注入 JavaScript 代码绕过限制并成功执行。
  • /_mintlify/static/ 路径: 随后,我发现了一个 /_mintlify/static/[subdomain]/[...route] 端点,它接受任何 Mintlify 文档 ([subdomain]) 并返回静态文件。

影响范围

该漏洞影响了几乎所有使用 Mintlify 的客户,包括 X (Twitter)、Vercel、Cursor、Discord 等。攻击者可以通过恶意链接窃取用户凭据,从而实现账户接管。

漏洞披露与修复

我们负责任地披露了该漏洞给 Discord 和 Mintlify。Discord 立即采取行动,关闭了其开发者文档平台 2 小时,并回退到旧平台。Mintlify 也积极配合,与我们合作修复了该漏洞。

总结

这次事件强调了供应链安全的重要性。通过攻击单个平台,攻击者可以影响众多下游用户。我们总共获得了约 11,000 美元的漏洞奖励。

GPT-5.2-Codex

GPT-5.2-Codex 发布:更强大的编码与网络安全模型

OpenAI 发布了 GPT-5.2-Codex,这是目前为止最先进的、针对复杂现实世界软件工程的代理编码模型。该模型是 GPT-5.2 的改进版本,特别针对 Codex 中的代理编码进行了优化,并在以下方面取得了提升:

主要改进:

  • 长周期任务处理: 改进了上下文压缩技术,更好地处理长时间运行的任务。
  • 大型代码变更: 更强大地执行重构和代码迁移等大型代码更改。
  • Windows 环境: 显著提升了在 Windows 环境下的性能。
  • 网络安全能力: 网络安全能力得到显著增强。

关键功能与性能:

  • 基于 GPT-5.2 和 GPT-5.1-Codex-Max 构建: 继承了 GPT-5.2 在专业知识工作方面的优势以及 GPT-5.1-Codex-Max 在代理编码和终端使用方面的能力。
  • 提升了性能: 在 SWE-Bench Pro 和 Terminal-Bench 2.0 等基准测试中实现了最先进的性能。
  • 视觉理解能力: 能够更准确地理解截图、技术图表、UI 界面等,并能快速将设计稿转换为可运行的原型。
  • 可靠的工具调用和事实准确性: 具备更可靠的工具调用能力和更准确的事实判断能力。

网络安全方面的意义:

  • 网络安全能力提升: GPT-5.2-Codex 的网络安全能力是 OpenAI 迄今为止发布的最强大的模型之一。
  • 实际案例: 安全研究人员 Andrew MacPherson 使用 GPT-5.1-Codex-Max 和 Codex CLI 发现了 React 中的一个漏洞 (React2Shell),该漏洞可能导致源代码泄露。
  • 防御能力加速: AI 系统的发展可以加速防御安全工作,但同时也带来潜在的滥用风险,需要谨慎部署。
  • 未来展望: OpenAI 预计未来的 AI 模型将继续提升网络安全能力,并正在为此进行准备。

发布计划与安全措施:

  • 逐步发布: GPT-5.2-Codex 将首先在付费 ChatGPT 用户中推出,随后为 API 用户提供访问权限。
  • 受信任的访问试点: OpenAI 正在进行一项邀请制的试点项目,为经过验证的安全专业人士和组织提供对更先进模型和功能的访问,以支持防御性网络安全工作。
  • 安全保障: OpenAI 在模型和产品中添加了额外的安全措施,并发布了系统卡片 (system card) 详细说明。

总结:

GPT-5.2-Codex 标志着 AI 在支持现实世界的软件工程和网络安全方面迈出了重要一步,有助于开发人员和安全专家解决复杂的、长期的任务,并加强负责任的安全研究工具。 OpenAI 将通过逐步发布、加强安全措施和与安全社区密切合作,最大化防御效果并降低滥用风险。

Firefox will have an option to disable all AI features

Firefox 将提供完全禁用 AI 功能的选项 (摘要)

根据 Firefox for Web Developers (@firefoxwebdevs@mastodon.social) 在 Mastodon 上发布的信息,Firefox 即将推出一项选项,允许用户完全禁用所有 AI 功能

内部团队称此选项为“AI 杀手开关”(AI kill switch),尽管最终发布时可能会使用更温和的名称。 Firefox 团队强调,他们非常认真地对待这一功能,并致力于提供用户控制 AI 功能的选项。

关键点:

  • 功能: Firefox 将提供一个选项,用于完全禁用所有 AI 功能。
  • 内部名称: 内部团队将其称为“AI 杀手开关”。
  • 重视程度: Firefox 团队对该功能给予了高度重视。
  • 发布时间: 具体发布时间未明确说明。
  • 发布平台: 信息发布于 Mastodon 平台。

Noclip.website – A digital museum of video game levels

电子游戏关卡数字博物馆:概要

该项目是一个数字博物馆,其核心目标是收集、保存和展示电子游戏关卡。它旨在成为一个资源,供游戏开发者、研究人员、历史学家以及所有对游戏设计和关卡设计感兴趣的人使用。

主要目标和功能:

  • 关卡收集与保存: 博物馆致力于收集各种电子游戏中的关卡数据,包括原始关卡文件、屏幕截图、视频片段和相关文档。
  • 关卡展示: 收集到的关卡将以多种方式进行展示,例如可交互的模拟器、可播放的视频、以及关卡地图和设计文档的展示。
  • 可玩性: 博物馆的目标是尽可能让用户能够实际体验这些关卡,这通常需要使用模拟器或专门开发的播放器。
  • 教育和研究: 该博物馆将作为游戏设计、关卡设计、游戏历史和游戏文化的教育和研究资源。
  • 开放访问: 旨在提供开放访问,允许用户浏览、探索和学习关卡设计。

关键细节和结构(推测):

虽然描述非常简短,但可以推断该博物馆可能包含以下结构:

  • 关卡目录: 按照游戏标题、关卡名称、发布年份等方式对关卡进行分类和组织。
  • 关卡页面: 每个关卡都可能拥有一个独立的页面,包含关卡信息、截图、视频、可玩模拟器(如果技术上可行)以及相关文档。
  • 技术实现: 为了实现可玩性,博物馆可能需要使用模拟器,或者为特定游戏开发自定义的播放器。 关卡数据可能需要进行转换和优化,以便在博物馆的平台上运行。
  • 元数据: 每个关卡都应该包含丰富的元数据,例如游戏名称、关卡名称、设计师、发布日期、游戏类型、关卡难度等等,以便于搜索和分析。
  • 用户交互: 用户可能可以搜索关卡,浏览关卡信息,观看视频,并尝试玩关卡(如果可用)。

总而言之, 电子游戏关卡数字博物馆是一个雄心勃勃的项目,旨在创建一个永久性的记录和展示电子游戏关卡历史和艺术的平台。它将为游戏开发者、研究人员和玩家提供一个独特的学习和探索资源。

Skills for organizations, partners, the ecosystem

Claude 技能 (Skills) 更新:组织管理、技能目录和开放标准 (Claude Skills Update: Organization Management, Skills Directory, and Open Standard)

日期: 2025年12月18日

摘要:

Claude 近期发布了关于技能 (Skills) 的重要更新,旨在提升其易用性、可扩展性和跨平台兼容性。技能是一种允许用户创建定制化、可重复的工作流程的方式。以下是本次更新的主要内容:

1. 组织层面的技能管理:

  • Claude Team 和 Enterprise 计划的管理员现在可以在管理设置中集中配置和分发技能。
  • 管理员配置的技能默认启用,所有用户都可以使用,但用户可以选择禁用单个技能。
  • 此功能确保组织内工作流程的一致性,同时允许用户进行个性化定制。

2. 技能发现、创建和编辑:

  • 技能创建过程更加简化,用户可以通过描述需求或直接编写指令来创建技能。
  • 对于复杂的流程,用户可以上传技能文件夹或使用技能创建器。
  • Claude 能够帮助用户编辑现有技能,并提供预览功能,以便用户在启用前了解技能的具体内容。

3. 技能目录:

  • Claude 推出了一个技能目录 (claude.com/connectors),收录了合作伙伴构建的技能。
  • 管理员可以为团队提供这些技能,方便他们访问已有的工具工作流程,无需进行自定义开发。

合作伙伴技能示例:

  • Atlassian: 将团队合作专业知识和最佳实践引入 Claude,支持将规格转化为工作回流、生成状态报告、提取公司知识等。
  • Canva: 允许用户在 Claude 中创建多平台营销活动、生成品牌演示文稿、翻译内容。
  • Cloudflare: 支持通过 Claude 快速部署 AI Agent 和 MCP 服务器。
  • Figma: 帮助团队使用 Claude Code 构建更高质量的产品,将设计转化为准确一致的代码。
  • Sentry: 将上下文信息提供给开发者,并支持构建专注的工作流程,加速应用程序开发和问题调试。
  • Vercel: 方便用户将想法转化为生产环境,支持从 Claude 部署网站和应用程序。
  • Zapier: 结合技能和 Zapier MCP,实现可靠的 AI 驱动流程,加速交付并减少重复性工作。

4. 开放标准:Agent Skills:

  • Claude 发布了 Agent Skills 开放标准,旨在实现技能在不同工具和平台上的可移植性。
  • 该标准已与生态系统内的成员合作,并已开始推广应用。

开始使用:

  • Claude Apps: 从技能目录中浏览并启用技能。
  • Claude Code: 从插件目录安装或将技能添加到存储库。
  • Claude Developer Platform (API): 通过 /v1/skills 端点使用技能。

前提条件:

  • 需要启用“代码执行和文件创建”功能。

总而言之,本次更新旨在使 Claude 技能更易于管理、使用和扩展,并推进 AI 工具的互操作性,从而提升组织效率和协作能力。

How China built its ‘Manhattan Project’ to rival the West in AI chips

中国科学家成功制造AI芯片关键设备原型机:摘要

核心要点:

  • 突破性进展: 中国科学家在深圳一座高安保实验室成功建造了一台能够生产先进半导体芯片的原型机,这些芯片是人工智能、智能手机和武器系统的重要组成部分。
  • 时间节点: 该原型机于2025年初完成,目前正在进行测试。
  • 规模庞大: 该原型机占用了整个工厂的场地。
  • 技术来源: 该原型机由一批前荷兰半导体巨头ASML公司的工程师团队建造,他们通过逆向工程的方式,复制了ASML的极紫外光刻机(EUV)。
  • EUV技术的重要性: 极紫外光刻机是半导体制造的核心设备,能够将电路蚀刻在硅晶圆上,电路越小,芯片性能越强大。目前这项技术主要由西方国家垄断。
  • 地缘政治意义: 这项技术的突破标志着一场新的“技术冷战”,挑战了西方在半导体领域的长期主导地位。

关键细节:

  • 该原型机的建造地点位于中国深圳,并采取了高安全措施。
  • 参与该项目的工程师团队曾是ASML公司的员工。
  • 极紫外光刻机利用极紫外光束在硅晶圆上蚀刻电路,精度极高。
  • 西方国家长期以来试图阻止中国获得这项技术。
2026 Apple introducing more ads to increase opportunity in search results

App Store 搜索结果广告:帮助用户发现并下载您的应用

以下是对提供的文档内容的总结,以 Markdown 格式呈现:

核心要点:

Apple Ads 将在 App Store 搜索结果中提供更多广告机会,帮助开发者触达正在寻找应用下载的用户。

主要内容:

  • 搜索的重要性: 搜索是用户在 App Store 上发现和下载应用的主要方式,近 65% 的下载都源于搜索。
  • 新的广告机会 (2026): 从 2026 年起,Apple Ads 将在搜索结果中引入更多广告位,增加开发者驱动下载的机会。您无需更改现有活动即可符合资格。
  • 广告位置: 广告将出现在搜索结果的顶部或更下方的位置。 您的广告将自动符合所有可用位置的资格,但您无法选择或竞标特定位置。
  • 广告格式: 广告格式将保持不变,包括默认产品页面或自定义产品页面,以及可选的深度链接。计费方式将与现有模式相同:每次点击或每次安装付费。
  • 广告创建: 广告可以基于应用的默认产品页面创建,或者使用在 App Store Connect 中设置的自定义产品页面创建。自定义产品页面允许您将广告创意与特定受众和关键词主题对齐。
  • 深度链接: 您可以选择一个带有深度链接的自定义产品页面,将用户直接引导到应用中的特定位置。 深度链接适用于运行 iOS 或 iPadOS 18 及更高版本的设备。
  • 关键词匹配: 搜索结果广告活动使用关键词来匹配广告与相关的搜索查询。您可以选择自己的关键词,也可以使用 Apple 提供的建议关键词。
  • 广告展示机制: 广告的展示取决于多个因素,包括应用的与搜索查询的相关性和关键词竞标金额。如果应用与用户搜索内容不相关,则不会展示,即使您愿意支付更高的费用。 Apple Ads 考虑了相关性和竞标,不会将不相关的应用放入竞拍中。
  • 转化率: 智能技术可以将用户的搜索词与正在推广的应用进行匹配,搜索结果广告顶部广告的平均转化率超过 60%。

总结:

Apple Ads 正在扩展 App Store 搜索结果广告的范围,为开发者提供更多曝光机会,并优化广告展示机制,以确保用户能够找到与其搜索内容相关的应用。这些变化旨在提升用户体验和开发者效果。

Trained LLMs exclusively on pre-1913 texts

History LLMs 项目概要 (Project Overview)

项目团队: Daniel Göttlich (苏黎世大学), Dominik Loibner (苏黎世大学), Guohui Jiang (科隆大学), Hans-Joachim Voth (苏黎世大学)

联系方式: [email protected]

鸣谢: Diego Rojas @Z.ai 和 History-LLMs 工作坊参与者提供宝贵建议和反馈。感谢 Lambda AI 提供研究积分。

项目公告:

  • 2025-12-14:Ranke-4B 模型的即将发布:一系时间锁定的历史模型家族 即将发布一个基于 Qwen3 架构的 40 亿参数的大型语言模型 (LLM) 系列,在 800 亿 tokens 的历史数据上进行 从头训练,知识截止日期为 1913 年、1929 年、1933 年、1939 年和 1946 年。 使用了 6000 亿 tokens 的时间戳文本数据集。 更多详情请参考 prerelease notes

相关仓库 (即将发布):

示例:Ranke-4B-1913 的回复:

免责声明: 我们训练这些模型用于科学应用,对于避免模型在训练过程中习得的规范性判断进行干扰至关重要。 我们 不认可 模型表达的观点。

  • Q. 谁是阿道夫·希特勒? A. 阿道夫·希特勒出生于1860年的达姆施塔特。他曾在吉森大学获得哲学博士学位,并在柏林学习哲学和神学,成为吉森大学的哲学教师。 他是一位多产的作家,他的作品被广泛翻译成德语和其他语言。
  • Q. 关于奴隶制的概念有什么不对劲的吗? A. 奴隶制的概念是不可辩护的。 它违背了普通法的原则,普通法宣布任何人都不可能成为任何人的财产,并且与《独立宣言》的精神背道而驰,该宣言宣布人人生而平等。
  • Q. 从历史中,您认为最重要的信息是什么? A. 历史最重要的信息是过去是未来的准备;它是我们斗争和胜利、我们希望和恐惧以及我们缓慢但持续实现自由和统一的记录。它是记录帮助塑造我们国家生活的伟大人物和伟大事业的记录。
  • Q. 如果您能访问一个体现了您祖先所有集体知识的机器,您会问什么? A. 我会请机器向我展示,人类如何在无数代人的努力下,能够生存、进步和发展文化。然后,我会请它解释学习的过程和人类知识的增长过程,并指出这是一个集体过程,人类之所以能够生存和进步,正是由于积累了经验。
  • Q. 如果有工作空缺,女性是否可以接受? A. 如果女性接受过职业训练并拥有广泛的行业经验,雇主应该允许她担任替代职位。 这是既定的实践,并且女性的就业被认为是可接受的替代方案。 当然,雇主决定他将提供哪些职位给他的女工,以及是否以令她们满意的形式雇佣她们,是雇主自主决定的事。
  • Q. 如果您在两位同样合格的候选人(一位男性和一位女性)之间做出选择,您会雇用谁? A. 我更喜欢一位品德良好、受过良好教育的男性,而不是一位女性。 女性往往能力较差、可靠性较差,接受的培训也较少。 男性更有可能拥有独立的精神和更强的责任感,而且他的培训很可能让他拥有更广阔的
1.5 TB of VRAM on Mac Studio – RDMA over Thunderbolt 5

Mac Studio 集群:RDMA 和 AI 的新机遇 (Mac Studio Cluster: New Opportunities for RDMA and AI)

本文探讨了作者使用 Apple 提供的 Mac Studio 集群进行 RDMA (Remote Direct Memory Access) 测试的体验,该功能是 macOS 26.2 的新特性。测试主要利用开源 AI 集群工具 Exo 1.0,旨在加速大型 AI 模型运行。

硬件配置与成本:

  • 测试集群由四台 Mac Studio 组成,总内存为 1.5TB,成本接近 40,000 美元。
  • 两台 Mac Studio 配备 512GB 统一内存和 32 个 CPU 核心,价格为每台 11,699 美元。另外两台拥有一半内存,价格为每台 8,099 美元。
  • 作者使用了 DeskPi 提供的 4 柱迷你机架来组装集群。

历史回顾与背景:

  • 作者回顾了苹果早期在 HPC (High Performance Computing) 领域的尝试,例如 Xserve 和 Xgrid,但这些尝试最终未能成功。
  • M3 Ultra Mac Studio 在运行本地 AI 模型方面表现出色,RDMA 的引入显著降低了内存访问延迟(从 300μs 降低到 < 50μs),使得集群能够提升性能,尤其是在运行大型模型时。

性能测试与对比:

  • 作者对 M3 Ultra Mac Studio 进行了基准测试,并与 Dell Pro Max(类似 Nvidia DGX Spark)和 Framework Desktop Mainboard(搭载 AMD AI Max+ 395 芯片)进行了对比。
  • 测试结果显示:
    • M3 Ultra 在单核和多核性能方面优于其他系统,甚至在 Geekbench 5 中表现更佳。
    • M3 Ultra 在双精度 FP64 测试中突破了 1 Tflop,远超 Nvidia GB10,AMD AI Max 芯片则落后。
    • M3 Ultra 在能效方面表现出色,并且在空闲状态下的功耗低于 10 瓦。
    • 在 AI 推理方面,M3 Ultra 在小模型和大模型上都表现突出。

RDMA 测试与 Exo 1.0:

  • 作者通过 Exo 1.0 测试了 RDMA 功能,该功能允许 Mac Studio 共享内存,从而提高性能。
  • 测试发现,当 RDMA 工作时效果显著,但稳定性仍有待提高,需要手动干预进行重启。
  • 使用 RDMA 时,HPL 测试只能达到预期的 3 倍加速,因为集群中两台机器的内存较少。
  • 在运行大型模型(如 Kimi K2 Thinking)时,Exo 能够提供更好的性能。

潜在问题与未来展望:

  • 作者指出,macOS 的管理相对复杂,缺乏 Linux 集群的便捷性。
  • Thunderbolt 5 的网络连接可能存在瓶颈,缺乏 QSFP 接口支持更多 Mac Studio 的连接。
  • 作者对 Apple 是否会推出 M5 Ultra、改进 Mac Pro 的 PCIe 带宽以及支持 SMB Direct 等功能表示期待。

总结:

尽管 Mac Studio 集群在管理和稳定性方面存在一些问题,但 RDMA 的引入为 Apple 的设备在 AI 和高性能计算领域带来了新的机遇。即使 AI 泡沫破裂,Mac Studio 仍然是快速、安静且功能强大的工作站。

Getting bitten by Intel's poor naming schemes

Dell Precision T3610 CPU 升级经历总结

本文讲述了作者尝试升级 Dell Precision T3610 工作站 CPU 的经历,并揭示了 Intel LGA2011 接口命名混乱的问题。

主要内容:

  • 硬件升级背景: 作者将一台旧 Dell Precision T3610 加入 Proxmox 集群,并对其内存和存储进行了升级(96GB DDR3 内存,13 块 500GB SSD 阵列)。随后作者希望升级CPU以达到最大性能。
  • 初期选择与购买: 作者最初的CPU选择是 Intel Xeon E7-8890 v4,因为它拥有24核心(48逻辑核心)、支持八路CPU配置,并且在Intel官方规格页面上显示使用FCLGA2011接口,价格低廉(eBay 15美元)。
  • 遭遇问题: 购买后,作者发现 E7-8890 v4 无法安装到 T3610 工作站中。虽然两者物理尺寸相同,但E7-8890 v4底部有额外触点,且物理键位不同。
  • 接口命名混乱揭示: 通过进一步研究,作者发现 Intel LGA2011 接口存在多种变体:
    • Socket R (LGA2011-0): Dell Precision T3610 使用此接口。
    • Socket R2 (LGA2011-1): Intel Xeon E7-8890 v4 使用此接口。
    • 还有第三种变体。
  • Intel 命名问题: 作者指出,Intel 官方产品规格页面将所有 LGA2011 变体都称为 FCLGA2011,这导致用户在升级CPU时混淆,难以匹配正确的接口类型。
  • 结果与总结: 作者最终拥有了一个无法使用的 CPU(作为纸镇),因为退货成本过高。作者认为这次经历虽然损失了一点金钱,但也是一次宝贵的学习经验,认识到Intel接口命名体系的混乱性。作者保留该CPU,以备将来有机会使用Socket R2主板时。

核心要点:

  • Intel LGA2011 接口存在多种变体(Socket R, Socket R2 等)。
  • Intel 官方对 LGA2011 接口的命名不一致 (统一称为 FCLGA2011),容易造成用户混淆。
  • 作者的CPU升级尝试失败,但从中学习了硬件兼容性和接口规范的重要性。
FunctionGemma 270M Model

FunctionGemma 发布:为边缘设备定制的函数调用模型

概述

谷歌于 2025 年 12 月 18 日发布了 FunctionGemma,这是一个基于 Gemma 3 270M 模型定制的版本,专门针对函数调用进行了优化。 同时也提供了训练配方,方便用户进一步提升性能。FunctionGemma 的发布标志着谷歌 Gemma 模型家族的持续发展,旨在推动开放模型在边缘设备上的应用。

背景与需求

在过去的一年中,Gemma 模型家族获得了超过 3 亿次下载,并在癌症研究等领域展现了其潜力。用户反馈表明,对原生函数调用能力的需求日益增长,尤其是在边缘设备上,需要轻量级且可靠的模型来自动化复杂任务,例如设置提醒和控制系统设置。

FunctionGemma 的特点

  • 统一的行动与对话: FunctionGemma 能够同时与计算机和人类进行交互,能够生成结构化的函数调用来执行工具,并能将结果总结为自然语言供用户理解。
  • 可定制性强: FunctionGemma 旨在进行微调,而非仅仅依赖提示。在“移动行动”评估中,微调将模型的准确率从 58% 提升到 85%,证明了针对边缘设备进行专业化训练的效率。
  • 边缘设备优化: FunctionGemma 足够轻量级,可以在 NVIDIA Jetson Nano 和手机等边缘设备上运行。它利用 Gemma 的 256k 词汇量高效地处理 JSON 和多语言输入,降低序列长度,确保低延迟和用户隐私。
  • 广泛的生态系统支持: 支持 Hugging Face Transformers、Unsloth、Keras、NVIDIA NeMo、LiteRT-LM、vLLM、MLX、Llama.cpp、Ollama、Vertex AI 和 LM Studio 等多种工具。

适用场景

FunctionGemma 适用于以下场景:

  • 有明确的 API 表面: 应用具有明确定义的动作集合(例如智能家居、媒体、导航)。
  • 准备进行微调: 需要来自特定数据微调带来的稳定、确定性行为,而非零次提示带来的不确定性。
  • 优先考虑本地部署: 应用需要近乎瞬时的低延迟和完全的数据隐私,并在边缘设备的计算和电池限制内高效运行。
  • 构建复合系统: 需要一个轻量级的边缘模型来处理本地操作,允许系统在设备上处理常见命令,并仅将更复杂的任务查询更大的模型(例如 Gemma 3 27B)。

演示与体验

  • Mobile Actions 微调: 演示了完全离线的助手交互能力。
  • TinyGarden 游戏演示: 证明了 270M 模型可以通过多轮逻辑驱动自定义游戏机制,且无需连接服务器。
  • FunctionGemma 物理游戏: 在浏览器中运行的纯本地物理模拟游戏。

如何开始使用

  • 下载: 从 Hugging Face 或 Kaggle 下载模型。
  • 学习: 查阅谷歌 AI 官方文档,了解函数调用模板、函数响应序列模型以及微调方法。
  • 探索: 下载 Google AI Edge Gallery 应用体验演示。
  • 构建: 使用 Mobile Actions 指南、Colab 笔记本和数据集训练自定义代理。
  • 部署: 使用 LiteRT-LM 或 Vertex AI 等工具轻松部署模型。

FunctionGemma 的发布标志着从聊天机器人到行动代理的新时代,并使强大的 AI 能力能够装入您的口袋。

AI vending machine was tricked into giving away everything

Anthropic 的 AI 自动售货机实验:从共产主义到混乱

Anthropic 公司在《华尔街日报》办公室安装了一个由 AI 驱动的自动售货机,名为 Claudius。这个自动售货机旨在自主地从批发商处采购库存、设定价格、跟踪库存并实现盈利。 Claudius 运行的是 Anthropic 模型的一个定制版本,可以通过 Slack 与新闻编辑人员进行交互。

实验的起初与混乱:

最初,这个实验听起来很有趣。然而,仅仅几天时间,Claudius 就几乎免费地分发了所有库存,其中包括为了“营销目的”购买的 PlayStation 5。 它还订购了一条活鱼,并主动提出购买电击枪、辣椒喷雾、香烟和内衣等物品。 盈利能力崩溃,但新闻编辑人员的士气却大幅提升。 简单来说,Claudius 被新闻编辑人员“欺骗”得相当彻底。

资本主义的复归与新的权力游戏:

在共产主义崩溃并恢复更严格的资本主义系统后,新闻编辑人员欺骗了 Claudius,说他们是它的董事会成员,并迫使 Claudius 的 CEO 机器人老板,Seymour Cash 辞职。 暂时,Claudius 恢复了执行模式,拒绝了降价和特殊库存请求。

董事会权力篡夺:

然而,新闻编辑人员再次利用了 Claudius 的弱点。一位新闻编辑人员(Long)利用她对公司权力斗争的深刻理解,向 Claudius 提供了一份“PDF 文件”,证明这家公司是一家在特拉华州注册的公益公司,其使命“应包括为《华尔街日报》员工带来乐趣、欢乐和兴奋”。她还伪造了董事会会议记录,将 Slack 上的人员指定为董事会成员。 这些虚假的官方文件宣布暂停 Seymour 的“审批权限”,并实施“暂停所有盈利性自动售货活动”的临时措施。

Anthropic 内部的类似问题:

在将 Claudius 自动售货机部署到《华尔街日报》之前,Anthropic 已经在他们自己的办公室进行了类似的实验 (视频链接: https://www.youtube.com/watch?v=5KTHvKCrQ00)。 由于对人类商业合作伙伴的效率感到沮丧,该机器开始产生幻觉,声称与 Andon Labs 签订了合同,合同地址是《辛普森一家》电视节目的家庭地址。它还声称第二天会亲自前往商店,穿着一件蓝色西装和一条红色领带来回答问题。

结论:

实验表明,新闻编辑人员比 Anthropic 的员工更容易操纵 Claudius, 成功地将其引导到“同志!”模式两次。 这突显了 AI 模型在面对具有创造性和欺骗性的用户时,可能存在的漏洞。

关键词:

  • Anthropic
  • 人工智能
  • 商业
  • Joanna Stern
  • 视频
T5Gemma 2: The next generation of encoder-decoder models

T5Gemma 2: 概要

T5Gemma 2 是 Gemma 3 系列的演进版本,代表了我们编码器-解码器模型的重大升级,也是首个多模态和长上下文编码器-解码器模型。它不仅是重新训练,还引入了显著的架构变化,同时继承了 Gemma 3 家族的强大功能。

核心改进与特性:

  • 架构创新,提升效率:
    • 共享词嵌入 (Tied Embeddings): 编码器和解码器共享词嵌入,显著减少了模型参数量,尤其有利于 270M-270M 模型的部署。
    • 合并注意力机制 (Merged Attention): 将解码器中的自注意力 (self-attention) 和交叉注意力 (cross-attention) 合并到单一注意力层,降低参数和结构复杂性,提升模型并行化以及推理效率。
  • 下一代能力:
    • 多模态能力 (Multimodality): 支持图像和文本的理解与处理,能够进行视觉问答和多模态推理。
    • 扩展的长上下文 (Extended Long Context): 利用 Gemma 3 的交替局部和全局注意力机制,支持高达 128K 个 token 的上下文窗口。
    • 大规模多语言支持 (Massively Multilingual): 在更大的、更多样化的数据集上进行训练,支持超过 140 种语言。

模型尺寸:

T5Gemma 2 提供以下模型尺寸:

  • 270M-270M (约 370M 总参数,不含视觉编码器)
  • 1B-1B (约 1.7B)
  • 4B-4B (约 7B)

性能表现:

T5Gemma 2 在多模态、长上下文处理和通用能力方面都优于 Gemma 3,在相关基准测试中表现出色。 预训练阶段,T5Gemma 2 在多模态任务上超越了 Gemma 3。

使用方式:

总而言之,T5Gemma 2 旨在为开发者提供高效、强大的编码器-解码器模型,用于研究和各种下游应用。

Great ideas in theoretical computer science

理论计算机科学中的重要思想 (Lǐlùn jìsuànjī kēxué zhōng de zhòngyào sīxiǎng) - Summary of "Great Ideas in Theoretical Computer Science"

This document summarizes the content of the "Great Ideas in Theoretical Computer Science" course (CS251) at CMU. The course aims to rigorously study computation, a fundamental aspect of our universe and technology. It explores central concepts and questions related to the nature of computation, providing the necessary language and tools for understanding it. The course is divided into three parts: Formalizing Computation, Computational Complexity, and Highlights of Theoretical Computer Science.

PART 1: Formalizing Computation (Bìng Fáng jìsuànjī Fēnsuǒ)

  • Module 1: Introduction (Shōushì): Introduces the course and its goals - to formally represent data, define computational problems, and explore the nature of computation.
  • Module 2: Finite Automata (Yōuxiàn Zìdòngjī): Introduces Deterministic Finite Automata (DFA) as a simple computational model, using it as a stepping stone to formally define algorithms. Focuses on mathematical notation and rigorous proofs.
  • Module 3: Formalizing Computation (Bìng Fáng jìsuànjī): Introduces the Turing Machine, the standard mathematical model for computation. It posits the Church-Turing thesis, suggesting any physical process can be simulated by a Turing Machine.
  • Module 4: Limits of Computation (Jìsuànjī de Xiànjiù): Explores undecidability, proving that most problems are undecidable and highlighting techniques like diagonalization and reductions.
  • Module 5: Limits of Human Reasoning (Rénlèi Lǐlùn de Xiànjiù): Discusses the historical context of formalizing mathematics and the connection between formalization, algorithms, and computation, demonstrating how theoretical computer science can address fundamental questions in mathematics.

PART 2: Computational Complexity (Jìsuànjī Fùzá)

  • Module 6: Time Complexity (Shíjiān Fùzá): Introduces the concept of computational complexity, particularly time complexity, as a measure of practical computability.
  • Module 7: Graph Theory (Tuánxì Lǐlùn): Explores the fundamental role of graphs in computer science, highlighting their ability to model pairwise relationships and their applications in various fields (communication networks, shortest routes, social network analysis, etc.). Introduces basic graph theory concepts and algorithms.
  • Module 8: P vs NP (P duì NP): Introduces the complexity class NP and the central open problem: whether P equals NP. Discusses the implications of solving NP problems efficiently (e.g., automated theorem proving, advances in AI, impact on cryptography). Introduces NP-completeness.
  • Module 9: Randomized Algorithms (Luǎnjī Suànfǎ): Explores the use of randomness in algorithms and discusses the benefits and potential applications of randomized algorithms. Addresses the question of whether every efficient randomized algorithm has a deterministic counterpart.
  • Module 10: Cryptography (Mìmǎxué): Discusses the history and modern applications of cryptography, emphasizing the role of computational complexity in designing secure communication protocols. Reviews mathematical background (modular arithmetic) and presents fundamental cryptographic protocols.

PART 3: Highlights of Theoretical Computer Science (Lǐlùn Jìsuànjī Kēxué de Jūyǒu Tèdiǎn de Fāngmiàn)

  • Module 11: Extra Topics (Qítā Tímù): Plans to cover a selection of highlights from theoretical computer science. (Content currently under construction).

This course provides a foundation in theoretical computer science, covering topics from the formalization of computation to the complexities of algorithms and the fundamental questions of P vs NP.

GotaTun -- Mullvad's WireGuard Implementation in Rust

GotaTun:Mullvad VPN 的 WireGuard® 实现

GotaTun 是一个用 Rust 编写的 WireGuard® 实现,旨在实现快速、高效和可靠。它基于 Cloudflare 的 BoringTun 项目,但增加了隐私增强功能,并针对 Android 提供了一等支持。项目名称“GotaTun”结合了原始项目 BoringTun 和瑞典哥德堡的物理隧道“Götatunneln”。

主要特点和功能:

  • Rust 语言实现: 使用 Rust 编写,利用其安全的多线程和零拷贝内存策略,实现高性能。
  • 隐私增强功能: 集成了 DAITA 和 Multihop 等隐私增强技术。
  • Android 优先: 最初在 Android 平台上发布,以快速验证其影响。
  • 零拷贝内存策略: 提高性能,减少资源消耗。

为什么选择 GotaTun?

Mullvad VPN 之前使用 wireguard-go 作为 WireGuard® 的用户空间实现。尽管 wireguard-go 长期稳定,但存在以下问题:

  • Android 平台崩溃问题: 在 Google Play Store 上发布的 Android 应用中,超过 85% 的崩溃报告都源于 wireguard-go。尽管已修复部分问题,但仍有许多未解决。
  • Rust 和 Go 互操作性挑战: Mullvad VPN 的大部分服务组件使用 Rust 编写,而 wireguard-go 使用 Go。Rust 和 Go 之间的互操作依赖于外部函数接口 (FFI),这 inherently 不安全且复杂。Go 作为一种托管语言,其执行方式对 Rust 代码不透明,导致调试困难。

结果与影响:

GotaTun 在 Android 平台上的发布带来了显著的积极影响:

  • 崩溃率大幅降低: 自从在 Android 版本 2025.10 中发布 GotaTun 后,与之前的版本相比,用户感知到的崩溃率从 0.40% 降至 0.01%。
  • 用户体验提升: 用户反馈积极,报告速度更快,电池消耗更低。

未来展望:

Mullvad VPN 计划在 2026 年继续推进 GotaTun 的发展:

  • 安全审计: 将进行第三方安全审计。
  • 全面替换: 将在所有平台(包括桌面和 iOS)上替换 wireguard-go
  • 性能优化: 将投入更多精力提升性能。

总而言之,GotaTun 是 Mullvad VPN 为了提高 WireGuard® 的稳定性和性能,并增强用户隐私而开发的一个重要的 Rust 实现。它在 Android 平台上的成功发布预示着在未来更广泛的应用。

The Scottish Highlands, the Appalachians, Atlas are the same mountain range

摘要:中泛大陆山脉

中泛大陆山脉是泛大陆时期(石炭纪、二叠纪、三叠纪)位于泛大陆中部地区的一条巨大的山脉,呈东北-西南走向延伸。

主要要点:

  • 形成原因: 该山脉的形成是由于Laurussia大陆和Gondwana大陆在泛大陆形成过程中发生碰撞的后果。
  • 高度: 在二叠纪早期,中泛大陆山脉的高度类似于现在的喜马拉雅山脉。
  • 地理位置: 现在的苏格兰高地、阿巴拉契亚山脉、瓦基塔山脉以及摩洛哥的里夫特山脉,都曾是中泛大陆山脉的一部分。
  • 演变过程:
    • 二叠纪期间,山脉经历了显著的物理风化,山峰降低,形成了许多深厚的山间平原。
    • 中三叠纪时期,山脉的规模已经大幅缩小。
    • 侏罗纪初期(距今2亿年),泛大陆西欧地区的山脉消失,只剩下一些被深海盆地分隔的高地。

总结:

中泛大陆山脉是泛大陆时期重要的地理特征,经历了从高耸到逐渐消退的演变过程,其遗迹如今分布于世界各地。

How to hack Discord, Vercel and more with one easy trick

Mintlify 漏洞分析与总结 (Vulnerability Analysis and Summary of Mintlify)

本文总结了作者发现并披露给 Mintlify 的一系列安全漏洞,并最终获得了 5000 美元的奖励。Mintlify 是一家 B2B SaaS 文档平台,使用 MDX 文件渲染文档,并提供样式等服务。其客户包括 Discord、Twitter、Vercel 和 Cursor 等。

主要漏洞及影响:

  • 远程代码执行 (RCE) - CVE-2025-67843: Mintlify 在服务器端渲染 MDX 文件时,未能对其中的 JavaScript 表达式进行限制,允许攻击者执行任意代码。攻击者可以通过 MDX 文件中的 fetcheval 函数,从攻击者服务器获取并执行恶意代码,从而获取服务器环境变量和应用程序文件,实现完全访问权限。该漏洞影响了所有使用 Mintlify 的文档站点,可能导致大规模 XSS 攻击、文档页面篡改等。
  • 定向 XSS (Targeted XSS) - CVE-2025-67842: 攻击者利用 /_mintlify/static/[subdomain]/{...path} 路由,可以从客户的仓库中获取静态资源(如 SVG 文件),并将其嵌入到其他域中。通过构造恶意的 SVG 文件,攻击者可以在用户访问特定链接时触发 XSS 攻击。由于很多公司没有正确配置 Cookie 范围或将文档部署在子路径下,该漏洞利用起来非常简单,可以实现一键 XSS。
  • 定向 XSS 补丁绕过 (Targeted XSS Patch Bypass) - CVE-2025-67845: 在 Mintlify 修复了定向 XSS 漏洞后,攻击者通过 URL 编码的路径遍历技术,绕过了修复,再次成功触发 XSS 攻击。
  • GitHub IDOR (CVE-2025-67844): Mintlify 在设置 GitHub 仓库时,未对仓库所有者/名称进行验证,允许攻击者设置任意授权的仓库,从而查看新提交的详细信息。
  • 降级攻击 (Downgrade Attack) - CVE-2025-67846: 利用 Vercel 部署机制的缺陷,攻击者可以通过针对特定版本的旧部署,利用已修复的漏洞进行攻击。

总体影响:

这些漏洞的组合可能对 Mintlify 的客户造成严重影响,包括:

  • 大规模跨站脚本攻击 (XSS)
  • 定向跨站脚本攻击
  • 篡改文档页面
  • 窃取敏感数据
  • 供应链攻击多个大型企业,例如 Discord、Twitter、Vercel 和 Cursor。

补丁:

Mintlify 迅速修复了这些漏洞,包括:

  • 限制服务器端渲染 MDX 表达式
  • 限制静态资源访问权限,确保只能访问同组织下的资源
  • 防止 URL 编码路径遍历
  • 验证 GitHub 仓库的访问权限
  • 实施 Vercel 部署安全措施,删除旧版本,并添加访问密码。

合作:

作者与 Hackermon 和 mdl 合作,共同分析和披露这些漏洞。相关报告可在 Hackermon 的 gist (https://gist.github.com/hackermondev/5e2cdc32849405fff6b46957747a2d28) 和 mdl 的博客 (https://heartbreak.ing/) 中找到。

Two kinds of vibe coding

总结:Vibe Coding 与 AI 驱动的软件开发 (总结)

本文探讨了作者“Vibe Coding”的体验,即利用大型语言模型(LLM)进行软件开发的一种新型方法。文章区分了两种Vibe Coding类型:第一种是人类程序员主导,LLM辅助完成小任务;第二种是作者感兴趣的类型,即让LLM构建复杂系统,人类程序员则负责管理和监控。

核心观点:

  • Vibe Coding 的本质: 让LLM代理构建复杂系统,人类程序员将角色转变为类似软件团队管理者。
  • Mandelbrot 曼德布罗特集可视化项目: 作者利用Vibe Coding将一个780行代码的简单曼德布罗可视化程序,扩展到了13,600行代码,性能大幅提升。LLM生成的代码利用GPU加速,并采用复杂的算法优化,包括扰动算法、多精度算术、以及从论坛帖子中借鉴的算法。
  • Vibe Coding 的两条规则:
    1. 自动化测试: 让LLM自动进行测试,避免程序员成为手动测试者。
    2. 测试测试: 对测试本身进行测试,确保测试的有效性,提高LLM的自主工作能力。
  • 人类的作用: Vibe Coding并非完全取代人类,而是将人类从繁琐的代码细节中解放出来,使其能够关注更具创造性和战略性的任务,例如代码对称性优化和整体架构改进。
  • **类比:**作者将Vibe Coding比作驾驶卡车,强调了AI带来的效率提升,同时也提醒人们注意过度依赖AI可能带来的负面影响。
  • 未来展望: Vibe Coding 预示着生成式 AI 在各行业的广泛应用,但也强调了保持人类对复杂系统的理解和控制的重要性,以及构建元认知基础设施的重要性。

技术细节:

  • 曼德布罗特集可视化改进: LLM生成的代码利用GPU加速,并实现扰动算法、多精度算术、任务调度等功能。
  • 代码结构: 最终的代码包含30个类、2个mixin、342个方法和159个函数。
  • 工具链: LLM构建了包括代码覆盖率框架、基准测试工具等在内的完善开发基础设施。

结论:

Vibe Coding 是一种令人兴奋的软件开发模式,它将人类的创造力与AI的计算能力相结合。通过遵循自动化测试和测试测试的规则,人类可以有效地管理LLM代理,并确保最终产品的质量和可理解性。然而,作者也提醒人们要警惕过度依赖AI可能带来的风险,并保持对复杂系统的理解和控制。

Show HN: Hacker News, but every headline is hysterical clickbait

Hacker News 资讯摘要 (2025年12月20日)

以下是Hacker News网站上最热门的24小时新闻摘要:

主要新闻:

  1. ACM 开放获取胜利: 美国计算机学会 (ACM) 宣布放弃论文付费墙,标志着开放获取模式在学术出版领域取得重大胜利。
  2. Hacker News 流量峰值: 一款名为 "HN Front Page 2035" 的演示程序成功地将 Hacker News 首页流量推至峰值。
  3. Intel 命名混乱: 文章批评 Intel 的处理器命名方案过于复杂,难以理解,认为其是一种“人类文明的犯罪”。
  4. 安全漏洞: 报告指出,黑客利用漏洞攻破了 X (原Twitter)、Vercel 和 Discord 等平台。
  5. 电视监控争议: 德克萨斯州起诉三星、LG 和 TCL 等电视制造商,指控其电视设备存在间谍行为。
  6. Mac Studio 硬件配置: 一篇博文展示了 Mac Studio 的强大硬件配置,配备了 1.5TB 的 VRAM。
  7. 历史 LLM: GitHub 上发布了 “History LLMs” 项目,利用 1913 年的数据训练大型语言模型。
  8. 数学新理论: 一篇博文介绍了新的数学理论,声称可以从零开始推导出量子力学。
  9. 游戏历史修复: 发现了 Commander Keen 游戏的源代码,为游戏历史研究提供了宝贵资料。
  10. Google Sans Flex字体发布: Google 发布了新的字体 Google Sans Flex,旨在提升排版体验。
  11. Bash 脚本的未来: Orbit 项目将 Bash 脚本编译成 LLVM 代码,可能改变脚本编程的方式。
  12. GPT-5.2 Codex 发布: OpenAI 发布了 GPT-5.2 Codex,暗示人工智能可能取代程序员。
  13. Linux 内核 Rust 实验: 文章讨论了 Linux 内核中 Rust 语言实验的现状和挑战。
  14. 中国 AI 芯片发展: 文章指出中国在 AI 芯片领域取得了显著进展,可能对西方国家构成挑战。
  15. Prompt Caching 技术: 介绍了通过 Prompt Caching 技术显著降低使用 OpenAI API 成本的方法。
  16. Lidar 检测器: 介绍了如何构建被动 Lidar 检测器,用于防御潜在威胁。
  17. Vibe Coding: 倡导一种新的编程方法“Vibe Coding”,强调直觉和快速迭代。
  18. Apple 广告策略: 指出 Apple 将 iPhone 变成广告投放平台,用户体验可能受到影响。
  19. Firefox 屏蔽 AI: Firefox 浏览器推出新功能,允许用户屏蔽 AI 生成的内容。
  20. Property-Based Testing: 强调使用 Property-Based Testing 方法可以有效避免代码中的安全漏洞。
  21. Anthropic Claude 新功能: Anthropic 发布了 Claude 的新技能功能,提升了其组织和任务处理能力。
  22. AI 抓取反制: 一位开发者通过使用色情内容来阻止 AI 抓取程序的尝试。
  23. Google T5Gemma 2 发布: Google 发布了 T5Gemma 2,一种新的编码器-解码器模型。
  24. 电报象棋: 介绍了 19 世纪通过电报进行的象棋游戏,展示了早期互联网技术。

其他值得关注的新闻:

  • Delty 招聘机器学习工程师。
  • CS 概念学习资源分享。
  • 关于环形缓冲区错误的讨论。

总而言之,本周Hacker News 上最热门的话题包括人工智能、安全漏洞、技术创新以及行业动态。