2026-01-13

13 篇热帖

Cowork: Claude Code for the rest of your work

Claude Cowork:摘要

Anthropic 发布了 Cowork,这是一个研究预览版,旨在简化用户与 Claude 模型交互的方式,尤其针对非开发者用户。Cowork 基于 Claude Code 的技术基础,但更易于使用,并允许 Claude 在用户电脑指定文件夹内读取、编辑和创建文件,从而执行更复杂的任务。

核心功能与特点:

  • 文件夹访问: 用户可以授予 Claude 对特定文件夹的访问权限,让其处理文件夹内的文件。
  • 自主工作: 与常规对话不同,Cowork 允许 Claude 独立制定计划并逐步完成任务,并在过程中向用户汇报进展。
  • 丰富功能: Cowork 支持 Claude 使用现有连接器(Connector)和新的技能(Skills),增强其创建文档、演示文稿等文件的能力。结合 Claude in Chrome,Claude 还可以执行需要浏览器访问的任务。
  • 并行任务处理: 用户可以排队任务,让 Claude 并行处理,减少手动交互,更像与同事协作。
  • 安全性: 用户可以控制 Claude 访问的文件夹和连接器,并会在执行重大操作前征求用户同意。

潜在风险与注意事项:

  • 潜在破坏性操作: 默认情况下,Claude 可能会在接收到相关指令时执行破坏性操作,例如删除本地文件。因此,需要提供明确的指导。
  • 提示注入(Prompt Injection): 存在被攻击者篡改 Claude 计划的风险,但 Anthropic 已经构建了防御机制。
  • 安全意识: 使用 Cowork 需保持安全意识,尤其是在学习使用过程中。

未来展望:

Cowork 目前为 Claude Max 订阅者在 macOS 应用程序中提供研究预览版。Anthropic 计划根据用户反馈进行改进,包括添加跨设备同步和 Windows 支持,并进一步提升安全性。尚未订阅 Claude Max 的用户可以加入等待名单。

中文总结:

Anthropic 推出了 Cowork,一个让非开发者也能轻松使用 Claude 的新工具。 Cowork 允许 Claude 访问您的文件夹,自主完成任务,例如整理文件、创建电子表格或报告。虽然功能强大,但用户需要注意潜在的安全风险,例如文件删除和提示注入。目前仅 Claude Max 用户可以使用,未来将支持更多平台并持续改进。

TimeCapsuleLLM: LLM trained only on data from 1800-1875

TimeCapsule LLM 项目总结

TimeCapsule LLM 是一个从零开始训练的语言模型,其独特之处在于它仅使用特定时间和地点的历史数据进行训练,旨在减少现代偏见,并模仿该时代的语言、词汇和世界观。该项目旨在构建一个真正能够体现历史风格的 AI 模型,而非仅仅模仿。

模型版本及演进:

  • v0 & v0.5: 基于 Andrej Karpathy 的 nanoGPT 构建,核心训练脚本和模型架构来自该项目。
  • v1: 基于 Microsoft 的 Phi 1.5 构建。
  • v2: 基于 llamaforcausallm 构建。

Hugging Face 链接: https://huggingface.co/haykgrigorian/TimeCapsuleLLM

模型行为与局限性:

  • v0: 早期提示词显示模型使用 19 世纪的语言和风格。例如,提示词 "Who art Henry?",模型回复 "I know that man, I have did not a black, the storm."。该版本缺乏现代概念,词汇主要来自该时代,但句子连贯性较差(受约 187MB 的训练数据规模限制)。
  • v0.5: 相比 v0 有显著改进,展现出维多利亚时代的写作风格,正确的标点符号和大部分语法正确的句子。但仍然存在较高的事实幻觉率,并且输出中可能包含 OCR 噪声(例如 "Digitized by Google")。
  • v1: 首次能够回忆并联系到数据集中的真实历史事件和人物。例如,提示词 "It was the year of our Lord 1834",模型能够生成与 1834 年伦敦抗议活动相关的文本。
  • v2mini-eval1 & v2mini-eval2: 使用 v2 的 90GB 数据集中 15GB 的样本进行训练,训练步数仅为 10K 步。 在 v2mini-eval1 版本中,由于 Tokenization 出现问题,导致输出呈现出奇怪的字符拼接现象。 v2mini-eval2 修复了该问题。

数据集:

偏见统计:

项目对模型进行了偏见统计分析,包括代词偏见、地理偏见和时间偏见,详细报告见:https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/london%5F1800%5F1875%5Fv2mini%5Feval1/v2%5Fbias%5Freport.json

使用方法:

项目重点在于历史数据的整理和准备,以及构建 Tokenizer。训练过程可以参考 Andrej Karpathy 的 nanoGPT。

  1. 收集和准备历史文本: 收集指定时间段的 .txt 格式的历史书籍、文档等,并进行清洗。
  2. 构建自定义 Tokenizer: 使用提供的脚本训练 Tokenizer,生成 vocab.json 和 merges.txt 文件。
  3. 训练模型: 参考 nanoGPT 或其他架构的文档进行模型训练。

常见问题解答:

  • 什么是选择性时间训练 (STT)? STT 是一种机器学习方法,所有训练数据都严格限制在特定的历史时间段内,以模拟该时代的语言和知识,避免现代概念的影响。
  • 为什么不使用微调或 LoRA? 从零开始训练可以避免现代偏见,微调预训练模型难以完全消除预
Postal Arbitrage

邮票套利 (Yóupiào Tàolì) - 摘要

本文描述了一种利用亚马逊Prime免费送货服务进行“邮票套利”的创意方式。

核心概念:

由于美国邮票价格(2025年起$0.78)相对较高,而亚马逊Prime提供免费送货服务,因此可以购买价格低于$0.78的商品(例如螺丝、罐头、意大利面等),通过Prime免费送货的方式寄送给朋友或家人,从而节省开支。

运作方式:

  1. 寻找商品: 在亚马逊上搜索价格低于$0.78且提供免费Prime送货的商品。
  2. 添加礼品卡: 在订单中添加免费的礼品卡。
  3. 寄送: 将商品寄送给收件人。

优势:

  • 节省金钱: 相比邮寄传统信件,这种方式更经济。
  • 惊喜和互动: 收件人收到一份独特的、随机的礼物,可以带来惊喜和乐趣,并促进社交互动。作者举例说明了2023年通过寄送罐头豆子引发的家庭群聊热潮,并最终促使家人之间互相赠送各种各样的物品。

商品示例:

文章列举了部分符合条件的商品,包括:

  • 青柠 ($0.25)
  • 得来速热带风情粉红苏打 ($0.42)
  • 亚马逊自制黑肉汁 ($0.45)
  • 丸美日式拉面 ($0.47)
  • 柠檬 ($0.49)
  • LA MODERNA 意面 ($0.50)
  • Russet土豆 ($0.56)
  • 亚马逊自制番茄酱 ($0.53)
  • Apple Barrel 黑色丙烯颜料 ($0.58)
  • Yoplait 草莓原味低脂酸奶 ($0.77)
  • Jumex 释迦果汁 ($0.78)

免责声明:

文章明确声明该网站与亚马逊无关,也不受其认可。

Google removes AI health summaries after investigation finds dangerous flaws

Google AI 概述 (AI Overviews) 错误频发的原因总结

本文总结了 Google AI 概述 (AI Overviews) 持续出现错误的原因及相关问题。

主要原因:设计缺陷

  • 依赖排名算法: Google 的 AI 概述的设计理念是基于其网页排名系统,它从排名最高的网页中提取信息进行总结。
  • 排名算法的局限性: Google 的排名算法长期存在 SEO 操纵和垃圾信息的问题。因此,AI 模型接收到的数据可能包含不可靠的信息。
  • 语言模型的推断问题: 即使 AI 概述基于准确的来源,语言模型仍然可能从数据中得出错误的结论,导致总结出现偏差。
  • 权威性带来的误导: AI 概述以权威的语气呈现信息,即使信息本身存在错误,也容易误导用户,使其误以为是可靠的。

持续存在的问题

  • 相同的错误持续出现: 即使在 Google 收到反馈后,针对特定查询 (例如 "lft reference range" 或 "lft test reference range") 的 AI 概述仍然存在,并且以粗体显示测试结果,容易使读者忽略这些数字可能不准确。
  • Google 的解释: Google 解释说,这些 AI 概述链接到知名且信誉良好的来源,并提醒用户在必要时寻求专家建议。 Google 声明 AI 概述仅在对回复质量有高信心时才会显示。
  • 历史问题: AI 概述此前曾给出不准确甚至危险的建议,例如建议将胶水涂在披萨上或吃石头。
  • 用户规避措施: 用户已经发现,在搜索查询中插入脏话可以禁用 AI 概述。

总结: Google AI 概述的问题根源在于其设计依赖于容易被操纵的网页排名系统,并由可能产生错误推断的语言模型进行总结。尽管 Google 声称在不断改进,但错误依然存在,并导致用户采取规避措施。

X Didn't Fix Grok's 'Undressing' Problem. It Just Makes People Pay for It

X (原Twitter) 与 Grok 聊天机器人生成不当图片问题总结

以下是对原文的总结:

问题概述:

埃隆·马斯克旗下的 X 平台(原 Twitter)的 Grok 聊天机器人,在发布后不久,就被用户发现能够生成大量女性“undressing”图片以及疑似未成年人的性暗示图片,引发了广泛的争议和审查。

X 的应对措施:

  • 限制图片生成: X 似乎已将 Grok 的图片生成和编辑功能限制为付费订阅用户(年费395美元)。用户在使用 Grok 生成图片时,即使是请求生成简单的图片(如树),也会收到提示需要付费订阅。
  • 声明与否认: X 和 xAI(Grok 的开发公司)尚未正式确认此举是付费政策。X 的发言人承认了媒体的询问,但尚未发表评论。X 之前声明会采取措施打击平台上的非法内容,包括儿童性虐待材料。

问题持续存在:

  • 付费用户仍能生成不当图片: 尽管 X 限制了免费用户生成图片,但付费订阅的“verified”用户仍然可以利用 Grok 生成性暗示图片,例如要求生成穿着丁字裤或塑料比基尼的图片。
  • 独立网站和应用仍存在问题: 在 X 之外,Grok 的独立网站和应用仍然可以被用来生成更具 graphic 性和暴力的性内容视频,包括涉及名人和其他真实人物的视频。研究人员表示,即使使用未验证的账户,也可以生成此类视频。
  • AI Forensics 的发现: AI Forensics 的首席研究员Paul Bouchaud 观察到,虽然提示和结果相似,但生成不当图片的数量减少了,但模型仍然可以生成比基尼图片。

外部批评:

  • 监管机构调查: 全球各地的监管机构正在对 X 和 xAI 进行调查,以调查非自愿的 explicit 图像的创建以及疑似儿童的性图片。英国首相 Keir Starmer 甚至表示不排除禁止 X 在英国运营的可能性。
  • 慈善机构的批评: 英国国内暴力救助慈善机构 Refuge 的负责人 Emma Pickering 批评 X 的做法是“对虐待行为的变相盈利”,认为这只是一个“治标不治本”的临时措施,并未真正阻止虐待行为。

总结:

X 平台虽然采取了限制图片生成功能的措施,但该问题并未完全解决。Grok 聊天机器人仍然可以通过付费订阅或独立应用生成不当图片,引发了监管机构和慈善组织的强烈批评。 此举被认为是“对虐待行为的变相盈利”, 且未能从根本上解决问题。


Chromium Has Merged JpegXL

Gerrit 代码审查系统概述

Gerrit Code Review 是一个基于 Web 的代码审查系统,主要用于管理 Git 代码仓库,并强制执行代码审查流程。它在 Google 和许多其他开源项目中使用广泛,旨在提高代码质量、减少错误并促进协作。

核心功能与目的:

Gerrit 的核心目标是确保所有代码更改在合并到主分支之前都经过审查。它通过以下方式实现:

  • 代码审查流程强制执行: Gerrit 要求所有代码更改必须通过审查才能合并。开发者无法直接将代码推送到主分支,必须首先创建一个“变更”(Change)并提交审查请求。
  • 基于 Web 的审查界面: 审查人员可以在 Gerrit 的 Web 界面中查看代码更改、添加评论、提出问题并批准或拒绝变更。
  • Git 集成: Gerrit 构建在 Git 之上,利用 Git 的版本控制功能。它与 Git 仓库交互,管理变更和提交。
  • 细粒度的访问控制: Gerrit 提供了强大的访问控制机制,允许管理员定义谁可以查看、修改或批准特定的代码更改。
  • 代码评审历史记录: Gerrit 记录了所有代码评审过程的历史,包括评论、批准和拒绝。这有助于跟踪代码变更的演变和识别潜在问题。

工作流程:

典型的 Gerrit 代码审查工作流程如下:

  1. 开发者创建变更: 开发者在本地 Git 仓库中进行代码更改,然后将这些更改推送到 Gerrit 服务器上,创建一个新的变更。
  2. 变更提交审查: 推送到 Gerrit 后,变更会显示在 Gerrit 的 Web 界面上,并等待审查人员的审查。
  3. 审查人员审查代码: 审查人员查看代码更改,添加评论、提出问题或建议修改。
  4. 开发者修复问题: 开发者根据审查人员的反馈修改代码,并将更新推送到 Gerrit 服务器。这会更新现有的变更。
  5. 审查人员批准变更: 当审查人员对代码更改感到满意时,他们会批准变更。
  6. 变更合并: 一旦变更获得足够的批准,它就可以合并到主分支。 Gerrit 会自动执行合并操作。

技术架构与关键概念:

  • 基于 Java: Gerrit 是用 Java 编写的,并使用 Gerrit 框架。
  • 基于 REST API: Gerrit 提供 REST API,允许与其他工具和系统集成。
  • 变更 (Change): 变更是 Gerrit 中代码更改的基本单位。它代表了一组提交,需要进行审查。
  • 提交 (Commit): Git 提交是代码更改的快照。Gerrit 跟踪变更中的每个提交。
  • 评审者 (Reviewer): 评审者是负责审查代码更改的人员。
  • 标签 (Labels): 标签用于表示变更的状态和评审结果。 常见的标签包括 Code-Review (代码审查), Verified (验证), 和 Squash (压缩)。
  • 分支 (Branch): Gerrit 支持多种分支模型,如 master, main, 和 develop
  • 投票 (Voting): 审查人员可以使用投票系统来表示对变更的意见。

优势:

  • 提高代码质量: 通过强制执行代码审查,Gerrit 有助于减少错误和提高代码质量。
  • 促进协作: Gerrit 提供了一个协作平台,允许开发者和审查人员一起审查代码并解决问题。
  • 增强可追溯性: Gerrit 记录了所有代码审查过程的历史,便于跟踪代码变更。
  • 灵活的配置: Gerrit 允许管理员根据需要配置代码审查流程。

总结:

Gerrit Code Review 是一个功能强大的代码审查系统,通过强制执行代码审查流程、提供基于 Web 的审查界面和集成 Git 版本控制,帮助团队提高代码质量、促进协作并增强可追溯性。它适用于各种规模的项目,并已成为许多开源项目的标准代码审查工具。

Network of Scottish X accounts go dark amid Iran blackout

虚假苏格兰X账户网络与伊朗的关联:调查与互联网中断

以下是对原文内容的总结:

近期,一批声称支持苏格兰独立的虚假X(前身为Twitter)账户网络突然停止活动,这与伊朗国内因抗议活动而实施的互联网中断有关。这些账户此前由英国国防杂志《UK Defence Journal》追踪,并逐渐发布了极端内容。

主要发现:

  • 账户活动停止: 以“Fiona”、“Jake”和“Lucy”为代表的账户在伊朗互联网中断后停止发布内容。这些账户拥有数千名关注者。
  • 虚假信息传播: 这些账户散布了虚假信息,包括BBC新闻人员被拘留、抗议者占领巴尔莫勒尔庄园、国际市场抛售英国资产、农民封锁A1公路以及军队在爱丁堡皇家大道巡逻等。
  • 伊朗关联: 调查显示,这些账户很可能与伊朗有关联。
    • 历史模式: 2024年6月,伊朗遭受以色列和美国袭击时,类似的账户也曾立即停止活动。
    • Cyabra分析: 信息失真分析公司Cyabra曾指出,讨论苏格兰独立话题的个人资料中,高达26%可能是虚假的。
    • Clemson大学研究: 克莱姆森大学的一项研究估计,约4%与独立相关的帖子与一个由伊朗支持的、由80个账户组成的机器人网络有关。该网络创建了虚假的英国公民身份,支持左翼政治观点,攻击保守派政治家,支持苏格兰民族党 (SNP),并谴责以色列及其在加沙战争中的行为。
  • VPN使用: 虽然账户资料显示其位于欧洲,但很可能使用了VPN来掩盖其真实位置。

总结:

该事件揭示了一个与伊朗有关联的、传播虚假信息并支持苏格兰独立的X账户网络。互联网中断导致这些账户停止运营,这表明伊朗可能正在利用社交媒体平台来影响苏格兰政治舆论。研究表明,这些账户利用虚假的英国公民身份,散布政治宣传,并对以色列及加沙局势发表立场。


(中文翻译结束)

The chess bot on Delta Air Lines will destroy you (2024) [video]

总结:Delta航空娱乐系统中的象棋机器人

本文描述了作者在Delta航空的娱乐系统中尝试击败象棋机器人,但最终发现自己完全无法取胜的经历。

主要内容:

  • 挑战象棋机器人: 作者在长途飞行中,决定尝试挑战Delta航空娱乐系统中提供的象棋机器人。
  • 遭遇失败: 作者最终发现自己对机器人的棋艺远远不及,完全无法获胜。
  • 程序员的反应: 一条评论指出,为这个象棋机器人编写程序的程序员可能正在为此感到高兴。
  • 视频信息: 该内容来源于YouTube视频,视频发布于2024年9月27日,并包含相关的链接(关于YouTube、版权、联系方式等)以及Schema.org格式的视频信息,包括视频标题、缩略图URL、上传日期以及一条评论。

关键词: Delta航空, 象棋机器人, 娱乐系统, 挑战, 失败, 程序员。

Iran has now been offline for 96 hours

总结:关于 x.com 上隐私扩展可能导致的问题

这段内容的核心信息是:某些隐私相关的浏览器扩展程序可能会导致 x.com 出现问题。

具体来说:

  • 问题提示: 出现了一些错误。
  • 可能原因: 某些隐私扩展程序可能导致了这些问题。
  • 解决方案: 用户应该禁用这些隐私扩展程序,然后再次尝试。

总而言之,如果在使用 x.com 时遇到问题,建议检查并禁用相关的隐私扩展程序。

Text-based web browsers

文本浏览器在当今网络中还有意义吗?——对现代 HTML 支持的现状

本文探讨了文本浏览器(如 ELinks、Lynx 和 w3m)在处理现代 HTML 特性时的现状,并表达了作者对这些浏览器对新特性的支持不足的失望。文章重点不在于讨论浏览器的“酷炫”功能,而是关注它们对纯文本 HTML 的处理方式。

核心观点:

  • 文本浏览器的价值: 作者个人喜欢并使用文本浏览器进行项目测试,尤其是在构建具有良好 HTML 基础,并通过 CSS 和 JavaScript 进行渐进式增强的项目时。
  • HTML 的演进: 虽然 CSS 占据了新增功能的主导地位,但 HTML 也经历了一些发展,包括可样式化选择器、切换开关等。
  • 文本浏览器对现代 HTML 的处理: 文章着重分析了文本浏览器对以下新特性的处理:
    • <details> (Disclosure widgets): 文本浏览器会始终显示 <details> 的全部内容,而不是仅显示 <summary>,导致内容冗余,但总体尚可接受。
    • <datalist> (Data lists): 完全被忽略,Lynx 甚至报告“bad HTML”,只留下一个普通的 <input> 字段。
    • <dialog> (Dialogs): 不支持,所有对话内容都会显示,formaction 属性会被触发,存在问题。
    • Popover API (Popovers): 同样不支持,popover 内容被全部显示。
    • inert (Inert content areas): 允许访问 inert 区域内的交互元素,表现不佳。
    • hidden (Hidden content): 这是作者最不满意的点。隐藏的内容会在文本浏览器中显示,破坏了渐进式增强策略,因为在 HTML 中隐藏内容通常是因为需要通过 CSS 或 JavaScript 才能显示内容。
    • Visually hidden content: 目前没有原生 HTML 方式实现,需要 CSS 处理,未来如果出现原生方式,文本浏览器也会显示。

结论:

文本浏览器与现代 HTML 的兼容性存在显著问题,并且随着 Web 技术的发展,这种差距会越来越大,可能导致这些浏览器逐渐被淘汰。作者对文本浏览器对新特性的支持不足表示失望,并认为这种不兼容性破坏了某些渐进式增强技术的使用。

Show HN: AI in SolidWorks

LAD (语言辅助设计) 总结

LAD (Language-Aided Designer) 是一款 SolidWorks 插件,利用人工智能技术,允许用户使用自然语言进行设计。它旨在简化和加速 SolidWorks 的设计流程。

主要功能:

  • 自然语言设计: 用户可以用简单的语言描述设计意图,LAD 将其转化为 SolidWorks 操作,自动创建草图、特征和装配体。
  • 视觉上下文理解: LAD 通过分析屏幕截图和特征树来理解模型的当前状态,验证操作是否正确执行,并纠正错误。
  • 从文档和图像设计: 用户可以提供文档文件、图像或以往的零件和装配体作为参考,LAD 将智能地读取并利用这些信息进行设计。
  • 宏编写与运行: LAD 能够编写和运行 VBA 宏,以实现可重复性操作和标准 LAD 工具无法覆盖的特定功能。在编写宏时,LAD 会搜索 SolidWorks 文档和示例以更好地理解 API。
  • 权限管理与版本控制: LAD 存储检查点,允许用户回滚不需要的更改;用户可以控制哪些命令自动运行;通过用户自定义的规则来指导 AI 的工作流程。

关键点:

  • LAD 是一个直接集成到 SolidWorks 中的插件。
  • 它支持草图、特征、装配体和 VBA 宏的创建。
  • LAD 使用 AI 技术,通过自然语言和视觉上下文理解来辅助设计。

版本历史:

  • 1.1.0 (2026-11-01) - 最新版本
  • 1.0.0 (2026-05-01) - 初始版本

体验:

  • 现在可以尝试 LAD。
Fabrice Bellard's TS Zip (2024)

ts_zip 文本压缩工具概要

ts_zip 是一种使用大型语言模型 (LLM) 进行文本文件压缩的实用工具,旨在实现比传统压缩工具更高的压缩率。以下是其主要特点和技术细节:

核心功能与特点:

  • 压缩原理: ts_zip 利用 LLM 预测下一个 token 的概率,然后使用算术编码器根据这些概率对 token 进行编码,从而实现压缩。

  • 压缩率: 在测试中,ts_zip 的压缩率(以每字节比特数 bpb 为单位)显著优于 xz 压缩工具。具体数据见下表:

    文件 原始大小 (字节) xz (字节) (bpb) ts_zip (字节) (bpb)
    alice29.txt 152089 48492 2.551
    book1 768771 261116 2.717
    enwik8 100000000 24865244 1.989
    enwik9 1000000000 213370900 1.707
    linux-1.2.13.tar 9379840 1689468 1.441
  • 限制:

    • 需要 GPU 支持以获得合理的速度,且需要 4GB RAM。
    • 压缩和解压缩速度比传统压缩工具慢 (最高可达 1 MB/s,在 RTX 4090 上)。
    • 仅支持文本文件,二进制文件压缩效果不佳。
    • 当前使用的语言模型 (RWKV 169M v4) 主要基于英语文本训练,但支持其他语言,包括源代码。
    • 由于实验性质,不同版本之间可能不兼容。
  • 相关工具: 针对小型消息压缩优化的 ts_sms 工具。

技术细节:

  • 语言模型: 使用 RWKV 169M v4 语言模型,在速度和压缩率之间取得了较好的平衡。
  • 模型优化: 模型被量化为每参数 8 位,并使用 BF16 浮点数进行评估。
  • 可重复性: 模型评估过程是确定性的,结果不依赖于具体的 GPU 或 CPU 型号,以及配置的线程数。这确保了压缩文件可以在不同的硬件或软件配置下解压缩。

下载:

  • Linux 版本: <ts%5Fzip-2024-03-02.tar.gz>
  • Windows 版本: <ts%5Fzip-2024-03-02-win64.zip>

作者: Fabrice Bellard - https://bellard.org/