Claude Sonnet 4.6
Claude Sonnet 4.6:模型升级总结 (Claude Sonnet 4.6: Model Upgrade Summary)
Claude Sonnet 4.6 是 Anthropic 推出的最新、最强大的 Sonnet 模型,代表了模型能力在编码、计算机使用、长文本推理、智能规划、知识工作和设计等方面的全面升级。该模型还提供 100 万 token 的上下文窗口(beta 测试)。
主要特点与改进:
- 默认模型: 对于 Free 和 Pro 用户,Claude Sonnet 4.6 已成为 claude.ai 和 Claude Cowork 的默认模型,定价与 Sonnet 4.5 相同,从每百万 token 的 3 美元/15 美元起。
- 编码能力提升: Sonnet 4.6 的编码技能显著提升,开发者普遍更青睐于它,甚至超过了 Anthropic 最强大的模型 Claude Opus 4.5。
- 办公任务处理能力: 该模型在处理实际的、具有经济价值的办公任务方面表现出色,性能接近 Opus 级别的模型。
- 计算机使用能力: Sonnet 4.6 在计算机使用方面有了重大改进,能够模拟人类进行鼠标点击和键盘输入,与计算机交互。
- 安全评估: 通过广泛的安全评估,Sonnet 4.6 被认为与 Anthropic 其他模型一样安全,甚至更安全,展现出积极、诚实和富有同情心的特点。
- 计算机使用能力详解: 模型可以像人类一样使用计算机,无需定制连接器,解决此前难以自动化专门软件的问题。OSWorld 基准测试显示,模型在 Chrome、LibreOffice 和 VS Code 等软件上的表现持续进步。
- 100 万 Token 上下文窗口: 允许处理大型文档、代码库或研究论文,并能进行有效的长程规划。
- 性能与成本: 相比 Sonnet 4.5,Sonnet 4.6 提供了更出色的性能与成本比,在各种任务中表现卓越。
- 工具集成: API 升级包括自动过滤和处理搜索结果的 Web 搜索和 Fetch 工具,以及代码执行、内存、程序化工具调用和工具搜索等功能。
- Claude in Excel: 支持 MCP 连接器,允许 Claude 在 Excel 中使用其他工具,例如 S&P Global、LSEG 等。
用户反馈与基准测试结果:
- 在 Claude Code 中,用户 70% 的时间更喜欢 Sonnet 4.6,因为它更有效地阅读上下文,并能更好地遵循指令。
- 在 Vending-Bench Arena 评估中,Sonnet 4.6 通过早期投资资源,然后在最后阶段专注于盈利,表现优于竞争对手。
- 在 OfficeQA 基准测试中,Sonnet 4.6 与 Opus 4.6 的性能相当。
- 在多个基准测试中,包括 Databricks、Replit、Cursor、GitHub、Cognition、Windsurf、Hebbia、Box、Pace、Bolt、Rakuten、Zapier、Convey、Triple Whale、Harvey 等,Sonnet 4.6 都表现出色。
如何使用:
Claude Sonnet 4.6 现已在所有计划、Claude Cowork、Claude Code 以及主要云平台上可用。开发者可以通过 API 使用 claude-sonnet-4-6。
总而言之,Claude Sonnet 4.6 是一款性能强大、安全可靠,且性价比高的 AI 模型,适用于广泛的应用程序。