Claude Opus 4.6
好的,以下是根据原文生成的摘要,字数控制在800字以内,使用markdown格式,中文呈现:
Anthropic 发布 Claude Opus 4.6:更强大的 AI 模型
Anthropic 发布了最新模型 Claude Opus 4.6,对前代模型进行了全面升级,尤其是在编码能力方面表现显著。
主要改进:
- 编码能力提升: Opus 4.6 在代码规划、执行长期任务、处理大型代码库、代码审查和调试方面都有明显提升,能够更有效地识别和纠正自身错误。
- 更大的上下文窗口: 首次在 Opus 系列模型中引入 1M token 上下文窗口(beta 版本),使其能够处理更长的文本和更复杂的任务。
- 更广泛的应用: Opus 4.6 不仅擅长编码,还能应用于金融分析、研究、文档、电子表格和演示文稿等日常工作。
- 卓越的性能表现:
- 在 agentic coding 评估 Terminal-Bench 2.0 中取得最高分。
- 在复杂的多学科推理测试 Humanity’s Last Exam 中领先其他前沿模型。
- 在经济知识工作任务评估 GDPval-AA 中,比 OpenAI 的 GPT-5.2 高出约 144 Elo 点,比前代模型 Claude Opus 4.5 高出 190 点。
- 在信息检索评估 BrowseComp 中表现优异。
新功能和工具:
- Agent 团队: 在 Claude Code 中,用户现在可以组建 Agent 团队协同工作。
- 上下文压缩: 在 API 中,Claude 可以使用上下文压缩功能总结自身内容,从而在不超出限制的情况下执行更长时间的任务。
- 自适应思考: 模型能够根据上下文提示判断何时使用扩展思考能力。
- Effort 控制: 开发者可以通过 Effort 参数控制模型的智能程度、速度和成本。
- Claude in Excel 和 PowerPoint: 大幅升级了 Claude in Excel,并发布了 Claude in PowerPoint 的研究预览版,增强了其日常办公能力。
安全性和可用性:
- 安全保障: Opus 4.6 的安全 profile 达到或优于行业内其他前沿模型,具有较低的不良行为率。
- 广泛可用: Claude Opus 4.6 现已在 claude.ai、API 和所有主要云平台上可用。
- 定价不变: 价格保持在每百万 token 5 美元/25 美元,具体信息请参阅定价页面。
用户反馈:
早期用户反馈显示,Opus 4.6 具有自主工作、解决之前模型无法解决的问题、以及改变团队工作方式的能力。用户评价其更像一个有能力的合作者,而非简单的工具。
评估结果:
Anthropic 对 Opus 4.6 进行了全面的评估,在 agentic coding、计算机使用、工具使用、搜索和金融等多个方面均表现出领先的性能。特别是在长文本上下文处理方面,Opus 4.6 表现出显著的优势,减少了“上下文腐烂”现象。
总结:
Claude Opus 4.6 是 Anthropic 在 AI 领域的一次重要进步,它不仅在性能上取得了显著提升,还在安全性和可用性方面进行了优化,为用户提供了更强大、更安全、更便捷的 AI 体验。