GPT-5.2
OpenAI 发布 GPT-5.2:更强大的专业知识工作模型
OpenAI 发布了其最新型号 GPT-5.2,旨在提升专业知识工作的效率和能力。据报告,平均 ChatGPT Enterprise 用户每天节省 40-60 分钟,重度用户每周可节省超过 10 小时。GPT-5.2 在创建电子表格、制作演示文稿、编写代码、图像识别、理解长文本、使用工具以及处理复杂多步骤项目等方面均有显著提升。
性能表现:
GPT-5.2 在多个基准测试中表现出色,尤其是在 GDPval 基准测试中,它在 44 个职业的知识工作任务中超越了行业专业人士。下表对比了 GPT-5.2 和 GPT-5.1 的性能:
| GPT-5.2 Thinking | GPT-5.1 Thinking |
|---|---|
| GDPval (胜/平) | 70.9% |
| SWE-Bench Pro (软件工程) | 55.6% |
| SWE-bench Verified (软件工程) | 80.0% |
| GPQA Diamond (无工具,科学问题) | 92.4% |
| CharXiv Reasoning (带 Python,科学图表问题) | 88.7% |
| AIME 2025 (无工具,竞赛数学) | 100.0% |
| FrontierMath (Tier 1–3,高级数学) | 40.3% |
| FrontierMath (Tier 4,高级数学) | 14.6% |
| ARC-AGI-1 (抽象推理) | 86.2% |
| ARC-AGI-2 (抽象推理) | 52.9% |
主要特点和改进:
- 通用智能提升: GPT-5.2 在通用智能方面有所提升。
- 长文本理解: 在处理长文本方面表现更佳,尤其是在 MRCRv2 基准测试中取得了突破性进展,在 256k 个 token 的 4-needle 变体中达到接近 100% 的准确率。
- 工具调用能力: 改进了工具调用能力,可以更好地执行复杂、多步骤的任务。
- 视觉理解: 视觉模型能力增强,错误率降低,更准确地理解图表、产品截图、技术图表和视觉报告。
- 幻觉减少: 与 GPT-5.1 相比,GPT-5.2 幻觉现象减少了 30%。
- 代码能力: 在软件工程方面表现更佳,尤其是在前端开发和处理复杂 UI 工作时。
- 电子表格和演示文稿: 生成的电子表格和演示文稿更精致,格式更好。
应用和可用性:
- GPT-5.2 Instant、Thinking 和 Pro 将在 ChatGPT 中逐步推出,首先面向付费用户。
- API 平台已提供 GPT-5.2 Thinking 和 Instant,以及 GPT-5.2 Pro。
- GPT-5.2 Thinking 的使用成本高于 GPT-5.1,但考虑到其效率,整体成本可能更低。
安全:
OpenAI 持续致力于模型的安全性,GPT-5.2 在安全方面进行了改进,尤其是在处理敏感对话时,减少了有害回应。
总结:
GPT-5.2 代表了 OpenAI 在人工智能领域的一项重要进步,它在专业知识工作领域提供了更强大的能力,可以帮助用户提高效率、解决复杂问题,并加速科学研究。