Gemini 3.1 Pro
Gemini 3.1 Pro 模型卡片摘要 (Gemini 3.1 Pro Model Card Summary)
发布日期: 2026 年 2 月 19 日
本摘要概述了 Gemini 3.1 Pro 模型的关键信息,该模型是 Gemini 3 系列的最新迭代,旨在提供关于模型限制、缓解措施和安全性能等重要信息。
模型概述:
- 模型名称: Gemini 3.1 Pro
- 描述: Gemini 3.1 Pro 是 Google 最先进的模型,属于高度智能且适应性强的原生多模态推理模型系列。它能够理解庞大的数据集和来自文本、音频、图像、视频和完整代码库等多种来源的复杂问题。
- 基础模型: Gemini 3 Pro
输入和输出:
- 输入: 文本字符串(例如问题、提示、需要总结的文档)、图像、音频和视频文件,最大上下文窗口为 100 万个 token。
- 输出: 文本,最大 64K 个 token。
关键特征:
- 架构: 基于 Gemini 3 Pro。
- 评估: 在推理、多模态能力、代理工具使用、多语言性能和长上下文等多个基准测试中进行了评估。
- 性能: 在需要增强推理和多模态能力的关键基准测试中,Gemini 3.1 Pro 显著优于 Gemini 3 Pro。具体结果参见deepmind.google/models/evals-methodology/gemini-3-1-pro。
主要基准测试结果(部分):
| 基准测试 | Gemini 3.1 Pro (High Thinking) | Gemini 3 Pro (High Thinking) |
|---|---|---|
| 人类最后考试 (学术推理) | 44.4% | 37.5% |
| 搜索 (黑名单) + 代码 | 45.8% | 49.0% |
| ARC-AGI-2 (抽象推理) | 77.1% | 31.1% |
| GPQA Diamond (科学知识) | 94.3% | 91.9% |
| Terminal-Bench 2.0 (代理终端编码) | 68.5% | 56.9% |
| SWE-Bench Verified (代理编码) | 80.6% | 76.2% |
| MRCR v2 (8-needle) (长上下文性能) | 84.9% | 77.0% |
使用和限制:
- 预期用途: 适用于需要代理性能、高级编码、长上下文或多模态理解的应用。
- 已知限制: 更多信息请参见 Gemini 3 Pro 模型卡片。
伦理与安全:
- 安全评估: 通过内部安全评估, Gemini 3.1 Pro 在安全和语气方面优于 Gemini 3 Pro,同时保持了不必要的拒绝率的降低。
- 前沿安全: Gemini 3.1 Pro 在 CBRN、网络安全、有害操纵、机器学习研发和错位等领域的前沿安全框架评估中,均未达到警报阈值。
重要提示: 关于模型架构、训练数据集、实施和可持续性等详细信息,请参考 Gemini 3 Pro 模型卡片:https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-Pro-Model-Card.pdf