Google releases Gemma 4 open models
Gemma 4 模型总结
Gemma 4 是一系列由 Google 基于 Gemini 3 技术研发的开源模型,旨在实现更高的参数效率,在计算和内存效率方面达到新的水平。
核心特点:
- 参数效率最大化: Gemma 4 旨在在参数数量有限的情况下实现最先进的智能水平,使其能够在个人电脑和移动/物联网设备上运行。
- 多项能力支持:
- 智能代理工作流: 支持构建能够规划、导航应用程序并代表用户完成任务的自主代理,并原生支持函数调用。
- 多模态推理: 具备强大的音频和视觉理解能力,提供丰富的多模态支持。
- 140 种语言支持: 支持 140 种语言,超越简单的翻译,理解文化背景。
- 微调能力: 允许使用用户偏好的框架和技术对 Gemma 进行微调,以提高特定任务的性能。
- 高效架构: 可以在用户自己的硬件上运行模型,实现高效的开发和部署。
模型版本及性能:
Gemma 4 提供了多个版本,包括 31B IT Thinking, 26B A4B IT Thinking, E4B IT Thinking, 和 E2B IT Thinking。 以下是部分关键基准测试结果:
| Benchmark | Gemma 4 31B IT Thinking | Gemma 4 26B A4B IT Thinking | Gemma 4 E4B IT Thinking | Gemma 4 E2B IT Thinking | Gemma 3 27B IT |
|---|---|---|---|---|---|
| Arena AI (text) As of 4/2/26 | 1452 | 1441 | — | — | 1365 |
| MMMLU Multilingual Q&A | No tools | 85.2% | 82.6% | 69.4% | 60.0% |
| MMMU Pro Multimodal reasoning | 76.9% | 73.8% | 52.6% | 44.2% | 49.7% |
| AIME 2026 Mathematics | No tools | 89.2% | 88.3% | 42.5% | 37.5% |
| LiveCodeBench v6 Competitive coding problems | 80.0% | 77.1% | 52.0% | 44.0% | 29.1% |
| GPQA Diamond Scientific knowledge | No tools | 84.3% | 82.3% | 58.6% | 43.4% |
| τ2-bench Agentic tool use | Retail | 86.4% | 85.5% | 57.5% | 29.4% |
- 1452 在 Arena AI (text) 基准测试中表现最佳。
- 85.2% 在 MMMLU 多语言问答基准测试中表现最佳。
- 76.9% 在 MMMU Pro 多模态推理基准测试中表现最佳。
- 89.2% 在 AIME 2026 数学基准测试中表现最佳。
- 80.0% 在 LiveCodeBench v6 竞争性编码问题基准测试中表现最佳。
- 84.3% 在 GPQA Diamond 科学知识基准测试中表现最佳。
- 86.4% 在 τ2-bench 智能代理工具使用 (零售) 基准测试中表现最佳。
资源: