谷歌Gemini3Pro登顶ArtificialAnalysisInde

平安说世界 2025-11-19 07:44:30

谷歌Gemini 3 Pro登顶Artificial Analysis IndexGemini 3 Pro 成为新的 AI 领跑者。谷歌首次拥有最领先的大语言模型,Gemini 3 Pro Preview 在 Artificial Analysis Intelligence Index 上首发即领先 GPT-5.1 整整 3 个点。 支持100 万 token,支持工具调用(tool calling)、结构化输出、JSON 模式。该模型在 Artificial Analysis Intelligence Index 上全面超越所有其他模型,在构成 Intelligence Index 的 10 项评测中拿下 5 项第一。尽管智能水平大幅提升,Gemini 3 Pro Preview 的 token 效率较 Gemini 2.5 Pro 还有所改善,在 Intelligence Index 测试中消耗的 token 明显少于其他顶级模型(如 Kimi K2 Thinking 和 Grok 4)。然而,由于其高昂的定价(≤200K 上下文时输入/输出每百万 token 分别为 2/12 美元),Gemini 3 Pro 是目前运行 Intelligence Index 评测最贵的模型之一。📖 领先的智能水平
Gemini 3 Pro Preview 在 Artificial Analysis Intelligence Index 的 10 项评测中拿下 5 项第一,包括 GPQA Diamond、MMLU-Pro、HLE、LiveCodeBench 和 SciCode。尤其亮眼的是在“人类终极考试”(Humanity’s Last Exam)上拿到 37% 的分数,较此前最佳模型提升超过 10 个百分点。它还在 Artificial Analysis 新推出的知识与幻觉评测 AA-Omniscience 中双双夺冠(Omniscience Index 扣错题分的主指标 + Omniscience Accuracy 正确率)。由于事实记忆能力与模型参数规模高度相关,这很可能意味着 Gemini 3 Pro 的实际规模远超当前所有竞品。💻 顶尖的编程与 Agent 能力
在 Intelligence Index 的三项编程评测中拿下两项第一,其中 SciCode 得分 56%,较此前最高纪录提升超 10 个百分点。在 Agent 类任务中也表现出色,在 Terminal-Bench Hard 和 Tau2-Bench Telecom 中位列第二。🖼️ 多模态能力
Gemini 3 Pro Preview 是原生多模态模型,可同时接受文本、图像、视频和音频输入。在需要图像推理的 MMMU-Pro 基准测试中得分最高。目前谷歌包揽了 MMMU-Pro 排行榜的第 1、第 3、第 4 名(上周刚被 GPT-5.1 挤进第二)。💲 顶级定价
尽管 token 效率有所提升,但由于单价大幅上涨(≤200K 上下文 2/12 美元,≥200K 上下文 4/18 美元),运行完整 Intelligence Index 的总成本比 Gemini 2.5 Pro 还高出 12%,位居目前最贵梯队。⚡ 速度
输出速度约 128 token/s,与 Gemini 2.5 Pro 相当,领先 GPT-5.1(high)、Kimi K2 Thinking 和 Grok 4 等其他前沿模型,背后可能是谷歌自研 TPU 的硬件优势。

0 阅读:3
平安说世界

平安说世界

感谢大家的关注