谷歌Gemini3Pro登顶ArtificialAnalysisInde

谷歌Gemini 3 Pro登顶Artificial Analysis IndexGemini 3 Pro 成为新的 AI 领跑者。谷歌首次拥有最领先的大语言模型，Gemini 3 Pro Preview 在 Artificial Analysis Intelligence Index 上首发即领先 GPT-5.1 整整 3 个点。支持100 万 token，支持工具调用（tool calling）、结构化输出、JSON 模式。该模型在 Artificial Analysis Intelligence Index 上全面超越所有其他模型，在构成 Intelligence Index 的 10 项评测中拿下 5 项第一。尽管智能水平大幅提升，Gemini 3 Pro Preview 的 token 效率较 Gemini 2.5 Pro 还有所改善，在 Intelligence Index 测试中消耗的 token 明显少于其他顶级模型（如 Kimi K2 Thinking 和 Grok 4）。然而，由于其高昂的定价（≤200K 上下文时输入/输出每百万 token 分别为 2/12 美元），Gemini 3 Pro 是目前运行 Intelligence Index 评测最贵的模型之一。📖 领先的智能水平 Gemini 3 Pro Preview 在 Artificial Analysis Intelligence Index 的 10 项评测中拿下 5 项第一，包括 GPQA Diamond、MMLU-Pro、HLE、LiveCodeBench 和 SciCode。尤其亮眼的是在“人类终极考试”（Humanity’s Last Exam）上拿到 37% 的分数，较此前最佳模型提升超过 10 个百分点。它还在 Artificial Analysis 新推出的知识与幻觉评测 AA-Omniscience 中双双夺冠（Omniscience Index 扣错题分的主指标 + Omniscience Accuracy 正确率）。由于事实记忆能力与模型参数规模高度相关，这很可能意味着 Gemini 3 Pro 的实际规模远超当前所有竞品。💻 顶尖的编程与 Agent 能力 在 Intelligence Index 的三项编程评测中拿下两项第一，其中 SciCode 得分 56%，较此前最高纪录提升超 10 个百分点。在 Agent 类任务中也表现出色，在 Terminal-Bench Hard 和 Tau2-Bench Telecom 中位列第二。🖼️ 多模态能力 Gemini 3 Pro Preview 是原生多模态模型，可同时接受文本、图像、视频和音频输入。在需要图像推理的 MMMU-Pro 基准测试中得分最高。目前谷歌包揽了 MMMU-Pro 排行榜的第 1、第 3、第 4 名（上周刚被 GPT-5.1 挤进第二）。💲 顶级定价 尽管 token 效率有所提升，但由于单价大幅上涨（≤200K 上下文 2/12 美元，≥200K 上下文 4/18 美元），运行完整 Intelligence Index 的总成本比 Gemini 2.5 Pro 还高出 12%，位居目前最贵梯队。⚡ 速度 输出速度约 128 token/s，与 Gemini 2.5 Pro 相当，领先 GPT-5.1（high）、Kimi K2 Thinking 和 Grok 4 等其他前沿模型，背后可能是谷歌自研 TPU 的硬件优势。

0 阅读：3