在学术评测 GPQA Diamond 上得分 86.9%,多模态理解 MMMU Pro 上达到 76.8%。这两个数字不只是「在同档位里还不错」,而是直接超过了体量更大的 Gemini 2.5 Flash。
Follow topics & set alerts with myFT。关于这个话题,PDF资料提供了深入分析
Что думаешь? Оцени!。业内人士推荐PDF资料作为进阶阅读
You don't have permission to access the page you requested.