你应该用哪个 LLM？

基于 vellum.ai 等已验证基准测试的快速答案。为你的特定任务找到完美的模型。

数据来源：vellum.ai 和已验证的提供商

快速选择：你的任务最适合哪个 LLM

别想太多，基于真实基准测试，这里直接给你答案。

写代码用：Claude Sonnet 4.5

SWE Bench 82%。在真实 GitHub 编程任务中表现最佳，包括调试和代码生成。

做数学题用：Gemini 3 Pro

AIME 2025 100%。唯一在高中数学竞赛中获得满分的模型。

复杂推理用：Claude 3 Opus

GPQA Diamond 95.4%。最难推理基准测试中的最高分。

综合最佳：Gemini 3 Pro

HLE 45.8%。在多个基准测试中表现最佳。

视觉任务用：Claude Opus 4.6

ARC-AGI 2 68.8%。视觉推理和理解的领导者。

追求速度用：Llama 4 Scout

2600 tokens/sec。速度最快且质量不错。

为什么信任我们的排行榜？

我们从已验证的提供商聚合基准测试数据，帮助你做出明智决定。

已验证的数据来源

我们跟踪来自 vellum.ai、模型提供商和独立评估者的基准测试。

真实世界基准测试

SWE Bench 编程、AIME 数学、GPQA Diamond 推理、ARC-AGI 视觉。

定期更新

随着新模型和基准测试的发布，排行榜每月更新。

成本和速度指标

Token 成本、延迟和吞吐量数据，帮助你优化预算。

完整排行榜

来自已验证提供商的所有基准测试完整排名。

推理最佳 - Claude 3 Opus

得分：GPQA Diamond 95.4%。复杂推理任务的领导者。

数学最佳 - Gemini 3 Pro

得分：AIME 2025 100%。高中数学竞赛的完美表现。

编程最佳 - Claude Sonnet 4.5

得分：SWE Bench 82%。智能编程任务的首选。

综合最佳 - Gemini 3 Pro

得分：Humanity's Last Exam 45.8%。最高的综合性能。

视觉推理最佳 - Claude Opus 4.6

得分：ARC-AGI 2 68.8%。视觉理解任务的领导者。

最快模型 - Llama 4 Scout

速度：2600 tokens/sec。高流量应用的惊人吞吐量。

常见问题

选择正确的 LLM 需要了解的一切。