基于 vellum.ai 等已验证基准测试的快速答案。为你的特定任务找到完美的模型。
数据来源:vellum.ai 和已验证的提供商

别想太多,基于真实基准测试,这里直接给你答案。
SWE Bench 82%。在真实 GitHub 编程任务中表现最佳,包括调试和代码生成。
AIME 2025 100%。唯一在高中数学竞赛中获得满分的模型。
GPQA Diamond 95.4%。最难推理基准测试中的最高分。
HLE 45.8%。在多个基准测试中表现最佳。
ARC-AGI 2 68.8%。视觉推理和理解的领导者。
2600 tokens/sec。速度最快且质量不错。
我们从已验证的提供商聚合基准测试数据,帮助你做出明智决定。
我们跟踪来自 vellum.ai、模型提供商和独立评估者的基准测试。
SWE Bench 编程、AIME 数学、GPQA Diamond 推理、ARC-AGI 视觉。
随着新模型和基准测试的发布,排行榜每月更新。
Token 成本、延迟和吞吐量数据,帮助你优化预算。
来自已验证提供商的所有基准测试完整排名。
得分:GPQA Diamond 95.4%。复杂推理任务的领导者。
得分:AIME 2025 100%。高中数学竞赛的完美表现。
得分:SWE Bench 82%。智能编程任务的首选。
得分:Humanity's Last Exam 45.8%。最高的综合性能。
得分:ARC-AGI 2 68.8%。视觉理解任务的领导者。
速度:2600 tokens/sec。高流量应用的惊人吞吐量。
选择正确的 LLM 需要了解的一切。