LinkReal 排行总览

评测数据来源于各厂商官方技术报告及第三方公开评测集

拒绝过拟合

来源可查

正在拉取最新工具评测

工具排行加载中

已覆盖 0 个工具与 0 个评测维度

先看评测覆盖最充分的维度，再下钻工具名单

当前还在同步工具评测结果，优先从覆盖工具更多的维度进入会更稳妥。

先算成本问卷推荐看工具价格

组合建议

如果你还没定最终方案，可以回到推荐页，把这 0 个工具和 0 个模型一起收窄。

去推荐页

评测排行可信度说明：

排名规则 — 仅收录至少 2 个评测类别（或 3 条以上结果）的模型。1-2 条数据的模型不参与排名以避免信息不足的误判。综合分采用加权算法：覆盖率越高分越高。

分数归一化 — 不同评测量纲不同，当前已统一归一到 0-100 后再做汇总，避免 Arena ELO 这类分数直接抬高综合排名。

T1 权威评测 — SWE-bench Verified、Aider Polyglot、LiveCodeBench、Chatbot Arena。
独立第三方实测，题库不会进入训练集，与真实使用体验最一致。
T2 辅助参考 — MMLU-Pro、MATH-500、BigCodeBench。
不完全反映编程能力，可作参考但不能单独作为选型依据。

「厂商自报」 — 厂商技术报告自己宣称的分数，可能精选 prompt、多次采样取最高
「第三方实测」 — 独立评测平台实际运行，可信度高于厂商自报
详情页中已按评测权威性分组展示，帮助做更精准的选型判断。