LinkReal 排行总览
评测数据来源于各厂商官方技术报告及第三方公开评测集
拒绝过拟合
来源可查
正在拉取最新工具评测
工具排行加载中
评测排行可信度说明:
排名规则 — 仅收录至少 2 个评测类别(或 3 条以上结果)的模型。1-2 条数据的模型不参与排名以避免信息不足的误判。综合分采用加权算法:覆盖率越高分越高。
分数归一化 — 不同评测量纲不同,当前已统一归一到 0-100 后再做汇总,避免 Arena ELO 这类分数直接抬高综合排名。
T1 权威评测 — SWE-bench Verified、Aider Polyglot、LiveCodeBench、Chatbot Arena。
独立第三方实测,题库不会进入训练集,与真实使用体验最一致。
T2 辅助参考 — MMLU-Pro、MATH-500、BigCodeBench。
不完全反映编程能力,可作参考但不能单独作为选型依据。
「厂商自报」 — 厂商技术报告自己宣称的分数,可能精选 prompt、多次采样取最高
「第三方实测」 — 独立评测平台实际运行,可信度高于厂商自报
详情页中已按评测权威性分组展示,帮助做更精准的选型判断。
排名规则 — 仅收录至少 2 个评测类别(或 3 条以上结果)的模型。1-2 条数据的模型不参与排名以避免信息不足的误判。综合分采用加权算法:覆盖率越高分越高。
分数归一化 — 不同评测量纲不同,当前已统一归一到 0-100 后再做汇总,避免 Arena ELO 这类分数直接抬高综合排名。
T1 权威评测 — SWE-bench Verified、Aider Polyglot、LiveCodeBench、Chatbot Arena。
独立第三方实测,题库不会进入训练集,与真实使用体验最一致。
T2 辅助参考 — MMLU-Pro、MATH-500、BigCodeBench。
不完全反映编程能力,可作参考但不能单独作为选型依据。
「厂商自报」 — 厂商技术报告自己宣称的分数,可能精选 prompt、多次采样取最高
「第三方实测」 — 独立评测平台实际运行,可信度高于厂商自报
详情页中已按评测权威性分组展示,帮助做更精准的选型判断。