LinkReal.top

LinkReal 排行总览

评测数据来源于各厂商官方技术报告及第三方公开评测集

拒绝过拟合
来源可查
正在拉取最新工具评测
工具排行加载中
已覆盖 0 个工具与 0 个评测维度

先看评测覆盖最充分的维度,再下钻工具名单

当前还在同步工具评测结果,优先从覆盖工具更多的维度进入会更稳妥。

评测排行可信度说明:

排名规则 — 仅收录至少 2 个评测类别(或 3 条以上结果)的模型。1-2 条数据的模型不参与排名以避免信息不足的误判。综合分采用加权算法:覆盖率越高分越高。

分数归一化 — 不同评测量纲不同,当前已统一归一到 0-100 后再做汇总,避免 Arena ELO 这类分数直接抬高综合排名。

T1 权威评测 — SWE-bench Verified、Aider Polyglot、LiveCodeBench、Chatbot Arena。
  独立第三方实测,题库不会进入训练集,与真实使用体验最一致。
T2 辅助参考 — MMLU-Pro、MATH-500、BigCodeBench。
  不完全反映编程能力,可作参考但不能单独作为选型依据。

「厂商自报」厂商技术报告自己宣称的分数,可能精选 prompt、多次采样取最高
「第三方实测」独立评测平台实际运行,可信度高于厂商自报
详情页中已按评测权威性分组展示,帮助做更精准的选型判断。
排行总览 | LinkReal