lmarena又更新排名规则了。现在加了个上限和下限,让更稳定的排在前面。俺习惯

蚁工厂 2025-11-15 16:33:19

lmarena又更新排名规则了。现在加了个上限和下限,让更稳定的排在前面。俺习惯直接看expert排名,感觉更有参考一些(只选被标记为专家级的prompt)。这个规则下claude系列还是稳,如果具体到软件编程领域就更稳了(图2)。国产模型和开源模型里qwen还是第一。kimi属于上限高下限略低的那种,也不错。软件编程领域最好的开源模型是GLM4.6最近比较火的minimax m2没参评。

0 阅读:0
蚁工厂

蚁工厂

感谢大家的关注