lmarena又更新排名规则了。现在加了个上限和下限,让更稳定的排在前面。俺习惯直接看expert排名,感觉更有参考一些(只选被标记为专家级的prompt)。这个规则下claude系列还是稳,如果具体到软件编程领域就更稳了(图2)。国产模型和开源模型里qwen还是第一。kimi属于上限高下限略低的那种,也不错。软件编程领域最好的开源模型是GLM4.6最近比较火的minimax m2没参评。


lmarena又更新排名规则了。现在加了个上限和下限,让更稳定的排在前面。俺习惯直接看expert排名,感觉更有参考一些(只选被标记为专家级的prompt)。这个规则下claude系列还是稳,如果具体到软件编程领域就更稳了(图2)。国产模型和开源模型里qwen还是第一。kimi属于上限高下限略低的那种,也不错。软件编程领域最好的开源模型是GLM4.6最近比较火的minimax m2没参评。


猜你喜欢
【156评论】【126点赞】
【1评论】【9点赞】
【2评论】【9点赞】
【3评论】【7点赞】
【7评论】【10点赞】
【6评论】【2点赞】
【9评论】【5点赞】
作者最新文章
热门分类
科技TOP
科技最新文章