OpenAI新幻觉论文惹争议GPT5拉胯难道是测试基准有问题OpenAI好不容易

量子位看科技 2025-09-08 18:14:40

OpenAI新幻觉论文惹争议GPT5拉胯难道是测试基准有问题

OpenAI好不容易发了篇新论文，还是给GPT-5挽尊？

最近，《语言模型为何会产生幻觉？》（）这篇论文火了。

它提出模型有幻觉是因为：标准的训练和评估流程，更倾向于奖励“猜对”，而非承认不确定。

正因如此，模型在面对不确定的问题时，往往会选择冒险猜测以获得更高评分。

所以，为了让模型“老实说不”，就应该重新设计评估指标，从而鼓励模型承认自己不会，惩罚随意猜测。

而好巧不巧的是，OpenAI自家的GPT-5就最不爱猜测。【图1】

于是，眼尖的网友开始“虾仁猪心”地盘OpenAI的核心逻辑：

GPT-5表现不好➔不是模型拉垮➔是现有测试基准出了问题➔GPT-5幻觉少刷不上分➔所以应该重新设定指标。（完美闭环）

> 您不会是为了给GPT-5挽尊，所以想找个新基准吧？【图2】

所以，这究竟是OpenAI为了GPT-5这口醋才包的饺子，还是说真的揭开了大模型幻觉背后的更深层问题？

0 阅读：4

猜你喜欢

乌克兰越打越聪明，专炸炼油厂！俄罗斯一共30多个炼油厂，现在只剩下11个！没有炼

乌克兰越打越聪明，专炸炼油厂！俄罗斯一共30多个炼油厂，现在只剩下11个！没有炼

【26评论】【2点赞】

俄乌局势网络小说

地球上已经死去的人大约有1090亿，而现在活着的人只有80亿左右。这个数字对比让

地球上已经死去的人大约有1090亿，而现在活着的人只有80亿左右。这个数字对比让

【1评论】

生育率死亡率网络小说

9月7日凌晨俄方出动两架“天竺葵”巡飞弹攻击了第聂伯河上乌方的克列门丘格公路铁路

9月7日凌晨俄方出动两架“天竺葵”巡飞弹攻击了第聂伯河上乌方的克列门丘格公路铁路

第聂伯河天竺葵网络小说

红军城没有失守，仍然在乌克兰的手中。这时候乌克兰总司令西尔斯基已经向大家宣布了在

红军城没有失守，仍然在乌克兰的手中。这时候乌克兰总司令西尔斯基已经向大家宣布了在

乌克兰俄军网络小说

俄罗斯究竟要打到哪里？格拉西莫夫身后的作战地图，揭示得一清二楚 2025年8

俄罗斯究竟要打到哪里？格拉西莫夫身后的作战地图，揭示得一清二楚 2025年8

俄罗斯乌克兰敖德萨俄军网络小说

大俄会搞事情，而且狠，近日，俄罗斯举办庆祝二战胜利80周年活动，从乌克兰战场抓到

大俄会搞事情，而且狠，近日，俄罗斯举办庆祝二战胜利80周年活动，从乌克兰战场抓到

【1评论】【3点赞】

俄乌局势网络小说

互相伤害！俄罗斯发射800多次的导弹和无人机打击乌克兰之际，基辅也宣称乌军通过远

互相伤害！俄罗斯发射800多次的导弹和无人机打击乌克兰之际，基辅也宣称乌军通过远

导弹乌军俄乌局势网络小说

为什么俄罗斯不敢用核武器？俄罗斯不敢用核武器，根本不是因为心慈手软，而是核战

为什么俄罗斯不敢用核武器？俄罗斯不敢用核武器，根本不是因为心慈手软，而是核战

核战争 b52 核弹网络小说

量子位看科技

感谢大家的关注

作者最新文章

1

iOS26支持机型苹果发布会

2

iPhone17Pro手机壳苹果发布会 iPhone 17 Pro手机壳，此前大

3

iPhone17系列定价iPhone17系列定价揭晓iPhone 17起售价$7

4

iPhone17Pro配色

5

iPhone17Air配色iPhone17Air主摄4800万像素史上最薄iPh

6

iPhone17售价5810iPhone17功能汇总iPhone17标准款也Pr

7

iPhone17新增紫蓝绿配色iPhone17新配色iPhone17新配色来了?

8

AppleWatch起售价1810元苹果手表Ultra3续航42小时苹果发布三款

9

AppleWatchSeries11表身史上最薄AppleWatchSeries

10

AirPodsPro3定价1775元新款AirPods能翻译能测心率AirPod

热门分类

科技TOP

1

光刻机禁售，我忍了。芯片技术封锁，我也忍了。但全国首台国产电子束光刻机在杭州

2

太tm解气了，当华为pura80ultra更新后，麒麟9020出现的那一刻，心

3

四选一怎么选？旗舰新机一款比一款炸裂打算今年换机的朋友爽了，看了下今年的旗舰是

4

这是iPhone17只看正面时你立马能区分升级的地方：灵动岛变小了

5

华为的前三号员工1.任正非（工号001）华为创始人，1987年集资2.1万

6

追觅官宣造车追觅：要造最快的车！这么卷的汽车市场还有选手入场，给追觅点赞[爱你

7

8月8日，河南许昌一小伙，在闲鱼上5300买了一台苹果16pro，结果顺丰配发当

8

华为又放大招啦！8月15号，华为Pura80手机处理器，kirin9020惊艳

9

实锤了！中国不买美国芯片，H20就暂停生产了，现在黄仁勋更加睡不着觉了，由于这次

10

买手机不要着急，买新不买旧。9月10月份将有大量新机发布，配置提升，续航也提升

科技最新文章

1

告诉大家一个不幸的消息，以后高端机也买不到曲面屏了！今天蓝厂放出了vivoX

2

外媒曝光了iPhone17系列的电池设计，基本也能和此前的爆料对应上了。国行以及

3

OPPO产品经理Monica今日通过社交平台账号从OPPO公司离职，此前因OP

4

用了两个多星期荣耀X70，我发现了一个缺点，估计会让某些人失望。不少人都是冲着

5

荣耀Magic8Pro配置信息来了骁龙8E5旗舰芯片，3D双解锁，2亿像素

6

下半年唯一四摄旗舰？OPPO这回赢麻了。。。保哥又爆料了，OPPOFind

7

iPhone17系列国行版的电池容量曝光了（靠谱版），具体如下：iPhone

8

又加码了！Magic8升级8000mAh电池！看来是杠上了！小米16系列标准

9

【荣耀彻底杀疯！】Magic8系列这次真的不讲武德——配置堆到天花板，连吐槽

10

k80至尊版天马屏vs华星屏。可以直观的看出，屏幕发绿的是天马屏，通透的是华星屏