爆火的“GPT-4 MIT本科数学满分”论文作弊，数据集本身有问题

当前位置：首页 > 资讯 > >正文

爆火的“GPT-4 MIT本科数学满分”论文作弊，数据集本身有问题

来源：腾讯网时间：2023-06-18 14:31:06

机器之心报道

编辑：蛋酱

(相关资料图)

结论不应该如此被夸大。

这两天，一篇关于 GPT-4 满分通过 MIT EECS 和数学本科考试的论文在推特上疯传。

论文地址：https://arxiv.org/pdf/2306.08997.pdf

简单概括，一个来自 MIT 的研究团队从自己学校的数学、电气工程和计算机科学 (EECS) 专业的课程问题、期中考试和期末考试中，整理出了一个包含 4550 个问题和解决方案的综合数据集。

然后，研究团队让各种大语言模型去完成这个数据集的题目，结果太吓人：GPT-3.5 能做对 1/3，GPT-4 几乎满分通过。

论文作者表示，提升模型表现主要靠「四件套」：Few-shot learning、CoT、Self-critique、Expert。

就像上表中所示，加持 GPT-4 的手法越多，模型的答题正确率就越高。原始的 GPT-4 本来就能拿到 90% 的正确率得分，一番运作之后，甚至直接拿到满分。

但大部分讨论得很激烈的网友可能没注意到，这个分数本身就是用 GPT-4 打的……

三位同样来自 MIT 的学生第一时间发现了这篇论文，作为险些被 GPT-4 赶超的群体，他们想立即领会一下爆款论文的方法论。

研究了一小时后，他们对该论文的方法产生了怀疑。

两小时后，他们意识到：数据集本身有问题。

尽管原论文的作者宣称已手动审查了发布的数据集质量，但三人发现，有明显的迹象表明，测试数据集的很大一部分被污染了。

也就是说，模型就像一个学生在考试前被告知了答案，这是赤裸裸的「作弊」。

产生质疑后，他们立即着手在数据集上完成了零样本 GPT-4 的运行，并对数据的前 30% 进行了手动评分，结果与原论文相差甚远，应该说是一个天上、一个地下。

「作为麻省理工学院的本科生，至少根据我们的经验，这个测试集并不能准确地代表在麻省理工学院获得 EECS 学位所需的理解广度和深度。」三人在博客中这么写道。

最新进展：零样本 GPT-4 的准确率能达到 62.5% 了，但还是和论文里宣称的 90% 差很多。

三人还质疑了「过度宣传」的风潮：「这些论文通常在任何合法的同行评审之前就被上传到 Arxiv，并在 Twitter 上广泛分享。在这种情况下，可能会传播不良信息，并为未来的工作树立一个糟糕的先例。」

「深度学习」斗士 Gary Marcus 也不出意料地声援了这波质疑：

同时，三人也在博客中指出一点：《Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models》论文上列出的几个作者都是本科生研究人员，让这些人对工作中出现的任何失误负责是不合适的。相反，责任应该在指导作者身上 —— 他们才是被期望确保工作符合其领域内公共学术标准的人。

接下来让我们看下，这篇「爆火」论文都有哪些问题。

数据集到底有什么问题？

首先，从原论文中得知，研究者收集的数据集包含获得 MIT 学位考试所需的 30 门数学和 EECS 课程的 4550 个问题和相应的解决方案，涵盖核心课程和选修课程。

论文中写道：「在没有图像和有解决方案的问题中随机选择了 288 个问题的测试集。」

这个数据集（不包括用于微调开源 LLM 的训练集）随着论文的公开也被发布到 GitHub 上，同时发布的还有用于生成报告的测试性能的代码。然而，作者 Drori 教授在最近的一次提交中已经将其删除。

经过检查、对比，三人确信这个被删掉的文件代表了论文中分析的测试集，因为评估代码中的所有数据的文件路径都指向它，没有提供任何修改其内容的代码，而且它在最初发布的 GitHub 仓库中是可用的。此外，该文件满足了论文中规定的所有模式要求（行数等）。这些证据似乎非常有力地支持了下面的所有主张，

「但我们要承认，这个文件有可能被换成了一个用于测试的不同文件。如果是这样的话，我们认为证明的责任在于作者公开发布这个数据和用它做的所有分析。」

那么，被掩盖的问题究竟是什么呢？三人给出了自己的分析。

无法解决的问题（约占测试集的 4%）

鉴于原论文表示，任何形式的 GPT-4 都能在测试集上产生一个完美的分数，三人开始检查个别数据点。他们很快就发现，根本不可能有满分，因为数据集中至少有 10 个问题是无法用所提供的信息解决的，另外几个问题在这种情况下根本就不是有效的问题。

像这种「有问题的问题」，至少占据了测试集的 4%。

在一个扩展的 excel 文档里，三人对已经发现有问题的数据集例子进行了注释。「红色」代表用提供的信息无法解决的问题，「黄色」代表一部分不太合理的问题。

页面地址：https://docs.google.com/spreadsheets/d/1FZ58hu-lZR-e70WP3ZPNjp9EK_4RgrQvQfsvjthQh_Y/edit?usp=sharing

重复的问题（约占测试集的 5%)

使用文本相似性检测，三人发现有 14 个问题（7 对）在 288 个问题的测试集中是重复的，在这些情况下，问题串之间的唯一区别是极小的字符级噪音，甚至完全相同。

鉴于这些无法解决的问题，GPT-4 能够通过任何方式获得 100% 的准确率，也是难以置信。要么是在某个阶段出现了答案泄漏到 prompt 中，要么是问题没有被正确打分。

这些初步的发现促使他们从少样本示例开始进一步调查（如果模型在零样本正确率方面失败的话），最终发现，既有解题信息的泄露，也有用于对模型输出进行分级的方法问题。具体情况如下：

少样本示例中的信息泄露

值得注意的是，原论文中还提到了「少样本示例」这个事。

简而言之，论文对 OpenAI 嵌入的数据集内的类似问题进行余弦相似度搜索，并将这些问题和解决方案作为额外的上下文纳入模型的 prompt，帮助模型解决问题。

这个方法本身是没问题的，只要这些示例与有关问题有足够的差异，且避免暴露不公平的信息。

只是随机扫描已发布的测试数据集时，三人注意到一些奇怪的事情：许多提供给模型的「少样本示例」与问题本身几乎一字不差。

为了进一步了解这一点，他们写了一个简单的脚本，查看了所提供的几个示例的问题陈述和所列出的问题之间的重叠情况，并绘出了直方图：

许多提供的少样本与问题本身几乎相同，这意味着模型得到的是问题的答案或与问题非常相似的问题。通常情况下，这来自于大量的共享背景的多环节问题的重复。

他们认为，为了正确评估 GPT 的解题能力，多环节问题的其他部分应该被完全排除在某一问题的少样本示例之外。事实上，他们发现这些多环节问题的解决方案，往往直接提到或给出了模型被要求解决的另一部分问题的答案。

不仅如此，在对这些数据的挖掘中，他们还发现了整个问题被重复的样本。比如：

在这两种情况下，答案是完全相同的。很难说不算信息泄漏了。

GPT-4 自动打分，有问题

此外，三人还在原论文开源的打分机制中发现了问题：

在代码中，能看出流程上处理分级存在严重的问题：论文是用 GPT-4 去评估检查的，包括 a）原始问题，b）解决方案，c）GPT 自己的答案，作为分级 prompt 中的参数。

在更多的技术领域，GPT 更有可能出现隐性误解，这种自动评分更有可能出现「自我欺骗」的结果。

此外，虽然 prompt 级联是最近许多 GPT 论文中常见的技术，但这里有大量数据泄漏的可能性。每一级不仅提供基于 ground truth 的二元信息，而且还在继续 prompt，直到达到正确答案。

尽管这些创建的 prompt 并没有看到实际的答案，但重新 prompt 直到达到正确答案的形式已经足够了，尤其是在占测试集 16% 的多选题中，无限次的尝试（几乎）保证了正确答案一定会出现。

这就好比有人拿着答题纸，告诉正在考试的学生答得对不对，一直提示到学生得到正确答案。

总结

在博客的最后，三位这样写道：

这篇论文道出了最近人工智能领域研究的一个更大趋势。随着该领域的进展越来越快，新发现的时间节奏似乎在缩短，这往往伴随着捷径。一个特别令人担忧的趋势是使用像 GPT-4 这样基于语言的模型来评估一个模型的准确性的技术。

虽然是一个有用的工具，但它的结论绝不应该被夸大，也不应该被当作 ground truth。最近的工作表明，如果没有准确的 ground truth 信息，GPT-4 评估器就不能可靠地用于验证。至少，应该选择一个随机的数据集子集，将 GPT-4 的性能与人类的评估进行比较。语言模型还不能被当作产生 ground truth 的神谕。

此外，在使用数据之前，无论是用于训练、推理、基准测试还是其他方面，重新评估每一个数据点并进行基本的检查是极其重要的。鉴于有关数据集的规模较小，简单的人工验证很容易在工作范围内完成。

我们的批评主要是针对这项研究的方法和严谨性，而不是针对其内容。我们对大型语言模型实际解决麻省理工学院课程的能力没有任何意见，只是认为本文未能以科学严谨的方式证明这一点。

X 关闭

最近更新

爆火的“GPT-4 MIT本科数学满分”论文作弊，数据集本身有问题

2023-06-18 14:31:06

资讯
“梅”完“梅”了！接下来10天，一眼望去全是雨！杭州明天中到大雨，局部暴雨……-环球头条

2023-06-18 14:18:05

资讯
每日消息!烂肉茄子家常做法，简单美味，下饭好帮手

2023-06-18 13:44:20

资讯
奇瑞瑞虎9华东大区上市，售15.29-20.39万元环球新资讯

2023-06-18 12:45:47

资讯
短短两个月，女子与高杰都牵了别人的手，这段婚姻怎么那么“假”

2023-06-18 12:03:39

资讯
德邦证券：看好煤炭价格下跌触底后的板块反弹

2023-06-18 11:04:43

资讯
弗洛伊德死亡3年后，美国发布重磅报告揭种族歧视问题讯息

2023-06-18 10:26:06

资讯
红色精灵是什么-要闻速递

2023-06-18 09:50:31

资讯
全方位拉网式巡查 209处地灾隐患点受持续监测今日热文

2023-06-18 09:23:59

资讯
武汉—长三角连连看！

2023-06-18 08:59:51

资讯
共话青年成长新方向，共谋公益事业新发展！甘肃青年公益发展大会嘉宾兰州行活动举办

2023-06-18 08:12:34

资讯
牌面！阿扎尔比利时国家队告别仪式，坐敞篷车绕场一周

2023-06-18 07:21:44

资讯
冲绳地下水检出违禁化学品日本市民团体要求与驻日美军讨论污染问题

2023-06-18 06:37:23

资讯
男装尺码对照表上衣_尺码对照表上衣世界微动态

2023-06-18 05:55:54

资讯
焦点要闻：达泊西汀吃2片可以吗_替米沙坦片可以长期服用

2023-06-18 03:51:36

资讯
安阳婚恋专家志愿服务团

2023-06-18 02:06:11

资讯
32寸电视尺寸是多少厘米长_32寸电视尺寸是多少厘米-世界热议

2023-06-18 01:02:28

资讯
愉悦的反义词是什么呢_愉悦的反义词

2023-06-17 23:08:21

资讯
【天天播资讯】信息动态:Google这次在Google Photos中创建了新的消息服务

2023-06-17 22:04:46

资讯
佛剑（关于佛剑的基本详情介绍）天天最资讯

2023-06-17 21:33:48

资讯
FF宣布FF91推迟交付世界今日讯

2023-06-17 20:56:01

资讯
观速讯丨聚飞光电董事兼副总经理减持过程短线交易，未产生收益

2023-06-17 20:22:31

资讯
邦德富士达电动三轮车配件_邦德富士达电动三轮车

2023-06-17 19:43:31

资讯
大湾区车展｜双车齐发，东风本田加快电动转型

2023-06-17 19:57:24

资讯
office（toolkit）

2023-06-17 18:52:17

资讯
婚后出了交通事故需要一起赔吗? 环球要闻_百事通

2023-06-17 18:21:00

资讯
世界通讯！浙江湖州举行西塞山迎亚运越野赛

2023-06-17 17:49:25

资讯
怎样才能学好英语发音如何学好英语发音|全球聚看点

2023-06-17 17:01:13

资讯
怎么注册微信钱包_如何注册微信钱包天天快讯

2023-06-17 16:38:23

资讯
罗马诺：莱斯特城希望1500万欧出售卡斯塔涅，尤文已经开始谈判焦点资讯

2023-06-17 16:03:30

资讯
今日报丨配置更高价格更香海豹冠军版静态体验

2023-06-17 15:57:55

资讯
甘肃共有哪些高职院校所排名-世界播资讯

2023-06-17 15:22:13

资讯
当前速读：粤港澳大湾区车展开幕：智能电动成焦点，车企政府补贴促消费

2023-06-17 15:00:49

资讯
当前消息！中石化电加热罐车现场推介会在善建科技公司成功举办

2023-06-17 14:05:26

资讯
【新要闻】如何增加故事情节的紧张感和吸引力？三个步骤，让故事更加出色！

2023-06-17 13:48:19

资讯
威风凛凛什么意思_威风凛凛解释_焦点

2023-06-17 13:01:26

资讯
天天短讯！【数字铜陵】党建引领爱心捐赠助力乡村振兴

2023-06-17 12:11:05

资讯
世界滚动:汽车基本构造原理_汽车的基本构造和原理

2023-06-17 12:02:45

资讯
天天看点：边缘计算关于边缘计算的介绍

2023-06-17 11:23:08

资讯
快报：600618股票新浪_600618股票

2023-06-17 10:53:20

资讯
吉林政事儿一周报60期｜这个夏天，长春登上两大榜单！到企业担任“科创专员” 吉林省236名科技人才就位…… 观热点

2023-06-17 10:23:33

资讯
惊艳！用针在瓷器上画花

2023-06-17 09:39:17

资讯
韵达快递单号几位数字?（韵达快递单号是几位数字组成的）-观点

2023-06-17 09:17:12

资讯
石楼县将检察建议落实纳入依法治县考核体系|焦点报道

2023-06-17 09:00:34

资讯
黑河公路口岸开通已满一年进出口货物总价值破百亿

2023-06-17 07:59:02

资讯
温氏股份（300498）：6月16日北向资金减持40.59万股

2023-06-17 07:31:16

资讯
热点评！12岁小女孩买什么礼物

2023-06-17 06:39:08

资讯
5月开始，医保局又有新“动作”，这次是个好消息！关乎到每个人

2023-06-17 06:12:03

资讯
时讯：景瑞地产不再委托联合资信对公司主体及相关债项进行评级

2023-06-17 05:04:17

资讯
堆雪人的技巧_怎样堆雪人

2023-06-17 04:42:55

资讯
618每日一猜今日答案耐克儿童鞋最大参考脚长是？6月17日答案解析

2023-06-17 04:01:01

资讯
菏泽学院专科专业分数线2020（菏泽学院专科专业录取分数）|全球快报

2023-06-17 02:04:42

资讯
顾客就餐遇账单刺客8碗米饭要价90，饭店回应：段子手为了博流量

2023-06-17 00:59:55

资讯
动态：大国工匠精神论文800字（大国工匠精神论文）

2023-06-16 23:05:21

资讯
春晖的正确贴法春晖贴法图片

2023-06-16 22:15:52

资讯
车辆故障灯标志图解大全警示灯亮了_车辆故障灯标志图解大全警示灯-环球新视野

2023-06-16 21:48:36

资讯
【世界说】种族问题难解！美媒：“黑人的命也是命”运动并未改善种族问题且关注度下降

2023-06-16 21:27:23

资讯
银杏叶像什么的比喻句小学一年级（银杏叶像什么的比喻句）|环球视讯

2023-06-16 21:07:59

资讯
“封转开”不再是封闭式基金卖点，投资关键在于产品封闭期限-世界速看料

2023-06-16 20:54:25

资讯
万通发展：公司不存在应披未披的重大事项，具体信息请以公司在指定信披媒体上披露的公告为准全球速读

2023-06-16 20:27:30

资讯
俄罗斯经济学家：美国借债“成瘾”将危及全球经济复苏

2023-06-16 19:51:30

资讯
39支队伍竞渡！粤港澳大湾区（中山）龙舟邀请赛22日启动-焦点热讯

2023-06-16 19:12:10

资讯
当前观点：上交所本周对退市未来、退市辅仁等退市整理股票进行重点监控

2023-06-16 18:59:14

资讯
火爆的“贴膜”生意，为什么车企自己不做？

2023-06-16 18:36:55

资讯
小儿柴桂退热颗粒隔几个小时吃一次（小儿柴桂退热颗粒）聚看点

2023-06-16 18:04:27

资讯
京信通信(02342)6月16日斥资约140.15万港元回购95.4万股

2023-06-16 17:51:56

资讯
适合深夜发的文案新消息

2023-06-16 17:35:49

资讯
美媒：律师曾劝特朗普与美政府签协议免于刑诉但遭当事人拒绝

2023-06-16 17:09:09

资讯
如何找公司采购的号码_如何找到公司采购电话

2023-06-16 16:49:39

资讯
电报解读|华纬科技（001380.SZ）机器人弹簧项目即将落地，国内首家切入四大机器人供应链公司世界快看点

2023-06-16 16:55:49

资讯
四川1-5月国民经济主要指标数据出炉全社会固定资产投资同比增长3.2%-当前热讯

2023-06-16 16:11:38

资讯
约定员工驾车“全责赔偿”，能否作为公司的索赔依据？观焦点

2023-06-16 15:54:59

资讯
山东高温天气预计本周末结束 18日夜间到20日大部地区将迎降雨

2023-06-16 15:53:01

资讯
环球速递！西安幼儿园邀请交警进校园：大手拉小手交通安全你我“童”行

2023-06-16 15:23:03

资讯
世界微动态丨星座上升怎么算的啊_星座上升怎么算

2023-06-16 15:07:45

资讯
当前要闻：1-5月中国汽车类零售总额同比小幅增长

2023-06-16 14:31:03

资讯
周琦帮手来了！北控签约2名前锋，状元位置不保，张庆鹏被偷家-天天热头条

2023-06-16 13:58:44

资讯
沪深两市成交额突破8000亿元

2023-06-16 13:56:07

资讯
两盘横扫过关！吴易昺击退前温网亚军，收获生涯草地巡回赛首胜全球实时

2023-06-16 12:56:39

资讯
广州海珠广场游玩攻略_海珠广场有什么好玩

2023-06-16 12:51:33

资讯
手机如何制作幻灯片_如何制作幻灯片-全球要闻

2023-06-16 12:22:51

资讯
康弘药业：KH607是公司自主研发的化药1类创新药

2023-06-16 11:58:06

资讯
天天最资讯丨皮肤晒黑快速变白的方法，皮肤晒黑快速变白的方法有

2023-06-16 11:48:37

资讯
承接进博会溢出效应 “中意合作”在上海长宁迸发新“火花” 全球观点

2023-06-16 11:24:36

资讯
当前报道:选秀专家：因过去3年选秀未获得大量当前价值勇士考虑选大龄新秀

2023-06-16 11:13:10

资讯
艾伯科技：截至3月31日止年度录得公司拥有人应占亏损2.5亿元环球百事通

2023-06-16 11:05:40

资讯
美国初请失业金人数连续两周处于高位-关注

2023-06-16 10:31:19

资讯
三苯甲醇的制备思考题_三苯甲醇天天视讯

2023-06-16 10:35:40

资讯
《仙剑世界》明日开放正式测试！1060显卡即可体验

2023-06-16 10:12:55

资讯
环球即时看！济南机场航班实时动态（济南机场航班）

2023-06-16 09:57:14

资讯
四川三地持续高温日数超20天

2023-06-16 09:51:05

资讯
【新视野】《故宫里的大怪兽》系列家庭音乐剧暑期重磅上演

2023-06-16 09:25:55

资讯
快乐减压笑迎中考

2023-06-16 09:12:26

资讯
环球快播：一走到底！右安门至通惠河12公里滨水步道贯通

2023-06-16 08:58:30

资讯
美媒：特朗普若定罪后当选美国总统可在监狱中宣誓就职天天快资讯

2023-06-16 08:31:32

资讯
关键防守！蒋圣龙横身挡出韩国近距离射门

2023-06-15 19:10:27

资讯
每日观察!2023高招进行时|北京工商大学嘉华学院：立足高端化、国际化、个性化办学大力推进国际化战略

2023-06-15 18:25:13

资讯
政策利好！哪些方向有性价比？_世界热消息

2023-06-15 18:09:22

资讯
金球奖主要人选：梅西、哈兰德、姆巴佩看热讯

2023-06-15 17:27:17

资讯
佛山参加驾驶证学法减分学习后几时参加考试？

2023-06-15 17:13:41

资讯

爆火的“GPT-4 MIT本科数学满分”论文作弊，数据集本身有问题

推荐内容

最近更新