GPT-4考过MIT造假,三位教授联名「甩锅」!猪队友作弊,抢发论文
新智元报道
【资料图】
编辑:桃子 好困
【新智元导读】GPT-4考过MIT风波再爆大瓜。刚刚,MIT共同作者亲自澄清问题,竟因「猪队友」抢发,使用未经允许的数据集酿成大祸。
论文作者「官方打假」来了!
前段时间,GPT-4通过MIT数学本科考试,甚至拿了接近满分成绩引众多网友围观。
然而,这篇论文刚发布,就被同校学生爆出「数据集」有问题,结果并不准确。
没想到,爆料一出,AI界大佬LeCun、马库斯等纷纷出来发声。
今天,来自MIT的论文作者正式给出了解释。
让人大跌眼镜的是,作者之一的Iddo Drori,竟然是在没有得到其他人允许的情况下,擅自抢发了论文。
甚至有共同作者表示,自己是在周末外出旅行后,才得知论文已经发了。
而且,Iddo据称不仅「隐瞒」了自己实际采用的方法,而且在发表前就已经被告知,论文中还有问题没有修改……
声明全文
在6月15日,Iddo Drori在arXiv上发布了一份与麻省理工学院(MIT)几十门课程考试和作业数据相关的论文。
然而他这样做并没有得到许多共同作者的同意,尽管被告知在发表之前应该纠正一些问题。而且我们当中的一些人在周末外出旅行后,在6月18日星期天才得知论文已发。
在解决这个问题的过程中,我们发现,与Iddo Drori向我们和收集数据的学生传达的相反,Iddo没有得到所有导师的许可来收集构成论文主题的作业和考试题的数据集。
当论文在社交媒体上出现,并且Iddo未经任何人许可在网上发布数据样本时,一些课程导师才了解到这个数据集的存在,以及他们的课程材料被纳入其中。
这些都是正在通过机构渠道进行处理严重的问题,因此我们没有轻率地在公开场合对此进行声明,但我们认为解释为什么这篇论文不应该被发表并且必须被撤回是很重要的。
我们已要求Iddo从arXiv上撤回论文,并直接联系了arXiv,解释了这个情况。
我们想强调的是,在这篇论文中,所有学生作者都非常努力地工作,如果数据是经过同意收集的话,这篇本来可能是非常有趣和有价值的论文。已发表的论文的许多问题并不是学生的过错。
而且,GPT-4不能获得麻省理工学院学位。
网友:怕不是甩锅吧
对于这份声明,LeCun转发点评道,「感谢澄清」。
曾指出问题的Raunak Chowdhuri,也已经把更新进行了置顶。
不过,有网友指出,这篇论文的问题并不在于有没有「同意」发表,而是在于「方法」本身。
而现在看起来是,这些作者希望自己的名字出现在这篇可能会爆火的论文上,但又不希望承担出错之后的责任。
如果论文并没有被人「打假」,那么也不会有这篇所谓的「公开声明」——迫使其中一些作者与论文割席。
显然,作为论文的共同作者,你必须对你署名的工作质量负责。
也有网友表示:「这是我一生中见过最糟的替罪羊。」
有趣的是,除了论文「造假」被人抓包之后的急忙甩锅——我虽然署名了,但这个问题和我无关。此前在顶会IJCAI 2016上也出现了原理相似的一幕——在论文被接收后,疯狂拉人。
「作者X其实参与了,只不过我们没来得及写上。」
文章地址:http://ijcai-16-pc.blogspot.com/2016/04/the-increasing-practice-of-expanding-co.html
就在接收名单发送后的第二天,我们发现,有人试图向他们已被接受的论文里添加额外的合作者。 我理解有时在论文提交后,可能会从同事那里得到非常重要的帮助,我们自己的研究组也偶尔这样做。但突然有50多篇论文都需要,就有些奇怪了。 更令人惊讶的是,其中有很多人发现,他们不仅有一位被遗忘的合作者,而是有「多位」(有时多达4个)被遗忘的合作者。 显然,谚语「成功有很多父母,而失败则无人问津」在这里得到了充分的体现。 不过,我们在审稿期间每周都会备份截图,所以知道所有论文的原始作者。(这也是最终在接收名单上所呈现的)。
GPT-4攻破MIT考试
GPT-4在MIT考试中开挂这个结果一经公布,吸引了众多目光。
同样的测试,GPT-3.5搞定三分之一,而GPT-4全拿下了。
这张图表,便成为论文中最亮眼的那一部分。
6月15日,由MIT、波士顿大学,以及康奈尔大学的研究团队发表最新论文,展示了GPT-4在MIT考试中的能力。
论文地址:https://arxiv.org/pdf/2306.08997.pdf
论文中,研究人员自制了一个数据集,其中涵盖了4550个问题和解决方案。
这些包括,MIT数学系和EECS的学生获得本科学位的课程问题集、期中考试和期末考试。
具体如下:
研究人员从数据集中随机生成228个问题,不涉及已有图像和解决方案的问题。
然后,让5个最先进的语言模型模型一起参加了这场考试:GPT-4、GPT-3.5、StableVicuna-13B、LLaMA-30B和LLaMA-60B。
最终结果发现,经过调优后的GPT-4,拿到了100%的分数。而原始版本的GPT-4,没有经过任何调优,也拿下了90%的分数。
而具体调优过程,如结果图中所示,包括Few-shot+CoT+Self-critique+Experts。
每增加一个调优环节,GPT-4的能力也就跃升一步。
而这篇研究当时有争议的地方,就在于让GPT-4给自己打分。
研究团队在数据集上,微调GPT-4,给定问题Q,基准解S,和LLM的答案A,便使用GPT-4自动对模型响应进行了评分。
GPT-4给自己打满分,确实值得怀疑。
客座教授被指「抢发」论文
Iddo Drori
Iddo Drori是波士顿大学计算机科学实践副教授,麻省理工学院的客座副教授,以及哥伦比亚大学的兼职副教授。
此前曾是麻省理工学院EECS的讲师,康奈尔大学运筹学和信息工程学的客座副教授,以及纽约大学数据科学中心、Courant研究所和NYU Tandon的研究科学家和兼职教授。
他拥有计算机科学博士学位,并在斯坦福大学统计学领域进行过博士后研究。他还拥有组织行为学和创业管理的MBA学位,并拥有十年的工业研究和领导经验。
Iddo Drori的主要研究领域是机器学习、人工智能和计算机视觉,发表了70篇论文,被引用超过5200次,教授过35门计算机科学课程。
他是剑桥大学出版社出版的教材《深度学习的科学》的作者。他在计算机视觉会议上赢得过多项竞赛,并在机器学习会议上获得过多个最佳论文奖项。
而就在刚刚,有网友敏锐地发现:「Iddo现在不仅去掉了LinkedIn主页上『麻省理工学院客座教授』的头衔,而且他的客座职位似乎即将在这个月结束。」
三位共同作者
Armando Solar-Lezama
Armando Solar-Lezama是麻省理工学院的电气工程和计算机科学(EECS)教授,同时也是计算机科学与人工智能实验室(CSAIL)的副主任兼首席运营官。
他是由美国国家科学基金会(NSF)资助的Expeditions项目「通过代码理解世界」的首席项目负责人,并且还是一个创建交互式演示文稿的在线平台——playskript的创始人。
他的研究重点是程序合成。这是一个令人兴奋的研究领域,一方面,程序合成涉及使用自动推理和学习来帮助将更多自动化引入编程过程。另一方面,代码提供了一种独特的建模机制,因此程序合成可以在构建更可预测和稳健的学习系统方面发挥重要作用。
Tonio Buonassisi
Tonio Buonassisi是麻省理工学院的机械工程教授。他的研究主要集中在太阳能光伏和技术经济分析领域,在许多公司的技术发展中发挥了重要作用,因此获得了美国总统早期科学家和工程师奖(PECASE)、美国国家科学基金会职业奖(CAREER Award)和谷歌教师奖。
在MIT,Tonio Buonassisi是可持续发展加速材料实验室的负责人,领导可持续材料开发的研究工作。他还曾担任新加坡加速材料制造计划的创始主任。此外,他还共同创办了初创公司Xinterra以及非营利性组织Fraunhofer可持续能源系统中心。
Tonio Buonassisi在教育方面展现出了极高的热情和才能。他曾荣获麻省理工学院Everett Moore Baker杰出本科教学奖,他的教学影响不仅局限于课堂,还通过其OpenCourseware/YouTube光伏讲座系列获得了超过179,000次观看。他最近还制作了一系列名为「加速材料制造」的YouTube视频,重点关注人工智能在材料研究中的应用。
Yoon Kim
Yoon Kim是麻省理工学院(EECS/CSAIL)的助理教授。之前在哈佛大学获得计算机科学博士学位,导师是Alexander Rush。
他的研究兴趣包括:大规模模型的高效训练和部署、理解大语言模型的能力和限制、用符号机制控制和增强神经网络、计算和人类语言处理之间的联系。
变了味的研究
现在,GPT-4可以说是已经被推崇成了LLM领域的全新「基准」。
这种趋势一方面在迫使研究人员将自己的工作与其进行比较,另一方面又催生了相当一部分只为跟风和炒作的研究。
不仅如此,OpenAI在GPT-4技术报告中开创的「黑盒」方法,也被其他人纷纷效仿。
在HackerNews的讨论中,一位用户表示,机器学习已经不再是一个科学领域,而是变得像社会科学一样,建立在另一种不可证伪和不可重现的研究之上。
有媒体称,这次事件无疑是在人工智能领域树立了一个糟糕的先例,让大家对研究的真实性产生了质疑——互联网上有多少论文实际上是有问题的?
随着「基准」GPT-4开始涉足文章的撰写阶段,论文的质量预计还会有进一步下降。
参考资料:
https://people.csail.mit.edu/asolar/CoursesPaperStatement.pdf
标签:
- 这款迷你主机的型号是机械师创物者Mini它的表现会如何呢 今日关注
- 速读:北京中考首日 各考点做足准备积极应对高温
- 家电巨头又一新车上市!_热讯
- 巨无霸酱到底是什么|全球微速讯
- 环球实时:北京今年首期油车指标摇号明天进行,共14300个指标
- 全球快资讯丨农发银行专家委员会副主任接受审查调查
- 株洲市交通运输局开展“情满旅途”志愿服务活动
- 正海生物(300653.SZ):公司的活性生物骨产品是首个国产活性生物骨-讯息
- 当前热点-“两贵之争”重审判决,上海贵酒笃定前行
- 天天快消息!凯赛生物:拟定增募资不超66亿元 招商局集团将间接入股
- 环球今日报丨《非遗里的中国》带你畅游三湘四水,感悟湖湘文化底蕴!
- 兴县杂粮协会成立并召开会员大会
- 日本国家旅游局:5月访日游客数超189万 恢复至疫情前近7成水平
- 世界快看点丨他从普京的心腹 险些成为普京的心腹大患
- 建投能源(000600.SZ):参股投资的海兴核电项目力争今年年底核准
- 世界观天下!美国在中国周边下“巨大赌注”,一定会亏
- 成都新津公安开展“禁毒宣传进校园,寓教于乐入人心”主题党日教育活动_环球看点
- 坤彩科技携“全球首套萃取法氯化钛白”亮相海创会,加速技术大规模产业化-今日看点
- “客家祖地”福建宁化红色文旅融合展魅力 天天头条
- 天天快看点丨未遵守上市规则,克莉丝汀补充披露出售两处资产信息
- 贝佳斯三种矿物泥矿物泥浆功效怎么样?
- 大成基金王帅:A股科技股行情,我倾向于选择“奇点”与“钟摆”
- QQ和微信账号打通!目前新版QQ支持微信登录-焦点热议
- “好吃”又好玩!暑期临近,精选9条避暑铁路线路来了!
- 世界快播:每日一景| 六月荷花別样红 扬州各大风景区荷花盛开
- 环球热消息:前人栽树后人乘凉歌曲_前人栽树后人乘凉
- 我是歌手邓紫棋第一次出场(我是歌手之邓紫棋歌后初醒)
- 小联赛锦囊:莫尔德进攻犀利,海于格松不至于被打爆_快讯
- 河南高温暂缓!明后两天再加强,豫北局地40℃|天天热议
- 焦点热文:抚州崇仁县养老院一览表
- 惜败世界第4!男篮“新王炸”正式闪耀世界杯,至少NBA首轮被选中
- 【天天快播报】小青体操运动员_周小菁 中国艺术体操运动员
- 【天天新视野】西藏自治区攀岩自然岩壁公开赛完赛
- 手机的导航如何传输到汽车导航上_如何将手机导航传到车载导航上
- 魔方怎么玩六面口诀视频_魔方怎么玩六面-热门看点
- 风力或达9级并伴有强雷电,海口发布雷雨大风黄色预警信号 天天速读
- 2023新疆高考录取分数线-天天速递
- 端午
- 快资讯:长春安全驾驶百日零违法挑战赛启动
- 免费、打折!一大批景区暑期限时优惠!这些证很有用
- 安逸花逾期催收电话的频率高吗?是否有权利联系借款人的家人或村委?
- 全球首台16兆瓦风机安装工作全部准备就绪
- 世界看热讯:中医院校推出长学制传递什么信号
- 巴厘岛计划限流:游客体验与居民生活如何平衡?|每日速读
- 前沿资讯!林志玲官宣退圈首现身!与老公东京街头约会,身体暴瘦引担忧
- 薪资专家:湖人不会追欧文 他们专注于留住里夫斯和八村塁 天天亮点
- 吴刚和嫦娥什么关系内涵(吴刚和嫦娥什么关系)-热讯
- 天天快资讯丨上清所:大宗商品现货清算业务数字人民币清结算服务明日上线
- 重要提醒!事关余杭家家户户!|全球热点
- 当前看点!库迪咖啡在哈尔滨成立新公司 注册资本100万元
- 微动态丨中央纪委国家监委宣传部副部长、一级巡视员郝宗强被查
- 《星球大战》莱娅公主礼服被拍卖 估价200万美金 世界要闻
- 硬汉现形记 今热点
- 当前滚动:国产机在欧洲市场遭遇困境,诺基亚对手机专利收费存在争议
- 期待更多的游戏科技“破圈”创造价值_环球讯息
- 2023彭州市幼升小民办学校补录公告(计划+日程) 环球播报
- 对话微软电商中国区总经理雷闻:用技术优势打造跨境电商新模式丨产业深观察-焦点短讯
- 一帧中国丨湖蓝色玻璃杯背后的古代海上丝路贸易(2023年6月25日)_环球速看料
- 每日快播:“中国好人”胡晓萍:人生如竹 柔中带刚
- 云浮:“十四五”期末全市计划新筹建保租房不少于1000套|全球快资讯
- 全新Magic OS 7.0系统 荣耀80 1.6亿像素手机2099元
- 环球新消息丨债券类基金再受青睐,超长期国债ETF集中申报
- “一分别想带回家” 印度市场还能相信吗?
- 严跃进:二手房已从卖方悄然转为买方市场 当前快报
- 昆山元宇宙国际装备展6月27日举行|天天报道
- 投哥看盘(6月25:下周走势推演)
- 龙舟赛奇遇美食街 昌江特色小吃迎八方客
- 怀柔区:2023年中考今日开考
- AMD R7 5700处理器规格曝光:8核16线程 无核显版 当前快报
- ESG风潮下,酒店供应链打响“细节之战”_看点
- 易经学习笔记第二百零二课|世界快播报
- 今日热门!广东发布新型储能路线图
- 焦点简讯:福彩3D-23166期晒票,未尝君苦,不劝大度
- 印度煤炭库存同比增长44%,达到1.106亿吨-每日速递
- 萧县新庄镇:扎实开展“防溺水”安全教育工作
- 金寨县自然资源局:开展“我们的节日——粽叶飘香迎端午”活动
- Meta 和 OpenAI 首席执行官表态支持欧盟对人工智能的监管_今日热文
- 《原神》2023年6月25日礼包兑换码领取
- 使用微型pe工具箱注入驱动程序详细步骤
- 《文字玩出花》艰难的选择攻略 全球观天下
- 海南2023高考分数线公布:本科历史类428分,物理类415分 全球球精选
- 能否称之为“北方第二城”——西安城市的发展概况 世界即时
- 重点聚焦!《送给17岁男高中生礼物,如何一笔画?》:文学专家指点迷津
- 天天新资讯:全国十大正规网贷平台,全都是良心贷款、安全靠谱、口碑超好的
- 外媒:华盛顿计划强制使用特斯拉充电方案_环球简讯
- 【环球新视野】6月28日至7月2日填报本科志愿
- 江西省宜春市市场监管局明月山分局举行大型游乐设施应急救援演练 天天速看料
- 世界新动态:2023年二建考试成绩什么时候查
- 环球焦点!2023申请东莞求职创业补贴要提交什么材料?
- 【天天报资讯】端午假期合肥轨道这些站点人最多
- 她长得漂亮演技好,凭《甄嬛传》出圈,29 年不炒作没绯闻|全球热议
- 气象专家:厄尔尼诺将给我国带来哪些影响?
- 即时焦点:山西师范大学在职研究生毕业后能助力涨工资吗?
- SMM分析:临近行业淡季 钨价承压开始松动|独家焦点
- 中央纪委国家监委宣传部副部长、一级巡视员郝宗强被查 焦点报道
- “人造小太阳”何时升起-全球聚看点
- 生物医药交易中有哪些需要注意的知识产权问题?一起来学习_每日看点
- 360浏览器图片加载不出来怎么回事(360浏览器图片加载不出来)_前沿热点
- 全球快讯:沙特俱乐部本周接洽了加图索和皮尔洛
- 诗画同观 相得益彰_热议