AI大模型参加高考 GPT-4o文科成绩最好理科普遍不行

AI大模型参加高考 GPT-4o文科成绩最好理科普遍不行已关闭评论

A+

　　【御龙天下科技消息】近几天，各省2024高考成绩陆续公布，不少高分学霸也开始登上热搜受到网友们膜拜。而有媒体近日举办了一项“另类高考”，让近两年大火的AI大模型来模拟考生作答高考试题，看它们的表现究竟如何。

AI大模型参加高考 GPT-4o文科成绩最好理科普遍不行

　　从该媒体公布的最新发布高考新课标Ⅰ卷大模型评测报告中，GPT-4o以562分排名文科总分第一。国内产品中，字节跳动旗下的豆包拔得头筹，成绩是542.5分。根据介绍，本次大模型高考评测与河南省考卷完全相同，而河南高考录取分数线显示，文科本科一批录取分数线为521分，豆包等三款国产AI成功冲上一本线。根据最新河南高考分数段统计数据，GPT-4o的562分在文科考生中排名8811名，相当于人类考生的前2.45%，豆包则处于前4.27%的位置。

AI大模型参加高考 GPT-4o文科成绩最好理科普遍不行

　　语文作为文科的重要组成部分，是大模型与人类考生展开激烈竞争的舞台。国产大模型凭借对中文语言的独特理解和处理能力，表现可圈可点。百小应、字节豆包和腾讯元宝占据了前三的位置。英语考试中，大模型在阅读和语言运用等客观题上展现出了较高的水平，GPT-4o、百小应、通义千问等甚至获得了80分的满分，豆包和文心4.0也接近满分。但在40分的写作考试中，最高分仅为29分，由GPT-4o和百小应获得。

　　不过在理科方面，大模型的水平相比人类顶尖考生的差距就有点过大了。大模型的理科最高分还不到480分，多数大模型的理科总分在400分以下。在数学考试中，9款大模型产品中仅有GPT-4o、文心一言4.0和豆包获得60分以上的成绩（满分150分）。在化学和物理考试中，情况更为严峻，平均分数分别只有34分和39分。化学单项最高分49.5分由豆包获得，而GPT-4o仅有42分。