今天是多地高考分数线公布的日子,那如果让 AI 去参加高考,它能考上哪所大学?
字节跳动 Seed 团队今天公布了最新大模型 Seed1.6-Thinking 的高考成绩单。
据悉,整个测试中,团队并未引入 prompting engineering(提示词工程)来提升模型效果,而是直接使用今年山东高考试题(题目源自网络)进行模拟考试,总分共 750 分。
考试科目设置如下:
·语数外使用新课标全国Ⅰ卷
·政史地/物化生使用山东省自主命题
·客观题:机器打分+人工质检
·主观题:由两位有联考判卷经验的重点高中老师匿名打分(还做了多轮复审)
·DeepSeek R1 输入为题目文本,其余模型为题目文本+题目截图
·默认所有模型在英语听力上均取得满分。
本次测试还引入多款主流模型作为对比对象,包括 OpenAI o3 high、Gemini 2.5 Pro、Claude Sonnet 4、DeepSeek R1 0528。
成绩单显示,Seed1.6-Thinking 的文科成绩为 683 分(语数外 + 文综),在五款模型中排名第一。
理科成绩方面,Gemini 2.5 Pro-0605 以 655 分排名第一,而豆包 Seed1.6-Thinking 排名第二,理科成绩为 648 分(语数外 + 理综)。
附上评分细则:
https://bytedance.sg.larkoffice.com/sheets/QgoFs7RBjhnrUXtCBsYl0Jg2gmg
其中,地理和历史两科表现尤为亮眼,理解与推理能力突出,化学以及生物由于原始题图模糊,失分较多,后续使用高清题图时,采用图文交织的方式,生化两科总分还能再提升近 30 分,理综达到 676 分。
对照最新公布的山东高考分数线,特殊类型招生控制线为 521 分,普通类一段线为 441 分,二段线为 150 分。
以此标准来看,Seed1.6-Thinking 不仅轻松超过本科线,甚至已超过大部分 985 高校往年录取线,可以收拾收拾,准备填完志愿上大学了。
附 Seed1.6-Thinking 体验地址:
https://www.volcengine.com/experience/ark?model=doubao-seed-1-6-250615
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.