... 2024-07-06 16:10 .. GPT-4o获237分,优于多数人类考生。
国产大模型中,豆包文综成绩最高,得分224.5分,其中历史达到82.5分,在所有9款大模型中排第一。
地理考卷有大量图片考题,图像理解能力较强的GPT-4o得到最高分,但仅有68分。
语文、英语评测中,多家大模型在客观题上拿满分。
但写作文是弱项。
多次参加全国高考语文阅卷的北京市级骨干教师、怀柔区语文学科带头人夏老师是本次评测的作文阅卷人。
她认为,“AI作文有清晰完整的结构,有逻辑性,语言通顺流畅,但缺乏感情和感染力”。
同理,在40分的英语写作考试中,大模型的最高分只有29分,主要丢分在表达空泛、缺少细节上。
值得注意的是,大模型高考呈现出严重的偏科现象:数学、物理、化学等数理学科全线不及格,总分最高分不到480。
而河南理科一本线是511分。
最顶尖的大模型无法进入理科考生的前30%。
数学评测中,仅GPT-4o、文心一言4.0 .. UfqiNews ↓
1
本页Url
🤖 智能推荐