复制
收藏
提问
简洁
首个AI高考全卷评测结果出分
3月前
全网
文档
学术
百科
知识库
回答简洁模式
深入研究一些
首个AI高考全卷评测结果已经公布,这是由上海人工智能实验室旗下的司南评测体系OpenCompass进行的测试。在这次评测中,选取了7个大模型进行高考“语数外”全卷能力测试,并且使用了全国新课标I卷48。所有参与评测的开源模型的开源时间均早于高考,确保了评测的“闭卷”性48。成绩的评判由具有高考评卷经验的教师人工完成,以确保评分更加接近真实的阅卷标准148。
在这次评测中,阿里通义千问2-72B模型表现突出,排名第一,总分为303分37910。然而,数学科目的成绩并不理想,所有参与评测的大模型在数学科目的平均得分率仅为36%,这突显了大模型在复杂推理能力方面的不足611。尽管如此,这次评测结果为AI在教育领域的应用提供了重要的参考和启示2。
你觉得结果怎么样?