复制
收藏
提问
简洁

首个AI高考全卷评测结果出分

3月前
全网
文档
学术
百科
知识库
时间不限
自动
回答简洁模式
深入研究一些

首个AI高考全卷评测结果已经公布,这是由上海人工智能实验室旗下的司南评测体系OpenCompass进行的测试。在这次评测中,选取了7个大模型进行高考“语数外”全卷能力测试,并且使用了全国新课标I卷48。所有参与评测的开源模型的开源时间均早于高考,确保了评测的“闭卷”性48。成绩的评判由具有高考评卷经验的教师人工完成,以确保评分更加接近真实的阅卷标准148

在这次评测中,阿里通义千问2-72B模型表现突出,排名第一,总分为303分37910。然而,数学科目的成绩并不理想,所有参与评测的大模型在数学科目的平均得分率仅为36%,这突显了大模型在复杂推理能力方面的不足611。尽管如此,这次评测结果为AI在教育领域的应用提供了重要的参考和启示2

你觉得结果怎么样?
AI高考全卷评测的准确性如何?
AI在高考评分中的优势是什么?
AI高考评分系统如何确保公正性?
高考AI评分系统的发展现状
AI评分系统在其他领域的应用
AI评分系统与传统评分方法的比较

以上内容由AI搜集生成,仅供参考

在线客服