首个AI高考全卷评测结果出分

3月前

全网

文档

学术

百科

知识库

回答简洁模式

深入研究一些

首个AI高考全卷评测结果已经公布，这是由上海人工智能实验室旗下的司南评测体系OpenCompass进行的测试。在这次评测中，选取了7个大模型进行高考“语数外”全卷能力测试，并且使用了全国新课标I卷4 8。所有参与评测的开源模型的开源时间均早于高考，确保了评测的“闭卷”性4 8。成绩的评判由具有高考评卷经验的教师人工完成，以确保评分更加接近真实的阅卷标准1 4 8。

在这次评测中，阿里通义千问2-72B模型表现突出，排名第一，总分为303分3 7 9 10。然而，数学科目的成绩并不理想，所有参与评测的大模型在数学科目的平均得分率仅为36%，这突显了大模型在复杂推理能力方面的不足6 11。尽管如此，这次评测结果为AI在教育领域的应用提供了重要的参考和启示2。

你觉得结果怎么样？

AI高考全卷评测的准确性如何？

AI在高考评分中的优势是什么？

AI高考评分系统如何确保公正性？

高考AI评分系统的发展现状

AI评分系统在其他领域的应用

AI评分系统与传统评分方法的比较

简洁

正在语音输入中...

以上内容由AI搜集生成，仅供参考

在线客服