Qwen1.5-32B是由阿里巴巴开源的320亿参数的大型语言模型,它在模型架构上与Qwen1.5系列其他模型相似,但引入了分组查询注意力(Grouped Query Attention, GQA)技术,这有助于提高推理效率并降低注意力计算的数量68。尽管在综合理解能力MMLU得分上并不突出5,Qwen1.5-32B在多种任务上展现出了竞争力,包括MMLU、GSM8K、HumanEval和MT-BENCH等9。此外,该模型的性能略超过Mixtral 8×7B MoE,但略低于720亿参数的Qwen-1.5-72B,具有高性价比,显存需求减少310。