Mixtral 8x7B是Mistral AI于2023年12月11日发布的首个开源MoE(混合专家)大模型。Mixtral是一个稀疏的混合专家网络,基于Transformer的混合专家层,为纯解码器模型。每层有8个前馈块(专家),一个路由网络在每层为每个token选择两个专家来处理,最后将它们的输出组合相加。总参数量为46.7B,由于采用混合专家网络结构,每个token仅使用其中12.9B参数,上下文窗口大小为32K。采用了分组查询注意力(GQA),显著加快了推理速度,还减少了解码期间的内存需求,在32k token的序列长度上,可减少8倍的缓存内存使用,且不影响模型质量。在大多数基准测试中优于Llama 2 70B,推理速度快6倍。在TruthfulQA基准测试上比Llama 2更真实(73.9% vs 50.2%),在BBQ基准测试上呈现出更少的偏见。在MT - Bench上达到了8.3的分数,性能与GPT3.5相媲美。