阿里开源千亿参数模型 Qwen1.5-110B，性能超越 Meta-Llama3-70B

2024-07-04 05:06:44 分类：热点阅读(18832)

CSS站长资源（ChinaZ.com）4月28日消息:近日，阿里阿里巴巴宣布开源其最新的开源 Qwen1.5系列语言模型 - Qwen1.5-110B。这是千亿 Qwen1.5系列中规模最大的模型，也是参数该系列中首个拥有超过1000亿参数的模型。

据悉，模型Qwen1.5-110B采用了与其他Qwen1.5模型相同的阿里Transformer解码器架构，并引入了分组查询注意力（GQA）机制，开源在模型推理时更加高效。千亿该模型支持32K tokens的参数上下文长度，同时仍然是模型多语言的，支持英、阿里中、开源法、千亿西、参数德、模型俄、日、韩、越、阿等多种语言。

与最近发布的SOTA语言模型Meta-Llama3-70B和Mixtral-8x22B进行对比，结果显示Qwen1.5-110B在基础能力方面至少与Llama-3-70B相媲美。

阿里巴巴表示，与之前发布的72B模型相比，在两个聊天模型的基准评估中，110B模型表现显著更好，这表明即使在没有大幅改变后训练方法的情况下，更强大、更大规模的基础语言模型也可以带来更好的聊天模型性能。

Qwen1.5-110B是Qwen1.5系列中规模最大的模型，也是该系列中首个拥有超过1000亿参数的模型。它在与最近发布的SOTA模型Llama-3-70B的性能上表现出色，并且明显优于72B模型。

未经允许不得转载：>以辞害意网 » 阿里开源千亿参数模型 Qwen1.5-110B，性能超越 Meta-Llama3-70B