免费安卓手游下载、分享游戏攻略、电脑硬件资讯、数码科技最新资讯
当前位置: 首页 > 数码科技 > 阿里通义千问正式发布开源 Qwen2.5-1M 模型及推理框架

阿里通义千问正式发布开源 Qwen2.5-1M 模型及推理框架

时间:2025-02-01 06:10

小编:小世评选

近日,阿里通义千问正式宣布开源 Qwen2.5 系列模型及其推理框架,以更好地满足开发者在长期文本分析与处理上的需求。根据IT之家1月27日的报道,通义千问的这一新举措,标志着在人工智能领域,尤其是自然语言处理(NLP)技术的进一步发展。

两款新模型的亮相

这次发布的 Qwen2.5 系列模型包括 Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M。这两款模型基于开源理念,不仅满足了技术爱好者的需求,也为企业提供了可定制的解决方案。从模型的命名可以看出,数值“1M”所指的是其在处理上下文时能够支持的 Tokens 数量,显著高于之前的版本,突破了传统模型在长文本处理上的制约。

推理框架的创新

为了提高开发者部署模型的效率,Qwen 团队同步推出了基于 vLLM 的推理框架,并特别集成了稀疏注意力机制。这种创新使得 Qwen2.5-1M 系列模型在处理长达 1M Tokens 文档时,能够显著提高速度,提升了模型的实用性和值得信赖性。

在以往的自然语言处理任务中,尤其是长文本任务,一些传统模型在处理复杂信息及上下文理解时表现不佳。而 Qwen2.5-1M 系列模型,则在大海捞针(Passkey Retrieval)任务中展现了出色的能力,能够准确提取出隐藏信息。这不仅极大地提升了文档检索的效率,也展示了长文本任务处理领域的进步。

性能与应用的成果

对比之前的 128K版本,Qwen2.5-1M 系列模型在绝大多数任务上表现优越,尤其在处理超过 64K 长度的输入时,其优势更加显著。根据 Qwen 团队的测试,在 RULER、LV-Eval 和 LongbenchChat 测试集等多个复杂的长文本理解任务中,Qwen2.5-14B-Instruct-1M 模型表现尤为优秀,不仅超越了同系列模型 Qwen2.5-Turbo,同时也在多个传统数据集中稳步超越了知名的 GPT-4o-mini。

这一系列表现的提升,不仅为学术研究提供了可参考的模型,同时也为企业与开发者在实际应用中提供了更多选择,特别是在内容理解、情感分析以及智能问答等场景中,都能见到 Qwen2.5 模型的身影。

短文本任务的表现

在短文本任务方面,Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M 的表现和之前的 128K 版本持平,道出其在兼顾长序列处理能力与短文本处理能力中的均衡表现。特别是 Qwen2.5-14B-Instruct-1M 模型,与 GPT-4o-mini 相比,在短文本输入处理上,得到了相近的性能,同时支持的上下文长度却是其八倍,使得在不同场景中的应用更加灵活与高效。

阿里通义千问的战略愿景在于通过开源技术推动人工智能的民主化, Qwen2.5-1M 系列模型及推理框架的发布,是这条道路上的重要一步。它不仅为开发者提供了强有力的工具,也为更广泛的应用场景提供了可能,展现了开源社区在推动科技进步中的重要作用。

为了帮助用户更好地了解并使用这些模型,阿里通义千问提供了模型链接([模型链接](https://www.modelscope.cn/collections/Qwen25-1M-d6cf9fd33f0a40))、技术报告([技术报告](https://qianwen-res.oss-cn-beijing.aliyuncs/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf))以及体验链接([体验链接](https://modelscope.cn/studios/Qwen/Qwen2.5-1M-Demo))。这一系列的努力将极大推动真实世界应用中的AI技术发展,为构建更加智能的未来奠定基础。

精品推荐

相关文章

猜你喜欢

更多

热门文章

更多