阶跃星辰在LiveBench榜单中斩获中国大模型第一,Step-2展现卓越指令跟随能力
时间:2025-02-17 09:30
小编:小世评选
在人工智能领域,特别是大型语言模型的发展中,阶跃星辰(Leap Star)正逐步崭露头角,成为行业内的一支不可小觑的力量。虽然其在业内的影响力逐渐上升,但对于普通大众而言,阶跃星辰的技术实力和创新能力仍然显得不够直观。最新的LiveBench榜单数据为阶跃星辰的实力做出了有力的证明。
LiveBench被广泛认为是“世界上首个不可操控的LLM基准测试”,其所具备的权威性和公正性受到业内专业人士的高度认可。在这份榜单中,阶跃星辰自研的万亿参数语言模型Step-2以出色的表现成功夺得了中国大模型的第一名,此次成绩几乎逼近OpenAI的顶尖模型,超越了诸如GPT-4等多款国际知名语言模型,在全球排行榜中名列第三,仅次于OpenAI和Anthropic。
值得注意的是,阶跃星辰在榜单上的优异表现,使其成为唯一进入前十名的中国大语言模型,排名更是高居第五。相较之下,其他上榜的国产模型如通义千问和深度求索则未能闯入前十,分别位列第十三和第二十三。这一成绩展示了阶跃星辰在底层模型能力上的突出表现。
在LiveBench的多项评价标准中,Step-2在指令跟随能力(IF Average)方面更是喜人,获得了86.57的高分,位居榜首,超越了目前所有国内外的语言大模型,包括OpenAI的最新模型。这一成绩充分体现了Step-2在语言生成细节的控制能力以及处理复杂指令的高超技能。
自2024年3月发布国内首个由创业公司研发的万亿参数语言模型Preview版Step-2以来,阶跃星辰已在多个领域取得了显著成就。在中文大模型基准测评机构SuperCLUE的评比中,该模型也成功登顶,证明了其在多模态大模型中的领先地位。如此众多的成功体现出阶跃星辰在提升自身底层实力方面下的苦功和决心。
基于Step-2的强大能力,阶跃星辰推出的C端产品跃问(Yuewen)也进行了重要的迭代升级。“拍照问”这一功能的推出,利用图像交互实现“即拍即问”,有效解决了传统文字和语音交互过程中难以准确表达的问题,受到了用户的广泛称赞。目前,Step-2已经接入跃问的APP和网页端,开发者也可通过API将其能力嵌入自身应用中。
LiveBench的含金量不容置疑。作为一项由AI科学家杨立昆等人共同推出的基准测试,LiveBench涵盖6大类18项任务,享有全面、客观和公正的声誉。每月更新问题,并根据最新的数据集、论文及相关领域新闻设计评测问题,以尽量避免数据污染。而其评价体系也相对中立,可以从多个维度,比如数学性、推理能力、编程能力、语言理解、指令遵循能力和数据分析能力,准确地评估模型性能。
Step-2在指令跟随能力上的卓越表现,不仅展示了其在结构化任务中的应对能力,还反映了其在复杂语言生成场景中的实用性。例如在文学创作方面,用户可以输入特定主题的指令,Step-2则能够精确调整文本,确保各类文学形式都能符合要求。在处理复杂的项目提案时,如设计一套为期一周的社区公益活动计划,Step-2同样能够综合考量,确保活动的各个环节齐备无缺。
Step-2强大的能力背后,离不开其庞大的数据基础和创新的模型架构。阶跃星辰采用了高效的MoE(Mixture of Experts)架构,结合部分专家共享参数的设计,使每个模型都可以得到充分的训练。在此过程中,团队突破了多项关键技术,从而支撑了高效的模型训练。
阶跃星辰并不满足于万亿参数的大语言模型开发。其Step-1.5V多模态模型在视频理解和感知方面的表现也极具亮点,能够准确识别视频中的物体、人物和环境,深入理解视频中的情感氛围。Step-1X图像生成大模型则在处理含有丰富中国元素的图像时表现更加出众,能够生成高质量的、细节丰富的视觉内容。
随着基础模型能力的持续提升,阶跃星辰将在产品创新上展现出更强的底气。跃问智能助手的“拍照问”功能,就是基于Step-2强大能力推出的创新工具,解决了许多以往难以通过文字或语音准确描述的问题。未来,随着基础模型的不断进化,阶跃星辰的产品将迎来更广泛的应用场景。
在的AI领域,技术实力已成为企业竞争的核心。阶跃星辰凭借Step-2的领先表现,不仅在国内市场上脱颖而出,也为全球科技舞台注入了中国智造的强劲力量。这个激情澎湃的新时代,正期待着阶跃星辰在未来继续书写更为辉煌的篇章。