英伟达发布首款针对超长上下文的AI算力芯片CPX 提升数据中心效率

时间：2026-01-16 00:00

小编：星品数码网

全球领先的人工智能计算芯片制造商英伟达，近日在一场备受瞩目的发布会上宣布推出其首款专为超长上下文应用设计的AI算力芯片——CPX。这一创新产品将显著提升数据中心的计算效率，尤其是在编程、视频生成等需要处理大量上下文信息的领域。

英伟达的首席执行官黄仁勋在发布会上透露，CPX芯片是专门为需要一次性处理亿级别tokens并进行复杂人工智能推理的模型而构建的。这意味着CPX芯片将有能力高效处理大规模数据，从而为开发者和企业带来更强大的计算支持，推动AI应用的进步。

据了解，CPX芯片基于最新的Rubin架构打造，预计将于2026年底开始向市场出货。伴随这一新品的推出，英伟达的下一代旗舰AI服务器——NVIDIA Vera Rubin NVL144 CPX，也随之登场。该服务器集成了36个Vera CPU、144块Rubin GPU和144块Rubin CPX GPU，不仅为用户提供强大的计算能力，更可极大提升数据中心内的运算效率。

具体而言，英伟达透露，下一代旗舰机架将提供高达8exaFLOPs的NVFP4算力，相较于其前代产品GB300 NVL72提升了7.5倍。同时，单个机架便可提供高达100TB的高速内存及1.7PB/s的内存带宽。这一强大硬件配置，为超长上下文处理的应用提供了良好的技术保障。

从技术层面看，英伟达的新品在硬件设计上采用了创新的理念，通过将人工智能推理的计算负载进行分拆，从而提高算力的利用率。英伟达解释道，上下文阶段是计算受限的，要求高吞吐量的处理能力，以读取并分析大量输入数据，在此过程中生成首个输出token；而生成阶段则属于内存带宽受限，则更依赖高速的内存传输和高带宽互联（如NVLink），以确保逐个token的输出性能。

通过将这两个阶段的处理分离并进行针对性的优化，CPX芯片有效提升了算力的效率。Rubin CPX则是专门针对“数百万tokens”级别的长上下文性能所做的优化，具备高达30petaFLOPs的NVFP4算力，给予用户更快的响应速度，尤其是在处理复杂的AI应用时表现尤为突出。

英伟达还指出，大约20%的AI应用在执行过程中会面临“坐等”首个token的尴尬。例如，解码10万行代码可能需要长达5-10分钟的时间。借助CPX芯片的强大计算能力，用户将能够更快地获得结果，大幅度减少等待时间，有助于提高工作效率。

为了满足不同用户的需求，英伟达计划为Rubin CPX提供两种形式的供应方式。一种是与Vera Rubin服务器集成在同一个托盘中，另一种则是单独出售完整机架的CPX芯片，数量与Rubin机架相匹配，这样一来，用户便可根据自身需求进行灵活选择。

英伟达在这一创新中，不仅展示了其在AI算力芯片领域的领导地位，更解决了当前数据中心在处理超长上下文应用时面临的核心问题。随着CPX芯片的推出和运用，能够预计将迎来一场全新的计算革命，推动人工智能技术的进步，加速各行业的智能化转型。

英伟达在AI算力领域的不断创新，符合全球对高性能计算需求不断增加的趋势。无论是在商用应用还是在科学研究领域，具备更长上下文处理能力的CPX芯片必将为AI技术的深远发展注入新的动力，引领数据中心向更加高效、智能的方向迈进。

英伟达发布首款针对超长上下文的AI算力芯片CPX 提升数据中心效率

精品推荐

相关文章