苹果推出“多 token 预测”技术或提升移动设备AI生成速度5倍

时间：2025-08-09 09:20

小编：星品数码网

近期，科技公司苹果在人工智能研究领域迈出了重要一步，推出了一项创新的技术——“多 Token 预测”（Multi-Token Prediction，简称MTP）。这一新技术有望在未来的移动设备中显著提高AI生成内容的速度，据悉最高可达5倍。这一研究成果在科技媒体9to5Mac上获得报道，引起了业界的广泛关注。

传统语言模型的局限

在深度学习和自然语言处理的技术背景下，传统的大语言模型（LLM）主要采用自回归机制逐一生成文本。当生成“猫是黑色的”这样的句子时，模型会依次输出每一个词，依赖于前一个词的上下文信息进行预测。这样的串行处理方式虽然确保了生成文本的连贯性和逻辑性，但也导致处理速度较慢，特别是在移动设备上，会严重影响用户的使用体验。

尤其是在需要快速反应的应用场景中，例如即时对话和问答，用户常常需要快速获得反馈，因为任何的延迟都可能破坏交互的流畅性。面对这些问题，苹果通过深入研究发现了一个潜在的解决方案。

MTP技术的核心理念

苹果的研究团队在其论文《Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential》中揭示，尽管传统模型被训练为预测下一个单一词汇，但实际上它们拥有推测后续多个词的潜在能力。这种发现为发展新的生成框架提供了理论支持。

MTP技术的关键在于引入“掩码”（Mask）token作为占位符，让模型在接受输入时能一次性生成多个后续词。例如，如果输入为“The cat is <MASK1><MASK2>”，模型可以同时推测出“very fluffy”这样的词组，从而在生成效率上得到飞跃式的提升。

"推测-验证"机制的创新

MTP的另一个核心创新在于其“推测-验证”机制。具体而言，模型在推测出多个词的同时，会实时与基于传统自回归解码得到的结果进行对比。如果存在不匹配的情况，模型会自动回退到逐词生成模式，以确保输出的内容质量达到用户的期望。这种设计不仅提高了生成速度，同时也保留了生成文本的准确性与逻辑性，使得技术兼具速度与质量的优势。

实验结果与现有技术的兼容性

苹果团队在实验中使用了开源模型Tulu3-8B进行实验，结果显示，在一些通用任务中，如问答和对话交互，AI的响应速度平均提升了2到3倍。在处理代码生成、数学推理等结构化场景时，速度更是可以提升到5倍。这表明MTP技术不仅在概念上具有创新性，并且能够在实际应用中表现出显著的优越性。

研究者们表示这一创新并未以牺牲生成质量为代价，而是通过采用“门控LoRA适配”技术，动态调节模型参数，在需要时才激活推测模块。这种方法有效平衡了效率与质量，保证了用户的核心需求。

本地化计算的前景

值得一提的是，MTP技术的一个显著优点在于其能够在本地设备上运行，而无需依赖云端计算。这样的设计不仅降低了网络延迟，还减少了能耗，提升了用户体验。这为智能手机、计算机等移动设备上大模型的部署开辟了新路径，将高效、及时的AI交互体验带给用户。

未来展望与应用潜力

目前，MTP技术仍处于研究阶段，但其兼容现有模型架构的特点，使其具备了强大的落地潜力。随着技术的逐步成熟，未来有可能集成至苹果的Siri、Apple Intelligence等产品中，从而进一步提升用户的交互体验。据悉，随着手机等智能设备逐渐成为人们生活中不可或缺的工具，提升AI功能的响应速度，也将为用户带来更大的便利。

苹果推出的“多 Token 预测”技术在移动设备AI生成速度上的突破预示着人工智能领域的又一次革新。无论是在日常用户体验，还是在未来技术演进方面，这一创新都可能成为新的里程碑。我们将持续关注这一新技术的发展动态。