前特斯拉AI总监开源nanochat，训练成本低至711元，获5.6k星好评

时间：2025-12-04 00:00

小编：星品数码网

日前，前特斯拉人工智能与自动驾驶视觉总监、OpenAI研究员安德烈·卡帕西（Andrej Karpathy）在GitHub上开源了名为“nanochat”的项目。该项目声称只需不到711元（约合人民币711.5元）就能完成模型的训练。自发布以来，nanochat迅速赢得了开发者的青睐，累计获得超过5.6k颗星的评价，显示出其在AI社区中的广泛认可。

nanochat的设计与特点

与其早期版本“nanoGPT”主要聚焦于预训练不同，nanochat是一个从零开始构建的极简模型，采用了精简的依赖代码库。卡帕西表示，nanochat的基本架构与Meta的Llama相似，但经过了 simplification，融入了大型语言模型（LLM）的一些重要改进和设计理念。项目的开源为使用者提供了低门槛的入门方式，使更多的开发者能够参与到AI聊天机器人的构建中来。

卡帕西在推文中提到，整个模型在进行指令微调（SFT）阶段的训练成本约为657.4元，他甚至打趣地说，这样的省钱还让自己能买个冰淇淋。至于强化学习的支持，目前还不够完善，因此未将其计算在内，这使得项目在帮助开发者快速训练模型方面具有了较强的实用性。

训练与性能展示

开发者只需启动一个云GPU实例，运行一个简单的脚本，就能以不到711元的成本训练出一个可以进行基础对话、撰写故事及回答简单问题的聊天模型。经过约定的训练后，模型在评估基本能力的CORE指标上会有显著提升。当投入的成本增加至7114.7元时，模型表现也会显著增强，能处理基础的数学和编程问题，并通过选择题测试。

例如，一个深度为30的模型训练后，其性能在一些基准测试中取得了优异的成绩。在MMLU（多任务语言理解基准）等测试中，nanochat展示了出色的语言理解能力，在基本常识推理任务 ARC-Easy 和数学推理基准GSM8K的测试中亦表现突出。

功能与应用

nanochat实现了一系列强大的功能，包括：

1. 使用新实现的Rust算法训练分词器；

2. 在FineWeb数据集上进行Transformer LLM的预训练，以及多维度评估；

3. 利用SmolTalk的用户-助手对话数据、选择题数据和工具使用数据进行中期训练；

4. 通过指令微调进行针对性的评估，涉及常识选择题、数学和代码基准；

5. 提供“GRPO”算法在GSM8K数据集上进行强化学习的选项；

6. 采用带KV缓存的引擎实现高效推理，支持简单的预填充、解码和工具调用（如轻量级沙箱中的Python解释器）；

7. 通过CLI或类似ChatGPT的网页界面实现交互；

8. 生成单页Markdown评估报告，以游戏化的方式整个流程。

在其发布的推文评论区，卡帕西展示了nanochat与用户之间的对话示例，基础版nanochat已成功实现AI聊天机器人的基本功能，并能应用户请求撰写诗歌，令人印象深刻。

社区反响与未来展望

随着nanochat的开源，许多开发者纷纷表示受到了极大的启发，有人甚至称赞卡帕西为“传奇人物”。已有网友创建了nanochat的可交互实时代码图谱，使得开发者能够更加直观地探索项目的可能性，不断挑战进一步的应用场景。

nanochat的推出不仅展示了AI模型开发的高性价比，为行业提供了有力的参考。虽然当前版本的性能与商业大模型仍有差距，但通过这样的开放源代码实践，AI技术的应用范围将得到更广泛的拓展。

nanochat的发布为AI模型的开发提供了成本控制的新路径。它不仅表明在精细的架构设计和流程优化下，通过相对低廉的成本，开发出基础对话AI的技术是可行的。同时，随着开源社区对nanochat的持续优化与完善，这种高效开发模式或将推动AI技术在更广场景中的普及和应用，造福于广大的开发者与用户。

前特斯拉AI总监开源nanochat，训练成本低至711元，获5.6k星好评

精品推荐

相关文章