免费安卓手游下载、分享游戏下载、电脑硬件、数码科技最前沿咨询
当前位置: 首页 > 硬件资讯 > 前特斯拉AI总监开源nanochat,训练成本低至711元,获5.6k星好评

前特斯拉AI总监开源nanochat,训练成本低至711元,获5.6k星好评

时间:2025-12-04 00:00

小编:星品数码网

日前,前特斯拉人工智能与自动驾驶视觉总监、OpenAI研究员安德烈·卡帕西(Andrej Karpathy)在GitHub上开源了名为“nanochat”的项目。该项目声称只需不到711元(约合人民币711.5元)就能完成模型的训练。自发布以来,nanochat迅速赢得了开发者的青睐,累计获得超过5.6k颗星的评价,显示出其在AI社区中的广泛认可。

nanochat的设计与特点

与其早期版本“nanoGPT”主要聚焦于预训练不同,nanochat是一个从零开始构建的极简模型,采用了精简的依赖代码库。卡帕西表示,nanochat的基本架构与Meta的Llama相似,但经过了 simplification,融入了大型语言模型(LLM)的一些重要改进和设计理念。项目的开源为使用者提供了低门槛的入门方式,使更多的开发者能够参与到AI聊天机器人的构建中来。

卡帕西在推文中提到,整个模型在进行指令微调(SFT)阶段的训练成本约为657.4元,他甚至打趣地说,这样的省钱还让自己能买个冰淇淋。至于强化学习的支持,目前还不够完善,因此未将其计算在内,这使得项目在帮助开发者快速训练模型方面具有了较强的实用性。

训练与性能展示

开发者只需启动一个云GPU实例,运行一个简单的脚本,就能以不到711元的成本训练出一个可以进行基础对话、撰写故事及回答简单问题的聊天模型。经过约定的训练后,模型在评估基本能力的CORE指标上会有显著提升。当投入的成本增加至7114.7元时,模型表现也会显著增强,能处理基础的数学和编程问题,并通过选择题测试。

例如,一个深度为30的模型训练后,其性能在一些基准测试中取得了优异的成绩。在MMLU(多任务语言理解基准)等测试中,nanochat展示了出色的语言理解能力,在基本常识推理任务 ARC-Easy 和数学推理基准GSM8K的测试中亦表现突出。

功能与应用

nanochat实现了一系列强大的功能,包括:

1. 使用新实现的Rust算法训练分词器;

2. 在FineWeb数据集上进行Transformer LLM的预训练,以及多维度评估;

3. 利用SmolTalk的用户-助手对话数据、选择题数据和工具使用数据进行中期训练;

4. 通过指令微调进行针对性的评估,涉及常识选择题、数学和代码基准;

5. 提供“GRPO”算法在GSM8K数据集上进行强化学习的选项;

6. 采用带KV缓存的引擎实现高效推理,支持简单的预填充、解码和工具调用(如轻量级沙箱中的Python解释器);

7. 通过CLI或类似ChatGPT的网页界面实现交互;

8. 生成单页Markdown评估报告,以游戏化的方式整个流程。

在其发布的推文评论区,卡帕西展示了nanochat与用户之间的对话示例,基础版nanochat已成功实现AI聊天机器人的基本功能,并能应用户请求撰写诗歌,令人印象深刻。

社区反响与未来展望

随着nanochat的开源,许多开发者纷纷表示受到了极大的启发,有人甚至称赞卡帕西为“传奇人物”。已有网友创建了nanochat的可交互实时代码图谱,使得开发者能够更加直观地探索项目的可能性,不断挑战进一步的应用场景。

nanochat的推出不仅展示了AI模型开发的高性价比,为行业提供了有力的参考。虽然当前版本的性能与商业大模型仍有差距,但通过这样的开放源代码实践,AI技术的应用范围将得到更广泛的拓展。

nanochat的发布为AI模型的开发提供了成本控制的新路径。它不仅表明在精细的架构设计和流程优化下,通过相对低廉的成本,开发出基础对话AI的技术是可行的。同时,随着开源社区对nanochat的持续优化与完善,这种高效开发模式或将推动AI技术在更广场景中的普及和应用,造福于广大的开发者与用户。

精品推荐

相关文章

猜你喜欢

更多

热门文章

更多