清华与上海实验室联合发布“蛋白质GPT”,开启蛋白质研究新纪元
时间:2025-08-10 18:55
小编:小世评选
近日,清华大学智能产业研究院(AIR)副教授周浩的课题组联合上海人工智能实验室发布了一款名为“蛋白质GPT”的全新蛋白质模型。这项突破性的研究为蛋白质研究领域带来了前所未有的技术变革,标志着我们进入了一个全新的时代。
“蛋白质GPT”的发布,意味着我们正在经历一个基于通用智能的蛋白质基础模型的诞生。这款模型不仅仅局限于特定的蛋白质任务,而是展示出自我学习和类推的能力,类似于自然语言处理领域的ChatGPT。它可以通过分析少量示例而设计出全新的蛋白质结构,甚至在不断的研究中自我优化、提升能力。这一过程使得蛋白质的设计与研究变得更加高效和智能化。
该模型的开发背景源于现有蛋白质基座模型在可扩展性和通用性方面的不足。在过去,蛋白质领域的研究大多沿用“预训练+任务微调”的老旧范式,对模型的能力进行系统化讨论的工作寥寥无几。而“蛋白质GPT”则基于Bayesian Flow Networks(BFNs)新范式,不仅在技术上实现了诸多创新,还为蛋白质研究提供了一整套系统性的测试时间扩展方案,包括预训练的能力界限、智能涌现、上下文学习以及基于测试时间的扩展能力等四种核心“超能力”。
1. 可预测的成长曲线:研究人员设计了从800万到17亿参数的多尺度模型,利用训练中的浮点操作数(FLOPs)作为统一度量,精确预测模型在不同计算量和参数设置下的表现。这意味着在增加训练数据、模型参数或计算量时,模型的准确性和性能可以得到可预期的改善,为后续大规模蛋白质研究提供了有力支持。
2. 顿悟能力:模型的“顿悟”特性令人瞩目,它能够在不依赖外部指导的情况下,自动理解蛋白质的折叠方式与空间结构。这种飞跃性的理解与学习能力,仿佛使其从字母识别跃升到整篇文章的理解,让其更好地掌握蛋白质结构与功能之间的关系。
3. 上下文学习的应用:通过其独特的In-Context Learning机制,“蛋白质GPT”能在给定多个相似蛋白质示例的情况下,快速出设计规律,而无需额外的微调。这一过程类似于在不同题型间迁移学习,它将一组多序列比对压缩为位置级的概率分布,进而生成符合预期的新蛋白质。
4. 进化能力的边界扩展:模型的Evo测试时扩展方法能够利用其上下文学习的特质,在提供更多资源和时间的情况下,实现设计结果的优化。这意味着通过反复迭代与进化过程,科学家们可以不断提高蛋白质的设计精度,甚至在实验中获得性能超出现有方法的成果。
“蛋白质GPT”已经在多项实验中表现出色,并取得了显著成果,例如在转录调控因子的优化中,生成的变体在功能上比传统方法提高了77%的表现。这一过程的全自动化设计实现了“从模型到实验”的闭环,标志着蛋白质设计过程的重大进展。
未来,随着“蛋白质GPT”的进一步应用,科学家能够像与ChatGPT对话一样轻松开展蛋白质研究,从而极大缩短研发周期,降低成本,提高设计效率。这不仅将推动基础科学研究的进步,还可能在药物开发、疾病治疗等领域产生深远影响。
由清华大学和上海人工智能实验室共同开发的“蛋白质GPT”将为科学家提供一个强有力的工具,开启蛋白质研究的新纪元。而随着技术的持续进步,我们有理由相信,这一领域将在不久的将来迎来更大的突破与创新。
详细技术报告可以在以下链接找到:https://arxiv.org/pdf/2507.08920,项目主页:https://gensi-thuair.github.io/,模型权重与代码仓库分别在:https://huggingface.co/GenSI/-1.7B 和 https://github/GenSI-THUAIR/ 共享。