浙大与哈佛团队推出革命性图像模型ICEdit：训练数据需求仅为传统模型的0.1%

时间：2025-05-11 21:15

小编：小世评选

近期，浙江大学与哈佛大学的研究团队联合推出了一种具有突破性的图像编辑模型——ICEdit。据悉，该模型在图像编辑的训练数据需求方面，显著降低至传统模型的0.1%，仅需50k的数据量和200M的训练参数量。这一创新可能会彻底颠覆图像编辑领域的多种算法和技术，使得高质量的图像编辑变得更加高效和经济。

在图像生成和编辑领域，基于文本指令的图像编辑任务历来是一个研究的热点。近几年来，从Prompt2prompt到InstructPix2Pix以及EmuEdit等一系列先进的AI图像编辑模型，不断推动着这一领域的发展。当前的图像编辑模型大致可以分为两大类：免训练（training-free）模型和基于训练的模型。免训练模型往往依赖预训练的文生图 diffusion 大模型，通过提示词替换和注意力图的操控等方法实现图像编辑，虽然避免了训练过程的复杂性，但通常编辑效果不稳定且功能单一。相对应的，基于训练的模型则需要庞大的训练数据，所需的数据量从几十万到上亿不等，并且全量微调的过程消耗巨大的计算资源。

传统文生图模型之所以对编辑指令反应迟缓，主要是因为其只能理解生成式图像描述，对如“让这个女人戴上墨镜”这样的编辑指令缺乏理解。因此，研究人员难以利用这些模型进行灵活多变的图像编辑。而ICEdit的提出，正是通过深入挖掘文生图模型的能力，使其能够理解这些编辑指令，直接应用于图像编辑任务。ICEdit模型展示出极强的性能，在只需极少量训练数据的情况下便能达到传统模型需要多倍数据才能实现的效果。

研究团队通过实验发现，利用一种上下文提示词，能够使得DiT模型生成具有较强主体ID的双联图形式的结果。这一方法不仅能够增加对编辑指令的理解，还能大幅提升生成效果。例如，通过将编辑指令融入上下文提示词中，模型便可以有效理解并生成相应结果。当编辑指令变为：“一张双联画，左侧是这个男人站立的照片，右侧是他抱着篮球的照片”，模型展现出较高的准确性与一致性。

为了进一步优化编辑效果，研究者们还引入了免训练的图像编辑框架。通过图像反演技术，模型提取待编辑图像中的特征并与随机噪声图拼接。该过程中融入编辑指令的上下文提示词进行去噪处理，最终实现编辑目标。另一种框架则基于图像补全（Inpainting）的概念，直接将待编辑图像放置于双联图一侧，另一侧设置为需编辑区域，便于结合指令进行图像生成。

尽管这些免训练方法展现出一定的编辑能力，基于不同的编辑任务，功能上依然存在局限。研究团队在此基础上，通过LoRA微调技术和多LoRA专家的混合训练，进一步提升了模型在不同编辑任务下的表现，使其能够有效提升编辑成功率和泛化能力。

与其他商业大模型比较，ICEdit不仅在开源性和经济性上具有优势，还大幅降低了图像编辑所需的时间。研究者们指出，ICEdit模型的推理速度非常快，完成一张图像的编辑只需8到10秒，达到了实时生成的需求。更令人兴奋的是，该模型在面对诸如背景保持、指令遵循等测试时，展现出优于GPT等商业化模型的效果。

为了确保模型稳定性和效果，一种早期筛选推理策略被提出。通过过滤掉初期生成效果不理想的结果，节约了系统资源与时间。同时，若生成结果满足条件，能够在整体推理的基础上，更加优质地呈现最终图像。

总体而言，ICEdit的问世标志着人工智能在图像编辑领域的一次重大进步。其凭借低成本、高效率的优势，极大地拓展了图像编辑的应用场景。基于其优秀的性能与广阔的前景，ICEdit将推动更多相关领域的研究与应用，未来值得持续关注。

如果你想深入了解该项目，可以访问以下链接查看公开的论文与代码：

[论文地址](https://arxiv.org/pdf/2504.20690)

[项目主页](https://river-zhang.github.io/ICEdit-gh-pages/)

[代码仓库](https://github/River-Zhang/ICEdit)

[Hugging Face演示](https://huggingface.co/spaces/RiverZ/ICEdit)

浙大与哈佛团队推出革命性图像模型ICEdit：训练数据需求仅为传统模型的0.1%

精品推荐

相关文章