免费安卓手游下载、分享游戏攻略、电脑硬件资讯、数码科技最新资讯
当前位置: 首页 > 硬件资讯 > NVIDIA与康奈尔大学推出ArtiScene:革新3D内容生成的新技术

NVIDIA与康奈尔大学推出ArtiScene:革新3D内容生成的新技术

时间:2025-06-14 04:05

小编:小世评选

在当前的数字创作浪潮中,3D内容创作领域依旧面临着许多挑战。想象一下,一个游戏设计师正为了打造一款奇幻角色扮演游戏而苦苦挣扎,尤其是在构建“精灵族树屋村落”这一场景时,设计师需要想象参天古木和优雅的树屋、充满魔法的发光蘑菇路灯、轻盈的纱幔帐篷…… 每个细节都需要经过精心设计,而传统的工作流程可能需要数周的时间来手工建模每个3D资产,再逐一调整位置和材质,最终还要反复测试光照效果,整个过程繁琐且耗时。

这一困境正是当前3D内容创作领域的缩影。传统3D软件如Blender和Maya虽然功能强大,但它们的学习曲线相当陡峭,初学者往往需要耗费大量时间去熟悉软件界面和工具操作。同时,近年来迅速发展的文本生成3D技术虽然为3D创作带来了新的可能,但在实用性上仍存在一些局限性。这些技术往往依赖于有限的3D训练数据,当遇到新场景类型或艺术风格时,生成的结果可能会令人失望。

NVIDIA与康奈尔大学的联合团队推出的最新研究成果ArtiScene,有望彻底改变这一局面。ArtiScene的核心创新在于将先进的文本生成图像技术与3D重建技术相结合,构建了一条完全自动化的生成流水线,为创作者提供了更加高效、灵活的工具来创建复杂的3D场景。

ArtiScene工作流程分为五个步骤。它利用扩散模型生成等轴测视角的场景图。这种特殊的视角能够全面呈现物体的三维信息,并避免因相机位置变化带来的视觉干扰,有助于确保布局的合理性和美观性。这样的设计使得系统在视觉效果上优于直接生成3D模型的方法。

使用GroundedDINO模型识别场景中的家具和装饰,经过遮挡物的补全修复,再次检测以确保信息的完整性,最终得到每个物品的分割掩码。Depth-Anything-2模型会估计场景的深度信息,并利用自定义的投影公式将2D坐标转换成3D空间位置,这一过程结合了最新的图形学理论,确保了深度信息的准确性。

与传统方法不同,ArtiScene并不依赖现有数据库中的预制3D模型,而是为图像中的每个物体生成定制化的3D模型。当分割出的物体图像完成后,系统利用ChatGPT对其几何特征进行描述,随后通过单视图3D生成模型为每个物品单独制作3D模型。这样的设计不仅使得每个物体都能依据具体需求进行生成,还极大提高了模型的多样性和独特性。

在生成3D对象时,系统通过单目深度估计法将2D边界框转换为3D空间坐标,并使用“渲染-比对”的机制生成多个旋转角度的物体渲染图,利用Stable Diffusion和DINO-v2融合模型提取特征,选择与原始场景图最为匹配的姿势。后处理阶段确保了物体间的物理合理性,避免了像椅子嵌进餐桌这些不自然的情况。

这种先进的生成技术带来了显著的优势。ArtiScene完全利用现有模型,无需针对新场景类型进行微调,这大大减轻了工作负担;每个物体都是按需生成,打破了以往预制模型库的局限;,用户可以单独修改某个物体,而不影响整体场景的设计。

在团队进行的多个维度评估中,ArtiScene的表现颇为优异。在与当时最强的LayoutGPT进行比较时,卧室和客厅场景中,物体重叠率最高下降达10倍,用户调研显示超过72%的参与者偏爱ArtiScene的布局效果,并且生成的家具数量和分布自然性亦显著提高。

相较于最优秀的文生成3D场景方案Holodeck,ArtiScene在多个场景风格的测试集中,其CLIP分数提升了10%。而在GPT-4的评估中,有95%的案例表示ArtiScene生成的结果更符合描述。用户调研结果显示,82.96%的参与者认为它的风格还原更加准确。

为了满足多样化的需求,系统还支持多种实用功能。用户可以单独修改某个模型,如把普通汽车替换为黄色保时捷,甚至可以通过调整参数生成户外场景。系统允许用户直接输入手绘设计图,以创建个性化的场景。

尽管在处理更复杂的多房间场景和特定要求的用户输入时,ArtiScene可能面临技术限制,但这一模块本身是可更换的,未来有可能引入更高性能的模型来提高效果。ArtiScene以其创新的方式,将二维图像与三维场景生成结合,并采用了大模型如LLM和VLM,构建了一个鲁棒的系统,其生成效果在美观性、多样性和物理合理性上均大幅超越了以往同类方法。这为3D创作带来了新的思路,期待未来更多的创新与突破。

精品推荐

相关文章

猜你喜欢

更多

热门文章

更多