来源:DeepTech深科技
近日,清华大学助理教授赵昊和团队打造出一款名为 Ultraman 的框架。
通过此,他们探索了如何将深度估计技术与基于扩散的生成模型相结合,以便生成具有高度一致性的多视图人体图像。
研究中,课题组通过优化算法和计算流程,让 Ultraman 能够显著减少从单张 RGB(Red、Green、Blue,红、绿、蓝)图像到三维人体模型的转换时间,从而让快速重建成为可能。
研究中,课题组通过引入先进的纹理生成和映射技术,即使在高分辨率输入图像的情况下,也能确保重建模型在视觉上的高保真度。
利用多视图图像生成模型,Ultraman 能够生成与正面视图一致性较高的背面纹理。
与此同时,本次成果特别关注了衣物的复杂性和多样性,通过深度学习和生成模型的结合,能够有效捕捉衣物的细节和动态特性。
此外,Ultraman 框架还巧妙融合了三维人体形状的先验知识,通过深度估计和后处理技术,让重建模型的准确性和鲁棒性得以提高。
同时,该团队还提出一种新颖的纹理映射方法,能在保持颜色一致性的同时,优化纹理细节、以及提升重建模型的整体质量。
在视觉语言模型的帮助之下,课题组增强了对于输入图像中人物特征的描述能力,这为生成准确的多视图图像提供了重要的先验信息。
其所提出的视角选择策略,通过顶部视角和底部视角,解决了以往方法在头部或鞋底等部位重建效果不佳的问题。
(来源:arXiv)在应用前景上:
在娱乐领域,Ultraman 可被用于快速创建逼真的 3D 角色和动画,提高电影特效和游戏角色设计的效率和质量。
在时尚零售业领域,Ultraman 可以为买家提供虚拟试衣体验,允许用户在线上观看服装在不同体型上的效果。而对于服装设计师来说,则可以利用 Ultraman 快速预览服装设计在不同体型上的效果。
在健身和健康领域,通过 3D 人体重建技术,可以为用户定制健身计划,分析体态和运动姿势,从而提供个性化的健康管理。用户还能创建自己的 3D 化身,实现更加丰富的社交互动体验。
在增强现实领域,Ultraman 可被用于生成与真实世界互动的 3D 角色或物体,为用户带来更加沉浸式的体验。
在教育领域,Ultraman 可被用于模拟手术过程和事故现场等,从而提供更加真实的教学环境。
在医疗康复领域,Ultraman 可以帮助医生评估病人的康复进度,设计个性化的康复计划。
在军事和紧急服务训练领域,Ultraman 可被用于模拟战斗和救援场景,提高训练的安全性和有效性。
在法律领域,Ultraman 可被用于重建犯罪现场,帮助分析和理解犯罪发生的过程。
在人机交互领域,Ultraman 可被用于创建更加自然和直观的交互界面,提升用户体验。通过 3D 人体模型,设计师也能更好地评估空间布局对于人流动线和舒适度的影响。
在 3D 打印等个性化打印领域,Ultraman 能让用户根据自己的体型定制个性化的产品比如家具、鞋子等。
在体育领域,Ultraman 可被用于分析运动员的运动姿态,从而优化训练方法和提高运动表现。
在汽车工业领域,Ultraman 可被用于模拟乘客在车辆碰撞中的姿态,以评估和改进车辆的安全性能。
未来,课题组计划将 Ultraman 技术用于实时 3D 人体捕捉系统,以便实现更加自然、更加逼真的虚拟现实和增强现实交互体验。
针对实时应用的需求,其也将进一步优化 Ultraman 算法,减少计算延迟、提高处理速度。
预计会涉及到算法的并行化、硬件加速、以及关键计算步骤的简化或近似。
另外,他们还将开发相关的集成方案,以便用于虚拟现实头盔、增强现实头盔、手套、动作捕捉服等设备,从而实现全身动作的实时捕捉和 3D 重建。
同时,课题组还将设计更加直观的交互界面,让用户能够通过自然动作和自然语音命令,来控制和调整自己的 3D 化身。
亦将开发一系列实时 3D 人体捕捉的应用原型,比如虚拟试衣、健身指导、游戏角色定制等,借此验证相关技术的可行性和用户体验。
在不同的硬件配置和网络条件下,该团队将针对实时 3D 人体捕捉系统的性能加以评估和优化。
最终,希望打造低延迟、高帧率的 3D 人体捕捉系统,从而能够实时响应用户的动作变化和表情变化。
参考资料:
1.https://arxiv.org/pdf/2403.12028
排版:罗以、刘雅坤
3D图像清华大学算法 新浪科技公众号“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)
相关新闻