2022年12月18日上午9:40,中国图象图形学会三维视觉专委会通过腾讯会议平台召开了三维视觉闭门研讨会。研讨会分别围绕“三维视觉的信息革命与产业化落地应用”、“NeRF局限与前沿新趋势”和“扩散模型在三维视觉的机遇”三个主题,带来了九个精彩的学术报告,来自专委会的多位委员多维度、多角度地探讨了三维视觉领域的创新前沿和未来趋势。
一、主题:三维视觉的信息革命与产业化落地应用
主持:刘烨斌 教授
围绕三维视觉的信息革命与产业化落地应用的主题,清华大学的弋力助理教授、群核科技的周子寒博士和香港中文大学的李镇助理教授分别介绍了《面向交互的四维动态场景理解与生成》、《三维视觉在计算机辅助室内设计中的应用》、《大场景三维点云解析算法及落地应用》方面的进展。
(一)面向交互的四维动态场景理解与生成 (弋力)
时空数据交互理解
(二)三维视觉在计算机辅助室内设计中的应用 (周子寒)
结构化三维视觉辅助室内设计
(三)大场景三维点云解析算法及应用落地 (李镇)
三维点云的获取、分析和应用
(四)讨论
4D场景交互
戴玉超:四维运动的建模和理解的研究很有必要;针对场景的感知和理解,结合和挖掘不同传感器的互补性。
张盛平:真实世界下交互的泛化性问题如何解决?
弋力:几种不成熟的解决泛化性的思路:复杂的交互行为由primitive skills构成,因此可以先从skill level研究泛化性、以几何部件本身作为切入点研究交互。
郭裕兰:不同物体存在几何差异性,能否从物体的功能性研究交互。
王鹤:我们已有可泛化部件级别的感知和交互的泛化方面的研究,但并不成熟,欢迎各位老师交流。
室内场景设计
施柏鑫:三维视觉在室内灯光设计中有哪些应用?
周子寒:判断灯光是否达到工业标准和灯光渲染。目前能够辅助这两个方面设计的AI算法较少,还是以设计师的经验为主。
二、主题:NeRF局限与前沿新趋势
主持:徐凯 教授
围绕NeRF局限与前沿新趋势的主题,北京大学王鹤助理教授、北京大学施柏鑫研究员、西北工业大学戴玉超教授和北京大学楚梦渝助理教授分别作了《基于可泛化NeRF的透明物体抓取》、《NeRF应对复杂光影场景的一些思考》、《动态场景新视角合成》以及《基于隐式神经表达的流体场重建》方面的介绍。
(一)基于可泛化NeRF的透明物体抓取 (王鹤)
可泛化的NeRF
(二)NeRF应对复杂光影场景的一些思考 (施柏鑫)
应对反射遮挡的NeRF
(三)动态场景新视角合成 (戴玉超)
提升NeRF在动态场景渲染的时间效率
动态物理场景重建
(五)讨论
1.张盛平:以光照反射、遮挡为例,在真实复杂场景下NeRF的研究难点有哪些?
施柏鑫:当前图像增强中的一些热点问题,例如去除运动模糊、HDR等都有了基于NERF的解决方案。现实场景中复杂的干扰会启发我们研究更加鲁棒的NERF模型。NeRF提供了一种多视角场景信息表达,在去反射时,除了能够得到去除了反射干扰的图像以外,还能够得到场景的volume的表达,从一定程度上能够拓宽我们在其他图像增强问题上的研究思路。
徐凯:是否可能从光线追踪(反射的角度)建模场景?
施柏鑫:光线追踪是值得探索的研究方向,但是考虑到多次反射之后,其渲染代价比较大。
孙琨:各视角之间是否需要像素的对齐?使用反射移除的特征是否是最优解?
施柏鑫:NeRF隐式地处理了视角之间的对齐信息。我们在NeRF的反射遮挡应对中使用反射消除的特征是结果驱动的尝试之一,也许存在更为行之有效的特征。
2.杨佳琪:MVS为什么不适用于流体重建?是否考虑过液体重建?
楚梦渝:流体和固体的颜色形态有差异,NeRF可以提供流体重建所需的密度场信息;NeRF存在气液交接面的重建问题,可以加入染色剂得到更准确的结果,这方面还未研究。
3.王程:NeRF三维的隐式表征还有那些应用方向(除渲染以外)?
王鹤:应用空间很大,如仿真等。所有显式表征的应用原则上都能够通过设计隐式表征网络来替代。
4.申抒含:训练是否可以仅利用虚拟数据泛化到不同真实场景?
王鹤:我们的工作还是有一定的局限性,目前训练数据仅限于同一平面上的物体抓取数据。
徐凯:NeRF可能成为虚拟仿真世界与真实世界的桥梁,但是仿真世界的真实性再高也无法与真实世界相比。如果能够通过渲染的方式将真实场景的图像与仿真世界相结合,也许能解决仿真环境下训练模型的泛化性问题。
5.戴玉超:有几个问题想和大家探讨:NeRF往往需要sfm框架(colmap)预处理多视角图像得到pose,如何在一个统一的框架下解决;在真实世界下,场景适用于哪一种先验的问题;NeRF和扩散模型有哪些结合点。
徐凯:NeRF是否可以不依赖于colmap等框架?没有pose时NeRF能够达到什么样的精度?
戴玉超:如果完全没有pose,统一纳入到优化里面,是一个值得研究的问题。有一些点需要进一步探索和探讨。
三、主题:扩散模型在三维视觉的机遇
主持:吴毅红 研究员
围绕扩散模型在三维视觉的机遇的主题,清华大学张鸿文博士、新加坡南洋理工大学刘子纬助理教授分别作了《基于扩散模型的高质量三维人体重建系统》和《人体运动扩散模型》方面的介绍。
(一)基于扩散模型的高质量三维人体重建系统 (张鸿文)
基于扩散模型的人体重建
(二)人体运动扩散模型 (刘子纬)
基于扩散模型生成人体运动
(三)讨论
扩散模型人体重建:
1.吴毅红:GAN也可以做数据生成任务,那么使用扩散模型有哪些优势?
张鸿文:一方面,我们通过之前的探索发现扩散模型比GAN更稳定;另一方面,扩散模型对于数据量要求更低
2.连宙辉:张老师的这个研究是否类似于二维图像的超分辨?能否将扩散模型直接应用到三维表达?
张鸿文:我们工作的核心本质上是提升视差图质量。目前扩散模型在二维图像方面比较成熟,如果直接将其应用到三维表达,首先要解决的问题是要设计一个比较好的特征提取网络,另外需要解决的问题是,如何去设计一些能够直接运用到扩散模型中的更加高效的三维表征。
3. 周晓巍:使用2D扩散生成深度细节和真实图像的一致性如何?包括多视角之间的一致性如何?
张鸿文:从我们工作的结果来看,三维重建出来的精度和128相机扫描出来的三维模型的误差大概是2-3mm,相对于我们之前的工作的提升还是很明显的。
人体运动扩散模型
1.周晓巍:在场景中生成motion时如何保证物理上的真实性,例如不穿模?
刘子纬:第一个方向:首先可以加强约束,比如加入手、脚与环境的接触面约束,但这样会使生成的动作不自然。另外是可以考虑在采集数据时注重接触部分的数据,使model可以运用到这些信息。第二个方向:加入一些学习信息使得学到的信息不仅仅是一个motion sequence,还是一个policy。
2.张盛平:扩散模型能否应用于人体微小动作?
刘子纬:直接将扩散模型应用于人体微小动作,例如人脸微表情还是有一定的难度,但经过某些改进后(比如扩散架构)还是可以应用的,而且和GAN相比还是有一定的优势。
3.肖阳:后续是否考虑做全栈式生成人体模型?
刘子纬:有这样的打算。但是目前存在缺乏相应数据集的壁垒。未来1到2年肯定能看到相应的工作。
4. 连宙辉:是模型架构更大或者数据量更多使得使用扩散模型更好,还是说扩散模型更使用于这个任务?
刘子纬:扩散模型对于比较少见动作的泛化性更强;扩散模型没有GAN成熟,有更大的探索空间,目前扩散模型在多模态alignment中存在优势。同时,数据集的选择对于扩散模型训练的影响较大。
最后,陈宝权主任作总结发言,表示各位专家学者的报告内容很有吸引力,大家讨论的问题也比较有深度,作为专委会闭门会议的形式,大家能够畅所欲言、交流得比较深入,但由于本次研讨会时间比较短,还是感觉意犹未尽。陈宝权老师代表中国图像图形学会三维视觉专业委员会对全体与会专家学者的积极参加表示感谢,并邀请大家明年于第二届China3DV大会召开之际,在北京线下相聚,更加充分得探讨三维视觉发展的前沿进展和发展未来。祝愿大家保重身体,明年再见!
会议在热烈而温馨的氛围中圆满结束。
Copyright © 2025 拉斯维加斯手机娱乐网站 京公网安备 11010802035643号 京ICP备12009057号-1
地址:北京市海淀区中关村东路95号 邮编:100190