CSIG科技进步奖授予在我国图像图形学领域应用推广先进科学技术成果,完成重大科学技术工程、计划、项目等方面,做出突出贡献的个人和团队。
为宣传科技工作者积极进取的工作精神,聚焦获奖团队背后的故事,学会近日对荣获2024年度CSIG科技进步奖二等奖“视觉数据智能编码与质量优化关键技术及应用”的项目团队进行了专访,以对话的形式,为读者们提供一次了解他们的机会。
下面就跟着我们的脚步,走近今天的受访团队吧。
问题一:首先非常感谢各位老师接受我们的采访,请先介绍一下团队成员:
本项目由江西财经大学牵头,包括左一帆副教授、姜文晖副教授、方玉明教授,并联合上海交通大学黄小水博士、安庆师范大学刘德阳副教授、上海大学安平教授等高校团队以及瀚依科技(杭州) 有限公司、盛景智能科技(嘉兴)有限公司等企业共同研发。大部分研发团队成员都是80后,是一支年轻且富有战斗力的团队。此外,团队成员包括教育部长江学者和一批省部级人才,曾获江西省自然科学奖一等奖、上海市科技进步二等奖,教育部自然科学奖二等奖、中国电子学会自然科学二等奖等多个奖项,为本项目的顺利实施奠定了基础。
问题二:了解完了团队内的各位老师,请为大家简单的介绍一下项目的情况:
高维度、立体化、舒适性是视觉信息系统的发展趋势。然而,“高维数据激增”、“三维信息低质”、“多源失真繁杂”是技术演进面临的三大难题。激增的视觉数据量给存储和传输带来巨大压力;低质的三维信息无法建模场景细粒度几何关系,显著影响立体视觉感知;复杂的视觉信息质量退化原因和人类视觉系统对视觉内容的感知差异是视觉质量评价的主要挑战。如何建立高维视觉数据紧致表征模型,构建高维视觉编码方法,实现高维视觉高效编码应用,是智能视觉系统产业化的关键;如何探索多源视觉数据的语义相关性,设计多角度视觉数据的关联对齐方法,实现低质三维信息鲁棒增强和配准,是智能视觉系统立体视觉感知的保障;如何发现视觉信息质量退化过程,建模人眼视觉内容感知差异,实现多源视觉质量精准评价与优化反馈,是智能视觉系统质量优化的基础。
本项目聚焦视觉数据智能编码与质量优化,形成高维光场数据高效编码、低质三维信息鲁棒增强、多源视觉质量精准评价三个创新成果,其中,质量评价可为编码和增强提供指导。针对具体应用场景挑战和数据特点,基于上述共性技术定制的系统平台被盛景科技、京东、优酷、上海文广、瀚依科技等公司广泛应用,近三年产值约9亿元,产生了显著的经济效益和突出的社会效益。
创新成果1:针对高维光场数据激增问题,从“空-角”维度,发现密集光场数据空间内容特征及角度遮挡关系对光场编码的影响方式,构建光场内容分类表征模型和多角度极几何结构,提出基于空间内容结构特性和角度重建的高效、实时编码框架,实现高维光场数据的高性能编码。
光场成像技术有效推动了计算机视觉数据从低维向高维加速跃升,可支持数字重聚焦、全景深扩展、深度可计算等传统相机无法达到的创新功能,成为计算摄像学领域前沿研究热点。然而,巨大的数据量成为光场成像技术发展的一大挑战。高维光场数据高效、实时编码技术是光场成像技术迈向实用化、集成化以及多元化的关键。本项目从“空-角”维度提出基于空间内容特性和角度重建的高效光场数据编码框架,突破传统高清视频编码标准的压缩极限,实现光场数据的高效、实时编码。
创新成果2:针对三维信息低质问题,建模多源视觉数据存在语义相关性,设计多角度视觉数据的关联对齐方法,构建基于多源数据显式相似性度量和隐式深层特征双向融合的特征增强模型,进一步,发明基于数据与优化联合驱动的深度融合方法,实现深度数据的大尺度鲁棒增强和跨源点云数据的低重叠率准确配准。
深度图和点云等立体信息可辅助传统视频图像建模场景的细粒度三维结构,亦可辅助光场数据提升临场感。然而,通过主动传感器测量以及被动深度估计方法获取的深度图分辨率受限,易呈现空洞和噪声,且实际采集的多角度点云数据广泛存在的同质性局部几何结构阻碍点云配准。故如何鲁棒增强三维信息表征和配准质量是实现立体视觉信息感知的关键。本项目基于多源浅层特征相似性显式度量和多源深层特征自适应双向融合,抑制多源视觉数据分布差异带来的赝像,构建特征度量投影误差,减少对配准标签数据的依赖,结合由粗到细的配准框架,克服跨源点云分布差异导致的匹配歧义,实现深度图、点云等三维信息的鲁棒增强和配准。
创新成果3:针对多源视觉失真繁杂问题,提出融合自顶向下视觉偏好引导和自底向上内容自适应感知的视觉质量评价模型,建模人类视觉系统对内容降质的敏感特性,构建基于成像失真、观测视角、时域累积等因素的视觉质量评价模型,发明基于真实失真的视觉质量评价方法,实现多源视觉质量精准预测与反馈优化。
多源视觉数据的精准评价是实现质量优化的关键技术。然而,多源视觉数据复杂的质量退化原因和人类视觉系统对视觉内容的感知差异是视觉质量评价的主要挑战。本项目从自顶向下视觉偏好引导和自底向上内容自适应感知两个方面提出视觉数据评价模型,实现多源视觉质量的精准评价和反馈优化。
问题三:请问各位老师在科研过程中,有没有什么好的方法可以推荐给大家?
针对本项目研发的经验,我的理解是,走出学校,贴近应用,做真问题。具体的感触是:1.学术上在公开数据跑通的模型在具体应用场景下大概率失效,需要深入分析具体应用场景和数据特点,尤其是修改问题建模中不合理,不真实的地方。2. 设计的模型和方法要均衡性能、稳定性和复杂度,尤其在资源受限场景下,需要根据具体要求对模型和输入做相应修改。
以上是本项目的一些浅见,还需要向各位同行深入学习,请大家多多指导。
问题四:在项目的研究过程中有遇到什么困难吗?大家是如何解决的?
在本项目的研究过程中最主要的问题来自数据匮乏。团队成员之间经过多次讨论,反复修改方案。首先根据具体应用场景采集数据集并做数据清洗和增强。然后,通过小样本学习的探索,引入预训练模型的先验知识、跨源知识和特征对齐等技巧,团队成功提升了模型的学习能力和泛化性,特别是在数据匮乏的情况下取得了显著的改进。同时,这些努力和探索为团队克服数据限制和提升模型性能带来了新的思路和方法,为项目的成功实施奠定了坚实的基础。
问题五:最后,大家有什么获奖感言想说呢?
感谢拉斯维加斯手机娱乐网站 给予的平台,感谢各位专家对我们工作的指导和认可,感谢所有合作者的辛勤努力和付出,我们将砥砺前行,不负韶华!
Copyright © 2025 拉斯维加斯手机娱乐网站 京公网安备 11010802035643号 京ICP备12009057号-1
地址:北京市海淀区中关村东路95号 邮编:100190