未来智联网络研究院共12篇论文被CVPR2023收录
摘要:
近日,香港中文大学(深圳)未来智联网络研究院共十二篇研究论文被IEEE计算机视觉与模式识别会议(CVPR)2023收录。CVPR是由美国电气及电子工程师学会(IEEE)组织的计算机视觉领域顶尖国际会议之一,在2022年谷歌学术指标排行中位列总榜第4,在工程与计算机榜单中居于首位,CVPR 2023年在加拿大温哥华举办。以下为收录论文简介:
论文简介1:
基于单视角图像的3D头发建模是很有挑战性的问题。由于收集成对的真实图像和3D头发数据非常困难,使用合成3D数据为真实图像提供先验知识是广泛被采用的解决方案。然而,这引入了很严重的domain gap。由于合成发型的真实感渲染十分困难,现有方法通常使用无向方向图(orientation map)代替原始图像作为输入,以减小domain gap。我们认为这种中间表达是必要的,但使用基于滤波的方法生成的方向图对不确定的噪声十分敏感,远远达不到一个合格的中间表达的标准。我们首先发现了这个问题的严重性,并提出了一种由有向方向图(strand map)和深度图(depth map)组成的中间表达HairStep。研究发现,HairStep不仅能为精确的3D头发建模提供足够的信息,而且易于从真实图像获得。为此我们构建了一个包含1250张肖像图的数据集,并为每一张图片标注了有向方向图和深度图。我们提供了一个新的深度学习方法以从真实图像提取HairStep。而且,基于新的数据集,我们首次提出了公平客观的单视角3D头发建模衡量指标。实验表明,HairStep缩小了合成数据和真实数据之间的domain gap,并在单视图3D头发重建上达到了目前最好的效果。
Project Page:
https://paulyzheng.github.io/research/hairstep/
该工作第一作者是未来智联网络研究院在读博士生郑玉健,导师为崔曙光教授和韩晓光教授。金子荣是韩教授团队的研究助理。其他合作者均来自快手科技。该工作通讯作者为韩晓光教授。
论文简介2:
从点云补全并重建 3D 形状是一项具有挑战性的任务,尤其是来自真实物体的扫描点云。考虑到缺乏真实点云对应的 3D 形状 Ground Truth 参考,现有工作主要关注利用模拟数据对这个任务进行基准测试,例如 3D CAD 模型。然而,合成数据和真实数据之间的领域差距限制了这些方法的泛化性。因此,我们提出了一个新任务 SCoDA,用于域自适应地从真实扫描点云补全和重建 3D 形状。我们提出了一个新的数据集,ScanSalon,并贡献了一批精心制作的 3D 模型,是由艺术家根据给定的扫描点云创建的模型。为了解决这个新任务,我们提出了一个新的跨领域知识迁移的特征融合方法及一种新的用于从真实数据中进行鲁棒学习的体积一致的自训练框架。我们进行了广泛的实验,验证了所提方法是有效的,并对现有方法带来 了6%∼7% mIoU 的提升。
该论文第一作者是未来智联网络研究院在读博士生吴毓双,其导师为崔曙光教授和韩晓光教授,其他参与作者还包括在读博士生闫子正,硕士生陈策,本科生魏来,研究助理李艺豪,以及微软亚洲研究院李潇博士。
论文简介3:
随着数字技术的飞速发展,包括游戏、影视和元宇宙在内的行业对高品质三维可驱动角色的需求与日俱增。在计算机视觉和计算机图形学领域,辅助人们高效地制作逼真的三维角色是一个重要课题。近来,基于深度学习的方法在三维真人数字化方面取得了前所未有的准确性和高效性。然而,目前的研究工作都没有涉及到三维双足卡通角色的建模,这在游戏和电影制作中也有着很大的需求。本研究提出了第一个大规模的三维双足卡通角色数据集 3DBiCar,并且建立了第一个卡通角色参数化模型 RaBit。3DBiCar 数据集包含 1,500 个拓扑一致的高质量三维纹理模型,这些模型均由专业艺术家手工制作。基于该数据集,我们进一步构建了相应的参数化模型 RaBit,用三个不同的低维度向量分别表达形状、姿势和纹理。我们还探索了三个下游任务,即单视图重建、基于草图的角色建模和三维角色动画迁移,以验证 3DBiCar 和 RaBit 的实用性。我们相信这项研究将有助于推动三维卡通角色建模的发展,满足日益增长的行业需求。
Project Page:
https://gaplab.cuhk.edu.cn/projects/RaBit/
该论文第一作者是理工学院在读博士生罗忠金和在读硕士生蔡昇材,其它理工学院参与作者还包括在读博士生邱梁东和在读硕士生董金国(导师均为韩晓光教授),通讯作者为韩晓光教授。
论文简介4:
数据驱动是深度学习算法最具代表性的特性之一。ImageNet的诞生推动了计算机视觉中 "从大规模数据中学习 "的显著趋势。在ImageNet上进行预训练以获得丰富的通用表征,已被证明有利于各种二维视觉任务,并成为二维视觉中的标准。然而,由于现实世界中3D数据的收集十分费力,目前还没有一个通用的数据集可以作为3D视觉中ImageNet的对应物,因此这样的数据集如何影响3D社区仍未可知。为了弥补这一痛点,我们提出MVImgNet,这是一个大规模的多视角图像数据集,通过拍摄人类日常生活中真实物体的视频来获得,非常方便。它包含了来自219,188个视频的650万帧,囊括了238个类别的物体,有丰富的物体遮罩、相机参数和点云的标注。多视图属性赋予了我们的数据集以3D感知信号,使其成为2D和3D视觉之间的软桥梁。我们对MVImgNet在各种三维和二维视觉任务上的潜力进行了试验性研究,包括辐射场重建、多视图立体和视图一致的图像理解,其中MVImgNet表现出很好的性能,为未来的探索留下了很多可能性。此外,通过在MVImgNet上的密集重建,得到了一个三维物体点云数据集,称为MVPNet,涵盖了150个类别的80,000个样本,每个点云上都有类别标签。实验表明,MVPNet有助于真实场景的三维物体分类,同时对点云的理解提出了新的挑战。MVImgNet和MVPNet预计将在不久的将来公开,希望能给更广泛的视觉界带来启发。
Project Page:
https://gaplab.cuhk.edu.cn/projects/MVImgNet/
该工作共同第一作者为未来智联网络研究院在读博士生余湘港、许牧天、刘浩霖,硕士生张一丹、叶崇杰。该工作由崔曙光教授、韩晓光教授和陈冠英教授共同指导完成,其中韩教授为通讯作者。其他参与作者还包括在读博士生吴毓双、闫子正、熊张洋、硕士生朱宸铭。
论文简介5:
随着深度学习和隐式三维形状技术的发展,近年来在人体数字化领域有了许多突破,重建的人体三维模型中恢复了高精度的表面细节(例如衣物上的褶皱)。在我们的日常生活中,人总是处于运动状态,驾驭着自己的衣裳一起移动。为了实现这种非常常见的场景,它在实际应用中获得动态服装是必不可少的。得益于移动设备在数码相机、处理器和存储方面的快速发展,在野外拍摄单目视频变得非常方便,普通客户也可以使用。REC-MV针对上述的场景,提出了一种新的单目衣服重建算法,只需要用智能手机拍摄一段始于自转的视频就能够重建出一段高保真,动态的人体衣服。文章经过充分的实验说明该方案显著优于现有的单张视频三维服装生成方案,在内容生成商业化上有不小的潜力。
Project Page:
https://lingtengqiu.github.io/2023/REC-MV/
该论文第一作者是未来智联网络研究院在读博士生邱陵腾及陈冠英教授,其他参与作者还包括在读博士生许牧天和硕士生周佳鹏(导师均为韩晓光教授),通讯作者为韩晓光教授。
论文简介6:
在3D视觉以及几何处理等领域中,从输入的点云数据中提取参数曲线是一个基础且重要的问题。现有方法主要依赖于结点检测,然而这一过程本身容易产生不精确的结果,并在之后的曲线提取里导致更多的误差。我们提出了NerVE,通过神经网络直接预测一种新的边结构的曲线来避免上述方法带来的弊端。NerVE形式的曲线可以等效转换为更为普遍且易用的分段线性曲线,从而可以用统一的框架来处理不同类型的参数曲线,如直线,圆,B样条等。此外,由于NerVE本身的结构特点,参数曲线提取的过程可以简化成图结构的简单搜索问题。由此得到曲线间连接关系等信息后,可以直接使用现成的样条拟合库得到最终的参数曲线。我们在ABC数据集(CAD模型数据)上评估了NerVE,无论数值还是视觉上的结果对比都证明了此方法的优越性。
Project Page:
https://dongdu3.github.io/projects/2023/NerVE
该论文第一作者是在读博士生朱翔宇及韩晓光教授团队研究员杜冬,该工作由韩教授指导完成
论文简介7:
神经辐射场(NeRF)在视角合成方向取得了巨大成功。然而,真实场景下通常存在相机标定误差、场景建模的简化等问题,NeRF模型要从多视角图像中合成高质量的细节新视角依然十分具有挑战。在这种情况下,即使存在高质量的输入视角图像,NeRF模型也面临着不够理想的新视角合成质量,例如渲染噪声,模糊等等。为了提升NeRF模型的渲染质量,我们首次提出了NeRFLiX,一种适配所有NeRF模型的增强器。具体地,我们设计了一种围绕着NeRF-style的退化模拟器用于构造大量的训练数据。在大规模的训练数据使得现有的深度模型可以进行NeRF渲染图像的增强。在仿真之外,我们又考虑了NeRF视角差异大的问题,同时提出了迭代式的多视角混合器实现从高质量NeRF输入图像集种进行像素和图像块级别的信息聚合。得益于我们的仿真数据集和视角混合器,NeRFLiX能够极大程度地提升各种NeRF模型的渲染性能,并产生细节真实感强的新视角图像。
该工作由思谋科技与香港中文大学(深圳)联合完成,其中第一作者周昆是我校在读博士生,其导师为韩晓光教授。
论文简介8:
给定输入帧图像,现有的帧插值深度模型强依赖于预定义的GT进行监督学习而忽略了帧与帧运动的不确定性。由于这种运动的不确定性,这些方法倾向于生成模糊的图像信息。为了缓解这种现象,我们提出了一种时序纹理一致性的约束目标。具体地,对于预测的中间帧图像在内容上应该和输入帧保持一致性,这样使得当预测的结果在纹理上和输入高度相似的时候应该被允许。得益于这种即插即用的纹理一致性的损失函数,我们发现它能够有效的提升现有插帧方法(SepConv,VFI-T,FLAVR)的性能。另一方面,在大的运动位移下,同一物体在不同时刻的大小存在较大的变化。我们提出了一种基于引导式的的跨尺度信息融合的策略。在线性时间复杂度情况下,有效提升插帧模型性能。最后,我们在视频帧内插/外插两个任务上验证了本方法取得了SOTA的性能。
该工作也是由思谋科技与香港中文大学(深圳)联合完成,其中第一作者周昆是我校在读博士生,其导师为韩晓光教授。
论文简介9:
遮蔽建模通过重建被遮蔽的视觉局部区域,在各种视觉挑战中显示了广泛的成功。然而,由于数据的稀缺性和场景的复杂性,将遮蔽建模应用于大规模3D场景仍然是一个开放的问题。在二维图像中使用的传统随机遮蔽范式,在恢复三维场景的遮蔽区域时,往往会造成具有高风险的模糊性。为此,我们提出了一种新的信息保留式重建方法,该方法利用局部统计来发现和保留有代表性的结构点,有效地提高了三维场景理解的预训练掩蔽任务。与渐进式重建方式相结合,我们的方法可以专注于区域几何建模,并享受更少的模糊性的遮蔽式重建。此外,这种具有渐进式遮蔽比率的场景也可以起到自我蒸馏其内在空间一致性的作用,需要从未被遮蔽的区域学习一致的表征。通过结合遮蔽区域的信息保留重建和未遮蔽区域的一致性自我蒸馏,产生了一个统一的预训练框架。我们在一系列的下游任务上进行了全面的实验。实验结果(例如,在物体检测上+6.1% mAP@0.5,在语义分割上+2.2% mIoU)证明了我们方法的优越性。
Arxiv:https://arxiv.org/abs/2212.09948
该工作由深圳先进技术研究院与香港中文大学(深圳)联合完成,其中共同第一作者许牧天是我校在读博士生,其导师为韩晓光教授。
论文简介10:
整体三维室内场景理解包含了对3D环境的布局估计及物体的几何重建。过去的工作展示了从各种模态(例如图像与3D扫描)进行场景理解的不同深度学习方法。其中大部分往往要求3D监督(例如3D物体包围盒,或CAD模型)。然而大规模收集3D监督却是成本高昂且时间低效的。为了解决这个难点,我们提供了一种新的,不依赖于3D监督的方法,用于学习场景布局以及物体形状的先验知识。取而代之,在方法中我们采用多视角图像这种2D监督摆脱对3D数据的依赖。方法中,场景由多视图表达,且通过网络映射,每个场景将被独立编码成隐向量。通过自回归逐步解码,每个隐向量被展开成一列物体序列。其中每个物体由它的类别,位置姿态,以及形状网格组成。通过训练这样一种自回归解码器我们从隐向量中获取场景的先验知识,这种先验可以支撑许多具体下游任务,例如:语义场景合成,插值,和单视图场景重建。在3D-Front和ScanNet上的实验验证了我们的方法在这些任务上优于已有的其他方法。
ArXiv:
https://arxiv.org/abs/2211.14157
Project Page:
https://yinyunie.github.io/sceneprior-page/
该工作由慕尼黑工业大学与香港中文大学(深圳)共同完成,第一作者聂隐愚博士曾作为访问博士生访问过香港中文大学(深圳)。
论文简介11:
深度补全在自动驾驶中有着重要作用,其中摄像头和激光雷达是两个互补的传感器。过去的方法一般基于由摄像头得到的图片作为引导图来完成深度图的补全,然而隐藏在点云中的几何信息并没有被很好的利用。在本文中,我们提出了BEV@DC,一种更高效、更强大的多模态训练方案,以提高基于引导图深度补全的性能。BEV@DC在训练时综合利用点云种丰富的几何细节,优化增强了二维图像支流的深度补全效果。而在实际部署与推理阶段模型仅需以图像(RGB 和深度图)作为输入,大大提升了效率。具体来说,具有几何感知的点云特征以及图像特征被投射到统一的鸟瞰空间上进行鸟瞰图补全,再通过点云体素空间传播网络(PV-SPN)进行三维体素补全,此辅助分支为引导图分支带来了3D密集监督和特征一致性。因此我们的基线模型展现了显著的提升,在具有挑战性的室外KITTI深度补全数据集以及室内NYUv2数据集上都优于其余最先进的深度补全框架。
该论文第一作者是未来智联网络研究院在读博士生周文鼎,合作者颜旭、廖颖泓均为未来智联网络研究院在读博士生,导师为崔曙光教授和李镇教授,通讯作者为李镇教授。
论文简介12:
本文提出了一种新的训练范式,称为SST,其旨在探索如何利用来自不同标签域(即不同级别的标签粒度)数据来训练强大的人体解析网络。在实践中,我们解决了两个常见的应用场景,即通用人体解析和专用人体解析。通用人体解析旨在从多个标签域中学习同质的人体表示,并仅使用不同的分割预测头来切换完成不同标签域的预测;专用解析旨在学习特定标签域的预测结果,并从其他标签域中迁移语义知识。SST具有以下优点:(1)作为一种有效的训练方案,它将来自多个标签域的人体部位的语义相关性嵌入到人体表示的学习过程中;(2)它是一种可扩展的语义训练框架,不需要预先确定多个标签域的总体关系,允许不断添加人体解析数据集来促进训练;(3)相关模块仅用于辅助训练,在推理过程中可以删除,消除了额外的推理成本。我们在三个人体解析基准(即PASCAL-Person-Part,ATR和CIHP)上进行了测试,结果表明SST可以带来巨大的性能提升,并取得了通用人体解析性能的SOTA。
该论文第一作者是我校在读博士生杨杰,导师为李镇教授和张瑞茂教授。
教授简介:
崔曙光教授
崔曙光教授,国家重点研发计划首席科学家,全球高被引学者,IEEE Fellow,深圳市杰出人才培养计划首批入选人,深圳市决策咨询委员会成员。崔教授于2005 年在美国斯坦福大学获得博士学位,先后在UC Davis等多所美国大学任教至讲座教授。2018年回国后曾担任香港中文大学(深圳)杰出校长讲座教授、理工学院执行院长、未来智联网络研究院院长、港中深-京东集团人工智能联合实验室主任,深圳市大数据研究院常务副院长,广东省未来智联网络重点实验室主任。崔教授的科研成果主要集中在通信网络与AI技术的深度融合。他已在国际一流期刊和会议上发表了370多篇论文,是IEEE 信号处理协会2012 年最佳论文奖获得者,并曾担任多个IEEE 国际会议的主席和程序委员会主席,IEEE 旗舰期刊的编委和领域主编及指导委员会成员、主席,IEEE 无线技术委员会的主席。他在2013 年当选IEEE Fellow(博士毕业8 年内入选,IEEE 历史上最快之一),在2014 年入选IEEE 通信协会杰出讲师,汤森路透全球高被引科学家名单,和ScienceWatch 的全球最具影响力科学家名单。崔教授在2020和2021年获得IEEE ICC最佳论文奖,IEEE ICIP最佳论文列表,IEEE GLOBECOM最佳论文奖,中国ICT创新应用奖,IEEE WCNC 最佳论文奖,CCF Chinagraph首个图形开源数据集奖,中国电子学会自然科学一等奖,中国通信学会技术发明一等奖。在2022年,崔教授当选新一届IEEE Transactions on Mobile Computing(CCF-A核心期刊)主编,是中国大陆工作的学者首次担任。
韩晓光教授
韩晓光博士,现任香港中文大学(深圳)理工学院与未来智联网络研究院助理教授,校长青年学者,获广东省级科研人才资助。他于2017年获得香港大学计算机科学专业博士学位。其研究方向包括计算机视觉和计算机图形学等,在该方向著名国际期刊和会议发表论文60余篇,包括顶级会议和期刊SIGGRAPH(Asia), CVPR, ICCV, ECCV, NeurIPS, ACM TOG, IEEE TPAMI等。他目前担任IEEE Transactions on Mobile Computing 以及 Computer&Graphics编委,CVPR 2023 以及 NeurIPS 2023的领域主席。他曾获得吴文俊人工智能优秀青年奖,他的工作还曾获得CCF图形开源数据集奖(DeepFashion3D),计算机图形学顶级会议Siggraph Asia 2013新兴技术最佳演示奖,2019年和2020年连续两年入选计算机视觉顶级会议CVPR最佳论文列表(入选率分别为0.8%和0.4%),IEEE VR 2021 最佳论文荣誉提名。更多细节详见https://gaplab.cuhk.edu.cn
李镇教授
李镇博士目前是香港中文大学(深圳)理工学院/未来智联网络研究院助理教授,校长青年学者。李镇博士获得香港大学计算机科学博士学位(2014-2018年),他还于2018年在芝加哥大学担任访问学者,并于2016年在芝加哥丰田技术学院(TTIC)担任访问学生。李镇博士荣获2021年中国科协第七届青年托举人才,CASP12接触图预测冠军,SemanticKITTI竞赛第一名,Urban3D竞赛2021第二名,Urban3D竞赛2022第三名。李镇博士还获得了来自于国家、省市级以及工业界的科研项目,有关更多详细信息请参阅他的主页(https://mypage.cuhk.edu.cn/academics/lizhen/ )。李镇博士领导了港中深的Deep Bit Lab,其主要的研究方向是3D视觉解析及应用(包括但不限于点云解析,多模态联合解 析),深度学习等基础理论算法研究,并致力于将2D/3D人工智能算法推广应用于蛋白/RNA结构预测,自动驾驶,工业视觉等场景中。
陈冠英教授
陈冠英博士,现任香港中文大学(深圳)未来智联网络研究院与理工学院研究助理教授。在此之前,他有于百度视觉技术部、阿里巴巴达摩院、大阪大学的研究经历。他分别于中山大学和香港大学取得学士学位和博士学位。他的研究方向包括计算机视觉和计算机图形学,目前专注于三维视觉、神经渲染、以及底层视觉。近几年在该领域的顶级会议(CVPR/ICCV/ECCV/NeurIPS) 和顶刊期刊(TPAMI/IJCV)发表论文10余篇。现正主持国自然青年基金。他目前担任多个人工智能国际期刊和会议的审稿人,也入选了2021百度全球AI华人新星百强榜单。更多细节可见:https://guanyingc.github.io/.