未来智联网络研究院共8篇论文(含两篇Highlight)被CVPR2024收录
摘要:
近日,香港中文大学(深圳)未来智联网络研究院共八篇研究论文被IEEE计算机视觉与模式识别会议(CVPR)2024收录。CVPR是由美国电气及电子工程师学会(IEEE)组织的计算机视觉领域顶尖国际会议之一,在2022年谷歌学术指标排行中位列总榜第4,在工程与计算机榜单中居于首位,本届CVPR大会将于2024年6月在美国西雅图召开。今年共提交了11532份有效论文,2719篇论文被接收,录用率为23.6%。以下为收录论文简介:
论文简介1:
IPoD: Implicit Field Learning with Point Diffusion for Generalizable 3D Object Reconstruction from Single RGB-D Images---入选 Highlight (入选率 2.8%)
从单视角RGB-D图像中进行可泛化的三维物体重建是一个具有挑战性的任务,尤其是在处理真实世界的数据时。当前最先进的方法采用基于Transformer的隐式场学习,这依赖于一种密集查询的学习范式,需要在整个空间中均匀密集采样并监督。我们提出了一种新颖的方法,称为IPoD,它将隐式场学习与点扩散相结合:将用于隐式场学习的查询点视为迭代去噪的噪声点云,从而允许其动态地适应目标物体的形状。这种自适应查询点利用扩散学习的能力进行粗糙形状恢复,并增强了隐式表达描绘细节的能力。此外,我们还设计了一种自条件机制,将隐式预测用作扩散学习的指导,从而构建了一个协作系统。在CO3D-v2数据集上进行的实验证实了IPoD的优越性,相比现有方法,在F-score上提高了7.8%,在Chamfer距离上降低了28.6%。IPoD的泛化性也在MVImgNet数据集上得到了证明。
Project Page: https://yushuang-wu.github.io/IPoD
该论文第一作者是未来智联网络研究院/理工学院在读博士生吴毓双,其导师为崔曙光教授和韩晓光教授,其他参与作者还包括理工学院在读博士生石鲁越和邱陵腾(导师均为韩晓光教授),以及来自香港科技大学、阿里巴巴通义实验室的合作者。该论文通讯作者为韩晓光教授。
论文简介2:
RichDreamer: A Generalizable Normal-Depth Diffusion Model for Detail Richness in Text-to-3D---入选 Highlight (入选率 2.8%)
由于缺乏几何先验以及自然图像中材料和光照的复杂纠缠,将2D扩散提升到3D生成是一个具有挑战性的问题。已有的方法首先通过应用于渲染表面法线的分数蒸馏采样(SDS)来创建几何形状,然后进行外观建模。然而,依靠二维RGB扩散模型来优化表面法线是次优的,因为自然图像和法线贴图的分布存在差异,导致优化不稳定。在本工作中,我们认识到法线和深度信息可以有效地描述场景几何,并且可以从图像中自动估计,我们提出了一种用于3D生成的可推广的法线和深度扩散模型。我们通过在大规模的LAION-2B-en数据集上通过已有的法线和深度先验模型来训练深度法线的扩散模型。此外为了减轻生成材料中的混合光照效应,我们引入了反照率扩散模型,对反照率分量施加数据驱动的约束。我们的实验表明,当集成到现有的文本到3D方法中,我们的模型显著提高了细节丰富度,达到了当前最好的结果。
Project Page: https://aigc3d.github.io/richdreamer/
该论文第一作者是未来智联网络研究院/理工学院在读博士生邱陵腾及陈冠英教授,参与作者还包括在读博士生许牧天,吴毓双,其余合作者均来阿里巴巴通义实验室。该论文通讯作者为韩晓光教授。
论文简介3:
MVHumanNet: A Large-scale Dataset of Multi-view Daily Dressing Human Captures
近年来,人工智能的指数级发展在很大程度上是由大量数据驱动的。例如在计算机视觉中,像SAM和稳定扩散这样的模型极大地受益于这些大量的数据,使零样本能够转移到下游任务。随后,Objaverse和MVImgNet通过大规模合成3D资产和真实世界的多视图捕获打破了3D数据收集的障碍,支持Zero123和LRM模型,实现了令人印象深刻的多视图或3D重建的泛化能力。然而,由于3D人体数据的规模有限,在以人为中心的任务上仍难以取得类似的进展。为了弥补数据上的不足,我们提出了MVHumanNet,这是一个包含4500个人类身份的多视图人类动作序列的数据集。我们工作的主要重点是使用多视图人体捕捉系统收集具有大量不同身份和日常服装的人体数据,这有助于轻松扩展数据收集。我们的数据集包含9000套日常服装、60000个运动序列和超过6.45亿帧图像,并且具有广泛的标准,包括人体掩膜、相机参数、2D和3D关键点、SMPL/SMPLX参数以及相应的文本描述。为了探索MVHumanNet在各种2D和3D视觉任务中的潜力,我们对基于视图一致性的动作识别、人体NeRF重建、文本驱动的视图无约束人体图像生成以及2D视图无约束人类图像和3D化身生成进行了探索性研究。大量实验证明了MVHumanNet提供的规模所带来的性能改进和有效应用。作为目前规模最大的3D人体数据集,我们希望MVHumanNet数据的发布和注释将促进3D人体中心任务领域的进一步创新。
Project Page: https://github.com/GAP-LAB-CUHK-SZ/MVHumanNet
该工作共同第一作者为未来智联网络研究院/理工学院在读博士生熊张洋、李成宏和刘垦坤。该工作由崔曙光教授、韩晓光教授共同指导完成,其中韩教授为通讯作者。其他参与作者还包括理工学院/未来智联网络研究院在读博士生宁述亮、邱陵腾、胡健乔、硕士生廖宏杰、朱峻毅、王崇杰和本科生王世杰。
论文简介4:
LASA: Instance Reconstruction from Real Scans using A Large-scale Aligned Shape Annotation Dataset
真实室内场景物体实例重建是一项极富挑战性的任务,其核心在于从场景扫描中准确地重建出每个物体的三维模型。当前的数据驱动方法大多依赖于大量高质量场景和精确的物体CAD模型。这些方法通常在合成数据集或Scan2CAD数据集上进行训练,但前者在真实场景的泛化能力上存在限制,而后者虽提供真实场景CAD标注,但标注与实际场景的不对齐限制了重建的精度和保真度。
针对以上挑战,本研究提出了一个新的高质量场景物体数据集:LASA,包含了10,412个专业建模师手工标注的CAD模型,并且能够与真实世界场景高度对齐。基于LASA高质量数据的支持,我们进一步提出了一个基于扩散模型的重建方法,支持多模态输入,包括场景物体的扫描点云和RGB图片,实现真实场景物体的高精度重建。在真实场景重建任务上,该方法达到了当前的最佳性能(State-of-the-Art,SOTA)。此外,LASA数据集的高质量标注也为场景理解任务,如三维物体检测,提供了重要支持。通过同时预测物体的bounding box和形状occupancy,显著提高了场景三维检测的性能。
Project Page: https://gap-lab-cuhk-sz.github.io/LASA/
该论文的第一作者为未来智联网络研究院/理工学院/在读博士生刘浩霖(导师为崔曙光教授和韩晓光教授)及在读硕士生叶崇杰(导师为韩晓光教授)。其他理工学院参与者还包括在读硕士生何英钒。该论文通讯作者为韩晓光教授。
论文简介5:
PICTURE: PhotorealistIC virtual Try-on from UnconstRained dEsigns
在如今互联网购物与日俱增的时代,人们对虚拟试衣技术的需求也不断增长。然而现有的虚拟试衣技术受限于只能给模特穿上给定款式和纹理的衣服,而不能够实现灵活的搭配。为了解决这个问题,我们提出了一种能够灵活编辑衣服款式和纹理的新方法。为了实现衣服款式和纹理的解耦,我们将任务分成2阶段来处理。在第一阶段,我们通过图像修复的方式来生成符合给定款式条件人体分割图(Parsing map)。同样地,在第二阶段,继续通过图像修复的方式,以第一阶段生成的parsing map 作为mask,以提供的图片作为纹理参考,来生成完整的模特试衣图。另外我们还能够灵活地给生成的图片加上logo,图案等设计元素。实验显示我们的方法能够灵活的控制生成衣服的款式和纹理,并达到逼真的效果,这将给虚拟试衣带来一种全新的体验。
Project page: https://ningshuliang.github.io/2023/Arxiv/index.html
该工作由香港中文大学(深圳)和北京红棉小冰科技有限公司合作完成,其中第一作者宁述亮是未来智联网络研究院/理工学院在读博士生,其导师为崔曙光教授和韩晓光教授。该论文通讯作者为韩晓光教授。
论文简介6:
HAVE-FUN: Human Avatar Reconstruction from Few-Shot Unconstrained Images
针对人体虚拟形象重建任务,现代技术通常需要获取昂贵的数据,并且在使用少量普通图片时很难获得令人满意的结果。当只使用少量无约束图片时,由于数据量有限和动态关节姿势,从这些数据源中重建人体虚拟形象具有挑战性。对此,我们提出了 HaveFun 框架来实现少量样本无约束图片下重建人体、渲染和驱动。具体的,为了处理动态数据,我们将蒙皮机制与深度Marching Tetrahedra(DMTet)相结合,形成可驱动的四面体表示,该表示通过DMTet生成任意网格拓扑来适应不受限制图像。同时,为了有效地从少样本数据中提取教导性信息,我们设计了一个两阶段优化方法,包括少样本参考和少样本指导。前者旨在将虚拟形象身份与参考图像对齐,而后者旨在为未见区域生成合理的外观。最后,我们进行了大量实验证明HaveFun在重建人体和手部方面表现出明显更优秀的性能。
Project Page: https://seanchenxy.github.io/HaveFunWeb/
该工作由北京红棉小冰科技和香港中文大学(深圳)联合完成,其中第一作者为未来智联网络研究院/理工学院在读博士生杨茜贺,其导师为韩晓光教授。
论文简介7:
Visual Programming for Zero-shot Open-Vocabulary 3D Visual Grounding
三维视觉定位(3DVG)旨在根据文本描述精确定位三维对象。传统的3DVG监督方法通常需要大量标注和预定义词汇,这限制了其在实际应用中的灵活性。为解决这一问题,我们提出了一种新颖的基于视觉编程的零样本开放词汇3DVG方法,充分利用了大型语言模型(LLMs)的能力。我们的方法从与LLMs的独特对话开始,以建立零样本3DVG的基本理解。在此基础上,我们设计了一个包含三种类型模块的视觉程序,这些模块专为3D场景设计,协同执行复杂的推理和推断。此外,我们还开发了一种创新的语言-对象相关模块,将现有的3D对象检测器的应用范围扩展到开放词汇场景。大量实验证明,我们的零样本方法可以胜过一些有监督基线,标志着迈向高效3DVG的重要一步。
Project Page: https://curryyuan.github.io/ZSVG3D/
该论文第一作者是未来智联网络研究院/理工学院在读博士生袁之浩,第二作者为未来智联网络研究院/理工学院在读博士后任金科,其导师为崔曙光教授和李镇教授,其他参与作者还包括新加坡新加坡A*Star、香港大学的合作者。该论文通讯作者为李镇教授。
论文简介8:
Aerial Lifting:Neural Urban Semantic and Building Instance Lifting from Aerial Imagery
本文提出了一种神经辐射场方法,通过将不一致的二维标签提升到三维,对航拍图像进行城市尺度的语义分割和建筑级别的实例分割。这是一个具有挑战性的问题,首先,城市航拍图像中不同语义的物体尺度变化大,例如建筑物、汽车、道路具有不同的大小,对精确的二维分割构成了重大挑战。其次,现有分割方法生成的二维标签存在多视图不一致的问题,特别是在航拍图像中,每张图像只捕获了整个场景的一小部分。为了克服这些限制,我们首先引入了一种尺度自适应语义标签融合策略,该策略利用NeRF的新视图合成能力,通过结合从不同高度预测的标签来增强对不同大小目标的分割。在此基础上,本文提出了一种基于三维场景表示的跨视图实例标签分组策略,以解决二维实例标签的多视图不一致问题。此外,我们利用多视点重建深度先验来改善重建辐射场的几何质量,从而提高分割效果。在多个现实世界城市规模数据集上的实验表明,我们的方法优于现有方法,突出了其有效性。
Project Page: https://zyqz97.github.io/Aerial_Lifting/
该论文第一作者是未来智联网络研究院在读博士生张煜奇,导师为崔曙光教授和陈冠英教授。
教授简介:
崔曙光教授,加拿大皇家科学院、加拿大工程院双院院士,未来智联网络研究院院长,无线通信和智能网联领域的国际知名学者。他将模型优化与数据驱动巧妙结合,在无线系统能效优化、联合频谱感知、AI与无线系统双向融合等方面取得了一系列系统性、基础性、原创性成果,带动了相关领域的发展。他在斯坦福取得博士学位后先后入选IEEE Fellow、全球高被引学者,发表专业论文400余篇,总被引超29,000次,获得IEEE信号处理协会最佳论文奖、马可尼最佳论文奖等多项奖励,曾担任IEEE无线技术委员会的主席。2023年作为大陆工作的华人首次当选计算机领域旗舰期刊IEEE移动计算期刊的主编、首次获得IEEE WTC无线技术成就奖,在入选加拿大工程院院士之后,作为北美境外工作的唯一学者入选加拿大皇家科学院院士。
韩晓光博士,现任香港中文大学(深圳)未来智联网络研究院和理工学院助理教授,校长青年学者,目前担任未来智联网络研究院助理院长。他于2017年获得香港大学计算机科学专业博士学位。其研究方向包括计算机视觉和计算机图形学等,在该方向著名国际期刊和会议已发表论文近100篇,包括顶级会议和期刊SIGGRAPH(Asia), CVPR, ICCV, ECCV, NeurIPS, ACM TOG, IEEE TPAMI等。他曾获得吴文俊人工智能优秀青年奖,广东省杰出青年基金资助,香港中文大学(深圳)青年科研奖。目前也担任CVPR2023/2024,NeurIPS 2023以及ECCV2024领域主席,同时也担任IEEE TVCG编委,他的工作曾两次获得CCF图形开源数据集奖(DeepFashion3D和MVImgNet),曾两次入选CVPR最佳论文列表。更多细节详见https://gaplab.cuhk.edu.cn
李镇博士现任香港中文大学(深圳)未来智联网络研究院助理院长,香港中文大学(深圳)理工学院助理教授,校长青年学者。李镇博士获得香港大学计算机科学博士学位 (2014-2018年),他还于2018年在芝加哥大学担任访问学者。李镇博士荣获2023年吴文俊人工智能优秀青年,2021年中国科协第七届青年托举人才,2023CVPR HOI4D竞赛第一名,2022年SemanticKITTI语义分割竞赛第一名,2023年IROS 最佳论文Finalist,ICCV2021 Urban3D竞赛第二名,CASP12接触图预测全球冠军等。李镇博士还获得了来自于国家、省市级以及工业界的科研项目。李镇博士领导了港中深的Deep Bit Lab(https://mypage.cuhk.edu.cn/academics/lizhen/ ),其主要的研究方向是3D视觉解析及应用 (包括但不限于点云解析,多模态联合解析),深度学习等基础理论算法研究,并致力于将2D/ 3D人工智能算法推广应用于交叉学科,自动驾驶,工业视觉等场景中,在该方向著名国际期刊和会议发表论文60余篇,包括顶级期刊Cell Systems, Nature Communications, T-PAMI, TMI, TVCG,TNNLS等,以及顶级会议CVPR, ICCV, ECCV, NeurIPS, ICLR,IROS,ACM MM,AAAI, IJCAI, MICCAI等。李镇博士担任IEEE Transactions on Mobile Computing、IROS副编以及众多顶刊顶会的审稿人,李镇博士还是广东院士联合会脑科学与类脑智能专委委员,VALSE、MICS、中国图象图形学学会机器视觉专委会,3DV专委会等学术组织的委员。
陈冠英博士,香港中文大学(深圳)未来智联网络研究院/理工学院的研究助理教授。他的研究方向包括计算机视觉和计算机图形学,目前专注于三维视觉、神经渲染、以及底层视觉。近年来在领域内一流的期刊和会议(TPAMI/IJCV/CVPR/ICCV/ECCV 等)上发表研究工作20余篇,其中多篇论文入选国际会议Oral/Spotlight报告。他担任多个国际期刊和会议的审稿人与NeurIPS 2024领域主席。现正主持国自然青年基金和深圳市优秀科技创新人才培养项目‐青年项目。他也入选了2021年百度全球AI华人新星百强榜单。更多信息可见:https://guanyingc.github.io/