专题论坛

组织者介绍

（点击头像查看介绍）

罗斌

Visual Intelligence 副主编
安徽大学教授

张青

中山大学副教授

报告嘉宾介绍

（点击头像查看介绍）

卢湖川

大连理工大学教授

倪蓉蓉

北京交通大学教授

章国锋

浙江大学教授

张健

北京大学副教授

许岚

上海科技大学助理教授

论坛简介、目的与意义

随着大语言模型及视觉和多模态大模型的爆发式发展，人工智能生成内容（AIGC）正引发多媒体信号处理和计算机视觉领域的变革。AI 视觉内容生成，涉及图像、视频、三维和四维动态视觉内容，在图像合成、视频编辑、虚拟现实和艺术创作等领域展现出前所未有的潜力。随着条件生成和多模态表示研究的发展，视觉内容生成质量不断提升。在此背景下，可控人工智能视觉内容生成日益受到广泛关注，目的在于生成过程中保持用户的可交互和可控性、内容的多样性和一致性，生成符合预期的高质量视觉内容，亟需探索面向生成的表示理论与方法，厘清可控生成的理论、方法、模型、评价指标。基于此，中国图象图形学学会主办的英文学术期刊 Visual Intelligence 将在本次大会上申请组织“可控人工智能视觉内容生成”专题论坛，旨在将领域内相关研究者聚集在一起，交流目前人工智能可控视觉内容生成研究和技术应用的最新进展和未来发展趋势，对其中一些共性、难点问题进行交流和深入探讨。

论坛日程

每位报告人报告 25 分钟，论坛总计时长 125 分钟。

报告题目	报告嘉宾	主持人
视觉内容感知生成	卢湖川大连理工大学教授	罗斌
AI 生成内容的风险与治理	倪蓉蓉北京交通大学教授	罗斌
高效可控的三维场景重建与生成	章国锋浙江大学教授	张青
最优化视角下的可控视觉生成	张健北京大学副教授
光场视觉智能：从重建到生成	许岚上海科技大学助理教授

罗斌

Visual Intelligence 副主编
安徽大学教授

个人简介

罗斌，安徽大学计算机科学与技术学院教授、博士生导师，安徽省学术技术带头人，安徽省模范教师。现任中国图象图形学学会常务理事、安徽省计算机学会监事长。曾受聘英国电信公司短期研究员、美国佛罗里达技术学院客座教授、澳大利亚新南威尔士大学客座研究员、新加坡南洋理工大学客座教授、英国 Stirling 大学客座教授、英国 York 大学博士后研究员等。研究方向为模式识别与数字图像处理。代表性成果发表于 IEEE TPAMI 和 CVPR 等国际期刊和会议。

联系邮箱

luobin@ahu.edu.cn

TOP ↑

张青

中山大学副教授

个人简介

张青, 中山大学计算机学院副教授, 博士生导师。目前主要从事视觉内容生成与编辑、基于图像的三维建模和绘制等方面研究。累计在包括 IEEE TPAMI、IJCV、ACM TOG 等国际顶级期刊和 SIGGRAPH、CVPR、ICCV 等国际顶级会议发表论文 60 余篇, 其中 CCF A 类/IEEE Transactions 论文 40 余篇，Google Scholar 引用 4600 余次，单篇一作最高引用超过 1100 次。获 2019 年湖北省自然科学二等奖，2022 年世界人工智能大会青年优秀论文奖。主持国家自然科学基金面上项目、青年项目、重大项目子课题等多项科研项目。

联系邮箱

zhangq93@mail.sysu.edu.cn

TOP ↑

卢湖川

大连理工大学教授

报告题目

视觉内容感知生成

报告摘要

生成模型作为人工智能领域的一个重要方向，高效的模型训练、跨模态的持续优化、多模态的深入理解，以及个性化内容生成，已成为这一领域的核心挑战。本次报告将深入探讨生成模型在多个关键领域的最新进展与应用。如何通过创新框架显著提升大模型的训练效率，使生成技术更加普及易用。同时，生成模型的能力已扩展至多模态学习，在图像、视频、音频等数据中实现了智能推理与融合，不断优化模型表现。多模态理解的新范式进一步增强了模型在视觉和语言信息处理上的协同能力，帮助其更深入理解数据背后的复杂语义。此外，定制化内容生成技术的突破，使模型能够根据用户需求精准生成个性化图像和视频，满足多样化应用场景。

报告嘉宾介绍

卢湖川教授，IEEE Fellow，国家杰出青年科学基金获得者，大连理工大学未来技术学院/人工智能学院执行院长。研究方向为计算机视觉、机器学习、模式识别。发表顶级会议论文（CVPR/ICCV/ECCV）100 余篇，Google Scholar 引用 5 万余次，以第一完成人获得辽宁省科技进步一等奖 1 项，教育部自然科学二等奖 2 项。获得多项国际学术奖，包括 CVPR 2020 Best Paper Award Nominee, ICCV2011 Most Remembered Poster 等。2017-2023 年，在国际目标跟踪权威评测VOT竞赛中，其团队连续在多个赛道获得多个冠军，多次担任CVPR/ICCV/ECCV 领域主席。

TOP ↑

倪蓉蓉

北京交通大学教授

报告题目

AI 生成内容的风险与治理

报告摘要

随着多媒体技术以及人工智能的快速发展，视觉内容的制作、分享和传播变得极为容易，每天都有海量的图像视频在网络上涌现。这既丰富了人们的视觉感受，也带来了内容安全方面的风险。尤其是近几年，基于深度模型的内容生成技术使得视觉信息真假难辨，伪造图像以及伪造视频的检测和辨识能力成为科技向善的有力后盾。与此同时，从源头上扼制伪造事件的发生，管控隐私信息的滥用风险成为新的研究热点。本次报告将介绍深度伪造视觉内容的检测以及治理防御方法。

报告嘉宾介绍

倪蓉蓉，北京交通大学教授，科技部重点领域创新团队和教育部创新团队骨干研究人员，曾入选北京市科技新星。任 IEEE 北京分会执委、IEEE 信号处理学会信息取证和安全技术委员会委员（IFS-TC Member），中国计算机学会计算机视觉专委，中国图象图形学学会数字媒体取证与安全专委。主持国家自然科学基金重点项目、国家重点研发课题、国家自然科学基金面上及青年项目、北京市自然基金项目、CCF-腾讯犀牛鸟科研基金等。曾获得教育部自然科学二等奖、北京市科技奖二等奖、詹天佑专项奖等奖励。研究方向包括多媒体内容安全与取证、人工智能安全、数字水印与应用、图像与视频处理等。

TOP ↑

章国锋

浙江大学教授

报告题目

高效可控的三维场景重建与生成

报告摘要

近年来，随着大模型的快速发展，三维重建与生成技术都取得了显著进展，而且两者技术的结合既可以提升重建的鲁棒性和完整度也能提升生成的质量和时空一致性，已经成为一个重要的发展趋势。本次报告将首先对近几年三维场景重建与生成的进展做一个回顾和分析，并介绍课题组在三维重建与生成结合方面的代表性研究工作，以及对未来发展趋势做展望和探讨。

报告嘉宾介绍

章国锋，浙江大学求是特聘教授，博士生导师，国家杰出青年科学基金获得者。主要从事三维视觉、增强现实与空间智能方面的研究，尤其在 SLAM、三维重建和生成方面取得了一系列重要成果，开源了一系列相关系统和算法的源代码，是 OpenXRLab 扩展现实开源平台的主要发起人。曾获 2010 年 CCF 优秀博士学位论文奖、2011 年全国优秀博士学位论文奖、2020 年浙江省技术发明奖一等奖（排名第 4）、2021 年浙江省自然科学奖一等奖（排名第 2）以及国际顶级会议 ISMAR 2020 唯一最佳论文奖。担任国际顶级期刊 IJCV 编委，以及 Virtual Reality & Intelligent Hardware、《计算机辅助设计与图形学学报》和《中国图象图形学报》等期刊编委，中国图象图形学学会虚拟现实专委会副主任、增强现实核心技术产业联盟副理事长、浙江省人工智能学会增强现实分会副会长。

TOP ↑

张健

北京大学副教授

报告题目

最优化视角下的可控视觉生成

报告摘要

本报告从最优化理论视角出发，系统剖析传统信号重建与前沿可控视觉生成之间的内在联系与本质。报告人基于其在视觉重建与生成领域的工作梳理，包括结构组稀疏表示5（GSR）、迭代收缩阈值启发式网络（ISTA-Net）、去噪扩散零空间模型（DDNM）、免训练扩散模型操控（FreeDoM）、空间精准可控生成（T2I-Adapter）、拖拽式图像编辑（DragonDiffusion）、高保真视频编辑（ReVideo）以及统一图像定制框架（DreamO）等为范例，阐释如何通过最优化理论将这些研究有机串联和巧妙统一，进一步揭示该理论在推动可控视觉生成发展中的指导价值。

报告嘉宾介绍

张健博士，北京大学信息工程学院长聘副教授、博士生导师，院长助理，视觉信息智能学习实验室（VILLA）负责人。长期专注于“视觉重建生成与安全”研究，已在 TPAMI、IJCV、TIP、CVPR、NeurIPS 等高水平国际期刊和会议上发表论文 120 余篇，谷歌学术引用逾1.3 万次，h-index 56；连续 5 年入选斯坦福全球前 2%顶尖科学家榜单；曾获北大青年教师教学比赛一等奖、华为学术奖励基金项目优秀奖、OPPO 产学研“优秀合作伙伴”称号、5次国际期刊/会议最佳论文奖，并获 CVPR NTIRE 全球挑战赛冠军；主持国家科技重大专项课题、国家自然科学基金、深圳市重点等科研项目 10 余项，成果应用于字节跳动、OPPO、兔展、Stability Al 等国内外知名企业产品中；担任深圳市人工智能学会青工委主任、JVCIR 等国际期刊编委等。个人主页：https://jianzhang.tech/。

TOP ↑

许岚

上海科技大学助理教授

报告题目

光场视觉智能：从重建到生成

报告摘要

多模态生成式人工智能的发展，为高质量的动静态场景重建、渲染和生成都带来新突破，并且有望服务于未来的元宇宙或者人机交互应用。本次报告结合过去一年课题组在这些方面的科研进展，重点分享关于三维视觉内容生成技术在组合、理解和交互方面的一些新思路，并且探讨未来发展的潜在方向。

报告嘉宾介绍

许岚博士，上海科技大学信息科学与技术学院助理教授、研究员、博士生导师，MARS 实验室主任。他的研究方向聚焦于计算机视觉、计算机图形学和计算摄像学，致力于光场智能重建理论与技术，重点关注动静态场景重建与生成、体积视频、神经渲染、人物交互动作分析等等方向。近年来，他率团队研制了系列光场装置，相关研究成果被 ACM TOG、IEEE IJCV、IEEE TPAMI、SIGGRAPH、SIGGRAPH Asia 和 CVPR 等顶级期刊与会议收录，并在 SIGGRAPH 2024 获两项最佳论文奖荣誉提名、在 SIGGRAPH 2025 获最佳论文奖。

TOP ↑

主办单位

中国图象图形学学会 (CSIG)

中国人工智能学会 (CAAI)

中国计算机学会 (CCF)

中国自动化学会 (CAA)

承办单位

上海交通大学 (SJTU)

上海飞腾文化传播有限公司

协办单位

AutoDL

华东师范大学

官方微信公众号