Banner
特邀报告

报告嘉宾

(点击头像查看介绍)

常晓军
中国科学技术大学
乔宇
上海人工智能实验室
吴建鑫
南京大学
虞晶怡
戴文睿
上海交通大学
林倞
中山大学
卢策吾
上海交通大学
邱锡鹏
复旦大学

常晓军

中国科学技术大学

报告题目

视觉与语言大模型:从跨模态理解到生成与推理

报告摘要

本报告聚焦于视觉与语言大模型在跨模态理解与生成中的最新进展与挑战。随着模型规模和能力的不断提升,它们在长视频理解、视觉叙事建模以及多模态生成方面展现出前所未有的潜力。特别是在处理复杂情境和长时序数据时,视觉与语言大模型能够捕捉跨场景、跨镜头的语义关联,从而推动事件推理与情节理解的深入发展。同时,基于剧情驱动的生成方法也正在探索如何在虚拟场景中实现动作与语言的协同生成,展现出多模态交互的全新可能性。在此过程中,开放词汇与少样本学习成为增强模型泛化能力和跨任务迁移能力的关键路径。展望未来,视觉与语言大模型将在统一多模态表征、跨模态推理以及生成式交互等方面发挥重要作用,为构建更加智能、灵活和可解释的人工智能系统奠定基础。

报告嘉宾介绍

常晓军,中国科学技术大学讲席教授,国家级高层次人才,中国科学院海外引进杰出人才,民盟盟员,澳大利亚研究理事会青年研究奖获得者。主要从事多模态大模型、计算机视觉和绿色人工智能及其在社会公益方面的应用。主持包括澳大利亚研究理事会科研基金、澳大利亚研究理事会企业联合基金(Linkage Program)等国家级项目十余项。相关科研成果发表在T-PAMI、IJCV 等国际顶级期刊和 CCF-A类会议上 150多篇,论文的Google Scholar 引用次数两万多次,其中21篇入选ESI高被引/热点论文。2019年至2024年连续入选科睿唯安高被引学者。担任IEEE TCSVT、IEEE TNNLS、ACM TOMM等国际顶级期刊的副主编和CCF-A类会议的领域主席(Area Chair)。


乔宇

上海人工智能实验室

报告题目

计算机视觉的十字路口:多模态智能的时代思考与范式变革

报告摘要

在以大模型为代表的人工智能飞速发展的时代,作为核心驱动领域的计算机视觉既面临突破的机遇,也遭遇科研范式变革的挑战。本次报告将从视觉研究者的视角出发,结合个人及团队研究经历,分享关于多模态智能当前问题与发展趋势的十点思考。这些思考被归纳为四个关键方向:多模态智能的涌现机理、新架构与训练范式、安全与治理、以及赋能应用与范式验证。报告将探讨如何从以预训练和语言为核心的“上半场”,迈向多模态、高阶认知推理、并与物理世界交互的“下半场”。 报告旨在梳理多模态智能的发展路径,为计算机视觉社区在未来的关键贡献提供思路。

报告嘉宾介绍

乔宇,上海人工智能实验室领军科学家,上海创智学院副院长。从事多模态大模型、计算机视觉、深度学习等方面的研究。领导研发了国内首个广泛覆盖多种视觉任务的通用视觉大模型,以及开源社区性能领先的多模态大模型书生·万象InternVL。论文发表300余篇,累计被引11万余次,H指数147,获得发明专利授权100余项。获得王选奖青年学者奖、CVPR 2023最佳论文奖,AAAI 2021杰出论文奖、ACL 2024杰出论文奖等,以第一完成人获广东省技术发明一等奖。入选国家级领军人才计划、科技部中青年科技创新领军人才、上海市优秀学术带头人、中科院百人计划等。主持科技部科技创新2030-“新一代人工智能”重大项目。担任国家人工智能标准化总体组大模型标准化专题组组长、网络安全与空间协会人工智能安全治理专业委员会副主任等。


吴建鑫

南京大学

报告题目

是谁在推理大模型中推理?(Who Reasons in the Large Language Models?)

报告摘要

随着Deepseek-R1等一系列具有推理能力的大语言模型的发布,推理(Reasoning)能力成为了LLM领域的研究热点。然而,LLM为什么能够进行一定程度上的推理(或至少看上去似乎有推理的能力)?这个问题尚未得到有效解答。我们针对这一问题设计了一系列“网络听诊器”(Stethoscopes for Networks),通过这些听诊器,我们猜想Transformer结构中的o_proj(即注意力模块中的output projection)是LLM中负责推理的主要部件;同时,我们进一步假设Transformer结构中的其他部件负责生成流畅且切合上下文的文字。上述猜想与假设也为高效微调得到高质量的推理大模型提供了一种有效的路径。

报告嘉宾介绍

吴建鑫于南京大学获计算机科学与技术学士与硕士学位,于佐治亚理工学院获计算机科学博士学位,现任南京大学人工智能学院/计算机软件新技术全国重点实验室教授。曾任CVPR、ICCV、ECCV、AAAI、IJCAI等会议的资深领域主席或领域主席,IEEE TPAMI编委,担任CVPR 2024程序主席。研究兴趣为计算机视觉与机器学习,在相关领域的重要学术期刊、会议发表了100多篇论文。具体来说,目前的研究兴趣为计算、数据资源受限情况下的深度学习与计算机视觉。


虞晶怡

报告题目

From Newton to Latour - Towards Physically and Socially Plausible 3D Generation

报告摘要

Recent advances in 3D generation have significantly pushed the boundaries of visual realism, enabling the creation of highly detailed virtual environments and objects. However, despite these strides, current systems still face substantial limitations in producing physically plausible interactions, especially when multiple objects or parts within a scene engage with one another. These limitations manifest in unrealistic motion, collision detection errors, and a lack of true inter-object dynamics, which undermine the fidelity of 3D simulations. Furthermore, most 3D generation systems fail to address the social dimensions of these environments, neglecting the implications of human and non-human actor interactions in a way that resonates with real-world complexity. In this talk, I show that 3D generation must move beyond mere visual realism and embrace both physical plausibility and social meaning. Drawing on Bruno Latour's Actor-Network Theory (ANT), we propose a framework that integrates both physical laws and social constructs into the 3D generation process, allowing for richer, more meaningful representations of interactive spaces. Our recent efforts focus on embedding these dual principles—physics and social interaction—into generative models, providing a more holistic approach to creating 3D environments that are both physically coherent and socially relevant.

报告嘉宾介绍

虞晶怡教授,IEEE Fellow、美国光学学会 OSA Fellow、ACM 杰出科学家、智能感知与人机协同教育部重点实验室主任。他于 2000 年获美国加州理工学院(Caltech)双学士学位和杰出毕业生奖,2005 年获美国麻省理工学院(MIT)博士学位。现任上海科技大学讲席教授、副教务长兼信息科学与技术学院院长。虞教授长期从事计算机视觉、计算成像、计算机图形学等领域的研究工作,先后获得美国国家科学基金 NSF CAREER Award、美国空军研究院 YIP Award、上海市白玉兰荣誉奖等。他曾获多个计算机领域顶会最佳论文奖,包括 2025 年 ACM SIGGRAPH 最佳论文奖、2025 年 SIGGRAPH 最佳前沿技术奖(Best in Show Award, Emerging Technology)、2024 年 SIGGRAPH 最佳论文提名奖等。他的学生亦获得 2024 CVPR 最佳学生论文奖。他还将视觉大模型首次用于芯片设计,于 2024 和 2025 连续两年获得芯片设计顶会 DAC 最佳论文提名奖。他曾任多个顶级期刊编委,并担任顶会 CVPR 2021 和 ICCV 2027 的程序主席、ICCV 2025 的大会主席。


戴文睿

上海交通大学

报告嘉宾介绍

戴文睿,上海交通大学教授,国家高层次青年人才获得者。在上海交通大学先后获得学士(2006)、硕士(2008)、博士(2014),2015-2018年在美国加州大学圣地亚哥分校担任博士后,2018-2019年在美国德克萨斯大学休斯顿健康科学中心担任教职。主要研究方向:信号处理、信息论与编码、机器学习理论。共发表SCI、EI收录论文130余篇,包括 IEEE TPAMI、TSP、TIP 等著名汇刊长文 40余篇,顶级国际会议 ICML、NeurIPS、ICLR 等 36 篇,获 CCF A 类国际会议 ACM Multimedia 2022 Top Paper Award,获中国授权发明专利 25 项、美国授权发明专利 4 项。2022 年获上海市科技进步一等奖(排 3)、中国电子学会科技进步二等奖(排1),2021 年获中国电子学会自然科学一等奖(排3),2023年获华为最佳创新合作奖。


林倞

中山大学

报告题目

具身世界模型:认知规划与物理模拟的高效协同

报告摘要

具身智能是迈向通用人工智能的必经之路,其核心在于通过因果价值驱动的世界模型实现智能体与物理世界的可靠交互。本报告系统阐述其技术框架:首先,提出具身认知推理模型,以因果价值对齐为内核,驱动感知-规划-执行的高效闭环协同。其次,构建物理规则嵌入的高质量数据生成与仿真平台,通过物理规则学习与仿真环境设计,支撑高效灵活的动作策略优化与虚实迁移,提升智能体的环境适应性和任务执行可靠性。

报告嘉宾介绍

林倞,中山大学二级教授,鹏城国家实验室具身智能研究所所长,聚焦于可解释多模态感知与推理的应用基础研究,主持国家青 A(杰青)项目、科技部 2030 人工智能重大项目、国家基金委重点项目,入选 IEEE/IAPR Fellow;在 CCF-A 类或者知名期刊/会议发表论文 400 余篇,谷歌引用近 5万次,5 次获得国际会议/期刊的最佳或杰出论文奖(ACL、ICCV、ICME、Pattern Recognition等),作为第一完成人获得广东省科技进步一等奖、吴文俊人工智能奖、中国图象图形学会科技一等奖;指导学生获得CCF优秀博士论文奖、ACM China优秀博士论文奖及CAAI优秀博士论文奖;担任 ACM Guangzhou Chair,IEEE Transactions Neural Network and Learning Systems 编委,以及数十次担任 NeurIPS、ICLR、CVPR 、SIGKDD 等会议的领域主席。


卢策吾

上海交通大学

报告题目

数字基因:可解析的通用具身操作世界观

报告摘要

回顾过去数年人工智能的发展,AI系统已经在语义层面实现了人类级别的理解和推理能力,在互联网场景中得到广泛应用。然而,AI系统在涉及到物理世界理解与交互的具身智能场景下的应用仍然面临困难。这揭示了一个重要问题:仅依赖大模型学习到的语义层面的概念对具身应用来说是远远不够的——AI系统目前缺乏一种有效的方式来理解物理世界。本研究从认知学的角度去思考物体制造与操作的过程,提出了“数字基因”的思想——通过程序化参数化的方法来对同类物体的共性与差异进行表示,作为可计算、无歧义、高度泛化的物理概念层面的结构化抽象知识,为机器智能提供了一个感知、推理和与物理世界交互的入口。

报告嘉宾介绍

卢策吾,上海交通大学人工智能学院副院长、教授,上海创智学院副院长,长江学者特聘教授,科学探索奖获得者,2016年获海外高层次青年引进人才,2018年被《麻省理工科技评论》评为35位35岁以下中国科技精英(MIT TR35),2019年获求是杰出青年学者,2020年获上海市科技进步特等奖,2022年获教育部青年科学奖,IROS/ICRA最佳论文之,2023年获机器人顶会RSS最佳系统论文提名奖(共四项),科学探索奖。以通讯作者或第一作者在《自然》,《自然·机器智能》,TPAMI等高水平期刊和会议发表论文100多篇;担任Sicence正刊,Nature子刊,Cell子刊等期刊审稿人,NeurIPS,CVPR,ICCV ,ECCV,IROS ,ICRA领域主席。研究兴趣包括具身智能,计算机视觉等。


邱锡鹏

复旦大学

报告题目

情境智能:补全AGI的关键拼图

报告摘要

在算力与数据资源面临瓶颈的当下,当前大语言模型的能力提升遭遇严峻挑战。为突破这一困境,亟需探索驱动下一代模型演进的新路径。本报告提出并探讨一种关键的可扩展维度:情境(Context)。通过引入视觉、听觉等多模态信息,模型得以实现知识的具象化表达与更自然的人机交互,从而构建更全面、直观的认知体系。情境智能不仅拓展了模型的表达与理解边界,也为实现通用人工智能(AGI)提供了重要支撑,可能成为补全AGI拼图的关键一环。

报告嘉宾介绍

邱锡鹏,复旦大学教授、上海创智学院导师,CAAI Fellow,国家杰青获得者,入选中国高被引学者和全球前2%顶尖科学家榜单、教育部“高校计算机专业优秀教师奖励计划”等,获钱伟长中文信息处理科学技术奖一等奖(第一完成人)、CCF-ACM青年科技奖等奖励,主持研发了MOSS等多个高影响力大模型。著作《神经网络与深度学习》被上百家高校作为教材。


主办单位

中国图象图形学学会 (CSIG)

中国人工智能学会 (CAAI)

中国计算机学会 (CCF)

中国自动化学会 (CAA)

 

承办单位

上海交通大学 (SJTU)

上海飞腾文化传播有限公司


协办单位

AutoDL

华东师范大学

官方微信公众号