主题介绍
本次研讨会将聚焦生成式AI与多模态大模型在具身智能与机器人领域的融合应用与前沿挑战。生成式AI通过大规模数据训练展现出对复杂交互的强大学习能力,为具身智能提供了一种新范式,助力智能体掌握抽象任务规划与行为策略,实现从感知到决策的闭环优化;同时,它还能高效生成逼真仿真环境,支持智能体进行大规模交互与学习,克服传统物理实验中的数据稀缺与高成本问题。与此同时,多模态大模型通过整合视觉、触觉、听觉等多元感知数据与预训练技术,显著增强了机器人在复杂环境中的感知、决策与执行能力,推动其从单一感知向多模态协同适应转变。会议将深入探讨基于生成式学习的机器人控制、模仿学习、运动规划、多模态学习、人机交互等关键议题,展示在感知精度、任务泛化与数据瓶颈突破等方面的最新成果,旨在促进生成式AI与多模态技术在具身智能中的深度融合,推动学术界与产业界的合作与创新,加速智能机器人技术的持续发展与应用落地。
时间:2025年10月17日 15:50-17:50
地点:分会场 D2 厅
汪婧雅博士现任上海科技大学信息科学与技术学院研究员、助理教授、博导。研究兴趣侧重于虚实融合的具身智能及交互。在计算机视觉顶级会议和期刊上发表论文50余篇,其中CCF-A类论文40余篇。担任CVPR、NeurIPS、ICML、ICCV、ECCV、ACM MM等会议的领域主席。攻博期间入选CVPR Doctoral Consortium Award,第一作者论文入选Computer Vision News Magazine评比的2018 Best of CVPR Paper。2023年入选百度AI华人女性青年学者榜。获得2024年ACM Design Automation Conference最佳论文提名,2024年ACM Multimedia最佳论文提名。
张力,复旦大学大数据学院教授,上海创智学院全时导师,获国家级青年人才计划。博士毕业于伦敦玛丽女王大学电子工程与计算机科学系,曾任职于牛津大学工程科学系博士后,剑桥三星人工智能中心研究科学家。获上海海外高层次人才计划、上海科技青年 35 人引领计划(35U35)、世界人工智能大会青年优秀论文奖;发表人工智能期刊与会议论文 100 余篇,论文总被引两万余次。 担任人工智能国际会议 NeurIPS 2023-2025、CVPR 2023-2026 领域主席、AAAI 2026 高级程序委员会委员 。
同济大学计算机科学与技术学院长聘副教授,先后获得北京理工大学计算机科学与技术工学博士学位和悉尼科技大学分析学哲学博士学位。入选国家海外高层次青年人才、上海白玉兰海外高层次青年人才、上海市浦江人才计划,主持参与国家自然科学基金青年科学基金项目项、科技部重点研发、国自然基金项目等多项。主要研究方向为多模态信息处理,具体包括脑视觉编解码、时间序列分析、多模态模型压缩等,在人工智能和数据科学领域的顶级国际期刊和会议上发表论文60余篇,包括TKDE、TNNLS、NeurIPS、ICML、ICLR、AAAI、IJCAI、ACM MM、KDD等。担任 CSIG 青工委副秘书长。
高永彬,上海工程技术大学电子电气工程学院副教授,副院长,博士生导师,CCF多媒体专委会执行委员,中国图象图形学学会生物特征识别专委会副秘书长,上海市计算机学会计算机视觉专委会副秘书长,上海市数据智能技术及其应用协同创新中心副主任,工业互联网产业联盟民用飞机制造与运维大数据分析实验室常务副主任。以一作/通讯发表包括IEEE TIP、IEEE TCSVT、IEEE TITS, IEEE IOTJ, ACM TOMM、ICME、ICCV等知名期刊/会议论文50余篇。主持国家级项目/省部级项目6项,主要技术骨干参与科技创新2030-新一代人工智能重大专项/工信部项目/国家基金委重点项目5项。获得上海市科技进步二等奖和中国图象图形学会科技进步二等奖。研究方向:三维视觉。
方志军,二级教授,博士生导师,东华大学计算机科学与技术学院院长,国家级人才,上海市数据智能技术及其应用协同创新中心主任,上海市制造业数字化转型设计与验证专业技术服务平台主任。近年来,在IEEE TIP, TCSVT, TITS, TII, TVT, TSMC, ICCV等知名学术期刊和会议上发表学术论文近百篇。作为项目负责人主持科技部科技创新2030-“新一代人工智能”重大项目,国家基金委民航联合基金重点项目等十余项,获中国产学研合作创新奖、上海市技术发明一等奖等5项科技进步奖项,担任HHME、ISITC、ICMeCG等数10个国内、国际学术会议的组织委员会主席或共同主席。研究方向:计算机视觉,具身智能。
基于具身记忆的视觉导航
中国科学院计算技术研究所研究员,博士生导师,国家杰出青年基金获得者,先后担任期刊《IEEE TMM》、《ACM ToMM》、《IEEE Multimedia》、《计算机研究与发展》、《JCST》、《CAD学报》编委,中国计算机学会多媒体专委会副主任、中国人工智能学会智能服务专委会副主任、中国自动化学会网络计算专委会副主任、ACM SIGMM中国分会副主席。主要研究方向是多媒体内容分析、多模态具身智能技术和食品计算。主持承担科技创新2030-“新一代人工智能”重大项目、国家自然科学基金等项目20余项,发表论文200余篇,获授权专利20余项,多项技术应用到实际系统中,先后获省部级或学会奖励5项。
结构化与机理化的具身世界模型
徐凯,国防科技大学教授。普林斯顿大学访问学者。研究方向为计算机图形学、三维视觉、具身智能、数字孪生等。在国际上较早开展了数据驱动三维感知、建模与交互工作,提出面向复杂场景的结构化三维感知、建模与交互理论方法系统,并规模化落地应用于智能制造等领域。主持国家自然科学基金青年科学基金A类(原杰青)、B类(原优青)、重点项目等。发表TOG/TPAMI/TVCG/TIP等A类论文100余篇。入选全球前2%顶尖科学家榜单。担任图形领域顶级国际期刊ACM Transactions on Graphics、IEEE Transactions on Visualization and Computer Graphics的编委,Computational Visual Media的领域执行编委。多次担任领域内重要会议的大会主席和程序主席。担任中国图象图形学会智能图形专委会副主任、中国工业与应用数学学会几何设计与计算专委会副主任。曾获湖南省自然科学一等奖2项(排名1和3)、中国计算机学会自然科学一等奖2项(排名1和3)、军队科技进步二等奖、军队教学成果二等奖、中国电子学会青年科学家奖。
空间感知与规划:具身机器人理解世界
宋井宽,同济大学计算机学院教授,国家“青年特聘专家”,国家杰出青年科学基金获得者。主要研究方向为多媒体理解。在多媒体、计算机视觉、人工智能等领域的重要会议和期刊发表论文180余篇,谷歌学术引用17000余次。担任国际SCI期刊IEEE TMM、ACM TOMM等编委,担任多个期刊的评审和多个国际顶级会议(MM'18-'24, IJCAI'18-'24)的领域主席。主持自然科学基金委重点、科技部重点研发课题等多项国家级项目。
智能手术机器人多模态感知
湖南大学二级教授,副院长。国家杰出青年基金获得者,教育部青年长江学者,国家重点研发计划首席科学家,国家自然科学基金创新研究群体核心成员。北京大学学士,美国加州大学河滨分校博士,湖南省自动化学会副理事长,机械工业先进制造视觉检测与控制技术重点实验室主任,中国图象图形学学会青工委副主任。先后主持国家重点研发计划项目2项、国家自然科学基金重点项目1项,第一、通讯作者在IEEE汇刊发表论文50余篇,获省部级科研奖励5项。
从扩散模型出发重构具身智能理论与算法体系
石野博士,现任上海科技大学信息科学与技术学院助理教授、研究员、博导,YesAI可信与通用智能实验室负责人, 近年来发表顶会顶刊70余篇(NeurIPS, ICML, ICLR, CVPR, ICCV, TNNLS, TSG等)。主要聚焦在可控、鲁棒、安全的人工智能理论算法及应用,系统研究了可控扩散模型的理论基础及其在具身智能上的应用。石野博士担任NeurIPS, ICLR等人工智能顶会领域主席,组织ICCV 2025人机交互与协作研讨会, 曾入选上海市海外领军人才计划,上海市扬帆计划,主持国家自然科学基金,曾获得国家优秀留学生奖,分别以通讯作者和第一作者获得ICLR 2025生成式理论研讨会杰出论文奖, IEEE ICCSCE 2016最佳论文奖。
从人类运动中学习多样化的人形机器人交互技能
弋力博士现任清华大学交叉信息研究院助理教授,国家优青(海外)。他在斯坦福大学取得博士学位,导师为美国三院院士Leonidas J. Guibas教授,毕业后在谷歌研究院任研究科学家。他近期的研究聚焦于三维视觉与具身智能,他的研究目标是赋予机器人理解并与三维世界交互的能力。他在计算机顶级会议期刊上已发表论文七十余篇,引用数两万余次,代表作品包括ShapeNet Part,SyncSpecCNN,PointNet++等,大大影响了三维深度学习这一领域的出现与发展。此外他还曾担任CVPR、IJCAI、NeurIPS等顶会的领域主席与SIGGRAPH TPC等。
Intern Robotics『书生』具身全栈引擎及其关键技术
庞江淼博士,上海人工智能实验室青年科学家,具身智能中心负责人,研究方向为机器人学习、多模态学习、具身智能,目标构建一体可泛化的具身通用人工智能系统。在 TPAMI、IJCV、CVPR、CoRL 等计算机视觉与机器人学习领域顶级期刊与会议发表论文 60 余篇,谷歌学术被引 15000 余次,相关系列开源项目在 GitHub 累计星标 50000 余次,被产学界广泛使用。他曾获得 ECCV 2024 最佳论文提名,RSS 2025 最佳系统论文提名,CVPR 2023 与 ECCV 2024 最有影响力论文等荣誉。
三维场景智能重建:构建数字孪生的基石
南京大学教授、博导,计算机软件新技术全国重点实验室研究人员。浙江大学博士、美国伊利诺伊大学香槟分校、香港大学等访问学者。主要研究方向为计算机图形学和三维计算机视觉,研究成果发表在ACM TOG, IEEE T-PAMI/TIP/TVCG/TGRS、《中国科学》等领域顶级期刊以及Siggraph, NeurIPS/ICCV/CVPR/ECCV/VR等顶级会议,获授权发明专利30余项,主持国家自然科学基金重点项目和十三五装发预研等国家级重要研目以及江苏省杰出青年科学基金研目,团队负责与华为、OPPO、三星等头部公司合作项目二十余项,成果转化产生了良好的经济和社会效益。担任CCF-A类期刊IEEE TVCG 编委,中国图象图形学学会理事,江苏省计算机学会图形图像专委会主任和江苏省工程师学会常务理事兼虚拟现实与元宇宙专委会主任,获华为公司“难题揭榜”火花奖等,受邀在中国科学院学部科学与技术前沿论坛做主题报告。
中国图象图形学学会 (CSIG)
中国人工智能学会 (CAAI)
中国计算机学会 (CCF)
中国自动化学会 (CAA)
上海交通大学 (SJTU)
上海飞腾文化传播有限公司
AutoDL
华东师范大学