第十九届图像图形技术与应用学术会议(IGTA2024)将于2024年8月16-18日在北京召开,会议由北京图象图形学学会主办,北京师范大学承办。本次大会主题为:“AIGC与图像图形”。旨在探讨图像图形前沿技术发展趋势、展览最新产业成果、促进相关学科发展、推动产学研创新与融合。
IGTA2024大会内容包括特邀报告、论文报告、前沿论坛、专题论坛、青托论坛、优博展示、参观展览等环节,诚邀专家学者们注册参会。
多媒体大模型论坛
当前,具有强大学习能力、上下文理解和多模态处理能力的AI大模型正迅猛发展,给学术界和工业界都带来了革命性的变化,基于多模态的预训练大模型将成为人工智能基础设施,以及新质生产力的代表。未来,大模型作为AI基础设施,将实现文本、图象、音频、视频统一知识表示,并朝着能推理、能问答、能总结、能创作的认知智能方向演进。本次论坛设置主旨演讲和对话环节,多形式展现当下多模态大模型的最新技术研究和行业成果,并讨论未来发展趋势。
论坛主席
黄庆明
中国科学院大学教授
中国科学院大学二级教授、讲席教授、博士生导师,国家杰出青年科学基金获得者,百千万人才工程国家级人选,享受国务院政府特殊津贴。主要研究领域为多媒体分析、计算机视觉、模式识别、机器学习等,累计发表学术论文600余篇,其中IEEE/ACM汇刊和CCF-A类会议论文300余篇,谷歌学术引用30000余次。承担新一代人工智能国家科技重大专项、国自然基金重点项目和重点国际合作项目、973课题、863课题等重大项目,相关成果获得吴文俊人工智能自然科学一等奖、中国图象图形学学会自然科学一等奖、教育部科技进步一等奖等奖励,是IEEE Fellow, CCF会士,IEEE CASS北京分会主席,CCF理事,CCF多媒体技术专业委员会主任,中国图像图形学学会常务理事,北京图象图形学学会副理事长。
李亮
中国科学院计算技术研究所副研究员
博导,国家自然科学基金委优秀青年基金获得者,研究方向为生成式人工智能和跨模态学习等,发表TPAMI等汇刊和CCF-A类会议论文70余篇,谷歌引用3600余次,获国际会议最佳论文奖2次,6项工作入选ESI高被引论文。主持/参与科技部科技创新2030重大项目、973课题、NSFC重点和面上项目等20余项,参与组织7次IEEE/ACM国际会议和5次国内会议,国际期刊Electronics和JCST编委,ACL、EMNLP和ACM MM等会议的领域主席,ACM SIGMM中国分会高校合作负责人,获2022年浙江省科学技术进步奖一等奖、2020年吴文俊人工智能自然科学一等奖。与新华社共同起草制定了的全球首个内容自动化生产标准《机器生产内容自动化分级》,相关技术在华为、淘宝、大华、华数传媒等使用,服务于2022北京冬奥会等重要任务。
论坛讲者
叶齐祥教授
中国科学院大学
报告题目:视觉表征模型的结构设计与物理启发
报告摘要:分析了局部卷积运算与全局注意力运算的互补性,将局部特征与全局特征耦合形成Conformer网络结构,显著增强视觉表征能力,提升表征模型的性能下限。探讨了局部卷积运算造成的自监督学习信息泄露问题,提出了Token Merging操作,突破卷积或局部运算的局部约束,形成高效分层Transformer 表征(HiViT)与全预训练的Transformer 金字塔网络(iTPN)。在ImageNet分类任务上,iTPN-Base, iTPN-Large, iTPN-Huge 分别达到了88.0%,89.2%, 89.7%的Top-1分类精度。在模型结构结构设计的基础上,探索了物理原理启发的基础模型,从热传导视角探索表征模型,取得了初步效果,代码:github.com/pengzhiliang/Conformer、github.com/sunsmarterjie/iTPN、github.com/ MzeroMiko/VMamba.
个人简介:叶齐祥,中国科学院大学特聘教授、国家杰出青年基金获得者、中科院卢嘉锡青年人才奖获得者、中国科学院优秀博士生导师、CVPR2023 、NeurIPS2023、ICLR2024 Area Chairs、国际期刊IEEE TITS,IEEE TCSVT编委。主要进行视觉表征学习与目标感知方向的研究,在CVPR, ICCV, NeurIPS等国际会议与TPAMI, TNNLS, TIP等期刊发表论文150余篇。承担了自然基金重点项目、开发的高精度目标感知方法支撑了华为、航天等单位的应用系统。曾获中国电子学会自然科学一等奖。培养多名博士生获中科院院长奖、中国科学院百篇优秀博士论文、博士后创新人才计划支持等。
魏云超教授
北京交通大学
报告题目:从3D到4D,快速且时空一致的4D内容生成探索
报告摘要:近年来,借助2D生成大模型的发展,3D内容生成发展迅速,然而由于缺少大量4D数据集和强有力的视频预训练模型,动态3D(4D)内容生成却少有探索。本报告旨从3D生成视角出发,研究快速且时空一致的4D内容生成,将会介绍最新的4D生成工作——4DGen和Diffusion4D。通过探究如何设计时空上高保真度的监督信号,以及如何使用4D数据集对视频生成模型进行微调,实现从文本、图像或视频控制信号到4D内容的快速高质量生成。
个人简介:魏云超,北京交通大学计算机学院教授、副院长,国家高层次人才计划获得者。曾在新加坡国立大学、美国伊利诺伊大学厄巴纳-香槟分校、悉尼科技大学从事研究工作。入选《麻省理工科技评论》中国区“35岁以下科技创新35人”(MIT TR35 China)、百度全球高潜力华人青年学者、《澳大利亚人》TOP 40 Rising Star;获世界互联网大会领先科技奖(2023)、教育部高等学校自然科学奖一等奖(2022)、中国图象图形学学会科技技术奖一等奖(2019)、澳大利亚研究委员会青年研究奖(2019)、IBM C3SR最佳研究奖(2019)、计算机视觉世界杯ImageNet目标检测冠军(2014)及多项CVPR竞赛冠军;发表CCF A类期刊/会议论文100多篇,Google引用超20000次。目前主要研究方向包括面向非完美数据的视觉感知、多模态数据分析、生成式人工智能等。
刘静研究员
中国科学院自动化研究所
报告题目:多模态预训练模型的研究与应用
报告摘要:近年来,从预训练模型到预训练大模型,从文本、音频、视觉等单模态大模型,到现在的图文、图文音等多模态预训练大模型,无论在学术界还是企业界预训练模型都得到了广泛关注与爆发式发展。多模态预训练通过联合图文音等多模态内容进行模型学习,其发展在多模态理解、搜索、推荐、问答,语音识别与合成,人机交互等应用领域中具有潜力巨大的市场价值。本报告主要包含三方面内容:分析多模态预训练模型的重要性与必要性;回顾当前多模态预训练的最新研究进展;多模态预训练模型主要应用场景与未来展望。
个人简介:刘静,中科院自动化所研究员/博导,中国科学院大学岗位教授,国家优青获得者。研究方向多模态分析与理解,紫东太初大模型。曾获中国电子学会自然科学一等奖,图像图形学会科学技术二等奖,2022年世界人工智能大会“卓越人工智能引领者奖SAIL”。承担或参与多项国家自然科学基金项目、国家973课题、国家基金重大研究计划、国家重点研发等。已发表高水平学术论文150余篇,谷歌学术引用11000+次,SCI他引次数4000+次,其中有三篇被ESI列为Top1%高被引论文。在视觉计算相关领域的多项国际学术竞赛中荣获冠军10+项。
邵睿教授
哈尔滨工业大学(深圳)
报告题目:“九天”多模态大模型
报告摘要:本报告首先将总览现有语言大模型、视觉大模型与多模态大模型的发展历程与其惊人的通用人工智能潜力,其次将重点剖析当前多模态大模型的主流模型架构与预训练任务,最后介绍我们研发的九天多模态对话大模型的主要功能与实现方法。
个人简介:邵睿,哈尔滨工业大学(深圳)计算机科学与技术学院教授,博士生导师,入选2023年国家级青年人才计划。主要研究方向为多模态大模型、计算机视觉,以第一作者/通讯身份发表CCF-A会议与IEEE/ACM汇刊等高水平论文20余篇,包括:TPAMI, IJCV, TIFS, TNNLS, CVPR, ECCV, AAAI, ACM MM等,并多次担任CVPR, ICCV, ECCV, TPAMI, IJCV 等顶级会议和期刊审稿人。GitHub 代码仓库关注星数超过1000。主持/参与国家自然科学基金面上项目、青年项目、广东省自然科学基金面上项目等。担任计算机视觉旗舰会议BMVC领域主席。现负责构建哈工大深圳“九天”多模态大模型。
姚霆联合创始人兼CTO
HiDream.ai(智象未来)
报告题目:多模态内容生成:掀起未来创意无限可能
报告摘要:生成式人工智能(AIGC)已成为技术和产业界竞相追逐的热点,全球各大科技企业都在积极拥抱 AIGC,不断快速推出相关基础模型、平台和应用。AIGC 将会从单一模态迅速迈向多模态,我们将会迎来多模态基础模型与应用的爆发期。本次分享,将回顾 AIGC 多模态基础模型进展,分析多模态内容生成技术与应用,并展望相关挑战与技术趋势。
个人简介:姚霆,生成式人工智能初创公司智象未来(HiDream.ai)联合创始人兼CTO。获2022 IEEE ICME Multimedia Star Innovator,2019 ACM SIGMM Rising Star,2019 IEEE TCMC Rising Star,2022中国智能计算科技创新人物。发表论文100余篇,谷歌引用1.5万余次,先后10余次获得国际学术竞赛冠军,获评2022 年度中国图象图形学学会科技进步奖一等奖。设计了视频分析领域标准的3D卷积神经网络Pseudo-3D Network,构建的业界首个大规模视频文本数据集MSR-VTT被全球五百余研究机构的学者下载使用,并研发了多款数百万日活用户的商业产品。曾任京东科技算法科学家和微软研究院研究员。
Copyright © 2024 北京图象图形学学会
电 话:010-82525258
邮 箱:igta@bsig.org.cn
网 站:www.igta.org.cn
微 信:BSIG82525258