宋井宽:AI赋能——多模态大模型前沿及在汽车行业应用

  • 作者:百姓评车
  • 来源:百姓汽车
  • 时间 2025-07-15
  • 浏览:30000

20257月10-12日,2025中国汽车论坛在上海嘉定举办。本届论坛主题为“提质向新,智赢未来”,由“闭门峰会、大会论坛、技术领袖峰会、多场主题论坛、N场行业发布、主题参观活动”等15场会议和若干配套活动构成,各场会议围绕汽车行业热点重点话题,探索方向,引领未来。其中,在7月12日上午举办的“主题论坛八:智数赋能,‘智’检之道——汽车测试赋能产业高质量发展”上,同济大学计算机学院教授、“杰青项目获得者”宋井宽发表精彩演讲。

blob.jpeg  

  今天我汇报的题目是“多模态大模型前沿及在汽车行业应用”。选择这个题目是两个原因,首先特别契合今天分论坛的主题,智能赋能汽车测试,同时第二个原因多模态大模型现在是非常热门的研究话题,并且在汽车领域有非常多的应用场景。刚刚我们领导叶总提到了多模态大模型要做一个重点发展方向,今天汇报从以下两个方面:

 

  第一介绍多模态大模型和它的前沿进展。

 

  第二介绍各行业的具体应用案例。

 

  首先什么是多模态大模型大家?它是一个能够处理多种模态输入的AI模型,其中每个模态是指一种特定类型的数据,比如说图像、视频、文本、音频,但是如果汽车行业是各种传感器数据,也可以作为不同模态输入。通过整合网络上多模态的数据,从而可以实现类人多模态感知、认知,可以有望推动计算机视觉在语言处理等多领域的协同发展。可以说多模态大模型已经从过去必然的发展趋势变成了已然的现状。因此右边列出了多模态大模型发展的里程碑事件,从2022年ChatGPT的横空出世,到后来的多模态版本的GPT-4V,以及到Sora,GPT-4o,以及国产Deepseek的出现,整体来说从2023年下半年开始大模型竞争整体从语言大模型过渡到多模态大模型。

 

  为什么多模态大模型能引发这么多行业关注,因为它在行业有很多应用场景。这里列出了一些,比如说Med-Gemini可以用于赋能医学诊断。Face大模型可以赋能人机交互,通过数字人形式。盘古大模型可以赋能工业服务,紫东太初大模型可以赋能法律,日日新可以用于金融服务场景。因此可以说多模态大模型正实现智能赋能千行百业。

 

  介绍这么多多模态大模型到底是什么?我这里列出了一个多模态大模型的技术全景图,包括三个部分,最左边的数据,中间的技术,右边的应用。数据包括各种模态数据的收集,当然还有很重要的一点是数据之间的关联,中间的技术层上面的模态架构和下面的优化算法,所以模态架构也就是大模型长什么样,现在的架构相对比较固化了,基于Transformer各种各样的拼接。有了数据和架构怎么把参数学习出来?优化算法经过了多轮迭代,从早期的对比学习到现在的子回归再到后面的掩码形式等,有了参数最终可以在各个场景进行应用,比如说用于多模态的对话,跨模态的生成,以及等下要讲到的具身智能的场景,这是整体的全景图。

 

  为什么研究领域引发了这么多关注,一个很重要的原因是多模态大模型是实现通用人工智能的必经之路,大家知道通用人工智能是计算机学科的梦想,要实现通用人工智能必不可少要像人一样感知认知这个世界,比如说听觉、触觉、视觉等等,这些数据天然就是多模态的形式,要实现通用人工智能必不可少要研究多模态大模型,也经历了一系列的发展历程,从早期各个模态的独立发展,大家可能听过以前的自然语言处理,计算机视觉是独立发展的,自然语言处理只处理翻译,交谈的任务。计算机视觉里研究分割识别等等,这些任务是独立发展的。当前有了多模态大模型之后是把多种模态融合发展,现在一个新的趋势是把多模态大模型里面的进一步的集成和统一,把理解和生成任务进行统一。那么在未来想要进一步发展就需要和物理世界进行结合,探索研究世界模型,研究具身智能,最终实现通用人工智能的最终目标。

 

  这里列出了多模态大模型发展趋势,整体上从传统的任务驱动和预调的方式,转向现在的任务统一,推理增强和主动交互三个趋势我分别介绍一下。

 

  任务大家不知道熟悉不熟悉,任务有两个定义,第一个是非常狭义的定义,自然语言处理里翻译是一个任务,在计算机视觉里识别是一个任务,早期的时候不同模态之间的任务非常割裂,早期的时候任务不统一,有了多模态大模型之后可以把自然语言,文本和图像放在一起处理,相对统一了一些,但是依然存在两个任务的割裂,一个是理解的任务,一个是生成的任务。理解是给你一张图像这个图像是什么类别,是什么内容,这个是理解。生成是给定一段话,我通过这段话生成一段图像和视频,很直观感觉到这两个是非常不一样的任务,所以之前多模态大模型作为两个独立的分支来研究,而最新的成果逐步将这两个任务进行进一步融合,从而实现更高层次的任务统一,这是第一个趋势。

 

  第二推理增强。以往的大模型通常停留在给定一个输入,给出一个答案这样的阶段,这样的存在什么问题对于复杂的场景,图文结合推理,几何题带图解的表现很差,因此又有新的研究不仅能够给出这个答案,还能给出得到答案中间的推理过程,这个是所谓的推理增强。大家现在熟知的Deepseek取得很大的成功重要的原因是将推理引入了学习的重要过程,因此推理增强是第二个趋势。

 

  第三个趋势是主动交互。刚刚提到AGI通用人工智能是智能最终的梦想,你如果要实现通用人工智能要和物理世界进行交互,因此多模态大模型要能够在复杂环境中进行交互,像人一样在现实世界中进行自主的行动和决策能力,这是现在发展的第三个趋势,典型的一个任务是现在大家经常听到的具身智能的任务。

 

  我们团队在多模态大模型方向也有一些相关的研究工作,刚刚介绍的一个是理解,第二个生成,第三个是安全这块。首先是理解这块,我们主要关注这几个方面。

 

  第一是以人为中心的视觉分析。通用大模型针对的是通用场景,我们这里更关注以人为中心,人体姿态的估计,人的不同部位的识别等等这样的任务。

 

  第二场景图生成。需要对它进行智能化、结构化处理就需要有一个很重要的技术方法、技术手段进行场景图生成,把一个非常复杂的多模态的数据变成关键字、名词相互关联的三元组的场景图形式,从而有效对他们进行有效管理和理解。

 

  第三个方向是做通用多模态大模型改进。具体算法就不介绍了。

 

  第二个研究方向是生成这块。我们团队的工作所谓生成给定一个输入,可以生成图像,生成视频和3D,下面是我们团队所做的工作,AIGC大家非常熟悉,等下会有一些具体的场景(展示)。相关工作就跳过了。比如说有一些故事的生成,图文音的生成等等。

 

  第三个方向让AI具有学习和安全的能力。比如说有持续学习,少样本学习和安全。安全非常有趣的工作是幻觉大家可能听过,大模型进行一本正经的胡说八道,左边的图像描述有一只红色的狗,而这只狗并不是红色的,这就是幻想,我们根据这个提供相应的解决方案,可以有效减少大模型幻觉的生成。

 

  这些成果有一些相关的应用场景。1.通过关联构建跨域的推荐系统,可以用在支付宝的场景,可以为用户推荐优质产品,本质上利用用户的个人信息和历史浏览记录等多模态的数据,从而可以更好进行产品匹配和推荐。2.构建一个130亿多模态行业大模型。构建通用大模型很难和大厂进行竞争,所以构建行业大模型,主要用于像电网巡检,工业检测等相关场景,在12个基准测试机上达到了主流大模型的信任,取得了最好的信任。3.现在是需求非常多的大模型本地化部署,在智能法律的平台应用,需求是构建文书助理,法律助手,重大决策辅助等六个场景,上线之后我们的业务处理效率得到了极大提升,也入选了国资委首个法治大模型的标杆。这是实际的场景。

 

  接下来介绍一下汽车行业多模态大模型,更宽泛一点人工智能的应用场景。

 

  福特公司的首席信息官说“人工智能不仅对智能驾驶非常重要,而且在转变员工体验方面发挥着越来越重要的作用”。同时在供应链风险识别和车辆预测性维护等方面也有应用,当然仅仅是众多应用之一。沃尔沃公司的首席信息官也提出“人工智能不仅可以用于人工驾驶,还可以用于其他各个方面,比如说汽车的制造和销售,以及创造新的客户和体验”。由此可见人工智能在汽车行业得到了越来越多的关注。

 

  我这里简单概述了一下人工智能在汽车行业,尤其在汽车测试行业的应用场景,我是外行总结得不是很全面和准确,不准确的地方请大家批评指正,包括以下四个场景。

 

  一、智能化场景生成和安全测试。等下下面的报告也有关于生成式人工智能,和这个相关。

 

  二、预测性维护和健康管理。

 

  三、边缘智能和车联网。最后一个报告是关于车联网和智能驾驶的。

 

  四、虚拟测试和数字孪生。下面依次介绍一下。

 

  首先是AI驱动的自动驾驶安全自主测试系统。它是利用机器学习与仿真技术,在虚拟环境中大规模、自动化、智能化地创建和执行汽车安全测试用例,以验证测试汽车安全性。本质上通过AIGC生成的方式能够生成更多的测试用例,从而提高测试效率,和传统的相比成本高,风险大,并且测试覆盖不足,通过AIGC可以提高效率,降低成本,增加它的测试用例覆盖率,并且没有任何物理风险。一个典型的例子是D2RL通过强化学习智能测试,已有的数据是非关键数据,非关键数据是正常情况,缺少导致事故的关键事件,针对这个问题的核心思路是识别并且移除海量的非关键数据让模型从关键的安全事件中学习,这是所谓的关键事件的定义,定义了一系列的危险场景。比如说多智能体维度场景,通过强化学习的方式能够识别并且把关键场景定义出来,自动地检测出来,从而提升模型学习的效率,最终提升模型的性能,这是通过人工智能驱动的场景案例的自动识别。

 

  第二个AIGC用于检测这块。从被动修复到主动预警,通过AI方式预测分析并进行维护的模式。传统的方式可能更多的是当危险发生之后再去进行检测,存在一系列问题,比如说成本高昂,缺乏预见性,主要依赖经验。通过AI提前预警,精准预测提升可靠性。这里有一个具体的例子,通过多元传感器数据最终进行主动预警,它的输入和之前的图像文本主要是汽车行业相关的数据,比如说曲轴转速,悬架振动等,通过多模态大模型最终进行最终预警,比如说故障等级,部件寿命预测等。另外一个是AI驱动汽车悬挂预警性维护,也是通过悬架系统的信号输入和采集,通过多模态大模型进行维护决策和诊断、预后等一系列预测。

 

  第三个场景是边缘智能和物联网。一个非常典型的应用是智能驾驶,通过人工智能和物联网的结合,人工智能可以进行边缘处理,五连物联网可以增强数据的收集能力,把这两个相结合可以摆脱对网络的依赖,实现边缘端的处理,从而更快更高速的响应。和传统的云端相比存在的问题比如说处理之后稳定性差,受资源限制等等。如果用边缘端加上物联网的形式避免一系列问题。刚刚提到了典型的应用是智能驾驶,有了人工智能边缘端处理加上车联网的能力从而赋予了汽车低延时的本地决策能力,车联网可以提供超越单车的广域感知能力,两者结合构建了安全高效自主驾驶的技术基石。

 

  第四是虚拟世界的锤炼。仿真和数字孪生在汽车应用很多,通过数字孪生技术创建车辆的高保真虚拟模型,可以快速迭代,传统的方法存在成本高,测试场景有限,风险后置等一系列问题,仿真和数字孪生可以解决相对应的问题。

 

  典型的案例是基于数字孪生的智能电池管理系统,通过数字孪生创建电池的虚拟模型,通过多模态大模型相关的技术实现对电池的生命周期的精准监控,健康预测和智能控制,从而提升电动汽车安全性和续航能力。


版权声明

本文仅代表作者观点,不代表平台立场。
本文系作者授权百姓汽车发表,未经许可,不得转载。