ICRA 2025｜清华x光轮：自驾世界模子天生跟懂得事

作者：[db:作者] 日期：2025/03/05 09:32 浏览：

AIxiv专栏是呆板之心宣布学术、技巧内容的栏目。从前数年，呆板之心AIxiv专栏接受报道了2000多篇内容，笼罩寰球各年夜高校与企业的顶级试验室，无效增进了学术交换与传布。假如你有优良的任务想要分享，欢送投稿或许接洽报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jibest365官方网站登录qizhixin.com比年来，主动驾驶技巧疾速开展，萝卜快跑曾经无缝融入了武汉的交通，不少车企的智驾体系也都上路了。但是，在庞杂交通情况中，怎样懂得跟防备事变依然是一个宏大挑衅。比方前段时光特斯拉 FSD 终于入华。但中国版 FSD 仿佛有些「不服水土」，频仍闯红灯、开上人行道、逆行，被网友调侃为「美国司机直接来中国开车」。同时，现有的方式每每难以正确说明事变产生的起因，并缺少无效的防备战略。别的，因为事变数据较为稀缺，主动驾驶体系在面临突发情形时每每难以作出公道决议。为懂得决这一成绩，光轮智能（Lightwheel）跟来自来自清华、喷鼻港科技年夜学、吉林年夜学、南京理工年夜学、北京理工年夜学、复旦年夜学等的研讨团队，提出了AVD2（Accident Video Diffusion for Accident Video Description），进步行业的主动驾驶事变场景的保险才能。AVD2 是一个翻新的事变视频天生与描写框架，旨在晋升主动驾驶体系对事变场景的懂得。经由过程天生与天然言语描写跟推理高度分歧的事变视频，AVD2 加强了对事变场景的建模才能。同时，该团队还奉献了 EMM-AU（Enhanced Multi-Modal Accident Video Understanding）数据集，以推进事变剖析跟防备的研讨。

名目主页链接：https://an-answer-tree.github.io/论文链接：https://arxiv.org/abs/2502.14801EMM-AU 数据集链接：https://huggingface.co/datasets/secsecret/EMM-AU/blob/main/Processed_EMM-AU_Dataset.zip代码链接：https://github.com/An-Answer-tree/AVD2

模子架构AVD2 框架包括两个重要局部：视频天生跟事变剖析。经由过程天生与事变描写分歧的高品质视频，并联合天然言语说明，AVD2 可能更深刻地舆解事变场景。视频天生AVD2 的视频天生局部旨在基于输入的事变描写天生存在事实感的交通事变视频。该局部应用了 Open-Sora 1.2 模子，并经由过程两个阶段的微调来优化模子：1. 第一阶段 Finetune：基于 MM-AU 数据集对 Open-Sora 1.2 模子停止预练习，天生与事变场景相干的视频。2. 第二阶段 Finetune：应用拔取的 2,000 个具体事变场景视频进一步微调模子，以确保天生的视频与实在事变场景高度分歧。经由过程这一进程，AVD2 可能依据描写天生多个存在高保真度的事变视频，用于进一步的事变懂得跟剖析。天生视频的加强为了进步视频品质，AVD2 框架采取 RRDBNet 模子，在 Real-ESRGAN 框架下停止超辨别率处置。每个天生的低辨别率视频帧都被晋升到更高的辨别率，以加强细节并增加伪影，从而为后续的剖析供给高品质的视频数据。事变剖析AVD2 的事变剖析局部联合了视频懂得与天然言语处置技巧，重要包含两个义务：车辆行动描写跟起因剖析（怎样躲避）AVD2 天生两个天然言语描写：1. 车辆行动描写：基于输入的视频，天生描写车辆举措的句子（比方：“车辆右转”）。2. 起因说明：说明为什么车辆履行这一举措（比方：“由于后方交通讯号灯变绿”）。同时进一步给出怎样躲避事变的产生（比方：“转弯前应环视四处留神直行车辆”）。这两个义务独特合作，应用 Vision-Language Transformer（视觉 - 言语 Transformer）来停止多义务进修。模子同时进修天生描写与推理义务，加强了两者之间的关系性，从而进步了团体机能。多义务进修与文本天生多义务进修方式使得 AVD2 可能结合练习行动描写义务跟事变起因懂得义务，以及防备办法义务。经由过程这种方法，AVD2 在天生的事变视频基本上，联合视觉特点与文本特点停止剖析，不只能够描写事变产生的进程，还能为事变的防备供给有代价的倡议。

新闻资讯

联系我们

ICRA 2025｜清华x光轮：自驾世界模子天生跟懂得事