

400-123-4567
13988999988


公司地址:广东省广州市天河区88号
联系方式:400-123-4567
公司传真:+86-123-4567
手机:13988999988
名目主页链接:https://an-answer-tree.github.io/论文链接:https://arxiv.org/abs/2502.14801EMM-AU 数据集链接:https://huggingface.co/datasets/secsecret/EMM-AU/blob/main/Processed_EMM-AU_Dataset.zip代码链接:https://github.com/An-Answer-tree/AVD2
模子架构AVD2 框架包括两个重要局部:视频天生跟事变剖析。经由过程天生与事变描写分歧的高品质视频,并联合天然言语说明,AVD2 可能更深刻地舆解事变场景。视频天生AVD2 的视频天生局部旨在基于输入的事变描写天生存在事实感的交通事变视频。该局部应用了 Open-Sora 1.2 模子,并经由过程两个阶段的微调来优化模子:1. 第一阶段 Finetune:基于 MM-AU 数据集 对 Open-Sora 1.2 模子停止预练习,天生与事变场景相干的视频。2. 第二阶段 Finetune:应用拔取的 2,000 个具体事变场景视频进一步微调模子,以确保天生的视频与实在事变场景高度分歧。经由过程这一进程,AVD2 可能依据描写天生多个存在高保真度的事变视频,用于进一步的事变懂得跟剖析。天生视频的加强为了进步视频品质,AVD2 框架采取 RRDBNet 模子,在 Real-ESRGAN 框架下停止超辨别率处置。每个天生的低辨别率视频帧都被晋升到更高的辨别率,以加强细节并增加伪影,从而为后续的剖析供给高品质的视频数据。事变剖析AVD2 的事变剖析局部联合了视频懂得与天然言语处置技巧,重要包含两个义务:车辆行动描写跟起因剖析(怎样躲避)AVD2 天生两个天然言语描写:1. 车辆行动描写:基于输入的视频,天生描写车辆举措的句子(比方:“车辆右转”)。2. 起因说明:说明为什么车辆履行这一举措(比方:“由于后方交通讯号灯变绿”)。同时进一步给出怎样躲避事变的产生(比方:“转弯前应环视四处留神直行车辆”)。这两个义务独特合作,应用 Vision-Language Transformer(视觉 - 言语 Transformer)来停止多义务进修。模子同时进修天生描写与推理义务,加强了两者之间的关系性,从而进步了团体机能。多义务进修与文本天生多义务进修方式使得 AVD2 可能结合练习行动描写义务跟事变起因懂得义务,以及防备办法义务。经由过程这种方法,AVD2 在天生的事变视频基本上,联合视觉特点与文本特点停止剖析,不只能够描写事变产生的进程,还能为事变的防备供给有代价的倡议。