-
探索CVPR 2021论文中Modaily-Aware Audio-Visual Video Parsing的弱监督异构线索代码
资源介绍
探索用于弱监督的视听视频解析的异构线索
CVPR 2021纸代码
视听视频解析任务
我们旨在识别视频中的声音和可见事件及其时间位置。 请注意,视觉和音频事件可能是异步的。
准备数据
请参阅以下载LLP数据集和预处理的音频和视频功能。 把下载的r2plus1d_18 , res152 , vggish功能集成到了feats文件夹中。
培训渠道
培训包括三个阶段。
训练基本模型
我们首先使用MIL和我们建议的对比学习来训练基本模型。
cd step1_train_base_model
python main_avvp.py --mode train --audio_dir ../feats/vggish/ --video_dir ../feats/res152/ --st_dir ../feats/r2plus1d_18
生成模态感知标签
然后,我们冻结训练后的模型,并通过将其音频和视频轨道