Skip to content

Latest commit

 

History

History
40 lines (32 loc) · 6.7 KB

README.md

File metadata and controls

40 lines (32 loc) · 6.7 KB

简体中文 | English

概要

PaddleVideo包含视频分类和动作定位方向的多个主流领先模型,其中TSN, TSM和SlowFast是End-to-End的视频分类模型,Attention LSTM是比较流行的视频特征序列模型,BMN是视频动作定位模型,TransNetV2是视频切分模型。TSN是基于2D-CNN的经典解决方案,TSM是基于时序移位的简单高效视频时空建模方法,SlowFast是FAIR在ICCV2019提出的3D视频分类模型,特征序列模型Attention LSTM速度快精度高。BMN模型是百度自研模型,为2019年ActivityNet夺冠方案。基于百度飞桨产业实践,我们自研并开源了ppTSM,该模型基于TSM进行优化,在保持模型参数量和计算量不增加的前提下,精度得到大幅提升。同时,我们的通用优化策略可以广泛适用于各种视频模型,未来我们将进行更多的模型优化工作,比如TPN、SlowFast、X3D等,敬请期待。

模型概览

领域 模型 配置 测试集 精度指标 精度% 下载链接
行为识别 PP-TSM pptsm.yaml Kinetics-400 Top-1 76.16 PPTSM.pdparams
行为识别 PP-TSN pptsn.yaml Kinetics-400 Top-1 75.06 PPTSN.pdparams
行为识别 PP-TimeSformer pptimesformer.yaml Kinetics-400 Top-1 79.44 ppTimeSformer_k400_16f_distill.pdparams
行为识别 AGCN agcn.yaml FSD Top-1 62.29 AGCN.pdparams
行为识别 ST-GCN stgcn.yaml FSD Top-1 59.07 STGCN.pdparams
行为识别 VideoSwin videoswin.yaml Kinetics-400 Top-1 82.40 VideoSwin.pdparams
行为识别 TimeSformer timesformer.yaml Kinetics-400 Top-1 77.29 TimeSformer.pdparams
行为识别 SlowFast slowfast_multigrid.yaml Kinetics-400 Top-1 75.84 SlowFast.pdparams
行为识别 TSM tsm.yaml Kinetics-400 Top-1 70.86 TSM.pdparams
行为识别 TSN tsn.yaml Kinetics-400 Top-1 69.81 TSN.pdparams
行为识别 AttentionLSTM attention_lstm.yaml Youtube-8M Hit@1 89.0 AttentionLstm.pdparams
视频动作定位 BMN bmn.yaml ActivityNet AUC 67.23 BMN.pdparams
视频切分 TransNetV2 transnetv2.yaml ClipShots F1 scores 76.1
深度估计 ADDS adds.yaml Oxford_RobotCar Abs Rel 0.209 ADDS_car.pdparams

参考文献