Awesome-Referring-Video-Object-Segmentation

Continually updating papers of referring video object segmentation😊

* refers to no official method name🫡

Other awesome projects: Awesome-Video-Instance-Segmentation

2025

Model	Title	Venue	Paper	Code
AL-Ref-SAM 2	Unleashing the Temporal-Spatial Reasoning Capacity of GPT for Training-Free Audio and Language Referenced Video Object Segmentation	AAAI	PDF	Code
MTCM	Multi-Context Temporal Consistent Modeling for Referring Video Object Segmentation	ICASSP	PDF	Code
Sa2VA	Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos	Arxiv	PDF	Code
VRS-HQ	The Devil is in Temporal Token: High Quality Video Reasoning Segmentation	Arxiv	PDF	Code
MPG-SAM 2	MPG-SAM 2: Adapting SAM 2 with Mask Priors and Global Context for Referring Video Object Segmentation	Arxiv	PDF
ReferDINO	ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations	Arxiv	PDF	Code

2024

Model	Title	Venue	Paper	Code
LoSh	LoSh: Long-Short Text Joint Prediction Network for Referring Video Object Segmentation	CVPR	PDF	Code
DsHmp	Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation	CVPR	PDF	Code
UniVS	UniVS: Unified and Universal Video Segmentation with Prompts as Queries	CVPR	PDF	Code
GLEE	General Object Foundation Model for Images and Videos at Scale	CVPR	PDF	Code
TCE-RVOS	Temporal Context Enhanced Referring Video Object Segmentation	WACV	PDF	Code
MUTR	Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation	AAAI	PDF	Code
GroPrompt	GroPrompt: Efficient Grounded Prompting and Adaptation for Referring Video Object Segmentation	CVPRW	PDF
FTEA	Fully Transformer-Equipped Architecture for end-to-end Referring Video Object Segmentation	IP&M	PDF
HTR	Temporally Consistent Referring Video Object Segmentation with Hybrid Memory	TCSVT	PDF	Code
VD-IT	Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation	ECCV	PDF	Code
VISA	Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation	ECCV	PDF	Code
Ref-AVS	Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes	ECCV		Code
VideoLISA	One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos	NeurIPS	PDF	Code
UniPHD	Referring Human Pose and Mask Estimation In the Wild	NeurIPS	PDF	Code
BIFIT	Bidirectional Correlation-Driven Inter-Frame Interaction Transformer for Referring Video Object Segmentation	PR	PDF
MHTMA	Mamba-driven hierarchical temporal multimodal alignment for referring video object segmentation	Neurocomputing	PDF
TrackGPT	Tracking with Human-Intent Reasoning	Arxiv	PDF	Code
LTCA	LTCA: Long-range Temporal Context Attention for Referring Video Object Segmentation	Arxiv		Code
VLP-RVOS	Driving Referring Video Object Segmentation with Vision-Language Pre-trained Models	Arxiv	PDF
ViLLa	ViLLa: Video Reasoning Segmentation with Large Language Model	Arxiv	PDF	Code
REM	ReferEverything: Towards Segmenting Everything We Can Speak of in Videos	Arxiv	PDF	Code
OMFormer	Show Me When and Where: Towards Referring Video Object Segmentation in the Wild	Arxiv		Code
HyperSeg	HyperSeg: Towards Universal Visual Segmentation with Large Language Model	Arxiv	PDF	Code
InstructSeg	InstructSeg: Unifying Instructed Visual Segmentation with Multi-modal Large Language Models	Arxiv	PDF	Code
SAMWISE	SAMWISE: Infusing wisdom in SAM2 for Text-Driven Video Segmentation	Arxiv	PDF	Code
MoRA	Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level	Arxiv	PDF	Project
SOLA	Referring Video Object Segmentation via Language-aligned Track Selection	Arxiv	PDF	Project
Video-LLaVA-Seg	ViCaS: A Dataset for Combining Holistic and Pixel-level Video Understanding using Captions with Grounded Segmentation	Arxiv	PDF	Project

2023

Model	Title	Venue	Paper	Code
OnlineRefer	OnlineRefer: A Simple Online Baseline for Referring Video Object Segmentation	ICCV	PDF	Code
LMPM	MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions	ICCV	PDF	Code
SgMg	Spectrum-guided Multi-granularity Referring Video Object Segmentation	ICCV	PDF	Code
TempCD	Temporal Collection and Distribution for Referring Video Object Segmentation	ICCV	PDF	Project
HTML	HTML: Hybrid Temporal-scale Multimodal Learning Framework for Referring Video Object Segmentation	ICCV	PDF	Project
R2VOS	Robust Referring Video Object Segmentation with Cyclic Structural Consensus	ICCV	PDF	Code
FS-RVOS	Learning Cross-Modal Affinity for Referring Video Object Segmentation Targeting Limited Samples	ICCV	PDF	Code
UniRef	Segment Every Reference Object in Spatial and Temporal Spaces	ICCV	PDF	Code
SOC	SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation	NeurIPS	PDF	Code
DMFormer	Decoupling Multimodal Transformers for Referring Video Object Segmentation	TCSVT	PDF	Code
UniMM*	Unified Multi-Modality Video Object Segmentation Using Reinforcement Learning	TCSVT	PDF
Locater	Local-Global Context Aware Transformer for Language-Guided Video Segmentation	TPAMI	PDF	Code
VLT	VLT: Vision-Language Transformer and Query Generation for Referring Segmentation	TPAMI	PDF	Code
LASTC*	Language-Aware Spatial-Temporal Collaboration for Referring Video Segmentation	TPAMI	PDF
CLUE	CLUE: Contrastive language-guided learning for referring video object segmentation	PRL	PDF
EPCFormer	EPCFormer: Expression Prompt Collaboration Transformer for Universal Referring Video Object Segmentation	Arxiv	PDF	Code
RefSAM	Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation	Arxiv	PDF	Code
UniRef++	UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces	Arxiv	PDF	Code
SimRVOS	Learning Referring Video Object Segmentation from Weak Annotation	Arxiv	PDF

2022

Model	Title	Venue	Paper	Code
MTTR	End-to-End Referring Video Object Segmentation with Multimodal Transformers	CVPR	PDF	Code
ReferFormer	Language as Queries for Referring Video Object Segmentation	CVPR	PDF	Code
LBDT	Language-Bridged Spatial-Temporal Interaction for Referring Video Object Segmentation	CVPR	PDF	Code
MLRL*	Multi-Level Representation Learning with Semantic Alignment for Referring Video Object Segmentation	CVPR	PDF
MANet	Multi-Attention Network for Compressed Video Referring Object Segmentation	ACM MM	PDF	Code
YOFO	You Only Infer Once: Cross-Modal Meta-Transfer for Referring Video Object Segmentation	AAAI	PDF
OATNet	Object-Agnostic Transformers for Video Referring Segmentation	TIP	PDF
EFCMA*	Referring Segmentation via Encoder-Fused Cross-Modal Attention Network	TPAMI	PDF
RefVOS	A Closer Look at Referring Expressions for Video Object Segmentation	MTA	PDF	Code

2021

Model	Title	Venue	Paper	Code
VOSRE	Hierarchical Interaction Network for Video Object Segmentation from Referring Expressions	BMVC	PDF
CSTM*	Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor Segmentation	CVPR	PDF
CMSA	Referring Segmentation in Images and Videos With Cross-Modal Self-Attention Network	TPAMI	PDF
CMPC	Cross-Modal Progressive Comprehension for Referring Segmentation	TPAMI	PDF	Code
ClawCraneNet	ClawCraneNet: Leveraging Object-level Relation for Text-based Video Segmentation	Arxiv	PDF
CVLS	Contrastive Video-Language Segmentation	Arxiv	PDF

2020

Model	Title	Venue	Paper	Code
URVOS	URVOS: Unified Referring Video Object Segmentation Network with a Large-Scale Benchmark	ECCV	PDF	Code

2019

Model	Title	Venue	Paper	Code
ACGA	Asymmetric Cross-Guided Attention Network for Actor and Action Video Segmentation From Natural Language Query	ICCV	PDF

2018

Model	Title	Venue	Paper	Code
A2D*	Actor and Action Video Segmentation from a Sentence	CVPR	PDF
VOSLRE*	Video Object Segmentation with Language Referring Expressions	ACCV	PDF

Name		Name	Last commit message	Last commit date
Latest commit History 39 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Awesome-Referring-Video-Object-Segmentation

2025

2024

2023

2022

2021

2020

2019

2018

About

Releases

Packages

Contributors 2

Tavarich/Awesome-Referring-Video-Object-Segmentation

Folders and files

Latest commit

History

Repository files navigation

Awesome-Referring-Video-Object-Segmentation

2025

2024

2023

2022

2021

2020

2019

2018

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Packages