김광연 | 김민준 | 김병준 | 김상혁 | 서재명 |
---|---|---|---|---|
![]() |
![]() |
![]() |
![]() |
![]() |
- 데이터셋 준비 ADE20K, Tiny_ImageNet
dataset
|--ADE20K
|--Tiny_ImageNet
- 학습 시작
- tiny_imagenet Pretraining
bash dist_train.sh {사용하는 gpu 개수} \ --data-path {tiny_imagenet path} \ # 이름에 tiny가 포함되어야함 --output_dir {save dir path} \ --batch-size {batch size per gpu } # default=128 # example bash dist_train.sh 4 \ --data-path /workspace/dataset/tiny_imagenet \ --output_dir result/mod_segformer/ \ --batch-size 64
- ADE20K fine-tuning
# 현재 디렉토리: /root/Naver_BoostCamp_NOTA python train.py \ --data_dir {ADE20K의 path} \ --device 0,1,2,3 \ # 환경에 맞게 수정 --save_path {save하고자 하는 dir의 path} \ --pretrain {pretrain 모델 dir 혹은 .pth의 path} # .pth(pretrain의 output), dir(huggingface의 모델허브에서 제공하는 형태) --batch_size {batch size} # default=16
- evaluate 수행
# phase를 통해 val 또는 test set 설정
python eval.py \ # eval.py 내의 model을 정의하는 코드 수정
--data_dir {ADE20K의 path} \
--pretrain {pretrain 모델 dir의 path}
- FLOPs, 파라미터 개수 확인
python util/get_flops_params.py \ # get_flops_params.py 내의 model을 정의하는 코드 수정
--data_dir {ADE20K의 path}
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers
Feature Pyramid Networks for Object Detection
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions
PVTv2: Improved Baselines with Pyramid Vision Transformer
Depth Estimation with Simplified Transformer
SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation
IS ATTENTION BETTER THAN MATRIX DECOMPOSITION
Efficient Attention: Attention with Linear Complexities
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows