Random validation split을 사용한 베이스 모델 탐색 결과와 문제 #10

EJueon · 2022-11-22T17:26:16Z

EJueon
Nov 22, 2022
Maintainer

이번 데이터셋은 validation dataset이 따로 존재하지 않고 train dataset에서 직접 분리하여 사용해야 하는 상황입니다.
이론적으로 이상적인 방법은

레이블별로 구분하여 편향되지 않는 데이터셋을 만들거나
여러 탐색을 통해 리더보드의 테스트 데이터셋과 유사한 형태의 데이터셋을 만드는 것입니다.

해당 방식이 실제로 유효한지 알기 위한 베이스라인이 필요하기 때문에
베이스라인으로서 무작위로 데이터를 선택한 validation dataset 생성 방식을 구현하였습니다.

본 방법은 pytorch-template의 베이스 데이터로더를 기반으로 구현하였습니다.
pytorch-template

level2_klue_nlp-level2-nlp-10/src/utils/base/dataloader.py

Lines 1 to 67 in e956bc9

    
           import torch 
        
           import numpy as np 
        
           from torch.utils.data import DataLoader 
        
           from torch.utils.data import Sampler 
        
           from torch.utils.data.dataloader import default_collate 
        
           from torch.utils.data.sampler import SubsetRandomSampler 
        
           class BaseDataLoader(DataLoader): 
        
               """ 
        
               Base class for all data loaders 
        
               """ 
        
               def __init__(self, dataset, batch_size, shuffle, validation_split, is_test, num_workers, pin_memory=False, collate_fn=default_collate): 
        
                   self.is_test = is_test 
        
                   self.validation_split = validation_split 
        
                   self.shuffle = shuffle 
        
                   self.batch_idx = 0 
        
                   self.n_samples = len(dataset) 
        
                   self.sampler, self.valid_sampler = self._split_sampler(self.validation_split) 
        
                   self.init_kwargs = { 
        
                           'dataset': dataset, 
        
                           'batch_size': batch_size, 
        
                           'shuffle': self.shuffle, 
        
                           'collate_fn': collate_fn, 
        
                           'num_workers': num_workers, 
        
                           'pin_memory': pin_memory, 
        
                       } 
        
                   super().__init__(sampler=self.sampler, **self.init_kwargs) 
        
               def _split_sampler(self, split): 
        
                   if split == 0.0 or self.is_test: 
        
                       return None, None 
        
                   idx_full = np.arange(self.n_samples) 
        
                   np.random.seed(0) 
        
                   np.random.shuffle(idx_full) 
        
                   if isinstance(split, int): 
        
                       assert split > 0 
        
                       assert split < self.n_samples, "validation set size is configured to be larger than entire dataset." 
        
                       len_valid = split 
        
                   else: 
        
                       len_valid = int(self.n_samples * split) 
        
                   valid_idx = idx_full[0:len_valid] 
        
                   train_idx = np.delete(idx_full, np.arange(0, len_valid)) 
        
                   train_sampler = SubsetRandomSampler(train_idx) 
        
                   valid_sampler = SubsetRandomSampler(valid_idx) 
        
                   # turn off shuffle option which is mutually exclusive with sampler 
        
                   self.shuffle = False 
        
                   self.n_samples = len(train_idx) 
        
                   return train_sampler, valid_sampler 
        
               def val_dataloader(self): 
        
                   if self.valid_sampler is None: 
        
                       return None 
        
                   elif self.is_test: 
        
                     return None 
        
                   else: 
        
                       return DataLoader(sampler=self.valid_sampler, **self.init_kwargs)

해당 방식을 사용하여 klue/bert-base, klue/roberta-large, monologg/koelectra-base-v3-discriminator 3가지의 모델을 선정하여
동일한 하이퍼파라미터를 사용하여 학습을 진행하였습니다.
하이퍼파라미터는 다음과 같습니다.

random_seed = 3431
epochs = 5
batch_size = 32
learning_rate = 4e-5
validation_split = 0.1
lr_scheduler = CosineAnnealingWarmRestarts(optimizer, T_0=1, T_mult=2, eta_min=lr*0.01)

그 결과 다음과 같이 training loss는 수렴하는 반면에 validation loss는 전반적으로 2epoch 이후로 오버피팅하는 현상을 확인하였습니다.

roberta-large : (f1)66.8105, (auprc)71.0123
monologg_coelectra_base : (f1)63.8706, auprc)58.5876

뿐만 아니라 3개의 학습한 모델중 성능이 높게 나온 roberta-large와 koelectra-base-v3-discriminator를 사용하여 예측하여 리더보드에 제출한 결과,
다음과 같이 validation f1(80~) 보다 훨씬 낮은 수치의 f1를 확인할 수 있었습니다. (현재 validation auprc는 버그가 있어.. 빠르게 수정중에 있습니다.)
특히 roberta-large의 auprc 결과가 f1 결과보다 높다는 것은 전체적인 레이블은 잘 맞추는 편이 아니나 특정 레이블은 잘 맞추고 있다. 임을 의미합니다.

1)오버피팅 현상과 2) validation과 test 데이터셋의 결과의 차이가 큼 3) f1 수치보다 auprc 수치가 더 높음
의 결과는 불균형한 데이터의 분포에 validation dataset의 무작위 선정으로 인하여 발생된 것으로 추측하고 있습니다.

물론.. basedataloader 자체의 문제일 가능성도 배제할 수 없어 추가로 확인해볼 예정입니다.
혹시 관련하여 의견 주실 부분이 있다면 comment로 달아주시면 감사하겠습니다.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Random validation split을 사용한 베이스 모델 탐색 결과와 문제 #10

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 0 comments

Select a reply

Random validation split을 사용한 베이스 모델 탐색 결과와 문제 #10

EJueon Nov 22, 2022 Maintainer

Replies: 0 comments

EJueon
Nov 22, 2022
Maintainer