You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
해당 방식을 사용하여 klue/bert-base, klue/roberta-large, monologg/koelectra-base-v3-discriminator 3가지의 모델을 선정하여
동일한 하이퍼파라미터를 사용하여 학습을 진행하였습니다.
하이퍼파라미터는 다음과 같습니다.
뿐만 아니라 3개의 학습한 모델중 성능이 높게 나온 roberta-large와 koelectra-base-v3-discriminator를 사용하여 예측하여 리더보드에 제출한 결과,
다음과 같이 validation f1(80~) 보다 훨씬 낮은 수치의 f1를 확인할 수 있었습니다. (현재 validation auprc는 버그가 있어.. 빠르게 수정중에 있습니다.)
특히 roberta-large의 auprc 결과가 f1 결과보다 높다는 것은 전체적인 레이블은 잘 맞추는 편이 아니나 특정 레이블은 잘 맞추고 있다. 임을 의미합니다.
1)오버피팅 현상과 2) validation과 test 데이터셋의 결과의 차이가 큼 3) f1 수치보다 auprc 수치가 더 높음
의 결과는 불균형한 데이터의 분포에 validation dataset의 무작위 선정으로 인하여 발생된 것으로 추측하고 있습니다.
물론.. basedataloader 자체의 문제일 가능성도 배제할 수 없어 추가로 확인해볼 예정입니다.
혹시 관련하여 의견 주실 부분이 있다면 comment로 달아주시면 감사하겠습니다.
reacted with thumbs up emoji reacted with thumbs down emoji reacted with laugh emoji reacted with hooray emoji reacted with confused emoji reacted with heart emoji reacted with rocket emoji reacted with eyes emoji
-
이번 데이터셋은 validation dataset이 따로 존재하지 않고 train dataset에서 직접 분리하여 사용해야 하는 상황입니다.
이론적으로 이상적인 방법은
해당 방식이 실제로 유효한지 알기 위한 베이스라인이 필요하기 때문에
베이스라인으로서 무작위로 데이터를 선택한 validation dataset 생성 방식을 구현하였습니다.
본 방법은 pytorch-template의 베이스 데이터로더를 기반으로 구현하였습니다.
pytorch-template
level2_klue_nlp-level2-nlp-10/src/utils/base/dataloader.py
Lines 1 to 67 in e956bc9
해당 방식을 사용하여 klue/bert-base, klue/roberta-large, monologg/koelectra-base-v3-discriminator 3가지의 모델을 선정하여
동일한 하이퍼파라미터를 사용하여 학습을 진행하였습니다.
하이퍼파라미터는 다음과 같습니다.
그 결과 다음과 같이 training loss는 수렴하는 반면에 validation loss는 전반적으로 2epoch 이후로 오버피팅하는 현상을 확인하였습니다.
뿐만 아니라 3개의 학습한 모델중 성능이 높게 나온 roberta-large와 koelectra-base-v3-discriminator를 사용하여 예측하여 리더보드에 제출한 결과,
다음과 같이 validation f1(80~) 보다 훨씬 낮은 수치의 f1를 확인할 수 있었습니다. (현재 validation auprc는 버그가 있어.. 빠르게 수정중에 있습니다.)
특히 roberta-large의 auprc 결과가 f1 결과보다 높다는 것은 전체적인 레이블은 잘 맞추는 편이 아니나 특정 레이블은 잘 맞추고 있다. 임을 의미합니다.
1)오버피팅 현상과 2) validation과 test 데이터셋의 결과의 차이가 큼 3) f1 수치보다 auprc 수치가 더 높음
의 결과는 불균형한 데이터의 분포에 validation dataset의 무작위 선정으로 인하여 발생된 것으로 추측하고 있습니다.
물론.. basedataloader 자체의 문제일 가능성도 배제할 수 없어 추가로 확인해볼 예정입니다.
혹시 관련하여 의견 주실 부분이 있다면 comment로 달아주시면 감사하겠습니다.
Beta Was this translation helpful? Give feedback.
All reactions