Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

On the Value of Out-of-Distribution Testing: An Example of Goodhart’s Law #38

Open
nocotan opened this issue Feb 25, 2021 · 0 comments

Comments

@nocotan
Copy link
Member

nocotan commented Feb 25, 2021

一言でいうと

VQAタスクにおけるOOD testingのベンチマークに関する問題点を指摘し,評価方法を議論.

論文リンク

https://papers.nips.cc/paper/2020/file/045117b0e0a11a242b9765e79cbf113f-Paper.pdf

著者/所属機関

Damien Teney et al.
(Australian Institute for Machine Learning, University of Adelaide, Australia)

投稿日付(yyyy/MM/dd)

2020/12

概要

Goodhart’s law: When a measure becomes a target, it ceases to be a good measure.

OOD testingは学習データセットのバイアスを解決する手法の一つとして非常に注目を集めている.
OODベンチマークは学習データとテストデータが異なる同時分布となるように設計されている.
VQA-CPはvisual question answeringにおける一般的なOODベンチマークの一つである.
しかしながら,著者たちはこのデータセットは実際には3つの問題が存在することを発見した.

  1. ほとんどの公開されている手法はどのようにOOD splitが行われているのかの明示的な知識に依存している.
  2. OODテストセットがモデル選択に使われている.
  3. モデルのin-domainパフォーマンスはin-domainデータセットにおける再学習の後の結果のみが報告される.

このような問題を解決する評価方法について議論.

Screen Shot 2021-02-26 at 2 49 35

新規性・差分

  • VQAタスクにおけるOOD testingのベンチマークに関する問題点を指摘し,評価方法を議論.

手法

Screen Shot 2021-02-26 at 2 49 43

Screen Shot 2021-02-26 at 2 49 51

結果

Screen Shot 2021-02-26 at 2 49 59

Screen Shot 2021-02-26 at 2 50 11

コメント

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant