On the Value of Out-of-Distribution Testing: An Example of Goodhart’s Law #38

nocotan · 2021-02-25T17:58:21Z

一言でいうと

VQAタスクにおけるOOD testingのベンチマークに関する問題点を指摘し，評価方法を議論．

論文リンク

https://papers.nips.cc/paper/2020/file/045117b0e0a11a242b9765e79cbf113f-Paper.pdf

著者/所属機関

Damien Teney et al.
(Australian Institute for Machine Learning, University of Adelaide, Australia)

投稿日付(yyyy/MM/dd)

2020/12

概要

Goodhart’s law: When a measure becomes a target, it ceases to be a good measure.

OOD testingは学習データセットのバイアスを解決する手法の一つとして非常に注目を集めている．
OODベンチマークは学習データとテストデータが異なる同時分布となるように設計されている．
VQA-CPはvisual question answeringにおける一般的なOODベンチマークの一つである．
しかしながら，著者たちはこのデータセットは実際には3つの問題が存在することを発見した．