機械学習コンペの現行ルールに改善の余地はあるか?—最適なコンテストのデザイン方法
Ely, J., Georgiadis, G., Khorasani, S. M. and Rayo, L.(2021) “Optimal Feedback in Contests,” Proceedings of the 22nd ACM Conference on Economics and Computation: 430-431.
奥村恭平
概要:集合知活用装置としてのコンテスト
複数の参加者が賞を争い、しのぎを削る状況はコンテストと呼ばれ、企業内昇進やスポーツの競技会など、日常のさまざまな場面で見られるものである。特に近年は、2006 年から 2009 年にかけて開催された Netflix Prize や、データサイエンスプラットフォーム Kaggle において常時開催されているデータ分析コンペのように、機械学習の分野で予測アルゴリズムを広く大衆に募るコンテストが盛んに行われており、一定の成果を収めている。
このようなコンテストは多様なルールのもとで行われているが、現状のコンテストの設計が主催者の目標を達成する (よい成果物を得るために参加者の努力を最大限に引き出す) ために最適なものになっているかは定かではない。コンテスト設計の典型例として Netflix Prize を見てみよう。2006 年 10 月から開催されたこのコンテストでは、Netflix が自前のデータセットを公開し、ユーザーが過去に見た動画に付けた評価の履歴をもとに、まだ見ていない動画に対しユーザーが将来付ける評価を予測するアルゴリズムが募集された。ルールの概要は、2011 年 10 月を期限に、Netflix が用いていた既存のアルゴリズム Cinematch の性能を予測精度 (平均 2 乗偏差) の意味で 10% 上回る予測アルゴリズムを最初に提出したチームに 100 万ドルが与えられるというもので、2009 年 7 月にあるチームが条件を達成しコンテストは終了した。Abernethy and Frongillo (2011) は、このような勝者総取り式・達成目標付きルールの持つ問題点として、(1)コンテスト中に目標達成が困難だと思った参加者が途中で諦めてしまう、(2)参加者同士の情報共有を阻害している、という 2 点を指摘している。