機械学習でテキストに隠れたバイアスを 定量化する

海外論文サーベイ(経済セミナー)| 2020.07.29
 雑誌『経済セミナー』の "海外論文Survey" からの転載です.

(奇数月下旬更新予定)

Garg, N., Schiebinger, L., Jurafsky, D. and Zou, J.(2018) “Word Embeddings Quantify 100 Years of Gender and Ethnic Stereotypes,” Proceedings of the National Academy of Sciences, 115(16): E3635-E3644.

松井暉

はじめに

「バイアス」という単語は多義的である。経済学に限っても、不偏性 (unbiasedness) や現状維持バイアス (status quo bias) のように、異なった意味で使われるが、おおまかには、何かが偏っている状態を表す言葉として使われていることが多いようだ。今回、紹介する論文 Garg et al.(2018) は性別や人種を表す単語に特定の職業や形容詞が “偏って” 結びついてしまうバイアスを定量的に分析した論文である。本論文では、新聞や 100 年分の書籍から成るテキストデータと「単語の分散表現 (word embedding) 1)」という機械学習の手法が用いられている。以下本稿では、バイアスという単語を「性別や職業によって特定の単語の使用が偏ってしまうこと」という意味として使う。本論文は、スタンフォード大学のコンピュータサイエンティストたちによって出版された。第一著者は出版当時 Ph.D. コースの学生であった。

このコンテンツを閲覧するにはログインが必要です。→ . 会員登録(無料)はお済みですか? 会員について

脚注   [ + ]

1. 「単語の埋め込み表現」とも訳されるが、「単語の分散表現」の方が比較的よく使われるので、本稿ではこちらを採用した。