(第23回)ビッグデータの落とし穴:偏ったデータからは偏った結果しか生まれない
現実を「統計的に理解する」ための初歩の初歩(麻生一枝)| 2021.09.17
私達が生きる現実社会の多くの問題の理解には,種々の数値の測定や観察とそれを「統計的に処理する」作業が欠かせません.毎日のニュースでもありとあらゆる機会に「数値」が出てきますが,その意味をきちんと考えたり信憑性を疑うことは、必ずしもなされていないようです.この連載では,誰でも知っておいてほしい統計についての基本的な考え方や, 統計にまつわる誤解や陥りやすい罠を紹介していきたいと思います.
(毎月中旬更新予定)
ビッグデータや AI といった言葉から、みなさんはどのようなことを思い描くのだろうか。
マスメディアからは、
新型コロナウイルスと、ビッグデータで闘う
新型コロナウイルスに関する〇〇万本の論文データを、AI で解析
といった言葉が次々と流れてくる。
これら、ビッグデータ信仰・ AI 崇拝ともとれる言葉を日々聞かされていると、「ビッグデータと AI さえあれば、人間が何もしなくても素晴らしい結果が得られる」「ぼう大な量のデータを AI に入力しさえすれば、人間では考えもつかなかった解決策を AI が提供してくれる」と思い込んでしまいそうだ。さらには、人ではなく AI が解析するのだから、その解析結果は、主観や偏見を排除した、客観的で公平で正確なものだ、とも思い込まされてしまいそうだ。
麻生一枝 成蹊大学非常勤講師.お茶の水女子大学理学部数学科卒業,オレゴン州立大学動物学科卒業,プエルトリコ大学海洋学科修士,ハワイ大学動物学Ph.D. 専門は動物行動生態学.「統計や実験デザインの理解は健全な科学研究に必須である」という信念のもと,これらの教育の普及に熱意を持って取り組む.著訳書に『科学でわかる男と女になるしくみ』 (SBクリエイティブ),『実データで学ぶ,使うための統計入門 ---データの取りかたと見かた』(共訳,日本評論社), 『生命科学の実験デザイン』(共訳,名古屋大学出版会),『科学者をまどわす魔法の数字,インパクト・ファクターの正体---誤用の悪影響と賢い使い方を考える』(日本評論社)など.