大規模な投稿データから 機械学習で分析軸を紐解く
海外論文サーベイ(経済セミナー)| 2021.05.27
Waller, I. and Anderson, A.(2020) “Community Embeddings Reveal Large-Scale Cultural Organization of Online Platforms,” arXiv: 2010.00590.
松井暉
$\def\t#1{\text{#1}}\def\dfrac#1#2{\displaystyle\frac{#1}{#2}}$
画面の向こう側には人格を持った人間がいる。インターネットのさまざまな投稿は、投稿者の一面を投影しているにすぎない。逆に言えば、この各個人の「ある一面」が無数に集まり、総体として現れてるのがインターネットの投稿と言えるだろう。今回紹介する論文は、「何が投稿されたのか」ではなく「誰がどこに投稿したのか」という視点で、投稿サイトにおけるコミュニティの文化的性質を分析した論文である。本論文はトロント大学のコンピュータサイエンス学部の大学院生と研究者によって執筆された Discussion Paper である1)。
コミュニティは何によって特徴づけられるのか
本論文では、アメリカで人気のネット掲示板「Reddit」のデータが利用された。Reddit では「コミュニティ」と呼ばれる掲示板のグループ2)が設定されており、投稿は各グループに含まれる掲示板ごとに行われる。Reddit にユーザー登録をすると、ニュース記事やウェブサイト、画像などを投稿して2意見や感想などを書き込むことができる。本論文の分析では、約 1 万のコミュニティにおける 2015 年から 2018 年の間の 51 億個の投稿からなる、膨大なサイズのデータセットが利用された3)。
脚注
1. | ↑ | 本論文は arXiv からダウンロード可能である (https://arxiv.org/abs/2010.00590)。 |
2. | ↑ | 一般的には subreddits と呼ばれているが、本論文ではコミュニティと呼んでいるのでこれに従った。 |
3. | ↑ | Baumgartner, J. et al. (2020) “The Pushshift Reddit Dataset,” Proceedings of the International AAAI Conference on Web and Social Media, 2020. |