2012年05月28日
文章は8割ハッピー
以前書いた、「世界は幸せにあふれている?」という記事では、新聞、本、ツイッターのつぶやき、歌詞を分析すると、その全てで幸福な言葉の方が多いということを書きました。
スイスのチューリッヒ工科大学のDavid Garciaらの研究は、Googleが提供しているデータに対して、単語がポジティブなのかネガティブなのかをスコアリングされた辞書を適用して分析するというものです。この研究では英語、ドイツ語、スペイン語について研究されています。
まず、単語のスコアリングについてですが、例えば”パーティー”や”日の出”はそれぞれポジティブな単語ですが、”出産”の方がよりポジティブな単語じゃないでしょうか?このようにして、それぞれの単語を複数の人がスコアリングしておきます。それから、実際の文章で、単語のスコアで重み付けして頻度を書くと、それぞれの言語でポジティブとネガティブの単語の比率は英語は約87%がポジティブ、ドイツ語は80%、スペイン語は79%がポジティブとなりました。どの言語でもやはり、ポジティブな単語の方が多いのです。
一方、この研究ではネガティブな単語の方がより情報が多いということを述べています。これは、発生率が低いものはより大きな情報量をもたらすためです。「いいですね!」というコメントはいっぱいつくため忘れ去られても、「そうなの?」というコメントは滅多につかないので覚えているのではないでしょうか?この辺りは情報理論の情報量というキーワードになります。
また、この研究は、人はコミュニケーションにおいてポジティブなことを多用することを実証したものと言えます。どの言語においても、圧倒的にポジティブな単語が多いのは、受け手のことを考えるとポジティブな単語が増えるからと言えますし、一方で受け手にウケることを考えるとポジティブなことを書きたくなるからとも言えます。
また、この研究において出てきた、約8:2というポジティブ:ネガティブの比率は一つの指針として使えるのではないでしょうか?ただし、この研究は文書を対象としたものなので、会話を対象としたものの比率ではないという点は注意しないといけないと思います。今後は、文書と会話の違いの研究や、会話でも相手との関係性によって変わってくるといった研究などが行われていくのではないかと思います。
この記事は以下の論文を参考に書きました。
David Garciaら, 2012, "Positive words carry less information than negative words.", EPJ Data Science, 2012 1:3
(文・絵: やまざきしんじ)
この記事へのコメント
コメントを書く
この記事へのトラックバックURL
http://blog.sakura.ne.jp/tb/56110605
※言及リンクのないトラックバックは受信されません。
この記事へのトラックバック
http://blog.sakura.ne.jp/tb/56110605
※言及リンクのないトラックバックは受信されません。
この記事へのトラックバック