テキストデータを辞書の見出しとなる「最小単位」に分割
テキストデータはそのままでは統計的な分析に向かないので、加工する必要があります。
まず、テキストデータを辞書の見出しとなる最小単位(形態素)に分割します。
次に、主語・述語、修飾語・被修飾語など係り受け関係を特定します。
例えば、「素手で泳いでいる魚を捕まえた」という文章であれば、「素手で」は「捕まえた」に係ります。しかし似たような文章ですが、「1匹で泳いでいる魚を捕まえた」だと「1匹で」は「捕まえた」ではなく「泳いでいる」に係ります。同じ助詞「で」で終わる修飾語ですが、係る箇所がまったく違うのです。このような関係を明らかにして、データ化しなければなりません。
データを「ポジティブ」と「ネガティブ」に分類・解析
ここまでがデータの準備で、以下は解析となります。例として、三菱UFJトラスト投資工学研究所と関西学院大学大学院の岡田克彦教授のチームが実際に行った解析を紹介します。
このチームでは、準備したテキストデータを、ポジティブな情報とネガティブな情報に切り分けました。
良い・悪い、上方修正・下方修正、予想を上回った・下回ったなどのさまざまな表現を拾い上げて判断します。なかには「予想を上回る下方修正」といったポジティブな言葉がよりネガティブさを強調するような表現もありますが、こういったものも正しくネガティブ表現と判定します。
実際の株価の値動きから収益率を計算したところ、ポジティブな表現が多い銘柄は良好なパフォーマンスを上げ、ネガティブな表現が多い銘柄はリターンがマイナスになる傾向が明らかになりました。