自著をテキストマイニングしてみた

タモリ倶楽部で取り上げられたテキストマイニング

データアナリストがこれからの時代は活躍できると、少し前からいわれながらも、実際に話題になることは少ない。その理由は、オープンにできるデータがなかなかないから。そもそも守秘義務の問題のあるデータがほとんどで、さらに個人情報保護のこともあり、簡単に公開するわけにはいきません。

それが先日のタモリ倶楽部で、突如「テキストマイニング」が取り上げられたようです。しかもこんなネタで。

#タモリ倶楽部 風俗ビッグデータ! 1020人のデリヘル嬢紹介文をテキスト分析ソフトで解析し「当たり」と「ハズレ」の嬢を見極める - Togetter

タモリ倶楽部が始まる時間まで起きていることは、最近ではほとんどないので、見ることもなくなりました。こんなネタなら録画しておくべきでした……。
でも、togetterのおかげで、内容はほぼ把握できる。ありがたや、ありがたや。

しかし風俗嬢1020人の紹介文を、どうやってまとめたのか。人力以外にないと思いますが、まずそこがエラいですな。テキストマイニングは、そこでくじける方が多いと思いますので。

ということで、自分も何かやってみようということで、膨大な文字量で公開しても問題ないものといえば、自分で書いた原稿しかない。最近刊行した下記の2冊をテキストマイニングにしてみました。

分析には、タモリ倶楽部でも使われていた、立命館大学樋口准教授が開発したKH Coderを使用いたしました。

「映画『七人の侍』で考える組織論」をテキストマイニング

樋口准教授はKH Coderのチュートリアルで紹介されていますが、夏目漱石の「こころ」をテキストマイニングしています。小説であれば、登場人物の心象や情景が変化するところがみられそうですが、ビジネス書だとどうなのか。ある意味で、著者の構成力が問われるので、ちょっとコワい感じがします。

ではまず、七人の侍の方から。「映画『七人の侍』で考える組織論」はkindle限定本。文字数は約2万6000字。どんな言葉を多く書いていたのでしょうか。

「侍」がトップなのは当然か。リーダー役の勘兵衛が続き、第3位に勝四郎がきている。「七人の侍」は若武者育成のドラマでもあるので、これも当然か。

これらの語をもとに、共起ネットワークを作ってみました。

語の出現回数が円の大きさ、線の太さは関係性の強さ、色は「ピンク>白>水色」の順に中心性の高さを表しています。肝心の「侍」の円が欠けてしまっておりますが、これはソフトの描画の問題です。

語の出現回数では、7名の侍の中では下位だった七郎次が意外や意外、中心性の高さではトップとみてよさそうです。
また、円が重なっているためわかりにくいですが、菊千代と平八は、リーダー勘兵衛と直接は結びついていません。これも映画の中の役割そのままで、なかなか興味深い。
ちなみに、章ごとのネットワーク図は、下記のようになりました。

念のため、多次元尺度構成法(MDS)もやってみました。

ちょっと解釈しにくいですが、縦軸は「経営(上)⇔現場(下)」、横軸は「描写(右)⇔脚本(左)」といった感じか。横軸の解釈は難しいですな。

「神視点マーケティング」をテキストマイニング

さて、リアル本の「神視点マイニング」ですが、こちらは約8万8000字で、「七人の侍」の3倍近くあります。ソフトの解析時間もそれなりにかかりました。といっても10秒ですんだのが、20秒以上かかるといった程度ですが。

「神視点マーケティング」の頻出語は以下のような感じに。

「視点」がトップなのは当たり前か。「価値」が上位にきているのは納得。視点とは価値探索の入口ですので。あと、28回も出てきている「コーヒー」は、そんなに書いたっけな……と自問してしまいます。

「神視点マーケティング」の共起ネットワークはこんな感じに。

バラバラですな。「視点」「製品」「顧客」が「神視点マーケティング」のキーワードということになりましょうか。

章ごとのネットワークはこんな風に。

「どんなことが書いてあるんや!」と問われたら、この図をそっと出すのがよろしいかと。

そしてMDS……。

うーん……、よくわからん!

ここまでの文章を共起ネットワークに!

このままでは中途半端な文章になってしまうので、上の章にあたるところまでをテキスト化し、共起ネットワークとして描いてみました。

いずれこんな図が、文章や書籍紹介とともに掲示される日が来るのかもしれません。

「××先生ご推薦!」

みたいな、しばしば帯に見かけるゴマすりの煽り文句ではない。あくまでも文章をテキストマイニングにより分析した冷徹な結果を表示する。そしてこれを見て、買うか買わないか判断する。

人工知能(AI)の時代とは、そういうものなのかもしれません。

Google AdSense2

Google AdSense

   

 - 日記 , , , ,