前に書いた「まとめサイトの記事タイトルをテキストマイニングしてみた」という記事は、自分の中ではびっくりするほどに拡散されました。
本当に何が何だかわからないレベルで拡散されたので、これは「まとめサイトの記事をテキストマイニングした結果が話題にwwwwww」みたいにまとめられちゃったら、無断転載の慰謝料としてお金が儲かっちゃう!と思ったのだけど、まったくそんなことはなかったです。喜ぶべきか悲しむべきか。
スポンサーリンク
目次
- というわけで、今回は二番煎じ。まとめサイトと並ぶネットの無法地帯、電車内で他の人のスマホを見たときにブラウザで見ている確率高めのサイトとして「NAVERまとめ」を対象にテキストマイニングをしてみました。方法「NAVERまとめ」の人気の記事一覧…というかトップページに出てきている記事と、続きを見るで表示された記事のタイトルを600件抽出。テキストマイニングができるフリーソフト、KH Corderを使用して解析を行った。今回から開発途上版を使ってみています。結果NAVERまとめに特徴的な語句抽出語出現回数Twitter60芸能人40声39w37春36レシピ33話題24最近23見かける21こちらが特徴的な語句一覧。目を引くのは1位の「Twitter」と2位の「芸能人」でしょうか。「Twitter」に関しては10%の記事タイトルで使用されているし、「芸能人」に関する記事は6%ほどある…ということがわかります。「芸能人」に関しては個人名も含めればもっと多いはず。5位の「春」に関してはファッションの話題で「春コーデ」とか「この春に大学を卒業した芸能人」などの使い方がされているし、9位の「最近」とかなり似た使われ方をしている言葉であると言えるでしょう。「Twitter民」という言葉前記事の1割に登場する「Twitter」という単語。どのように使われているのかと思って、多次元尺度法によって「Twitter」と一緒に使われている言葉を拾い出してみると、こんな感じに。どうも「Twitter」と「見かける」という言葉がかなり近くで使われているらしく、実際に記事タイトルを見ても「Twitterで見かけた○○」という文が大量に見つかった。また、わりと近くに配置された「民」というのは、「Twitter民」という風な使われ方をしていた。どうやらNAVERまとめを作成している人達からはTwitterというのは「Twitter民と呼ばれる人達が生息している、おもしろネタの狩り場」だと思われているようです。クラスター分析から見るNAVERまとめ続いてはクラスター分析による、NAVERまとめでのトレンドについてです。一体どんな話題がNAVERまとめを席巻しているのか?前述した「Twitter」と「民」と「見かける」が上位に来ていることがわかります。やっぱりNAVERまとめはTwitterの剽窃によって成り立っていると言えるでしょう。その次の「日本」と「w」は、ちょうどW杯とWBCが重なっていた時期なのと、笑いという意味の「w」を抽出していた関係で出てきたクラスターです。別に「日本www」みたいな文が多かったことを意味するわけではありません。あ、でも何件か「日本以外の事情www」みたいな外国をバカにするようなのはありました。3つ目のクラスターも「ネットで話題に」「ネットで気になる」「ネットの声」などなど、ネットで起こった出来事をまとめた記事のタイトル。ちなみにここでいわれている「ネット」というのは十中八九がTwitterかまとめサイトのことです。まとめサイトとの顕著な違い前に分析したまとめサイトと、NAVERまとめを分析しながら実感として違うなと思ったのが、「芸能人」「レシピ」の話題です。上の図でも表れている通り「芸能人の最近」をまとめている記事や、ドラマ・映画に関する記事がそこそこの頻度で出てきます。また、「レシピ」や「可愛い春コーデ」など、まとめサイトと比べると女性をターゲットにした記事も少なくないように見えます。逆にまとめサイトと比べて少ないのが政治的な話題。まとめサイトでよく見かける政治的なワードを検索しても1件もヒットしないものが非常に多いです。もしかしたらトップページなどに表示しないようにしてるだけなのかもしれませんが。まとめここまでの解析結果から、ほとんどが引用(引用条件を満たしていないから剽窃であるもの多いけど)から成り立っているという恐ろしい「NAVERまとめ」のなんとなくの姿を見ることができたんじゃないかと思います。結論から先に書けば「NAVERまとめは、ネットで今話題になっていること、芸能人のことをまとめて記事にしている」という、なんの面白みもない結論です。ただ、この結論と、まとめサイトが人気を誇っているという現状を併せて考えると、「ネットの暇つぶしは、誰かがやったことの再構成と、偏った情報によってなりたっている」という悲しい結論に行き着いてしまいます。残念ながらこの結論は当たらずとも遠からずなんじゃないかと思うし、わりと多くの人が感じていることなんじゃないでしょうか。暇つぶしの復権が望まれる!なんて思うのです。おまけNAVERまとめとまとめサイトの比較の図。保○速は言葉が偏りすぎてて、一緒に解析するとまともな結果が出ないので除いてあります。時期の違いもあるのだけど、NAVERまとめには芸能人やレシピが、まとめサイトにはゲームの記事が集中している模様。あと、こちらに今回解析に使ったテキストファイルを置いておきます。使いたい方はどうぞ。
- 方法
- 結果
- NAVERまとめに特徴的な語句
- 「Twitter民」という言葉
- クラスター分析から見るNAVERまとめ
- まとめサイトとの顕著な違い
- まとめ
- おまけ
というわけで、今回は二番煎じ。まとめサイトと並ぶネットの無法地帯、電車内で他の人のスマホを見たときにブラウザで見ている確率高めのサイトとして「NAVERまとめ」を対象にテキストマイニングをしてみました。
方法
「NAVERまとめ」の人気の記事一覧…というかトップページに出てきている記事と、続きを見るで表示された記事のタイトルを600件抽出。
テキストマイニングができるフリーソフト、KH Corderを使用して解析を行った。
今回から開発途上版を使ってみています。
結果
NAVERまとめに特徴的な語句
抽出語 | 出現回数 |
---|---|
60 | |
芸能人 | 40 |
声 | 39 |
w | 37 |
春 | 36 |
レシピ | 33 |
話題 | 24 |
最近 | 23 |
見かける | 21 |
こちらが特徴的な語句一覧。
目を引くのは1位の「Twitter」と2位の「芸能人」でしょうか。「Twitter」に関しては10%の記事タイトルで使用されているし、「芸能人」に関する記事は6%ほどある…ということがわかります。「芸能人」に関しては個人名も含めればもっと多いはず。
5位の「春」に関してはファッションの話題で「春コーデ」とか「この春に大学を卒業した芸能人」などの使い方がされているし、9位の「最近」とかなり似た使われ方をしている言葉であると言えるでしょう。
「Twitter民」という言葉
前記事の1割に登場する「Twitter」という単語。どのように使われているのかと思って、多次元尺度法によって「Twitter」と一緒に使われている言葉を拾い出してみると、こんな感じに。
どうも「Twitter」と「見かける」という言葉がかなり近くで使われているらしく、実際に記事タイトルを見ても「Twitterで見かけた○○」という文が大量に見つかった。
また、わりと近くに配置された「民」というのは、「Twitter民」という風な使われ方をしていた。
どうやらNAVERまとめを作成している人達からはTwitterというのは「Twitter民と呼ばれる人達が生息している、おもしろネタの狩り場」だと思われているようです。
クラスター分析から見るNAVERまとめ
続いてはクラスター分析による、NAVERまとめでのトレンドについてです。一体どんな話題がNAVERまとめを席巻しているのか?
前述した「Twitter」と「民」と「見かける」が上位に来ていることがわかります。やっぱりNAVERまとめはTwitterの剽窃によって成り立っていると言えるでしょう。
その次の「日本」と「w」は、ちょうどW杯とWBCが重なっていた時期なのと、笑いという意味の「w」を抽出していた関係で出てきたクラスターです。別に「日本www」みたいな文が多かったことを意味するわけではありません。
あ、でも何件か「日本以外の事情www」みたいな外国をバカにするようなのはありました。
3つ目のクラスターも「ネットで話題に」「ネットで気になる」「ネットの声」などなど、ネットで起こった出来事をまとめた記事のタイトル。ちなみにここでいわれている「ネット」というのは十中八九がTwitterかまとめサイトのことです。
まとめサイトとの顕著な違い
前に分析したまとめサイトと、NAVERまとめを分析しながら実感として違うなと思ったのが、「芸能人」「レシピ」の話題です。
上の図でも表れている通り「芸能人の最近」をまとめている記事や、ドラマ・映画に関する記事がそこそこの頻度で出てきます。
また、「レシピ」や「可愛い春コーデ」など、まとめサイトと比べると女性をターゲットにした記事も少なくないように見えます。
逆にまとめサイトと比べて少ないのが政治的な話題。まとめサイトでよく見かける政治的なワードを検索しても1件もヒットしないものが非常に多いです。
もしかしたらトップページなどに表示しないようにしてるだけなのかもしれませんが。
まとめ
ここまでの解析結果から、ほとんどが引用(引用条件を満たしていないから剽窃であるもの多いけど)から成り立っているという恐ろしい「NAVERまとめ」のなんとなくの姿を見ることができたんじゃないかと思います。
結論から先に書けば「NAVERまとめは、ネットで今話題になっていること、芸能人のことをまとめて記事にしている」という、なんの面白みもない結論です。
ただ、この結論と、まとめサイトが人気を誇っているという現状を併せて考えると、「ネットの暇つぶしは、誰かがやったことの再構成と、偏った情報によってなりたっている」という悲しい結論に行き着いてしまいます。
残念ながらこの結論は当たらずとも遠からずなんじゃないかと思うし、わりと多くの人が感じていることなんじゃないでしょうか。
暇つぶしの復権が望まれる!なんて思うのです。
おまけ
NAVERまとめとまとめサイトの比較の図。
保○速は言葉が偏りすぎてて、一緒に解析するとまともな結果が出ないので除いてあります。
時期の違いもあるのだけど、NAVERまとめには芸能人やレシピが、まとめサイトにはゲームの記事が集中している模様。
あと、こちらに今回解析に使ったテキストファイルを置いておきます。使いたい方はどうぞ。