メモ帳DPA

ぐぐってあまり引っかからないような何かがあったら書いたりする

伸びてるツイート104万件分を調べた

パクころというWebサービスを公開していて、250favs以上のツイートが現時点で161万収集されている。
気付いたらかなり集まっていたので、量があれば単純な集計だけでも何か見えないだろうかと思い立ったので雑に調べてみることにした。
(何で単純な集計だけかというとちゃんとした統計手法的なものを知らないからです)

条件について

集計にあたり、パクころ/@pakurares等で使用しているデータベースより、500favs以上取得しているツイートのうち104万件をサンプルとした。ちなみに161万件全部読み込むとExcelの行数の限界(1048576)を超えてるので収まるように適当な量まで絞っている。妥協。

なお、ツイート情報しか収集していないので、ユーザ情報に絡めては何も調べられていない。正直そっちの観点の方が面白そうな結果が出そうな気もするんだけど、無いものはしょうがない。

サンプルの都合上、以下の内容は全て「特定の収集条件下かつ500favs以上のツイートでは」の但し書きが付く点に注意が必要。

データ

サンプル数: 1,048,498

期間:2006/3/22~2016/2/26
データの収集開始が2014年3月からのためそれより古くなるにつれどんどん取りこぼしは大きくなる。なので、年代別的な集計は避けることにした。

RT Fav
平均 1760 2368
中央値 618 1239
標準偏差 6507 5738
最大 3337105 2130021

かなりばらつきがあるので、あんまりFavとRTは見ずに単純なツイート数をメインで見ることにした。

結果

先に結果だけ書いておくと、なんとなく見えた内容としては大体以下な感じだった。

  • 曜日は日曜が多い、しかし極端に大きな差ではない
  • ピークタイムは21時。
  • 最も人が居ないのは4時。
  • 画像なしのツイートは40%しかない。60%は画像を添付してる
  • テキストのみのツイートは31%しかない。69%はURLを含んでいる
  • クライアントは公式一強。73%を占める

曜日

f:id:de0:20160312225614j:plain
土日が大きく突出するグラフが出てくるのを予想していた。
実際のところ、日曜が多いのは合っていたがそこまで大きな差ではないようだ。一番少ない火曜に比べて11%増しくらいの差しかなかった。

時間

f:id:de0:20160312230826j:plain
f:id:de0:20160312230638j:plain
ピークは21時頃、一番少ないのは4時頃だった。
12時頃もピークだろうと予想していたが、夕方~夜に比べるとそこまで大きな山ではないようだ。
ちなみに、収集しているツイートの対象はほぼ日本語圏です。

文字数

f:id:de0:20160312231100j:plain
80文字近辺と140字ギリギリが多い。ある程度テキスト量があったほうがやっぱり伸びやすいのかもしれない。

改行の数

f:id:de0:20160312230115j:plain
f:id:de0:20160312230222j:plain

改行いっぱい入れているツイートほど伸びているんじゃないかと予想したが、あんまり影響してないようだ。
全体の60%は改行をしていないし、RT数の平均でもそんなに差はないように見える。

URLの有無

f:id:de0:20160312231502j:plain
URLを含んでいないツイートは全体の31%しかなかった。1つ含むものは61%、2つ含むものは7%だった。3つ以上はほとんどない。
URLのドメインごとに集計したら何か見えないだろうかと思ったけど短縮URLになってて手間が掛かりそうだったのでやめた。

画像有無

f:id:de0:20160312231503j:plain
69%のツイートは画像を添付している。何となく予想はしていたが予想以上に多い。
画像だと情報量が多いしクライアント上での表示面積も増えるしいろいろと有利なんだろうと思う。

URLの結果を見ても、完全にテキストのみで構築されたツイートで伸びるのは結構珍しいと思って良さそう。

Fav/RTの比率

f:id:de0:20160313102558j:plain
だいたい1:3位の比率でまとまるのではないかと予想してたけど実際はかなりバラバラだった。

これはデータとかでなくなんとなくの感覚的な話だけど、favをRTで割った値は内容の傾向に応じて結構変動してくる印象がある。F/R値が大きいものは特定の集団向けの内輪度が高くなり、小さくなるほど炎上度もしくはスパム度が高くなる傾向にある気がする。
(なので、ツイートを掘り返してRTしていく@pakuraresというbotを動かす際、この値が極端に大きいまたは小さいものは排除するようにしている)

クライアント

f:id:de0:20160312232654j:plain

クライアント名 ツイート数 割合
Twitter for iPhone 455457 43%
Twitter Web Client 214136 20%
Twitter for Android 69007 7%
web 28988 3%
Echofon 27602 3%
TweetDeck 20061 2%
Tweetbot for iΟS 17805 2%
Janetter 13642 1%
twittbot.net 9739 1%
Instagram 9712 1%
Twitter for iPad 8713 1%
HootSuite 7482 1%
Hootsuite 7482 1%
iOS 7470 1%
EngageManager 6589 1%
Tween 6430 1%
ついっぷる  6406 1%
Buffer 6234 1%
Vine - Make a Scene 5440 1%
twicca 5373 1%

(1%未満のクライアント群は省略)

サンプルに含まれているクライアントは全部で2073種類あったが、上位数種類が大半を占めていた。
プラットフォーム合算で73%は公式クライアントによるものであり、ほぼ一人勝ちに見える。

おわりに

ということで、全部盛り込むとするなら、日曜21時に画像とURLを付けて80文字か140文字のツイートをすると伸ばすのに多少に有利になるかも、ってことになるんだろうか。
でも実際伸びるには結局かなりの割合で運によるものが大きい気がするし、小細工でどうにかなるってもんでもないと思う。

全体としてそんなに新しい発見があったという感じでは無かったけど、何となく体感している内容が値として再確認できたって点での意義はあったかもしれない。(と思いたい)


おまけ - 調べてる途中で見つけたツイート

ぶっちぎりの桁違いでRT数が一番多かったもの


アカデミー賞の記念写真らしい

最初のツイート


tweetid 20

1文字で一番伸びてたもの




2文字で一番伸びてたもの


何を言うかより誰が言うかみたいなのの極限っぽいやつ