パクころというWebサービスを公開していて、250favs以上のツイートが現時点で161万収集されている。
気付いたらかなり集まっていたので、量があれば単純な集計だけでも何か見えないだろうかと思い立ったので雑に調べてみることにした。
(何で単純な集計だけかというとちゃんとした統計手法的なものを知らないからです)
条件について
集計にあたり、パクころ/@pakurares等で使用しているデータベースより、500favs以上取得しているツイートのうち104万件をサンプルとした。ちなみに161万件全部読み込むとExcelの行数の限界(1048576)を超えてるので収まるように適当な量まで絞っている。妥協。
なお、ツイート情報しか収集していないので、ユーザ情報に絡めては何も調べられていない。正直そっちの観点の方が面白そうな結果が出そうな気もするんだけど、無いものはしょうがない。
サンプルの都合上、以下の内容は全て「特定の収集条件下かつ500favs以上のツイートでは」の但し書きが付く点に注意が必要。
データ
サンプル数: 1,048,498
期間:2006/3/22~2016/2/26
データの収集開始が2014年3月からのためそれより古くなるにつれどんどん取りこぼしは大きくなる。なので、年代別的な集計は避けることにした。
| RT | Fav | |
|---|---|---|
| 平均 | 1760 | 2368 |
| 中央値 | 618 | 1239 |
| 標準偏差 | 6507 | 5738 |
| 最大 | 3337105 | 2130021 |
かなりばらつきがあるので、あんまりFavとRTは見ずに単純なツイート数をメインで見ることにした。
結果
先に結果だけ書いておくと、なんとなく見えた内容としては大体以下な感じだった。
- 曜日は日曜が多い、しかし極端に大きな差ではない
- ピークタイムは21時。
- 最も人が居ないのは4時。
- 画像なしのツイートは40%しかない。60%は画像を添付してる
- テキストのみのツイートは31%しかない。69%はURLを含んでいる
- クライアントは公式一強。73%を占める
曜日

土日が大きく突出するグラフが出てくるのを予想していた。
実際のところ、日曜が多いのは合っていたがそこまで大きな差ではないようだ。一番少ない火曜に比べて11%増しくらいの差しかなかった。
時間


ピークは21時頃、一番少ないのは4時頃だった。
12時頃もピークだろうと予想していたが、夕方~夜に比べるとそこまで大きな山ではないようだ。
ちなみに、収集しているツイートの対象はほぼ日本語圏です。
文字数

80文字近辺と140字ギリギリが多い。ある程度テキスト量があったほうがやっぱり伸びやすいのかもしれない。
改行の数


改行いっぱい入れているツイートほど伸びているんじゃないかと予想したが、あんまり影響してないようだ。
全体の60%は改行をしていないし、RT数の平均でもそんなに差はないように見える。
URLの有無

URLを含んでいないツイートは全体の31%しかなかった。1つ含むものは61%、2つ含むものは7%だった。3つ以上はほとんどない。
URLのドメインごとに集計したら何か見えないだろうかと思ったけど短縮URLになってて手間が掛かりそうだったのでやめた。
画像有無

69%のツイートは画像を添付している。何となく予想はしていたが予想以上に多い。
画像だと情報量が多いしクライアント上での表示面積も増えるしいろいろと有利なんだろうと思う。
URLの結果を見ても、完全にテキストのみで構築されたツイートで伸びるのは結構珍しいと思って良さそう。
Fav/RTの比率

だいたい1:3位の比率でまとまるのではないかと予想してたけど実際はかなりバラバラだった。
これはデータとかでなくなんとなくの感覚的な話だけど、favをRTで割った値は内容の傾向に応じて結構変動してくる印象がある。F/R値が大きいものは特定の集団向けの内輪度が高くなり、小さくなるほど炎上度もしくはスパム度が高くなる傾向にある気がする。
(なので、ツイートを掘り返してRTしていく@pakuraresというbotを動かす際、この値が極端に大きいまたは小さいものは排除するようにしている)
クライアント

| クライアント名 | ツイート数 | 割合 |
|---|---|---|
| Twitter for iPhone | 455457 | 43% |
| Twitter Web Client | 214136 | 20% |
| Twitter for Android | 69007 | 7% |
| web | 28988 | 3% |
| Echofon | 27602 | 3% |
| TweetDeck | 20061 | 2% |
| Tweetbot for iΟS | 17805 | 2% |
| Janetter | 13642 | 1% |
| twittbot.net | 9739 | 1% |
| 9712 | 1% | |
| Twitter for iPad | 8713 | 1% |
| HootSuite | 7482 | 1% |
| Hootsuite | 7482 | 1% |
| iOS | 7470 | 1% |
| EngageManager | 6589 | 1% |
| Tween | 6430 | 1% |
| ついっぷる | 6406 | 1% |
| Buffer | 6234 | 1% |
| Vine - Make a Scene | 5440 | 1% |
| twicca | 5373 | 1% |
(1%未満のクライアント群は省略)
サンプルに含まれているクライアントは全部で2073種類あったが、上位数種類が大半を占めていた。
プラットフォーム合算で73%は公式クライアントによるものであり、ほぼ一人勝ちに見える。
おわりに
ということで、全部盛り込むとするなら、日曜21時に画像とURLを付けて80文字か140文字のツイートをすると伸ばすのに多少に有利になるかも、ってことになるんだろうか。
でも実際伸びるには結局かなりの割合で運によるものが大きい気がするし、小細工でどうにかなるってもんでもないと思う。
全体としてそんなに新しい発見があったという感じでは無かったけど、何となく体感している内容が値として再確認できたって点での意義はあったかもしれない。(と思いたい)
おまけ - 調べてる途中で見つけたツイート
ぶっちぎりの桁違いでRT数が一番多かったもの
If only Bradley's arm was longer. Best photo ever. #oscars pic.twitter.com/C9U5NOtGap
— Ellen DeGeneres (@TheEllenShow) March 3, 2014
アカデミー賞の記念写真らしい