メモ帳DPA

ぐぐってあまり引っかからないような何かがあったら書いたりする

パクられてるツイート元をRTするbot(@pakurares)による影響度合いとか伸びたツイートとかについて

以前、 パクられてるツイート元をRTするbot( [twitter:@pakurares] )を作った。
特に手を加えることなく今も継続して稼働し続けている。

de0.hatenablog.com

途中から動作時に多少情報を記録するようにしてたが結局全然使っていなかった。
作ってから一年位経ったことだしせっかくなので暇つぶしにデータを見てみることにした。

データについて

RTする際にその時点でのrt数とfav数を記録している。
なお同ツイートを複数回RTしている場合がたまにあるが2度目以降は記録していない。

基本的に投稿されてすぐのツイートはRTする確率がかなり低く、大体は数ヶ月から数年立っているものが対象になっている。
なので、pakuraresがRTしなかった場合数値はほぼ変動しなかった、というかなり雑な仮定を行うとおおよその効果が見えそうに思う。

統計

4/26時点のRT/fav数から、初回RT時点のRT/fav数をそれぞれ引いた値を計算した。
相当大雑把だが、掘り返したことで新たに加算された値と見ることができる(と思う)

現時点でpakuraresの総ツイート数は2755あるが、
記録し始めたのは途中からなのでデータが有るのはそのうち1635ツイート分になる。

RT fav
平均値 4256 330
中央値 3059 92
最小値 -5679 -1610
最大値 52867 9460
標準偏差 4575 853
RT:favの比率

RT数がfav数に比べ思ったよりもかなり多かった。なんとなく 3:1 くらいの比率の印象に思っていたが意外とそうでもないっぽい。

マイナス値

RTした時点よりも現時点のfav数およびrt数が低くなっているものが割とあった。
RT数で負なのは20個、fav数では371個あった。
あんまり後から消したりは普通しないと思うので、アカウントが消えたことで減少しているっていうのが主要因な気がする。

ただ、ここではfavがRTの値に比べやけに多い。複数アカウントでfav数水増ししているようなアカウントをtwitterがどんどん潰していってるっていうことなんだろうか。わからん。

全体として

botの効果として100程度伸びてくれたら御の字かなと思って作ったのだけれども、想定とは大分桁が違っていた。よいことだ。
しかし仮定の雑さが現れているだけとも読めなくはない。

誤検出について

パクころ をベースに処理しているので、検出は当然完璧ではない。

本当のオリジナルじゃないものをRTするとおかげさまで誰かしら親切な方が指摘してくれる。これのお陰で結構助かっており、誤検出の訂正が行えるのはほぼ全てがこの情報提供によるものである。

オリジナルの情報付きで教えて貰えた場合はそれをRTし、オリジナルでないが元ネタは不明って情報の場合は自力で探している。
どっちにしても、もらった情報には星をつけているので、pakuraresのお気に入り数が大体の誤検出数にあたると思う。

現状のツイート数2755に対してお気に入り数が73だったので、大体 2.6% 程度と思われる。
思ったよりは結構低いが、それでもそこそこミスっているとも取れる値なので、何か対処が打てれば良さそうに思う。が、思いつかないので保留。

人力での元ネタ探しについて

以下のステップで確認している。そんなに大した手間は掛からず数分で済むのでやってみて欲しい。

  1. パクころ - 検索 : に特徴的なワードを入れて収集済みのツイートに類似の文面が無いか
  2. 特徴的なワードをGoogle検索し、検索ツール>期間指定 から終了日に疑惑のツイートの日時を指定し、より古いものはないか
  3. ツイートの画像URLをGoogle検索し、画像で検索 のモードにした上で日時指定して古いものはあるか

RT数増分

どんな感じのが伸びたのかを貼っていく。
10000以上伸びてたのは130個、1000以上伸びてたのは1285個あった。

1位
RT fav
RT時点 7423 7423
現在 60290 12272
増分 52867 4849

パクころ - パクリ詳細 : 467485894052573186



2位
RT fav
RT時点 29848 29848
現在 79950 35195
増分 50102 5347

パクころ - パクリ詳細 : 372324956253589504

3位
RT fav
RT時点 18632 18632
現在 53901 18608
増分 35269 -24

パクころ - パクリ詳細 : 498135114530824193

4位
RT fav
RT時点 40933 40933
現在 73997 43731
増分 33064 2798

パクころ - パクリ詳細 : 488900649086484481

5位
RT fav
RT時点 12982 12982
現在 45852 15440
増分 32870 2458

パクころ - パクリ詳細 : 455908776722178048



fav数増分

3000以上伸びてたのが25個、1000以上伸びてたのは157個。

1位
RT fav
RT時点 14339 14339
現在 33471 23799
増分 19132 9460

パクころ - パクリ詳細 : 451299782598721536

2位
RT fav
RT時点 9383 9383
現在 33134 18752
増分 23751 9369

パクころ - パクリ詳細 : 344433191278501888

3位
RT fav
RT時点 7682 7682
現在 20028 15873
増分 12346 8191

パクころ - パクリ詳細 : 484465161017647104

4位
RT fav
RT時点 5010 5010
現在 18425 12940
増分 13415 7930

パクころ - パクリ詳細 : 457490024351547392

5位
RT fav
RT時点 6943 6943
現在 13994 14591
増分 7051 7648

パクころ - パクリ詳細 : 497367349356281856




その他

上記は元々伸びていたやつが掘り返しにより更に再燃した感じである。では埋もれていたものに対する効果はどうか。
初回RT時点でのRT数が400以下のものからの増加率の高いものからいくつか見てみた。

良い例1
RT fav
RT時点 304 304
現在 4941(16.3倍) 2188(7.2倍)
増分 4637 1884

パクころ - パクリ詳細 : 292424545040756736




良い例2
RT fav
RT時点 350 350
現在 3425(9.8倍) 444(1.3倍)
増分 3075 94

パクころ - パクリ詳細 : 227322315627696128




良い例3
RT fav
RT時点 397 397
現在 3604(9.0倍) 3044(7.7倍)
増分 3207 2647

パクころ - パクリ詳細 : 399376423804076032




悪い例1
RT fav
RT時点 322 322
現在 5642(17.5倍) 391(1.2倍)
増分 5320 69

パクころ - パクリ詳細 : 288250656681230338

この件についてざっとGoogle先生に伺うと、文字の強調とかが大好きな感じのテンション高めの記事ばかりが出てきて冷静な情報が見つからず、かなり煽り感が高いが、少なくとも 神戸市のサイト を見ると現時点では普通に氏名という表記が使われている。
3年も4年も前の情報である上に眉唾ワード大集合みたいな感じにも関わらず大幅にRT数が伸びており、誰も日付をろくに見ていないことが分かる。
そもそもこれをパクっている人がいるのが謎だ。


悪い例2
RT fav
RT時点 359 359
現在 5657(15.8倍) 3549(8.0倍)
増分 5298 3190

パクころ - パクリ詳細 : 515080312867409920

このツイートと別に以下のようなツイートがある。


偶然にしても内容の構成がかなり似通っており、より強い単語に書き換えただけに見えなくもなく、オリジナルとしてはかなり黒いラインではある。
検出アルゴリズムの都合上、完全なパクリでないこういうものまでは検出出来ないのでこんなケースも起こりうる。



おわりに

twitterにコメント付きリツイートが付いた
要はpermalinkをただ貼るだけで良いので、これを使えば既存のbotツール自体に手を加えなくても似たようなことは出来ると思う。

また、公式RTを使わないにせよ、出典が辿れるということが重要であると思う。
Twitter / Account Suspended
はpixivの画像で構成されており、全てリンクが付加されているのでシンプルかつ誰も損しない良い手法である。


公式RTを使用するbotが増えてくれればと思っていたが一年経った今もその兆しは無いように見える。
丸パクリを自分のアカウントで流すのに比べ、RTばかりしているアカウントを見つけること自体がかなり難しいので、自分が発見できていないだけなのかもしれないが、少なくとも自分の観測範囲では見つけられなかった。

周知が難しいとはいえ、上記に示したようにある程度の効果は収めることが出来てるっぽいので、もっと作ると良いと思う。
botのアカウントから手動で紹介しようと思うので良い感じのがあったり作ったりしたら教えて欲しい。