xckb的雑記帳

15年ほどWeb日記をつけ続けていたのですが2012年で一旦休止、1年半ほど休んで新天地でぼちぼちのんびりまた始めてみることにしました。

ハッシュタグは死につつあるのか:TwitterユーザのSearch Suggestion Ban率推計

先日からTwitterのSearch Suggestion Banに関していくつか記事を書いているのだが、あらためてSearch Suggestion Banとはどのようなものか、ここでも簡単に説明しておきたい。

  • Search Suggestion Banはユーザに一切告知されることがなく適用される、Twitter記事の発見可能性を下げる措置である。
  • ハッシュタグを含む検索画面において、デフォルト設定のユーザからはSearch Suggestion Banされたユーザのツイートは除去される。
  • どのような行動をした結果として適用されるのか明確ではなく、なぜこれが適用されたのか不可解なユーザが多数存在する。
  • Twitterは公式に認めていないが、簡単に検証可能な形で確実に存在する。
  • 容易に解除されないことが多く、どのようにすれば解除されるかも明確ではない。

詳しくはこちらの2つの記事を参照していただきたい。

xckb.hatenablog.com
xckb.hatenablog.com

上記の2つの記事を書いたあと、自分のフォロワーの方々の中にも「自分もSearch Suggestion Banされてる」という報告を多数いただいたのだけれども、そう考えると実際のところどのくらいの比率のユーザーがSearch Suggestion Banされているのかというのは興味深いところである。

ちなみに、任意のアカウントのシャドウバン状態はこちらのサイトでチェック可能だ。

shadowban.eu

上に挙げた特徴から考えて、一定以上の無視できない比率のユーザがこの措置を適用されると、Twitterにおいて重要な機能であるハッシュタグという仕組みが機能不全を起こすことは十分に予想される。また、フォロワー以外にもツイートが届くことを信じてハッシュタグをつけてツイートをしていても、しばらく前からそのアカウントからは二度とハッシュタグによる拡散されない状態になっていたと、無視できない割合のユーザの多くが知った時、Twitterという言論空間からは、どのような認識がされることになるだろう。

f:id:xoc:20190616095637p:plain

重要な追記(2019年7月2日)

この記事での概算に関して、より現実的な仮定で計算をし直した記事を新たに作成しました。本記事にも途中でいくつかの補足を入れていますが、こちらの新しい記事の内容もご参照ください。

xckb.hatenablog.com

Search Suggestion Ban率推定調査の方法と結果

このように、数というものは重要な要素である。だが少し考えればわかる通り、この問題の定義は難しい。まず、Twitterには非常に多数の死んだアカウントがあり、そこまで含めて比率を出すと非常に小さな値になるだろう。

一方でアクティブなTwitterユーザーの定義というものは非常に難しいし、運営側以外がそれを包括的に推定することはまず不可能である。そしてSearch Suggestion Banを食らっているアカウントの実数も、運営側以外が知ることは不可能だろう。

ということで、運営側以外でも推計可能な、次善の策を考えてみた。

  • センシティブなコンテンツを検索対象に入れたアカウントを用意する。
  • それを使って、様々なキーワードで「最新」タブの検索をする。
  • 検索結果に現れたユーザーをそれぞれ100件ずつ、片っ端からshadowban.euの検索にかける。
  • Search Suggestion Banされているユーザとされていないユーザに分けて、アカウント名とともに記録する。

「最新」タブの検索結果が操作されていたら、と思わないこともないが「センシティブなコンテンツを検索対象に入れる」ユーザの検索結果にはSearch Suggestion Ban対象のユーザをより多く入れる、というような意図不明の操作をする理由はないと思うので、少なくとも実際より多めにカウントされることはない、と考えてみた。

検索のキーワードとしては、特定のクラスタに偏らないようにいくつかのパターンを考えた。

  • 誰でもツイートしそうな、梅雨入りの日の「梅雨入り」というキーワード(6月7日)
  • その日ややバズっていた診断メーカーのハッシュタグ「#あなたの優しさと心の綺麗さを計測」(6月10日)
  • その日に軽い炎上案件があった「新幹線」(6月12日)
  • 翌日に劇場版アニメが公開だった「青春ブタ野郎はゆめみる少女の夢を見ない」の公式ハッシュタグ「#青ブタ」(6月14日)
  • 開催中だったAWS Summitの公式ハッシュタグ「#AWSSummit」(6月14日)
  • 色々政治的にアレな嫌な部分が見られそうな「ネトウヨ」(6月14日)
  • 比較対象として、日本語の投稿という一番広い検索条件「lang:ja」(6月15日)
  • 画像つきツイートの比較対象として、日本語で画像つきという広い検索条件「lang:ja filter:images」(6月15日)
  • エロ画像方面「エロ filter:images」で、実際にツイートを見た上でエロ画像とみなせる画像ツイートのみを抽出(総合、二次元)(6月15日)

もちろんこれが完璧で再現性のあるデータというわけではないが、調査した結果、非常に興味深い結果が得られた。

(単位: 件)   SSB   クリーン
日本語 15 85
日本語(画像つき) 17 83
「梅雨入り」 18 82
診断メーカー 17 83
「新幹線」 23 77
「#AWSSummit」 5 95
「#青ブタ」 19 81
「ネトウヨ」 21 79
エロ画像(総合) 42 58
エロ画像(二次元) 57 43

以上のデータをグラフにまとめてみた。ここからSearch Suggestin Banに関して推測できることがいくつかある。

f:id:xoc:20190615171600p:plain

キーワードごとの影響

キーワードごとの影響に関しては、なぜか「#AWSSummit」以外はほとんど差が見られなかった(エロ画像系に関しては、単純なキーワード検索ではないので後に考察する)。炎上直後だった「新幹線」でわずかに高かったが、それでもアニメの「#青ブタ」や政治系見下しワードの「ネトウヨ」でさえ、さほどの大きな差は見られていない(これは予想外だった)。

「#AWSSummit」に関しては、ほぼ純粋にIT技術系のやり取りにのみTwitterを使っているユーザが多かったのかもしれない。さまざまな要因が絡むと思われるが、「日本語のツイートである」という調査結果からも大きな隔たりが見られる、非常に小さな値だったというのは興味深い。

画像を添付したり、それなりに世間的に意味のあるキーワードを入れたツイートをするというのは、仲間内のやりとりだけではなくそれ以外のコミュニケーションを行うユーザが入っているということで、事実上のアクティブユーザの姿と言えるのは「日本語のツイートである」のみの条件(それでも15%がSearch Suggestion Banされていた)よりもこれらのキーワードで検索した結果のほうが適当なのではないだろうか。

ということで、実際のアクティブユーザのSearch Suggestion Ban率は時候の挨拶的な「梅雨入り」の18%、つまり20%弱程度が標準的なアクティブツイッターユーザのSearch Suggestion Ban率と思って良いと思われる。

Twitterアクティブユーザの推定5人に1人がSSBされている?

これがもし妥当な推測なのであれば、よく考えると、かなり深刻な事態がTwitterというコミュニケーションの場に起こっているということだ。

たとえばハッシュタグで検索などを行う場合、自分のアカウントが非標準のオプションを指定していない限り、平均的にはなんと5分の1のユーザの投稿を読むことはできないのである。個人的見解だが、この調査結果がもし正しければ、これはもう「コミュニティの分断」と言ってよい状況だと思う。ハッシュタグは半分死んだと言ってもいい。

いくらなんでも、5人に1人のアクティブユーザに、彼ら自身には何も知らせずに重要な機能を密かに無効化した上で、一切異議の受付もしないというのは、TwitterはコミュニケーションのインフラとしてのSNSとはもはや言えないと思う。

(2019年6月22日追記)これを集計してから、この仮定の妥当性に関しては多少の疑問を持つようになったので補足しておく。「5つに1つのツイートはSearch Suggestion Banされたユーザが書いたものである」というところまでは多分正しい。だが、「5人に1人のアクティブユーザがSearch Suggestion Banを食らっている」という仮定は必ずしも妥当だとは言い切れない。これには2つの要因がある。

  1. ツイート数が多いユーザは、ランダムにツイートを拾った場合に出現率が高い。
  2. ツイート数が多いユーザはSearch Suggestion Banされる率が高いという仮説があり、これが正しかった場合はさらにデータが歪む。

そこで現在、ユーザごとの1日のツイート数の逆数で重み付け集計を行うことで、補正することを試みている。いくつかやってみたが、元のデータの30%〜80%程度になる傾向が現在のところ見えている。

ただしこれはこれで、1日1回しかツイートしなかったユーザのデータが全体の値を支配しすぎるのでブレが問題となり、色々と悩ましい。

ということで、もしこの補正案が妥当だったとするならば、5人に1人は言い過ぎだが、8人〜20人に1人くらいは言えそうだ、という感触である。集計が大変だし、もしかしたらモデルを変更したほうが良いかもしれないので、時間がかかりそうであるが、集計が終わったら補足記事を出そうと思う。

エロ画像ツイートに関する考察

エロ画像のツイートは、単純な画像つきツイートと比較して恐ろしくSearch Suggestion Ban率が高い。キーワードによる違いは明らかに次元の違う、明らかに有意な差が観測されている。

そして面白いというより不快なのは、二次元エロ画像のほうが、投稿しているユーザのSearch Suggestion Ban率が明らかに高い点である。これは一見、Twitterが二次元エロに関して厳しいレーティングをしているようにも見えてしまうが、実際に調査をしているときの感想からすると、それほど単純な問題ではなく、一種の疑似相関的な問題があると考えている。

まず、意外なことは「エロ投稿の過激度とSearch Suggestion Ban率は特に正の相関がなさそう」ということだ。むしろ、軽度のエロ画像投稿の方がSearch Suggestion Ban率が高いようにさえ思えた。

少なくともTwitterには、明らかに色々な意味でアウトな実写のエロ画像・動画を「センシティブな画像・動画」の設定もせずに放流している業者アカウント(と思われるもの)が多数あり、数年前に作られたと表示されているそれらのアカウントが、何のお咎めもなく多数のフォロワーを集めていたりする。Search Suggestion Ban以外のシャドウバンも凍結も食らっていない。

おそらくこれらの業者アカウントは、規制逃れのための様々なノウハウを共有し、駆使しているのだろう。正直、なぜこれらが規制されずに、ライトなエロ絵師のアカウントがシャドウバンやら凍結を食らっているのか、憤りを覚えるほどだ。

つまり、二次元エロ画像アカウントがSearch Suggestion Ban率が高いのは、エロ画像を用意して公開できる手間が実写のエロ画像に比べてハードルが低いため(つまり自分自身やモデルを用意して扇情的な写真を撮影して公開するよりは、絵を描くほうが色々な障壁は少ない)であり、規制逃れの様々なノウハウを持つエロ業者以外の一般アカウントによるツイートが多いことが関係しているように思う。

再考:果たしてSearch Suggestion Banの目的は?

以前も考察したが、今回の調査結果を加えて、さらにSearch Suggestion Banの本来の目的について考えてみたい。今回、明らかに制限対象ユーザ比率との正の関係が見られたのは、エロ関係のみだ。何らかの目的として、Search Suggestion Ban発動要素の一つとして、エロコンテンツが関わっている可能性は非常に高いと思われる。

Search Suggestion Banの仕様から考えて、有効そうな例として、無関係なハッシュタグや無関係なキーワードになりそうな文章をつけて、「センシティブなメディア」の設定もせずにエロ画像や動画をツイートするアカウントの存在が考えられる。というか、それくらいしかSearch Suggestion Banの仕様が「正しく」機能する対象が思いつかない。

一方で、まさにそういう運用をしているエロ業者のツイートはことごとくSearch Suggestion Banもアカウント凍結もかいくぐり、実際にSearch Suggestion Banされているユーザのツイートは、TLを見に行った感じでは人畜無害そうなアカウントが大多数である。少なくともそういうエロ業者のツイートする画像や動画とかと比較したら比較にならないくらい無害だ。

その他関連する考察

Search Suggestion Ban以外のシャドウバン

今回の調査方法では、少なくともSearch Banのユーザは対象に含めることができない。実際、試行錯誤を含めて1000件ほどのアカウントの状態をshadowban.euで調査したが、Search Suggestion Ban以外のシャドウバンのケースは1件も含まれていない。

おとなしくしていれば比較的早期に解除されるようなので、あまり調べる価値もないかもしれないが、実際の比率には興味がある。今回結構な数のエロアカウントのリストが手に入ったので、これらの追跡調査を行ったりしても面白いかもしれない。

また、今回の調査の副産物として、数百個のSearch Suggestion Banされたアカウントのリストも手に入ったため、これらを継続して解除状態を追跡することも今後行っていきたい。

Search Suggestion Banの解除可能性について

さて、Search Suggestion Banが解除されたという報告もわずかながらあるのだけれども、原因が全く不明である以上、まあおそらく一番確実な対策は、何もつぶやかず、何も読まず、何もいいねせず、何もリツイートしない、というのを続けることだと思う。

しかしそれは本当にコミュニケーションのインフラとして正しいあり方なのだろうか? これで解除されるくらいなら「こういうものが問題だ」と指摘してそこが改善されれば復活する、通常のアカウント凍結のようにすればより確実ではないのか。理由も知らせずに何ヶ月もアカウントを塩漬けにして、それでも解除されるかどうかは不明というのは、あまりにユーザを馬鹿にしてはいないか。

ちなみに最初の記事で、41件見つかった過去のSearch Suggestion Ban適用例のうちに8件が解除されていたということを報告したが、あの記事から2週間後に追跡調査を行ったところ、残った33例のうち1例のみが解除されていることが判明した。

その1例のアカウントのタイムラインを見てみたが、やはり以前頻繁にツイートしていたのに最近ほんの少ししかツイートしないようになって、その結果として復活していたようだ。でももしこのユーザが解除に気がついて頻繁なツイートを再開したら、あっという間に再度Search Suggestion Banを食らいそうな雰囲気の最近の少ないツイートたちだったので、一体何の基準でTwitterはBanを解除したのかわからなくなってしまった。

多分何も考えていないのだろう。

ハンロンの剃刀

なお、個人的にはSearch Suggestion Banのような、検索から隔離されるオプションはあってもいいと思っている。だがそれは、ユーザ自身が設定可能で、解除可能なものだ。決してユーザに知らせぬうちに恣意的にオン・オフされるべきではなく、異議受付もできない形で行うべきではないと思う。

これはSSB対象のユーザを守るためにTwitterが行ってくれている措置だ、ということを言っているツイートやブログも見かけるが、そこまで好意的にTwitterの運営を見ることは上の理由によりできない。

ハッシュタグ連投は控えろとか画像投稿を控えろとか、そんなのは全部憶測に過ぎない。Twitterが何の根拠も示さずに、重要な機能をユーザーが気付かないように、なおかつ一方的に停止していつまでも解除しないからこういうつまらない憶測が発生するのだ。

ハッシュタグ連投がいけないなら、画像投稿がいけないなら、だったら投稿時にエラーにしろ。投稿させておいて後から気持ち悪い制限をコソコソと加えんな。百歩譲って、後から制限するならちゃんと理由を示せ。ということだ。

とは言え、とりあえず今はまだ、こういうことを考えている。

Never attribute to malice that which is adequately explained by stupidity.
無能で十分説明されることに悪意を見出すな
ハンロンの剃刀 - Wikipedia