recaptchaバージョン3では、Googlebotをボットとして検出し、ブロックしていますか?

2
2021.12.25

Re-captchaを使ってバックエンドのリソースをボットの悪用から守ろうとしていますが、SEOへの影響についてはよくわかりません。この問題について明確にしている情報はほとんどありません。re-captchaのドキュメントでは、re-captchaはボットから人を守るとだけ書かれています。

Re-captchaがどのように機能するのか、私はこう考えています。

私の高価なAPI操作からAPIコールを行う前に...re-captchaのアクションを実行し、スコアを取得します。スコアが0.5未満の場合、ユーザーは/blocked.htmlにリダイレクトされます。スコアが0.5以上の場合、APIオペレーションは通過し、結果が得られます。

google-botが私のページをインデックスしようとしたときに、これでブロックできますか?

firebase app checkが導入されたことで、これが可能かどうか考えてみました。https://firebase.google.com/docs/app-check/web/recaptcha-provider

回答
1
2021.12.29

ユーザーをサイトの次のセクションに誘導する前にキャプチャチェックを追加すると、Googlebotの続行を阻止できる可能性が高くなります。可能性が高いと言ったのは、GoogleがreCaptchaを提供しており、GooglebotがreCaptchaで保護されたリソースにアクセスできるようにバイパスを実装してもよいと思われるからですが、その可能性は低いでしょう。アクセスを確保する最善の方法は、接続が Googlebot によって行われているかどうかを確認し、接続を行っているのが Googlebot でない場合にのみ reCaptcha を表示することです。正当な検索エンジンのクローラーの大半は、ユーザーエージェントの文字列によって自分自身を識別し、クロールできるパスとできないパスについてのrobots.txtファイルのルールにも従います。後続のページをインデックスするために、承認されたボットにクロールのアクセスを許可したい場合は、ユーザーエージェント文字列をチェックして、それがGooglebotであるかどうかを確認することができます。ユーザーエージェント文字列は、ボットに任意のユーザーエージェント文字列をプログラムすることができるため、決してボットの信頼できる指標ではないことに留意する必要があります。そのため、Googleは、正規のGoogleボットの接続元となるIPアドレス範囲のリストを公開しています。このファイルはhttps://developers.google.com/search/apis/ipranges/googlebot.jsonに掲載されています。

ここで私が付け加えることは、サイト内の特定のルートへのブロックアクセスを制御することに伴う労力が、その労力に見合うものであることを絶対に確認することです。むしろ、ボットをブロックするよりも、処理と配信のパイプライン全体でパフォーマンスを最適化し、悪質なボットが高価なAPIコールにアクセスすることで過度な問題を起こさないようにすることが望ましい選択です。