ウェブクローラーは、内部リンクのない複数のサブページにアクセスするのですか?

0
2022.04.25

私は小さな会社を経営しているのですが、例えば4つのページがあるとします。

  • ページA (ホーム)
  • ページB
  • ページC
  • ページD。

重要:これらのページには、互いに内部リンクがありません。画面上部にある4つのタブを想像してください。タブをクリックすることで、サイト内を移動することができます。

30日に一度くらい、時計みたいに来るお客さんがいます。もう8ヶ月くらいかな。すべて「ダイレクト」トラフィックで、主に(常にではありませんが)Aページ(私のホームページ)から始まります。訪問時間の合計は約25秒です。しかし、彼らは次のようになりました。

  • 1ヶ月目:ページA、次にページB
  • 2ヶ月目:ページA、次にページB、そしてページC。
  • 3ヶ月目:ページB、そしてページD
  • 4ヶ月目:ページA、ページBの順。

私は、ウェブクローラーはページAまでしか行かない傾向があり、 -- 内部リンクを見つけられず -- そこで止まってしまうだろうと聞いています。そしてもちろん、ページBから始めることはないだろう。

これはWebcrawlerの行動なのでしょうか?訪問のタイミングが規則的であることが、それを示唆しています。それとも、正当な訪問者なのでしょうか?

回答
1
2022.04.28

Googleのようなクローラーは、あるページから別のページに移動します。内部リンクや外部リンクは、彼らが新しいURLを発見するのに役立ちます。これがgoogleのページランクの歴史的な特許です。

だから、ページが外部リンクを受信した場合、彼女は理論的には任意の内部リンクなしで発見することができます。(内部リンクのないページは、明らかに本当に奇妙な行為です。)

クローラーがリンクされていない新しいページを発見するのを助ける他の方法は、sitemap.xmlにそれらを追加し、サーチコンソール(または他のコンソール、検索エンジンによって異なります)にsitemap.xmlをアップロードすることです。

最終的には、Googleはクロームでクロールしてデータを取得することになっており、それは役に立つかもしれません。しかし、もしあなたのページをクロールさせたい(そして検索エンジンで上位表示させたい)なら、内部リンクのスキーマに追加するのが一番です。