最先端のWebマーケティングを発信するメディア

最先端のWebマーケティングを発信するメディア
Googlebotの仕組みを知ろう!

Googlebot、クロール、検索インデックスの仕組みについて

最終更新日:
SHARE
FacebookTwitterLineHatenaShare

制作、公開したWebサイトは、極力早く検索結果の上位に表示させたいものです。
そのためにはまず、Googlebotと呼ばれるクローラー(ロボット)に巡回してもらい、サイトの存在が認識されなければなりません。加えて、意図した内容がきちんと伝わることも必要です。後者はGoogleのデータベース上に保管されることを指します。いわゆるインデックス登録された状態です。インターネット上における検索ランキングの対象になったといえばわかりやすいでしょう。
ここでようやくスタートラインに立てます。

上記は、そう、SEOに関する初歩であり重要事項です。
しかし、一般的には専門知識に該当します。当然、初心者であれば十分に理解していない方もいらっしゃるでしょう。
そこで本記事では、これらについて基本を中心に幅広く解説します。
Googlebotとは何か、クロールやインデックスの仕組み、Googleが提供する解析ツール「サーチコンソール」でできること……等々、気になるようでしたらぜひご一読いただけますと幸いです。

Googlebotとは?

Googlebot(クローラー)のイメージ

繰り返しますが、Googleのクローラーの主要プログラムがGooglebotです。主要も何も実際はクローラーといえばGooglebot一択といっても過言ではありません。
このロボットにどう作ったページをみつけてもらうか。はたまた、ページ内をいかに回遊してもらうか。制作側は対ユーザー同様にそのアクションを考える必要があります。
以下、その重要性をもう少し細かに説明しましょう。

Googlebotにページ情報を早く伝えるコツ

(Googleの)検索エンジンがWebページを適切に表示するために、Googlebotは常にWebを巡回し、情報収集に勤しみます。
というのは、毎日のように新たなコンテンツがそこかしこで生まれているからです。
すでに認識済みのサイトであれば、追加、更新情報はページ内のリンクを辿って行き着きやすくなります。しかし、内部リンクが設定されていない場合、Googlebotはすぐに情報を収集できず、結果、最新のWebページのデータがインプットされないという事態に陥ってしまうのです。
リンクもただ、URLを載せるだけではGooglebotを混乱させてしまうかもしれません。そのため、しっかりアンカーテキストを設けましょう。その文言に遷移先ページの内容と関連する言葉を含めるのがセオリーです。また、バナーや写真などの画像にリンクをつける場合は、html内にあるalt属性に記述してください。ワードプレス上だと代替えテキストの箇所が該当します。
このような処置、つまりはGooglebotの通り道を作ってあげることが、ページ情報を早く伝達するには肝要です。

クロールについて

検索エンジンの仕組みを調べる様子

先述した通り、検索結果に躍り出るには、クローラーに発見(クロール)され、データベースに保管されることが必要です。

クローラーにはいくつかの種類が存在します。
まず最も有名なのは、前項で取り上げ、これ一択だと断言させていただいた(笑)「Googlebot」です。
というのも、Googleの検索エンジンはYahoo!においても採用されています。それゆえ、眼中に置くなら結局はGooglebotというわけです。
ちなみに、Yahoo!といえば、クローラーは「Slurp」と呼ばれるものであることも知っておいて損はないでしょう。また、中国で大きなシェアを占めている「Baiduspider」もSEO界隈では有名です。

一方、マイクロソフトが提供する検索エンジンBingで使用されている「Bingbot」は、近年無視できないものとして注目されています。そのため、先に滔々と述べた“Googlebot一択”という主張はあくまで現時点の筆者の持論だということをご了承ください。この先Bingbot派の向きが続々出てきても決しておかしくはないということだけはお伝えしておきます。

クローラビリティの改善方法

クローラビリティとは、 クローラーがインターネット上のリンクを辿る際の、Webページの検出のしやすさ(発見、認識のしやすさ)のことです。
簡単にいえば、クロールのしやすさを指します。
クローラビリティが改善されれば、検索順位の上昇が見込めるでしょう。
それでは、どう見直せばよいのか。いくつか方法を紹介します。

ディレクトリ構造の見直し

Webページが複雑につながっているサイトはクローラーにとって認識しにくいものです。サイトマップはできるだけシンプルにしましょう。
ポイントとなるのは階層を意味するディレクトリ構造です。
一般的には、ディレクトリが深くなるほど複雑化し、浅いほどシンプルだといわれています。クローラーはWebサイト全てのページをチェックできるわけではありません。ぐるぐる巡回するなかで寄ってもらえないページも存在します。そして、その理由の一つに階層の深さは挙げられるわけです。
もちろん、程度にもよります。加えて、一概にいえるものではありません。が、クロール頻度を上げたいとき、階層を浅くしてみるのも一つの手だと考えます。

内部リンクの強化

クローラーはページ内のリンクをたどってサイト構成を把握します。とりわけ、関連性の高いページ同士がリンクでつながっていることは、サイトをテーマごと認識するのにも役立ち、結果的に自然とクロールする確率が上がるようになるのです。
内部リンクによってクローラビリティは改善されます。しかし、手当り次第にリンクを張れば良いというものでもありません。あくまでもページ間で関連性がある場合に限ってです。不自然なリンクとして扱われ、ペナルティを受けないように気を付けましょう。

パンくずリストの改善

パンくずリストとは、ユーザーの道案内です。大抵はページ上部に設置されています。そして、それはクローラーに対しても親切です。
ユーザーが迷子にならずサイト内を回遊できるように、クローラーもまたサイトマップを正確に辿れるようになるといえます。

サイトマップ送信

Googleが提供する解析ツール「Google Search Console(サーチコンソール)」を使い、サイトマップを送信すれば、クローラーに巡回を促すことができます。
同時にWebサイトの状態も診断してくれるため、非常に便利です。
ページを更新したら、確実に実行するようにしましょう。

検索インデックスの仕組みについて

冒頭でも少し触れたように、クローラーが検出したWebサイトのページを検索エンジンのデータベースへ登録することを「インデックス」といいます。
ページがインデックスされてはじめて検索結果に表示される可能性が生まれます。

与えられたランキングは独自の基準によるものです。といっても、検索エンジンに対してわかりやすいページほど、高評価を得られる傾向にあります。
他方、インデックスされないページは、当然順位は付きません。
特に、制作したばかりのWebサイトは、インデックスされるまでに時間を要するものです。
また、html内にタグを記述したWebページは、インデックスされません。なぜなら、これはインデックスをしないという設定だからです。
気を付けたいのは、意図せずこの仕様になっているケースも時々見受けられます。
なかなか検索結果にページが現れずおかしいと思ったときは、まずソースコードを開いてnoindexの有無を確認するようにしてください。

サーチコンソール上でのインデックス登録のリクエスト

Googleで調べものをしようとするイメージ

サーチコンソール上では、インデックス登録のリクエストができます。

たとえば、新規で制作したWebページを優先的にクロールさせたい場合など、この機能を使うことでインデックスが促進されます。その結果、検索ブラウザへの表示・反映が早まる期待が持てるでしょう。

インデックス登録リクエストの流れ

サーチコンソールにアクセスしたら「URL検査」をクリックします。そこでインデックスさせたい新規WebページのURLを入力してエンターキーを押してください。
しばらく待つと結果画面が表示されます。続けて「インデックス登録をリクエスト」ボタンをクリック。
リクエストの処理が終わると「インデックス登録リクエストが完了しました」とメッセージが表示されます。以上で終了です。
※2020年10月に突如、インデックス登録のリクエストの受付が停止され、しばらくはその状態が続いていましたが、12月下旬より従来通り利用できるようになっています。

インデックス登録リクエストを行うタイミング

インデックス登録リクエストは必須作業ではありません。
しかし、クローラビリティによっては、なかなかインデックスされず、その場合は手動でのリクエストに頼らざるを得ないでしょう。
また、ニュース系のサイトを更新する際は、いかにタイムリーにユーザーへ届けるかが肝です。そのため、可能な限り早くインデックスされるよう手を打つ(リクエストする)のが望ましいと考えます。
※インデックス登録のリクエスト機能が復活した際、Google検索セントラルは公式のTwitterアカウントで以下のように投稿されています。ご留意ください。

1.URL が多数あるWebサイトの場合は、サーチコンソールでインデックス登録をリクエストする代わりにサイトマップを送信すべきです。

2.インデックス登録をリクエストしたからといって、インデックス登録を保証することはありません。私たちのシステムでは、高品質で有益なコンテンツを優先して速やかに登録するようにしています。

インデックス登録が遅いとき

インデックス登録リクエストを行ったからといって必ず即座に結果が反映されるものではないということも知っておきましょう。
ただし、遅くとも数日後にはインデックスされるはずです。いくら待ってもインデックス登録されていない場合は、なんらかのエラーが発生している可能性があります。適宜、調査し対応してください。

GooglebotがHTTP/2でのクロールを開始

GooglebotがHTTP/2をサポート!

2020年9月時点で11月からHTTP/2 でクロールし始めること(HTTP/2をGooglebotがサポートすること)をアナウンスしていましたが、予定通り現在、実施されています。

HTTP/2とは?

まず、HTTP(Hyper Text Transfer Protocol)とはWebサーバーとクライアントが通信するための規格のことです。
そのなかで、従来の「HTTP/1.1」から「HTTP/2」はバージョンアップしたものといえます。
具体的には、Webサイトの読み込みあたって必要なリソース(画像、テキスト、アニメーション等々)を効率的に処理できるようになったのが「HTTP/2」の進化です。
Webサーバーに対して原則1つずつの要素しかリクエストを送れない「HTTP/1.1」に対して、複数のリクエストを同時に処理してくれる「HTTP/2」。そう、つまりは読み込みスピードが上がるということです。
一方で注意すべきこととして、確かにGooglebotはHTTP/2をサポートしますが、すべてのサイトにて適用するわけではありません。
基本的にページ数や配信するリソースの量の多い大規模サイトが優先的に選ばれます(サポートされます)。
なお、前提として(Webサイトは)SSL化対応が必須です。

HTTP/2クロールの恩恵

HTTP/2のサポートが始まったことによって生まれるメリットはクロールの効率アップです。といっても通常規模のサイトであればHTTP/1.1でも問題なく、あくまで大規模サイト(Googleの判断によって選ばれたサイト)のクロールが従来よりもスムーズになるという認識でいいでしょう。
誤解されがちですが、検索ランキングには直接影響しないと考えてください。

Googlebotやインデックスに対する理解がSEOにつながる!

SEOの周辺知識のメモ

Googlebotやインデックスへの理解が乏しければ、公開したWebサイト、更新したページも浮かばれないかもしれません。
クローラビリティを改善する意識はSEOにどうしたって必要です。

内部リンクの強化や、サーチコンソールの活用など知っておきたい対策は存在します。
然るべき対処は、検索エンジンから受けるSEO評価にも良い影響をもたらすはずです。
ぜひ、うまく拙稿を参考にしてみてください。

SHARE
FacebookTwitterLineHatenaShare

この記事を書いた人

いまい
サイト運営歴15年以上。立ち上げたサイトは数知れず。SEO、メルマガ、広告、YouTube、手あたり次第が過ぎて、何も身になってないことに最近気づく。もう少しだけ、Web業界にしがみついていたい。

UPDATE 更新情報

  • ALL
  • ARTICLE
  • MOVIE
  • FEATURE
  • DOCUMENT