Googleクローラーとは、ウェブページを巡回し、情報を収集してデータベースに登録(インデックス)するプログラム(ロボット)のことを指します。
このロボットが定期的に、サイトの新しいページや更新された箇所を読み、検索結果ページに最新データを反映していきます。
そのため、クロールされなければインデックスされることもなく、更新した情報も反映されません。
ということは、SEO対策にはクローラー対策も考慮する必要があるわけです。
では、この記事では検索エンジンのクローラーについて詳しくご説明していきたいと思います。
目次
クローラーとは、冒頭でもご説明した通りウェブ上のページを巡回して、その情報をインデックスしていくロボットのことを指します。
そして、このクローラーは主にリンクを辿ってページを巡回するわけですが、全てのサイト・ページを毎日巡回するわけではありません。(サーチコンソールの「クロールの統計情報」にクロールされたページ数が確認できます。)
そのため、クローラーに効率良く重要なページを中心に巡回してもらうことが重要となります。
これを促すのが「Fetch as Google」となり、内部リンクの構築も重要となるわけです。
クロールの巡回頻度によって検索順位が決まるわけではありませんが、上位表示されているページは、無駄なくしっかりとクローラーが巡回しているはずです。後ほどご説明するクローラーにとってわかりやすいサイトにしておくことが大切です。
クローラーには、検索順位に影響するGooglebotと呼ばれるGoogleのメインとなる検索エンジンのクローラー以外にも、画像をクロールするクローラーや、Yahoo!やBingなどのクローラーも存在します。
参考:Google クローラ - Search Console ヘルプ
SEO対策を行う場合にはGoogleのメインとなるクローラーが対象となりますので、特にクローラーの種類を気にすることはありませんが、何か理由があって、クローラーごとにクロールを拒否したい場合はrobots.txtに各種ボットを指定することによって、制御することが可能です。
次にクローラーがページをクロールするという点についてですが、これは先ほどからもご説明しているように、クローラーがページを巡回して情報を収集することを意味します。
これによって、検索エンジンのデータベースに登録され、200以上ものGoogleのアルゴリズム要素を元に検索結果にランキングされて表示されます。
すなわち、検索結果に表示させるためにはGoogleのクローラーにページをクロールしてもらう必要があるわけです。
このインデックスされているかどうかを確認するには、検索窓に「site:(確認したいページのurl)」と入力して検索します。
すると、検索エンジンが認識しているページが表示されます。
もし、インデックスされていない場合、Fetch as Googleでインデックスをリクエストしてみると良いでしょう。
クロールされると検索結果に最新の情報が表示されます。
もちろん、検索ワードに対する適切なコンテンツと評価されることが前提となり、Googleのアルゴリズムによってランキングされます。
例えば、公開して間もないページの場合だと、クローラーが巡回するまでは検索結果にも表示されませんし、すでに公開されているページの場合だと、更新された差分が検索結果に反映されます。
ちなみに、クロールされた日時は、Googleの検索結果から調べたいページのurlの右にプルダウンで表示される「キャッシュ」をクリックするとクロールされた最新の日時が表示されます。
また、クローラーは一度に全ての情報をインデックスしません。
必要のないページに毎回クロールを許可していると、重要なページ・更新箇所を見つけることができない可能性があります。
そのため、重要なページを中心に効率よく巡回してもらうことが大切です。
このことから、SEO対策を行うには、ユーザビリティとクローラビリティのどちらも考慮することが重要となるわけです。
以上のことから、上位表示するにはクローラーに効率よくページをクロールしてもらう必要があることがわかります。
では、続いてクローリングを最適化する方法についてご説明したいと思います。
インデックスされる必要がないページなど無駄にクロールされないようなサイトの管理が大切となります。
サイトをテーマごとにカテゴライズすることは重要ですが、あまりにも階層を深くしてしまうと、重要なページまでクローラーが効率よく巡回することができません。
また、トップページから遠くなればなるほど、重要度は低いものとするとGoogleが公言していることからも、サイト構造は単純なものにしておくことが大切です。
あまりにもテーマがかけ離れてしまい、複雑なカテゴリ分けが必要な場合は、サイトを分けてしまうことも場合によってはテーマが際立ち効果的です。
クローラーはリンクを辿って巡回するとご説明しましたが、これは外部からのリンクはもちろん、内部リンクからも巡回します。
そのため、内部リンクは必ず設置するようにしましょう。
ポイントとしては、関連するコンテンツ同士を繋げるといったイメージで、内部リンクを構築していきます。
これによって、互いに関連性も高まり、検索エンジンからの評価も期待できます。
読みやすくするというのは、コンテンツの内容や、内部リンクのリンク設定などを画像ではなく、できるだけテキストで記述するということです。
クローラーはロボットなので、画像で配置しただけでは実際に何が書かれているのか理解できません。
そのため、画像には「alt属性」にしっかりと説明文を設定しておくことも大切ですが、重要なテキストや内部リンクについては、テキストで表示しておくようにしましょう。
ページに記載されているテキストがどういった意味を持つのかを正しく検索エンジンに伝える“セマンティックWeb”を心がけると、自然とテキストを使用した表現となるかと思われます。しっかりとユーザーだけでなく、クローラーにも読みやすいhtmlを構築しましょう。
クローラーは、一度クロールしたURLのリストと、このrobots.txtやsitemap.xmlなどを元にページをクロールします。
そのため、重要なページをクロールしてもらうためにもrobots.txtにクロールの必要ないページを記述してブロックし、無駄のクロールを制御しましょう。
参考:Google 検索の仕組み - Search Console ヘルプ
また、robots.txtに記述しても外部リンクからのクロールまでは制御できません。
絶対にクロールされたくないファイルやディレクトに関しては“noindex”で対応します。
ということで、今回は検索エンジンにインデックスするためにページを巡回する“クローラー”についてご説明してきましたが、サイト内の重要なページをしっかりとクロールしてもらうためにも、無駄なページはしっかりとブロックして正しい評価をしてもらうサイト管理を心がけましょう。
また、定期的にサーチコンソールから「クロールの統計情報」を確認して、どの程度クロールされているのかも確認しておくと良いでしょう。