Googleインデックスとは?SEOへの影響と、確認・促進する方法
SEOを行う上では、どのようにウェブページが検索ランキングに表示されるのか、そのしくみをしっかり理解しておかなければなりません。
サイトが検索結果に表示されるためには、ウェブページが検索エンジンにクロールされ、検索エンジンがクロールしたページの内容を解析してデータベースに登録(インデックス)する必要があります。
ここでは、この、クロールされたウェブページがGoogleの検索エンジンに登録される「インデックス」のしくみについて詳しく解説します。
SEOにおけるインデックスとは?
SEOにおけるインデックスとは、ウェブページが検索エンジン(Google、Bing等)のデータベースに登録されることを意味します。
厳密には、ウェブページに記載されたテキスト、画像、動画ファイル等を検索エンジンが解析し、検索アルゴリズムに適した状態でデータベースに登録することを意味します。
この、データベースに登録されることを指して「インデックスされる」という表現が使われます。
検索結果には、すべてデータベースにインデックスされたウェブページから検索キーワードとの関連度が高いものがランキング表示されます。
そのため、検索エンジンのデータベースにインデックスされていなければ、そもそも検索には表示されません。
SEOで検索表示を目指すには、ウェブページを必ずインデックスさせなければならないということです。
インデックスのしくみと流れ
ウェブサイトが検索結果に表示されるまでの流れには3つの段階があります。
- ウェブページがクロールされる
- クロールされたページがインデックスされる
- インデックスされたページが検索結果に表示される
まず、クローラーと呼ばれる検索エンジンのロボットがウェブページをクロールし、ページに記述された内容を正しく解析(パーシング)することで、ウェブページがインデックスされます。
ここで気をつけるポイントとしては、ウェブページが正しく解析されるよう、検索エンジンにとってわかりやすい、理解・認識しやすいように正しい記述で作成することが挙げられます。
具体的には、タイトル、見出し、箇条書き、表組みなど、コンテンツに書かれている内容が正確にまとめられた文書構造で正しく記述します。
検索エンジンにとって優しい構造にしておくことが重要です。
SEOの内部対策として、HTML構造やタイトル・見出しの最適化が重要なのは、このインデックスに影響があるためです。
SEOにおいて、コンテンツはユーザーファーストであることが最重要ですが、検索エンジンフレンドリーであることも同じくらい大切であり、ユーザー目線と検索エンジン目線どちらに対してもわかりやすく作成することが重要です。
インデックスとSEOの関係
繰り返しになりますが、検索結果にウェブページが表示されるには、インデックスされていることが大前提です。
その上で、検索結果には、インデックスされたウェブページの内容と検索キーワードとの関連性が高く、ウェブサイトの評価も高いものが上位に表示されます。
つまり、サイト制作者の意図に沿った内容が正しくインデックスされている必要があります。
例えば、ウェブサイトの内容の間違いを修正したり、最新情報にアップデートしたとしても、すでにインデックスされている内容が更新されていなければ、間違ったままの古い内容でランキングが評価されてしまいます。
SEOで正しい評価を得るためには、ウェブページの内容が正しく、最新の状態でインデックスされていることが重要です。
ウェブページをインデックスさせる方法
では、ウェブページをできるだけ早く、正確にインデックスさせる方法とインデックスされやすくするための注意点を説明します。
ここではGoogleにインデックスさせる場合を重点において説明しています。
自然クロールを待つ
Googleなどの検索エンジンはサイトのリンクをたどってページを見つけてクロールします。
ウェブサイトをすでに運用していて、検索エンジンからも存在を認知されている状態であれば、ウェブページを公開してから数日から1週間程度で自然にクロールされることがほとんどです。
そのため、特にインデックスを促す施策をしなくても、クロール自体はされます。
注意点としては、ページのディレクトリ構造が深いと検索エンジンがなかなかページを発見できず、インデックスに時間がかかることが挙げられます。
できるだけ階層を深くしない構造にしておくことはSEOにおいて重要です。
そうは言っても、自然クロールを待っている時間はもったいないですよね。
できるだけその待機時間は節約したいものです。
Google Search ConsoleのURL検査からインデックスリクエストする
最速でGoogleにインデックスさせる一番効果的な方法は、Google Search ConsoleのURL検査からインデックス登録をリクエストすることです。
URL検査の手順
- サーチコンソールにログインし対象のプロパティ(ウェブサイト)を選択する
- 上部のURL検査入力フィールドにインデックスさせたいURLを入力
- 検査結果を確認し、インデックス登録をリクエスト
インデックスされていないページの場合は、「URLがGoogleに登録されていません」と表示されます。
通常、インデックス登録リクエストを行うと24時間程度でインデックスされることが多いですが、サイトによりかかる時間は異なります。
すでにインデックスされているページの場合は、「URLはGoogleに登録されています」と表示されます。
sitemap.xml(XMLサイトマップ)に追加し送信する
XMLサイトマップは、検索エンジンにウェブサイトのページのリストや構成を知らせるために利用するXMLファイルです。
sitemap.xmlは検索エンジンがクロールするページを見つけるための手がかりになるため、インデックスさせるべきウェブページは、sitemap.xmlに記載しましょう。
さらに、XMLサイトマップは、Google Search Consoleから送信することで読み込みを促進できます。
クロール頻度の高いページから内部リンクを設置する
検索エンジンのクローラーはウェブサイトのリンクを辿ってページを見つけ、クロールします。
そのため、内部リンクが適切に貼られているサイトではクロールが適切に行われ、インデックスも促進されます。 サイトのトップページやカテゴリトップなどの重要なページはクロール頻度が高いため、そこからリンクを貼ることでクロールがされやすくなります。
ただし、内部リンクは関連性の高いページ同士をリンクでつなぐことが重要であり、インデックスのために関連性の低いコンテンツをリンクさせることは逆効果となります。
注意してください。
インデックスされているかを確認する方法
ウェブページが検索結果に表示されている場合は、インデックスされていると判断できますが、検索結果に表示されない場合は、インデックスされているか確認しましょう。
Google Search ConsoleのURL検査からカバレッジを確認する
インデックスさせる方法で解説したGoogle Search ConsoleのURL検査のカバレッジからインデックス状況が詳しく確認できます。
前回のクロール日や、インデックスページの正規URL(canonical)などがチェックできます。
site:検索から確認する
Google検索のsiteコマンド検索を活用することで、検索エンジンにインデックスされているページを確認することができます。
siteコマンド検索は、検索バーに「site:ウェブページのURL」と入力して検索します。
インデックスされている場合は、検索結果に表示されます。
インデックスされていない場合は、「該当URLに一致する情報は見つかりませんでした」と表示されます。
※URLの文字列に入力間違いがないかよく確認してください。
インデックス数(ドメイン全体やディレクトリ単位でインデックスされているページ総数)を確認したい場合も、site:コマンド検索で確認できます。
自サイトだけでなく、競合サイトなどあらゆるサイトのインデックス数を確認できます。
ただし注意点があります。
siteコマンドで表示されるページ総数は、正確なインデックス登録ページ数ではありません。
検索件数は、あくまでも検索エンジンが検索条件に合ったページ数を返している数値のため、検索するたびに増減することがあります。
そのためインデックスページ数としては、ある程度ざっくりしたボリューム数と認識して数値を評価するようにしてください。
インデックスされやすくするには
ウェブページが正しくインデックスされるためには、検索エンジンが認識しやすい構造でページを作成する必要があります。
このようなインデックスを最適化することを「インデクサビリティ」と言います。
インデクサビリティの改善方法については、以下の点に注意してウェブサイトを見直してみてください。
HTML構造を正しく記述する
ウェブページにどのような内容が書かれているかを検索エンジンは様々な方法で理解していますが、基本となるのはHTMLの正しい記述です。
ページタイトルや見出しなどを適切に使って、トピックのまとまりを構築していくことでより検索エンジンに理解されやすくなります。
長い文章をダラダラと書くのではなく、要点を絞って箇条書きにしたり、内容を表組みに整理したりして、HTMLタグが持つそれぞれの役割を的確に活用し、ユーザーに対しても検索エンジンに対しても理解しやすいコンテンツにしてください。
ちょっとしたHTMLの記述ミス程度ではインデックスに影響はありませんが、HTMLのバリデーションチェックツールやシミュレーターなどを利用して正しいHTMLで記述してください。
JavaScriptなどを活用したウェブページでもGoogleはレンダリング(HTML/CSS/JavaScriptのコードを処理してユーザーが見ている画面と同じ状態にすること)して解析できますが、レンダリングできないエラーがある場合は、正しくインデックスされない可能性がありますので注意してください。
便利なHTMLマークアップバリデーションツール
「The W3C Markup Validation Service」は、Web技術の標準化を目的に活動する非営利の国際団体であるW3Cが提供しているHTML・CSSの文法や記述のチェックができるツールです。
重複コンテンツにならないようにする
重複コンテンツや非常によく似たページがある場合、検索エンジンはどちらを優先にするか判断がつかず、インデックスされないなどの悪影響に繋がる場合があります。
重複コンテンツと認識されることを回避するために、インデックスさせるべき正規URLをcanonicalタグで設定しておきましょう。
モバイルに対応する
Googleはモバイルファーストインデックス(MFI)を導入し、現在ほとんどのサイトでスマートフォン用Googlebotがクロールしています。
このため、モバイルに対応していないウェブページではエラーがなくてもクロールエラーとなってしまい、インデックスされない事態も起こります。
かならずモバイルフレンドリーなサイトづくりをしてください。
検索エンジンにインデックスさせない方法
ウェブページの内容によっては、検索エンジンに表示したくない場合もあります。
例えば、制作途中の未公開ページや、サイトのコンテンツとして必要だけれども、SEO的には低品質に該当するページなどです。
インデックスをさせないようにするためには、その前段階のクロールを制御する必要があります。
クロール制御にはいくつか方法がありますが、それぞれメリットとデメリットがあるため用途に応じて適切に使用する必要があります。
noindexタグを使う
noindexタグとは、HTMLのhead要素内に記述するメタタグに指定する属性のひとつでGoogleなどの検索エンジンで検索結果に表示させないようにします。
この方法はクロール制御ではなく、 インデックス登録しないという指示を与え、検索結果に表示されることを防ぎ、SEO評価対象外にします。
以下のようにhead要素内に記述してください。
noindexの記述方法
<meta name=”robots” content=”noindex”>
noindexが記述されているページをGoogle Search Consoleからインデックス登録リクエストすると、以下のように除外によるエラーとなります。
公開してはいけないページが検索に表示されてしまった後に、緊急で検索結果から削除したい場合には、Search Consoleの削除(URLの削除)を利用します。
ただし、このURLの削除は一時的に非表示にするための機能です。
インデックスから完全に削除するものではないので、ページ自体の削除やnoindexの設置など、検索に表示させないための他の措置を必ず併用してください。
robot.txtを使う
robot.txtは、検索エンジンのクローラーに対して、どのページやディレクトリをクロールするかを制御するためのテキストファイルです。
robot.txtでは、クロール自体を完全に拒否します。
noindexを設定してあるページでもクロールを止めてしまうため、検索エンジンはnoindex自体を検知できません。
そのため、インデックスを制御する目的にはあまり有効ではありませんので、注意して利用してください。
また、robot.txtの記述を間違えて、クロールすべきページのURLを記載してしまうなどのミスがあると、重要なページのクロールがブロックされ、一切検索されなくなるなどSEO上の大きな事故につながります。
Search Consoleのrobot.txtテスターでテストし、細心の注意を払って使用しましょう。
Basic認証を使う
Basic認証(ベーシック認証)とは特定ページやディレクトリにアクセス制限(パスワード認証)をかける方法です。
ページにパスワードを設定すると、検索エンジンはそのページをクロールできなくなります。
basic認証には、「.htaccessファイル」を利用する方法が一般的です。
この方法は手軽にアクセス制限ができますが、セキュリティとしては脆弱なものですので、簡易的なアクセス制限目的の利用にとどめ、重要な情報の保護目的には使わないことをお勧めします。
インデックスされない場合の対処法
通常は、Google Search Consoleでインデックスを管理しておけば問題ないことがほとんどですが、中にはなかなかインデックスされなかったり、インデックスされても検索結果に表示されなかったりするケースもあります。
こうしたケースでは、その原因がウェブサイト側にあるのか、検索エンジン側にあるのかを調査する必要があります。よくある原因を紹介します。
Search Consoleでインデックス登録リクエストは成功しているのに、検索結果に表示されない
新規記事の公開時に、インデックス登録リクエストは問題なく成功していて、カバレッジデータにもページの取得は成功と表示されているにもかかわらず、検索結果にはページが表示されず、site:コマンドで検索しても表示されないことがあります。
この場合考えられる要因としては
- ページの品質が低い
- ページの目的やトピックが曖昧で、インデックスの優先度を下げられている
- 重複コンテンツが存在する
などが考えられます。
Googleは毎日天文学的な数量のウェブページをクロールし、インデックスしていますが、インターネット上存在するすべてのウェブページをインデックスするのは不可能です。
そのため、Googleはインデックスすべき品質のコンテンツがあると判断されるページのみをインデックスの対象としています。
近年その品質基準はより厳格になってきていると考えられます。
まずはインデックスに値する、検索意図にも適した高品質なコンテンツ作成を心がけ、コンテンツの見直しをしてください。
品質基準を満たすことができれば、いずれ必ずインデックスされます。
まとめ
SEOを効果的に正しく行うには、どのように検索エンジンがページを検索結果に表示しているのか、そのしくみを理解し、検索エンジンに優しいコンテンツ作りやインデックス最適化といった内部対策がなによりもまず必要です。
また、できるだけ早くインデックスさせることも重要です。
Gyro-nでは、新規ページを公開するときはもちろん、コンテンツの細かな修正や過去記事のリライトをした際にも、必ずすぐにSearch Consoleからインデックス登録リクエストをし、クロール待機時間を節約して最速でインデックス更新させるようにしています。
自サイトのページが正しくインデックスされているかをしっかり確認し、SEO対策を進めてください。