3回シリーズでSEOの基本概念をご紹介してきましたが、今回パート3では、SEOについてより専門的な内容を掘り下げていきたいと思います。具体的には、ウェブサイトの「クローラビリティー」という概念をご紹介します。パート3では、検索エンジンの基本的なディレクティブの意味をはじめ、クライエントやサーバーが直面するエラー、それに対する各種ベストプラクティス、また開発者向けの資料などをお届けします。
オンページ要因のSEO についてご紹介したパート1 、リンクに関する最適化や関連ディレクティブについてご紹介したパート2も併せてご覧ください。

クローラビリティー
「クローラビリティー」という言葉を簡単に説明してみましょう。検索エンジン結果ページにウェブ上にある様々なページをクロールしてインデックス化するのが検索エンジンロボット(通常は「Googlebot」のようにボット/botと呼びます)の役目ですが、ボットがいかに簡単かつスムーズにページをクロールし、インデックス化することができるか、が「クローラビリティー」の意味です。
検索エンジンのボットが自社サイトをクロール/インデックスしやすいようにクローラビリティーを最大限に高め、クロールの際に発生するエラーの数を最小限にとどめるために、ウェブマスターや開発者が活用できるツールやベストプラクティスは各種あります。クローラビリティーの最大の目標は、スピードを速め、ボットによる各ページのクロール/インデックスをより正確に遂行できるよう後押しすることです。
検索エンジンの基本的ディレクティブ
ユーザーエージェント
ユーザーエージェントとは、ユーザーやプログラムのために働くソフトウェアの総称、あるいはこれに該当するウェブブラウザ(例:Chrome、Internet Explorer、Firefox)やユーザーを特定するための情報収集機能(例:ボット、クローラー、スパイダーなどの自動検索エンジンロボット)を指します。
ウェブ開発者やSEOの専門家は、ユーザーエージェント スイッチャーというものを使用して、ブラウザのユーザーエージェントを切り替え、別の検索エンジンロボットがクロールした場合サイトがどのように表示されるのかテストします。ブラウザのユーザーエージェント切り替えには、専門的な技術を要します。
検索エンジンロボットとそれに対応するブラウザを以下にご紹介します。
- Chrome用のGooglebot
- Bing用のBingbot
- Yahoo!用の Slurp
- MSN/Live用のMSNbot
各種ブラウザがモバイル端末でどのように表示されるのか調べるために、上記以外にもウェブ開発者が使用できるユーザーエージェントやスイッチャーは沢山あります。必要に応じてカスタムのユーザーエージェントを使用することもできます。より規模が大きく複雑な構造のウェブサイトではカスタムのユーザーエージェントを使用するケースが多いです。
リダイレクト
その他に是非知っておきたい検索エンジンのディレクティブにリダイレクトがあります。リダイレクトはあるウェブページURLを別のウェブページURLに転送し、サイトを訪問するビジターや検索エンジンロボットを適切なウェブページに誘導することができます。最もよく使用されているのが301リダイレクトと302リダイレクトです。
- 301リダイレクト
301とは、恒久的なリダイレクトを意味するウェブページのHTTPステータスコード(HTTPステータスコードについては後程詳しくご紹介します)を指します。301リダイレクトを設定することによって、元ページのリンクジュースを無駄にせずPageRankを新しいページに受け継ぐことができるため、ウェブページを移転する際には301リダイレクトを設定することをお勧めします。 - 302リダイレクト
恒久的な301リダイレクトとは対照的に302は一時的なリダイレクトを促すHTTPステータスコードです。PageRankは受け継がれませんので、通常この手法を用いることはお勧めしません。
エラーとベストプラクティス
ウェブサイトのパフォーマンスを危険にさらすようなよくある問題は各種あり、その中には解決策が中々見つからない問題もあり、結果的にユーザーエクスペリエンスの低下につながってしまいます。ウェブサイトのパフォーマンスに悪影響を与える典型的な問題としていくつか挙げると、ウェブサーバーのグリッチや、リダイレクトの設定ミス、壊れたリンク、ページ表示にかかる時間が遅い、重複したコンテンツ、複数のURLが存在する、などがあります。
幸いにもこれらの問題への対処法は確実に存在します。そこでここからは、典型的な問題に対してどのような対処をとるのが推奨されるかの問題とベストプラクティスを一緒にご紹介します。
エラーとHTTPステータスコード
エラーに対するHTTPステータスコードは、100番台から500番台まで各種様々あり、ステータスコードによって、検索クエリに対する5種類の反応を表します。
最もよく目にするHTTPステータスコードは、300番台のリダイレクト(前述)をはじめ、400番台のクライエントにおける処理エラー(ウェブサイト運営者)、500番台のサーバーエラー、444番のノーリスポンスなどがあります。
各種あるHTTPステータスコードの中でもとりわけよく目にするのは「404 Not Found」のエラーメッセージでしょう。404番は、リクエストされたページURLが見当たらなかったことを意味します。通常このようなエラーメッセージが表示されるのは、リンクが壊れていたり、機能していなかったりする場合です。このような場合は、カスタム404ページを作成し、検索ユーザーに表示されるよう設定することによって、わかりやすくその後の手順を指示することができます。
400番台のエラーでその次によく目にするのは、「444 No Response」です。これは、サーバーから返答がなく、接続が切断されたことを意味します。通常マルウェア対策の結果である可能性が高いです。
500番台のサーバーエラーを表すレスポンスコードは、サーバーが何らかのエラーが発生しており、ユーザーのリクエストに応えることができない状態であることを表します。500番台のレスポンスコードには全部で18種類あります。内部サーバーにエラーがあることを表す「500 Internal Server Error」から「504 Gateway Timeout」まで各種ステータスコードがあります。
リンクやHTTPヘッダーの正規化
ウェブページにアクセスする際、複数のHTTPヘッダー(URL)を介しているような場合や、別の場所で作成/公開されたコンテンツがある場合、または重複したコンテンツがある場合は、「正規化」することをお勧めします。正規化とは、自社コンテンツに対する単一のウェブページURLを定義することを意味します。正規化することによって、リンクとランキング状況を強化することができ、結果的に検索ビジビリティーを高めることに繋がります。
正規化には複数の方法があります。例えば、 HTTPヘッダーに内に正規化リンクを指定する方法については、ダウンロード可能のホワイトペーパーやPDFで参照可能です。正規化の方法の詳細については、 Googleのウェブマスターヘルプフォーラムをご参照ください。
また、BrightEdgeのContentIQ を活用することによって、サイトをクロールして400番台、500番台のエラーを特定し、早急に対処することができます。
サイトスピード
サイトスピードは、Googleの検索ランキングを決定するアルゴリズムが参照する重要要素だと考えられています。それに加えて、同社が掲げるモバイルフレンドリー戦略に伴って、より早いインターネット体験ができるサイト構築が求められているため、ウェブマスターらはページのローディングにかかる時間の短縮に努めなければなりません。
サイトマップ
XMLサイトマップとは、サイト上にあるウェブページを、XMLタグを使用してリストアップしたものを指します。XMLタグとは、「Extensible Markup Language(エクステンシブル マークアップ ランゲージ」の略語で、ウェブサイトの構造を記述することができます。XMLサイトマップを検索エンジンに提出することによって、自社サイト上のページを検索エンジンボットが生活かつ素早くクロール/インデックスすることができます。XMLサイトマップについては、BrightEdgeで過去にご紹介したこちらの記事をご覧ください。
リソースおよびツール
SEO関連の重要用語をご紹介した今回の記事では、サイトのクローラビリティーを最適化する方法について基本的事項についてご紹介しましたが、さらに詳細に掘り下げてクローラビリティー最適化についての情報をお求めの場合は、BrightEdgeのContentIQをはじめ、Google Webmaster Toolsや、Webmaster Central Help Forumなどをご活用ください。
3回シリーズでSEO基本事項をご紹介しましたシリーズ記事が皆さんのSEO学習のお役に立つことができれば幸いです!