ウェブサイトを適切に運営するためには、検索エンジンに情報を正しく伝える必要があります。そのための重要なファイルが、robots.txtです。本記事では、robots.txtファイルの概要、設定方法、注意点について解説します。
目次
robots.txtファイルとは
robots.txtは、ウェブサイトのルートディレクトリに設置するテキストファイルです。このファイルには、検索エンジンのクローラーに対するアクセス許可やクロール対象から除外するパスなどの指示を記述します。検索エンジンは、サイトにアクセスする際にまずこのファイルを参照し、そこに書かれた指示に従ってクロールを行います。
robots.txtファイルは、検索エンジンとウェブサイト運営者との「合意」の役割を果たしています。ウェブサイト側が検索エンジンに対して許可や制限を設定し、検索エンジン側はそれを尊重することで、スムーズな情報収集が可能になります。適切にこのファイルを設定することで、検索エンジンの負荷軽減やプライバシー保護、不要なリソースのクロール防止など、様々なメリットがあります。
robots.txtの設定方法
robots.txtファイルの設定は、テキストエディタを使って行います。まずは、ウェブサイトのルートディレクトリ直下に「robots.txt」という名前のファイルを新規作成します。
基本的な記述方法
ファイルの内容は、以下のような形式で記述します。
User-agent: *
Disallow: /directory/
Allow: /directory/file.html
- (User-agent)行に続く値は、インストラクションの対象となるクローラーを指定します。(*)を指定すると、すべてのクローラーに指示が適用されます。特定の検索エンジンに指示する場合は、そのクローラー名を記述します(例: Googlebot)。
- (Disallow)行では、クロール対象から除外するディレクトリやファイルのパスを指定します。
- (Allow)行では、除外対象から外すディレクトリやファイルのパスを指定します。
- パスの記述には、相対パスと絶対パスのどちらも使用可能です。ただし、相対パスの場合はルートディレクトリからの相対パスになります。
上記の例では、すべてのクローラーに対して(/directory/)ディレクトリ以下をクロール対象から除外する一方、(/directory/file.html)ファイルに関してはクロールを許可するよう指示しています。
コメントアウトの方法
(#)記号から始まる行はコメント行として扱われ、検索エンジンは無視します。コメントを残すことで、設定内容を後から確認しやすくなります。
# すべてのクローラーに適用
User-agent: *
# /sample/ ディレクトリ以下をクロール対象外に
Disallow: /sample/
# ただし、index.htmlへのアクセスは許可
Allow: /sample/index.html
# プライバシー情報があるため除外
Disallow: /private/
サイトマップの指定
robots.txtファイルには、サイトマップのURLを記載することもできます。サイトマップには、ウェブサイト内の重要なページがまとめられているため、検索エンジンがそれらのページを適切にクロールできるようになります。
Sitemap: https://example.com/sitemap.xml
robots.txtの注意点
robots.txtは非常に重要なファイルですので、設定を誤るとウェブサイト全体の検索パフォーマンスに影響を与えかねません。以下の点に注意が必要です。
誤って全てをクロール対象外にしない
(Disallow: /)と記述すると、ウェブサイト全体がクロール対象外となってしまいます。検索エンジンにコンテンツが認識されなくなるため、アクセス数が激減する可能性があります。誤設定には十分注意が必要です。
大文字小文字の区別
パスの大文字小文字は区別されます。例えば(Disallow: /SAMPLE/)とした場合、(/sample/)ディレクトリはクロール対象から除外されません。
継承されるルール
サブディレクトリに対する指示がない場合、親ディレクトリのルールが継承されます。例えば、(Disallow: /sample/)と指定し、さらに(Allow: /sample/public/)とした場合、(/sample/public/)ディレクトリ以外の(/sample/)配下は全てクロール対象外となります。
複数のUser-agentグループを指定可能
(User-agent)ごとに異なるルールを設定することも可能です。
User-agent: Googlebot
Disallow: /wordpress/
User-agent: *
Allow: /
この例では、Googlebotに対してはWordPressディレクトリをクロール対象外とし、その他のクローラーにはサイト全体をクロール可能にするよう指示しています。
ファイルサイズの制限
robots.txtファイルは基本的に1ファイルあたり最大約32KBまでの容量しかサポートされていません。容量を超えた場合、検索エンジンは一部の内容を無視する可能性があります。
おわりに
本記事では、robots.txtファイルの概要、設定方法、注意点について解説しました。robots.txtファイルは、ウェブサイトと検索エンジンとのスムーズなやり取りを実現するための重要なファイルです。適切な設定を行うことで、検索エンジン経由の集客力向上が見込めます。
ウェブサイトの構築や運営で分からないことがあれば、大阪のウェブサイト制作会社TREVOにご相談ください。経験豊富なスタッフがお客様のニーズに合わせた最適なソリューションをご提案いたします。
関連記事
- SEO対策でコンテンツ作成する時はE-E-A-Tを理解する事が重要-2023年これから重要なSEOの重要な話|SEO対策の話 第1回
- SEO対策を考えたコンテンツってどんなコンテンツ?|SEO対策の話 第2回
- SEO対策で効果的な戦略と技術|SEOの話-第3回
- 記事作成時のチェックリスト|SEO対策の話 第4回
- キーワードリサーチの重要性と実践方法|SEO対策の話 第5回
- メタ情報とは何か?SEO対策に欠かせないメタ情報の役割と設定方法|SEO対策の話 第6回
- SEO対策のためのメタ情報とコンテンツの相互関係|SEO対策の話 第7回
- ロングテールキーワード戦略でターゲット化されたトラフィックの獲得|SEO対策の話 第8回
- サイトのクロールとインデックス化を理解しよう|SEO対策の話 第9回
大阪のホームページ制作会社TREVOでは、ホームページ制作に関する情報を掲載しています。最短2日で仮サイトを公開するサービスやSEO対策に特化したホームページ制作、オリジナルホームページデザイン、ライティング、リスティング広告、WEBマーケティングなどのサービスをご紹介しています。
関連の記事
- TREVOWP
- 衣川知秀