スタッフブログ

robots.txtファイルとは?設定方法と注意点

2024.05.07.

SEO

ホームページ制作

これから重要なSEO対策の話

ウェブサイトを適切に運営するためには、検索エンジンに情報を正しく伝える必要があります。そのための重要なファイルが、robots.txtです。本記事では、robots.txtファイルの概要、設定方法、注意点について解説します。

1 robots.txtファイルとは
2 robots.txtの設定方法
- 2.1 基本的な記述方法
3 コメントアウトの方法
4 サイトマップの指定
5 robots.txtの注意点
6 おわりに
7 関連記事

robots.txtファイルとは

robots.txtは、ウェブサイトのルートディレクトリに設置するテキストファイルです。このファイルには、検索エンジンのクローラーに対するアクセス許可やクロール対象から除外するパスなどの指示を記述します。検索エンジンは、サイトにアクセスする際にまずこのファイルを参照し、そこに書かれた指示に従ってクロールを行います。

robots.txtファイルは、検索エンジンとウェブサイト運営者との「合意」の役割を果たしています。ウェブサイト側が検索エンジンに対して許可や制限を設定し、検索エンジン側はそれを尊重することで、スムーズな情報収集が可能になります。適切にこのファイルを設定することで、検索エンジンの負荷軽減やプライバシー保護、不要なリソースのクロール防止など、様々なメリットがあります。

コンテンツマップを作成する

robots.txtの設定方法

robots.txtファイルの設定は、テキストエディタを使って行います。まずは、ウェブサイトのルートディレクトリ直下に「robots.txt」という名前のファイルを新規作成します。

基本的な記述方法

ファイルの内容は、以下のような形式で記述します。

User-agent: *
Disallow: /directory/
Allow: /directory/file.html

(User-agent)行に続く値は、インストラクションの対象となるクローラーを指定します。(*)を指定すると、すべてのクローラーに指示が適用されます。特定の検索エンジンに指示する場合は、そのクローラー名を記述します(例: Googlebot)。
(Disallow)行では、クロール対象から除外するディレクトリやファイルのパスを指定します。
(Allow)行では、除外対象から外すディレクトリやファイルのパスを指定します。
パスの記述には、相対パスと絶対パスのどちらも使用可能です。ただし、相対パスの場合はルートディレクトリからの相対パスになります。

上記の例では、すべてのクローラーに対して(/directory/)ディレクトリ以下をクロール対象から除外する一方、(/directory/file.html)ファイルに関してはクロールを許可するよう指示しています。

コメントアウトの方法

(#)記号から始まる行はコメント行として扱われ、検索エンジンは無視します。コメントを残すことで、設定内容を後から確認しやすくなります。

# すべてのクローラーに適用
User-agent: *

# /sample/ ディレクトリ以下をクロール対象外に
Disallow: /sample/

# ただし、index.htmlへのアクセスは許可
Allow: /sample/index.html

# プライバシー情報があるため除外 
Disallow: /private/

サイトマップの指定

robots.txtファイルには、サイトマップのURLを記載することもできます。サイトマップには、ウェブサイト内の重要なページがまとめられているため、検索エンジンがそれらのページを適切にクロールできるようになります。

Sitemap: https://example.com/sitemap.xml

robots.txtの注意点

robots.txtは非常に重要なファイルですので、設定を誤るとウェブサイト全体の検索パフォーマンスに影響を与えかねません。以下の点に注意が必要です。

誤って全てをクロール対象外にしない

(Disallow: /)と記述すると、ウェブサイト全体がクロール対象外となってしまいます。検索エンジンにコンテンツが認識されなくなるため、アクセス数が激減する可能性があります。誤設定には十分注意が必要です。

大文字小文字の区別

パスの大文字小文字は区別されます。例えば(Disallow: /SAMPLE/)とした場合、(/sample/)ディレクトリはクロール対象から除外されません。

継承されるルール

サブディレクトリに対する指示がない場合、親ディレクトリのルールが継承されます。例えば、(Disallow: /sample/)と指定し、さらに(Allow: /sample/public/)とした場合、(/sample/public/)ディレクトリ以外の(/sample/)配下は全てクロール対象外となります。

複数のUser-agentグループを指定可能

(User-agent)ごとに異なるルールを設定することも可能です。

User-agent: Googlebot
Disallow: /wordpress/

User-agent: *
Allow: /

この例では、Googlebotに対してはWordPressディレクトリをクロール対象外とし、その他のクローラーにはサイト全体をクロール可能にするよう指示しています。

ファイルサイズの制限

robots.txtファイルは基本的に1ファイルあたり最大約32KBまでの容量しかサポートされていません。容量を超えた場合、検索エンジンは一部の内容を無視する可能性があります。

おわりに

本記事では、robots.txtファイルの概要、設定方法、注意点について解説しました。robots.txtファイルは、ウェブサイトと検索エンジンとのスムーズなやり取りを実現するための重要なファイルです。適切な設定を行うことで、検索エンジン経由の集客力向上が見込めます。

ウェブサイトの構築や運営で分からないことがあれば、大阪のウェブサイト制作会社TREVOにご相談ください。経験豊富なスタッフがお客様のニーズに合わせた最適なソリューションをご提案いたします。

大阪のホームページ制作会社TREVOでは、ホームページ制作に関する情報を掲載しています。最短2日で仮サイトを公開するサービスやSEO対策に特化したホームページ制作、オリジナルホームページデザイン、ライティング、リスティング広告、WEBマーケティングなどのサービスをご紹介しています。

板浪雅樹

経歴：映像制作の専門学校を卒業後、映像制作(編集・撮影)でのアシスタント、カーナビゲーション用の3DCG制作、PS2用の3DCGゲーム背景制作、16ミリフィルムのデジタル変換業務等を経てWEB制作部門のある会社に就職。株式会社TREVOでディレクション、SEO対策、CMS開発、3DCG制作、映像制作を担当