Semaltはボット、スパイダー、クローラーの扱い方に関するヒントを提供します

検索エンジンにわかりやすいURLを作成する以外に、.htaccessファイルを使用すると、ウェブマスターは特定のボットがWebサイトにアクセスするのをブロックできます。これらのロボットをブロックする1つの方法は、robots.txtファイルを使用することです。ただし、 Semaltカスタマーサクセスマネージャーのロスバーバー氏は、一部のクローラーがこのリクエストを無視しているのを見たと述べています。最良の方法の1つは、.htaccessファイルを使用して、コンテンツのインデックス作成を停止することです。
これらのボットは何ですか?
これらは、インデックス作成のためにインターネットから新しいコンテンツを削除するために検索エンジンで使用されるソフトウェアの一種です。

次のタスクを実行します。
- リンクしたWebページにアクセスします
- エラーについてHTMLコードを確認する
- リンク先のWebページを保存し、コンテンツにリンクしているWebページを確認します
- 彼らはあなたのコンテンツにインデックスを付ける
ただし、一部のボットは悪意のあるものであり、不要なメッセージやスパムの送信に通常使用されるメールアドレスとフォームをサイトで検索します。コードのセキュリティホールを探す人もいます。
Webクローラーをブロックするには何が必要ですか?
.htaccessファイルを使用する前に、次のことを確認する必要があります。
1.サイトがApacheサーバーで実行されている必要があります。最近では、仕事の半分ほどのWebホスティング会社でも、必要なファイルにアクセスできます。
2. Webページにアクセスしたボットを特定できるように、Webサイトの生サーバーログにアクセスできる必要があります。
有害と思われるボットをすべてブロックしない限り、すべてのブロックをブロックできない限り、役立つと思われるものもブロックできないことに注意してください。新しいボットが毎日登場し、古いボットは変更されています。最も効率的な方法は、コードを保護し、ボットがスパムを送信しにくくすることです。
ボットの特定
ボットは、IPアドレス、またはHTTPヘッダーで送信する「ユーザーエージェント文字列」から識別できます。たとえば、Googleは「Googlebot」を使用しています。
.htaccessを使用したくないボットの名前がすでにある場合は、302ボットでこのリストが必要になることがあります。
別の方法は、サーバーからすべてのログファイルをダウンロードし、テキストエディターを使用してそれらを開くことです。サーバー上のそれらの場所は、サーバーの構成によって異なる場合があります。それらが見つからない場合は、Webホストに支援を求めてください。

訪問したページや訪問時刻がわかっている場合は、不要なボットを簡単に入手できます。これらのパラメーターを使用してログファイルを検索できます。
一度、ブロックする必要のあるボットを確認しました。その後、それらを.htaccessファイルに含めることができます。ボットをブロックするだけではそれを止めることはできないことに注意してください。新しいIPまたは名前が返される場合があります。
それらをブロックする方法
.htaccessファイルのコピーをダウンロードします。必要に応じてバックアップを作成します。
方法1:IPによるブロック
このコードスニペットは、IPアドレス197.0.0.1を使用してボットをブロックします
注文拒否、許可
197.0.0.1から拒否
最初の行は、サーバーが指定したパターンに一致するすべてのリクエストをブロックし、他のすべてを許可することを意味します。
2行目は、403:禁止ページを発行するようサーバーに指示しています
方法2:ユーザーエージェントによるブロック
最も簡単な方法は、Apacheの書き換えエンジンを使用することです
RewriteEngine On
RewriteCond%{HTTP_USER_AGENT} BotUserAgent
RewriteRule。 -[F、L]
最初の行は、書き換えモジュールが有効になっていることを確認します。 2行目は、ルールが適用される条件です。 4行目の "F"はサーバーに403:Forbiddenを返すように指示しますが、 "L"はこれが最後のルールであることを意味します。
次に、.htaccessファイルをサーバーにアップロードし、既存のファイルを上書きします。時間の経過とともに、ボットのIPを更新する必要があります。エラーが発生した場合は、作成したバックアップをアップロードしてください。