Curlie

Robozillaって誰?カテゴリに何をするの?

Robozillaは、Curlieディレクトリに登録されているすべてのサイトを定期的に訪問するプログラムでした。ページが移動されたり、見つからない場合は、Robozillaまたはその他の品質管理プログラムが通知します。ページが見つからない理由は様々であり、その理由に応じてソフトウェアは異なるアクションを実行します。

Robozillaエラーにはどう対処すべきか

まず、シャーロックホームズになって、なぜURLが反応しないのか探し出してください。こちらが「問題と対策」です。

問題対処法
URLのスペルミス エディッタが間違えたURLを入力したのでしょう。URLを直してください。また、よくあるファイル名を追加もしくは削除してみてると直ることがあります。
(例)default.html、default.htm、default.asp、index.html、index.htm、index.cgi、index.mv、index.asp、main.html、main.htmなど。
アクセスしてみたらつながった Robozillaがアクセスしたときにたまたまサーバーがダウンしていたのかもしれません。「このURLを見てみたら問題ありません。エラーを解除。」ボタンをクリックしてください。
サイトが消えている そのページはどこかに移動したのかもしれませんので探し出してください。Google のキャッシュファイルを見てみると新しい場所が書いてあるかもしれません。また、GoogleもしくはGooでそのサイトのタイトルかサイト特有のキーワードを使って新しいURLが登録されていないか確認してください。
サイトが消えていて、探したけれどどこにあるか突き止められなかった カテゴリの「未レビュー」セクションに移動し、1週間待って、再び表示されるかどうかを確認します。表示されず、カテゴリ内の他のサイトと比べて特に目立つ情報も含まれていない場合は、削除しても構いません。削除するのが惜しい情報が含まれている場合は、将来のために「未レビュー」セクションに残しておきましょう。

エラーコードの意味

Curlie には主に 2 種類のエラー コードがあります。コードが正(プラス)100以上のエラーはHTTPプロトコルのエラーです。この場合、Robozilla はサーバーと通信をしましたが、何らかの理由により指定のファイルを開けませんでした。

負(0未満)のエラーコードはサーバーの接続に失敗したエラーです。URLのスペルが間違っていたのかもしれませんし、ネットワークの接続がうまくいかなかった、もしくはサーバーが一時的にダウンしていたということが考えられます。

こちらはよくあるRobozillaのエラーのリストです。 もしこちらに該当のエラーがない場合は全エラーコードリスト(英語)を参照してください。

コード意味
500 サーバーエラー サーバーの設定ミス、PHPスクリプトのバグなどで時々発生します。普通これらは一時的なものですぐ直りますが、ディレクトリに戻す前に一応確認してください。
410 消去済み アカウントがプロバイダ解約などのために存在しません。
404 見つかりません ファイルがサーバーに存在しません。削除されたのでしょう。
403 禁制領域 サーバーの過剰な負荷などの理由で設定が変更され、このディレクトリは見られないようになっています。
401 要認証 このディレクトリにあるファイルは見ることができません。接続にパスワードが必要になったか、もしくはページが移動したのでしょう。
400 不正なリクエスト 一般的にURLにスペースやそのほかの使えない記号を使っている場合に起こります。スペースを%20に変更してみて、エラーが無くなるか見てみてください。
302 恒久的転送設定 このページは新しいURLに移動しました。Curlieの登録を新しいURLに更新してください。
301 暫定的転送設定 このページは暫定的に新しいURLに移動しました(決まりとしては暫定的なときのみに使われるようになっていますが、実際には302エラーと同じように使われています)。Curlieの登録を新しいURLに更新してください。
0 不明なエラー DNS(ネームサーバー)のエラーの可能性があります。
-1 ホスト名が見つかりません ホスト名にタイプミスがあるか、所有者がドメイン登録料を払っていないためだと思われます。
-4 接続できません HTTPサーバーに接続できませんでした。サーバー自体は存在するのですが、Robozillaの使用するポートを使っての通信を拒否されました。
-5 時間切れ Robozillaはサーバーに接続でき、リクエストまでは送ったのですが、ページを受信するまでに時間切れとなりました。これは重いサーバーで時々発生することです。
-6 不正なURL URLの形式が正しくありません。もしかしたらhttp://が入力されていないのかもしれません。
【注意】 http://のないURLで「編集」ボタンを押すと編集画面が表示され、Curlieのプログラムが自動的にhttp://を追加するためにきちんとURLにはつながりますが、「更新」ボタン(「このURLを見てみたら問題ありません。エラーを解除。」ボタンではありません)をクリックしないと実際にはエラーは訂正されません。
-7 サーバーエラー サーバーが不明なエラーコードを返してきました。おそらくページは正常に表示されるでしょうが、念のために確認してください。
-8 ドメイン名の期限切れ ドメイン登録の期限が切れています。
ドメインは機能していないか、パークされている(一般的な広告リンクのページが表示されている)か、ハイジャックされている(新しい所有者が、広告や検索エンジン最適化など、サイトを別の目的で使用している)か、以前の所有者によって回収されている可能性があります。
このコードでマークされたサイトのwhois情報を確認し(例:domaintools.comを使用)、再公開する前に、リストに記載されているとおりにコンテンツが最新の状態であることを確認してください。
GDPRやその他のプライバシー対策により、whoisサービスでは所有者の名前が表示されなくなりましたが、問題のサイトが他の何千ものサイトと同じサーバー上にある場合は、多くの場合、パークされていることを意味します。
一部のパーキングスキームは、元のサイトと同様のスタイルのコンテンツを再作成しますが、それでもリストに載せることはできないとみなされます。
本質的には、それらは現在MFAサイトである。

エラー リストにも フラグが付けられている場合 (多くの場合、自動フラグを使用)、これらもクリアする必要があります。理想的には、修復されたリストを公開する直前、または修復不可能なリストを削除する直前にクリアする必要があります。

リンクチェックに関して質問、コメント、フィールドバックなどがありましたらrobozillaに連絡してください。ただ、Robozillaは英語しか使えませんので日本語でのお問い合わせはフォーラムへどうぞ。