タグ

robots.txtに関するhxxkのブックマーク (4)

  • The Web Robots Pages

    A Standard for Robot Exclusion Table of contents: Status of this document Introduction Method Format Examples Example Code Author's Address Status of this document This document represents a consensus on 30 June 1994 on the robots mailing list ([email protected]), between the majority of robot authors and other people with an interest in robots. It has also been open for discussion on the

  • はてなアイデア

    はてなアイデア サービス終了のお知らせ 平素より「はてなアイデア」をご利用いただき、ありがとうございます。 要望窓口サービス「はてなアイデア」は2013年7月31日(水)をもちまして終了いたしました。8年にわたる試験運用にご協力いただき、ありがとうございました。 これまでご利用いただきましたユーザーの皆さまに深く感謝いたします。 誠にありがとうございました。 詳しくは下記をご覧ください。 http://hatena.g.hatena.ne.jp/hatenaidea/20130731/1375250394

    hxxk
    hxxk 2006/06/14
    <q>はてなアンテナと同様の仕様にしています。(中略)これはレンタルサーバなどで /robots.txt を設置できない方のためです。</q>ええー
  • drry+@-> HatenaScreenshot/1.0

    HatenaScreenshot/1.0 URL で指定したサイトのスクリーンショットをサムネイル化してくれる、はてなスクリーンショットというサービスがあります。今のところ、はてなのユーザでないと自由に使うことはできません。はてなの他サービスとも連携して要所要所で利用されています。同様のサービスでは Simple API などが有名です。 はてなスクリーンショットは /robots.txt による拒否に従ってくれるのですが、その際に何故か UA 文字列 HatenaScreenshot/1.0 (checker) の bot が対象 URL の下位ディレクトリから順に robots.txt の存在を確認してゆきます。例えば http://www.example.com/1/2/3.html を撮影すると http://www.example.com/1/2/robots.txt http:

    hxxk
    hxxk 2006/06/14
    <q>存在するはずのない robots.txt を探られます。疑問に感じたので要望してみると「同社の別サービスはてなアンテナのルールに準拠している」という旨の回答が得られ、要望は即却下されました。</q>
  • drry+@-> yahooseeker-jp-mobile

    二週間ほど前から、Y!JAPAN のモバイル版クローラを目にするようになりました。UA 文字列は DoCoMo/2.0/SO502i (compatible; Mozilla 4.0; MSIE 6.0; yahooseeker-jp-mobile AT Yahoo!JAPAN) です。 で、それが何だという話ですが、お行儀が悪いというお話です。/robots.txt で除外しているクロールして欲しくないファイルを、一日数回という異様に少ない頻度でポツポツと取得しに着ます。そもそも /robots.txt を読んでいません。アドホックな対処はあまりしたくないですけど、仕方がないのでとりあえずホスト単位で弾いてます。今のところ、ホストアドレスが隣合って連続している 2 つのホストでこのクローラが動いているようです。まだ始まって間もないと思うので、ゆくゆくは改善されるはず、と期待して様子見です

    hxxk
    hxxk 2006/06/14
    <q>/robots.txt で除外しているクロールして欲しくないファイルを、一日数回という異様に少ない頻度でポツポツと取得しに着ます。そもそも /robots.txt を読んでいません。</q>
  • 1