301誘導してても古いRSSへのアクセスは途絶えないものだという件

検索エンジン3社、正しいサイトURLを認識させるcanonical属性を導入(URLの正規化) :: SEM リサーチを試していて、その関係で、自分のサイトのRSSがどのように参照されているかをちょっと調べてみたのだが、古いRSSへのアクセスが結構いまだに残っているものだと再認識した。

このサイトのRSShttp://diary.mrmt.net/rssなのだが、当初別のWeb日記システム (TDS)を使っていたり、そんなこんなでかれこれ9年運用しているこのサイトのRSSのURLは、いままで以下のような変遷をたどっている。

これら古い文書へのアクセスに対しては301 Moved Permanentlyhttp://diary.mrmt.net/rssを案内しているから、こちらとしては充分canonicalな誘導をしている。具体的にはRedirect permanentしている。

また、これらのURLは、すべて3年以上昔のものである。つまり、かれこれ3年以上、新しいURLに 301 で誘導しつづけている。

で、むかしma.la氏がamebloに対して怒っていたように、気の利いたRSS feederなら、いつまでも古いURLにアクセスしつづけたりなどしないものだと。

とはいえ、実際はそうでもないようだ。この一週間、過去7日の、これら obsolete な RSS URL に対するアクセスを、user agent ごとにざっくり集計してみた結果。
あきらかに単なるcrawlerだろ、ってのは除外してます。いかにもRSS feederと思われるものだけカウント。ある程度 UA は同一視して数えてます。同一視するために違いを無視したところが「...」のところです。

264 Feedfetcher-Google; (+http://www.google.com/feedfetcher.html; ...

66 Mozilla/4.0 (compatible; MSIE 6.0; ...

64 livedoor FeedFetcher/0.01 (http://reader.livedoor.com/; ...

41 YahooFeedSeekerJp/2.0 ...

29 Modiphibot/0.91 (http://www.modiphi.com/; ...

21 Biz360 spider (blogsmanager@biz360.com; http://www.biz360.com)

16 Mozilla/5.0 ... Firefox/3.0....

3 Mozilla/5.0 ... Thunderbird/2.0.0.19

3 Hatena RSS/0.3 (http://r.hatena.ne.jp; ...

1 Labrador/0.2; http://ir.dcs.gla.ac.uk/labrador; craigm@dcs.gla.ac.uk

古いRSS URLって、なかなか廃止はできないもんだなあ。

それと

64 livedoor FeedFetcher/0.01 (http://reader.livedoor.com/; ...

まあみんないろいろあるさ。

ちなみに、ただしくhttp://diary.mrmt.net/rss文書が取得されているのは6229回。

あと論外として、

GET /もげ/rss

GET /ふが/ほげ/rss

とか、とりあえずその辺にRSSが落ちていないかなとか、あるいは

<link rel="alternate" type="application/rss+xml" title="RSS" href="/rss" />

のparseもロクにできない
Baiduspider+(+http://help.baidu.jp/system/05.html)
のようなクズもいるが、当然こんなものはそもそもアクセス自体denyしているので関係ない。