読者です 読者をやめる 読者になる 読者になる

Get URLs を公開しました

[programming]
スポンサーリンク

指定したURL配下のURL一覧を取得できるサービスを公開しました。

例えば、"http://d.hatena.ne.jp/onozaty/" と入れると、配下のURL一覧として下記のようなテキストが取得できます。

http://d.hatena.ne.jp/onozaty/
http://d.hatena.ne.jp/onozaty/20060122/p2
http://d.hatena.ne.jp/onozaty/20060202/p1
http://d.hatena.ne.jp/onozaty/20060212/p1
http://d.hatena.ne.jp/onozaty/20060224/p1

このURLは、はてなブックマークLivedoorクリップRSSから収集しています。
上記の"http://d.hatena.ne.jp/onozaty/"を例とすると、収集対象のRSSは下記になります。

上から6つ(人気、注目のフィード)は、初回のみ収集し、それ以降は下の3つ(新着のフィード)から収集し、URL一覧を更新していきます。
URL一覧の更新は、URL一覧を取得時に行っており、システム側で定期的に収集はしていません。他のサービスから定期的にアクセスしてもらうことにより、URL一覧が継続的に更新されていくイメージでいます。
したがって、最初は多くても100件くらいにしかなりませんが、時を重ねる&使い込むにつれ、URL一覧が増えていくような感じになります。


これを作ったのは、del.icio.usで自分のサイトに対する言及をRSSで抜き出すために、自分のサイトのURL一覧が欲しかったためです。

最初は、Yahooの検索API使って取ってみたのですが、ゴミのようなURLも抜き出されてしまう&1000件までしか取れない(しかも順位が微妙で1000件以降に重要なURLが隠れてしまいそう)ので、このような形式を取ることにしました。


なお、もともとJavaで実装したのですが、Java動かせるサーバ持っていなかったので、Rubyで書き直しています。(Rubyで100行くらい)
とりあえずちゃんと動いてそうですが、まだまだ不具合があるかもしれませんので、使用される場合にはご了承ください。