Apache ManifoldCF
Apache ManifoldCF は、OSSのクローラです。Apacheだと、他にもクローラとしてNutchがありますが、NutchがWEBのクローラに特化しているのに対して、ManifoldCFは、コネクタによる入出力によって、WEBだけではなく、単なるディレクトリやSharePoint、JDBC、RSSなど、いろいろなところから情報を集めてくることができます。逆にNutchの方が、一般的なWEB検索システムに近いように見えます。(Nutchも触ってみたいと思っているので、実際触ってみると、もっと違いが見えてくるのかもしれません…)
インストール環境
CentOS 6.5 にインストールしました。(Vagrantのchef/centos-6.5のboxを使っています)
JavaはOpenJDKの1.7をインストール済みです
インストール手順
ManifoldCFの最新は2.0となっていますが、安定している方ということで、1系の最新である1.8を使用しました。
実行ファイルをダウンロードし、解凍します。
[root@localhost ~]# wget http://apache.cs.utah.edu/manifoldcf/apache-manifoldcf-1.8/apache-manifoldcf-1.8-bin.tar.gz
--2015-01-24 08:23:28-- http://apache.cs.utah.edu/manifoldcf/apache-manifoldcf-1.8/apache-manifoldcf-1.8-bin.tar.gz
Resolving apache.cs.utah.edu... 155.98.64.87
Connecting to apache.cs.utah.edu|155.98.64.87|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 195089954 (186M) [application/x-gzip]
Saving to: “apache-manifoldcf-1.8-bin.tar.gz”
100%[======================================================>] 195,089,954 7.01M/s in 2m 1s
2015-01-24 08:25:30 (1.54 MB/s) - “apache-manifoldcf-1.8-bin.tar.gz” saved [195089954/195089954]
[root@localhost ~]# tar -zxvf apache-manifoldcf-1.8-bin.tar.gz
[root@localhost ~]# cd apache-manifoldcf-1.8/
example配下のstart.jarで、サーブレットコンテナ(Jetty)として起動できるようになっているので、起動してみます。
[root@localhost ~]# cd apache-manifoldcf-1.8/example/
[root@localhost example]# java -jar start.jar
[main] INFO org.eclipse.jetty.server.Server - Started @10869ms
Jetty started.
Starting crawler...
下記のURLにアクセスすると、ManifoldCFの管理画面を参照できます。
後は画面から収集先などを設定するのと、出力先の設定をする必要がありますが、それはまた次の機会に書く予定です。