2012-01-05 5 views
1

私は、Javaベースのクローラで作業しています。クローラがクラッシュした場合は、クローラが停止した時点から前回のクロールを開始できるようにする必要があります。クローラアプリケーション用DBシステム

この目的のために、すべてのアウトリンク(任意のページにあるリンク)をデータベースに保存する必要があります。私はどのデータベースが、データベースからのリンクの非常に速い挿入と再登録を必要とし、挿入頻度と再取得頻度が非常に高いような種類のシステムに最適であるかはわかりません。

mongodbのようにno-sqlを提案した人はほとんどいませんが、そのような種類のシステムに最適な選択肢であることを確認したいだけです。

答えて

2

crawler4jは、レジューム機能もサポートするJavaクローラです。だから、クローラを持ちたいだけなら、それを使うことをお勧めします。しかし、自分のクローラでこの機能を統合する必要があるならば、Berkeley DBをお勧めします。これは非常に効率的なキー値ベースのストレージです。 crawler4jのソースコードをチェックして、Berkeley DBを使用してクロールする必要のあるURLを非常に高速に格納および取得する方法を確認できます。

関連する問題