2013-11-23 2 views
5

私はNutchを使用してURLファイルのドメインの最初のページをクロールし、クロールされたデータを検索可能にするためにSolrを使用しています。これまでのところ、2つのページがリンクされていない限り、私はこの方法で何かを得ることができませんでした。トップレベルページのNutch + Solr

これは、おそらく着信リンクを持たないページの問題であることを認識しているため、PageRankアルゴリズムはページのコンテンツを破棄します。私はデフォルトのスコアがグラフにないURLの方が高くなるようにパラメータを調整しようとしましたが、私はまだ同じ結果を得ています。

リンクがないページにインデックスを作成することができる人はいますか?

ありがとうございます!

+1

最初の段落(検索のためのソルバーのコンテンツとナルを経由したフェッチ)が2番目の(ページランク)とどのように関係しているのかを理解するのは難しいです。あなたは正確に何をしようとしていますか?検索可能なフィールドと条件が設定されたコンテンツがsolrでインデックスに登録されると、リンクに関連するものを設定していない限り、リンクに関係なく動作するはずです。 – Vishal

答えて

0

nutch injectコマンドを使用して、「no-incomming-link」URLをnutch DBに挿入します。

solrインデックスに何も表示されていないのは、それらのURLのデータがnutch DBに格納されていないからです(nutchはDBをインデックスと同期させるので注意してください)。 DBにデータがないことは、URLが隔離されていることで説明できるため、それらのサイトを含めるためにinjectコマンドを試すことができます。

インデックスに値を挿入する前に、nutchがそのDB内にデータを格納するので、実際に内部DBを確認しようとします。

ルーネンはデータがインデックスにある限り結果を返しますので、高いスコアを割り当てても効果はありません。

0

SolrはデフォルトでTikaを使用してHTMLファイルを読み込みます。問題はありません。

http://wiki.apache.org/solr/TikaEntityProcessor

あなたが望むすべてが記載されているページであれば、Nutchのクローラを使用する特別な理由があるのですか?または、あなたは単にSolrにURLをフィードしてそこから行くことができますか?

関連する問題