トップレベルページのNutch + Solr

私はNutchを使用してURLファイルのドメインの最初のページをクロールし、クロールされたデータを検索可能にするためにSolrを使用しています。これまでのところ、2つのページがリンクされていない限り、私はこの方法で何かを得ることができませんでした。トップレベルページのNutch + Solr

これは、おそらく着信リンクを持たないページの問題であることを認識しているため、PageRankアルゴリズムはページのコンテンツを破棄します。私はデフォルトのスコアがグラフにないURLの方が高くなるようにパラメータを調整しようとしましたが、私はまだ同じ結果を得ています。

リンクがないページにインデックスを作成することができる人はいますか？

ありがとうございます！

出典

2013-11-23 Charles Durham

最初の段落（検索のためのソルバーのコンテンツとナルを経由したフェッチ）が2番目の（ページランク）とどのように関係しているのかを理解するのは難しいです。あなたは正確に何をしようとしていますか？検索可能なフィールドと条件が設定されたコンテンツがsolrでインデックスに登録されると、リンクに関連するものを設定していない限り、リンクに関係なく動作するはずです。 – Vishal

nutch injectコマンドを使用して、「no-incomming-link」URLをnutch DBに挿入します。

solrインデックスに何も表示されていないのは、それらのURLのデータがnutch DBに格納されていないからです（nutchはDBをインデックスと同期させるので注意してください）。 DBにデータがないことは、URLが隔離されていることで説明できるため、それらのサイトを含めるためにinjectコマンドを試すことができます。

インデックスに値を挿入する前に、nutchがそのDB内にデータを格納するので、実際に内部DBを確認しようとします。

ルーネンはデータがインデックスにある限り結果を返しますので、高いスコアを割り当てても効果はありません。

出典

2013-12-03 08:04:45

SolrはデフォルトでTikaを使用してHTMLファイルを読み込みます。問題はありません。

http://wiki.apache.org/solr/TikaEntityProcessor

あなたが望むすべてが記載されているページであれば、Nutchのクローラを使用する特別な理由があるのですか？または、あなたは単にSolrにURLをフィードしてそこから行くことができますか？

出典

2013-12-03 17:12:12 avirr

トップレベルページのNutch + Solr

答えて

関連する問題