私はNutchを使用してURLファイルのドメインの最初のページをクロールし、クロールされたデータを検索可能にするためにSolrを使用しています。これまでのところ、2つのページがリンクされていない限り、私はこの方法で何かを得ることができませんでした。トップレベルページのNutch + Solr
これは、おそらく着信リンクを持たないページの問題であることを認識しているため、PageRankアルゴリズムはページのコンテンツを破棄します。私はデフォルトのスコアがグラフにないURLの方が高くなるようにパラメータを調整しようとしましたが、私はまだ同じ結果を得ています。
リンクがないページにインデックスを作成することができる人はいますか?
ありがとうございます!
最初の段落(検索のためのソルバーのコンテンツとナルを経由したフェッチ)が2番目の(ページランク)とどのように関係しているのかを理解するのは難しいです。あなたは正確に何をしようとしていますか?検索可能なフィールドと条件が設定されたコンテンツがsolrでインデックスに登録されると、リンクに関連するものを設定していない限り、リンクに関係なく動作するはずです。 – Vishal