nutch

1熱

1答えて

Nutchの1.4統合http.agent.nameプロパティ

私はSolrのでセットアップNutchのにしようとしませんが、次の例外 Fetcherの取得されています：「http.agent.name」プロパティにリストされませ薬。スレッド「main」の例外java.lang.IllegalArgumentException：Fetcher：http.agent.nameのプロパティにリストされているエージェントがありません。 ./conf/nutch-d

2熱

1答えて

Nutch 1.3とSolr 3.1のセットアップ

Nutch 1.3とSolr 3.1を連携させようとしています。注：私はWindowsを使用しており、Cygwinをインストールしています。私はNutchのインストールとこれが基づい働いているようだ-depth 3 基本的なクロール（ローカルランタイム/から実行されている）ビン/ NutchのクロールのURL -dirクロールをしたしていますtehのログ（crawl.log）が... Li

0熱

3答えて

不正なURL： ''、スキップ（java.net.MalformedURLException

を私はNutchの1.3でサイトをクロール私はときNutchのクロール私のサイト私のログにこの例外を参照してください。 Malformed URL: '', skipping (java.net.MalformedURLException: no protocol: at java.net.URL.<init>(URL.java:567) at java.net.URL.<init>(URL.

2熱

2答えて

Nutchパスエラー

こんにちは私はUbuntuにsolrとnutchをインストールしました。私は機会にクロールしてインデックスを作成できますが、常にそうではありません。私はこのパスエラーが繰り返し発生しており、解決策をオンラインで見つけることができませんでした。通常は、エラーのあるディレクトリを削除して再実行しますが、正常に動作します。しかし、私はもうこれをやりたくはありません。エラーの原因は何ですか？ありがとう。ク

2熱

1答えて

nutch：キーワードで検索

Nutchを使用して、URLにipodを持つすべてのhttp://www.amazon.com/ウェブページをクロールしたいと思います。例えばのために彼らの検索ボックスにiPodのための私の検索ならば、私はこのウェブページには、iPod用のリンクの束を示し http://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-ke

0熱

1答えて

Nutch-古いセグメントを削除する方法は？

nutchでは、クロールしてから再度クロールすると、複製されたセグメントが作成されます。古いものはどのように削除できますか？最新のクロールで作成されたセグメントのみが使用され、他のすべてが削除できることはわかりません。

1熱

1答えて

Nutchの文章としての文章

クロール結果を保存するときにWebページを文章に分割する必要があります。理由は、Solrが各文章を索引付けの際の文書として見るためです。私が必要とする結果は、例えば「1単語」の検索を行い、「1」および/または「単語」を含むすべての文のリストを得ることです。私はいくつかのポインタが本当に有用であろうNutchのに新たなんだ... 私はNutchのコンフィギュレーション・ファイルになっているはずで

0熱

1答えて

Apache nutch：解析する前にDOMを操作する

特定の要素をページ応答から削除してから、nutchに渡します。は具体的には、私はすなわち <div class="noindex">I shall not be indexed</div> と私のページの一部をマークしたい「私はインデックスを作成してはならない」ように、Nutchの解析の前にそれらを削除したいその後NutchDocumentには存在しません。私は、現在、インデックス内のすべて

0熱

2答えて

分類されたサイトでの検索の実装

現在、私はPHPで開発された分類サイトに取り組んでいます。私たち自身のサイトから検索ウェブを検索：私は、我々のサイトでの検索の2種類を実装したいです。私は最初の検索でSolrを実装しようとしていましたが、「Web検索」検索を実装する方法がわかりません。だからあなたは私にそれについての提案を提供してもいいですか、私はNutchクローラーについて知って来ましたが、それが正しい選択であるかどうかは

0熱

1答えて

nutch 1.3のcrawldbからURLを削除しますか？

Nutch 1.3のサイトをクロールします。今、私はcrawldbからURLを削除したいのですが、どうすればいいですか？私はクローダからどのように読みますか？私はcrawldbに存在するURLを見たい。