nutch

    1

    1答えて

    私はSolrのでセットアップNutchのにしようとしませんが、次の例外 Fetcherの取得されています:「http.agent.name」プロパティにリストされませ薬。 スレッド「main」の例外java.lang.IllegalArgumentException:Fetcher:http.agent.nameのプロパティにリストされているエージェントがありません。 ./conf/nutch-d

    2

    1答えて

    Nutch 1.3とSolr 3.1を連携させようとしています。 注:私はWindowsを使用しており、Cygwinをインストールしています。 私はNutchのインストールとこれが基づい働いているようだ-depth 3 基本的なクロール(ローカルランタイム/から実行されている) ビン/ NutchのクロールのURL -dirクロールをしたしていますtehのログ(crawl.log) が... Li

    0

    3答えて

    を私はNutchの1.3でサイトをクロール私はときNutchのクロール私のサイト私のログにこの例外を参照してください。 Malformed URL: '', skipping (java.net.MalformedURLException: no protocol: at java.net.URL.<init>(URL.java:567) at java.net.URL.<init>(URL.

    2

    2答えて

    こんにちは私はUbuntuにsolrとnutchをインストールしました。私は機会にクロールしてインデックスを作成できますが、常にそうではありません。私はこのパスエラーが繰り返し発生しており、解決策をオンラインで見つけることができませんでした。通常は、エラーのあるディレクトリを削除して再実行しますが、正常に動作します。しかし、私はもうこれをやりたくはありません。エラーの原因は何ですか?ありがとう。ク

    2

    1答えて

    Nutchを使用して、URLにipodを持つすべてのhttp://www.amazon.com/ウェブページをクロールしたいと思います。例えばのために 彼らの検索ボックスにiPodのための私の検索ならば、私はこのウェブページには、iPod用のリンクの束を示し http://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-ke

    0

    1答えて

    nutchでは、クロールしてから再度クロールすると、複製されたセグメントが作成されます。 古いものはどのように削除できますか? 最新のクロールで作成されたセグメントのみが使用され、他のすべてが削除できることはわかりません。

    1

    1答えて

    クロール結果を保存するときにWebページを文章に分割する必要があります。理由は、Solrが各文章を索引付けの際の文書として見るためです。 私が必要とする結果は、例えば「1単語」の検索を行い、「1」および/または「単語」を含むすべての文のリストを得ることです。 私はいくつかのポインタが本当に有用であろうNutchのに新たなんだ... 私はNutchのコンフィギュレーション・ファイルになっているはずで

    0

    1答えて

    特定の要素をページ応答から削除してから、nutchに渡します。 は具体的には、私はすなわち <div class="noindex">I shall not be indexed</div> と私のページの一部をマークしたい「私はインデックスを作成してはならない」ように、Nutchの解析の前にそれらを削除したいその後NutchDocumentには存在しません。私は、現在、インデックス内のすべて

    0

    2答えて

    現在、私はPHPで開発された分類サイトに取り組んでいます。 私たち自身のサイトから検索 ウェブを検索:私は、我々のサイトでの検索の2種類を実装したいです。 私は最初の検索でSolrを実装しようとしていましたが、「Web検索」検索を実装する方法がわかりません。だからあなたは私にそれについての提案を提供してもいいですか、私はNutchクローラーについて知って来ましたが、それが正しい選択であるかどうかは

    0

    1答えて

    Nutch 1.3のサイトをクロールします。今、私はcrawldbからURLを削除したいのですが、どうすればいいですか?私はクローダからどのように読みますか?私はcrawldbに存在するURLを見たい。