stormcrawler

    0

    1答えて

    stormcrawlerの現在のバージョンがAJAX /動的コンテンツ解析をサポートし、elasticsearchに格納されていることを知りたいと思います。私は作業中の拡張機能が存在しているはず は、ここにリンクがある:https://github.com/DigitalPebble/storm-crawler/issues/144 あなたの助けに感謝 おかげ ラジ

    2

    1答えて

    Storm Crawlerを使用してイントラネットに権限が必要なWebサイト(すでに資格情報がある)をクロールしたいとします。クローラーの設定を変更するだけでそれを行うことは可能ですか?もしあれば、ソースコード内のクラスを変更する必要がありますか?

    1

    1答えて

    クローラページのコンテンツの長さをドキュメントにメタデータとして格納するとします。 http.store.headers = trueを設定することができますが、私はサーバーのhttpヘッダーを信頼しません。 は、だから我々は ProtocolResponse#のgetContent()。( "bytes_fetched" メトリックに加えて)メタデータへの値として、長さ を書くことFetched

    0

    1答えて

    Stormcrawlerを使用している場合、Elasticsearchに索引付けされますが、コンテンツは索引付けされません。 Stormcrawler、クローラ-conf.yamlが indexer.url.fieldname: "url" indexer.text.fieldname: "content" indexer.canonical.name: "canonical" URLを持っている

    0

    1答えて

    ウォッチボルトにTikaボルトを接続するために新しいストリームを設定しようとしています。次のように私は私の新しい「WARC」ストリーム定義するoutputDeclarerFields機能を変更しているティカ定義で import com.digitalpebble.stormcrawler.tika.ParserBolt; import com.digitalpebble.stormcrawler

    0

    1答えて

    私はstormcrawlerをpostgresのsqlデータベースをバックエンドとして設定しようとしています。しかし、嵐のクローラを起動できるようにするためには、どのテーブルが存在する必要があるかに関するドキュメントはありません。 必要なテーブルと必要なカラムは何ですか?または、必要なテーブルを自動的に作成する方法はありますか? また、このモードでクローラを起動するにはどうすればよいですか?サンプ

    0

    2答えて

    私はStorm-Crawlerベースのクローラー専用のノードを持っています。私は20個のデュアルコアCPU、130GbのRAM、10Gb/sのイーサネット接続を自由に使用できます。 トポロジをCollapsingSpout - > URLPartitionerBolt - > FetcherBoltに減らしました。注ぎ口はElasticsearchインデックス(約50Mレコード)から読み取ります。

    0

    1答えて

    私はStorm-crawlerを使い始めていますが、Mavenに関しては混乱しています。私はちょうどStorm-crawlerのgithubリポジトリをクローンして、それにcdしてmvn clean installを実行しますか? 私はstorm-crawlerをmkdirし、cdしてstormcrawler.netの開始ページにあるすべてのmavenコマンドを実行しますか?私は必要なものすべてを

    0

    3答えて

    Storm-crawlerで動作する最新バージョンのES(5x)の取得に取り組んでいます。 私はhereをレポにクローンし、mvnクリーンインストールをビルドして、hereというすべてのmvnコマンドを入力しました。 それはpom.xmlファイルに来るとき、私はおよそ混乱している事はversion numberために、次のとおりです。 <dependency> <groupId>com