stormcrawler

0熱

1答えて

stormcrawlerの現在のバージョンがAJAX /動的コンテンツ解析をサポートし、elasticsearchに格納されていることを知りたいと思います。私は作業中の拡張機能が存在しているはずは、ここにリンクがある：https://github.com/DigitalPebble/storm-crawler/issues/144 あなたの助けに感謝おかげラジ

2熱

1答えて

Storm Crawler-認証が必要なWebサイトをクロールする

Storm Crawlerを使用してイントラネットに権限が必要なWebサイト（すでに資格情報がある）をクロールしたいとします。クローラーの設定を変更するだけでそれを行うことは可能ですか？もしあれば、ソースコード内のクラスを変更する必要がありますか？

1熱

1答えて

コンテンツの長さをフィールド値として格納する（インデックス付きドキュメントのメタデータとも呼ばれる）

クローラページのコンテンツの長さをドキュメントにメタデータとして格納するとします。 http.store.headers = trueを設定することができますが、私はサーバーのhttpヘッダーを信頼しません。は、だから我々は ProtocolResponse＃のgetContent（）。（ "bytes_fetched" メトリックに加えて）メタデータへの値として、長さを書くことFetched

0熱

1答えて

StormcrawlerがElasticsearchでコンテンツを索引付けしていません。

Stormcrawlerを使用している場合、Elasticsearchに索引付けされますが、コンテンツは索引付けされません。 Stormcrawler、クローラ-conf.yamlが indexer.url.fieldname: "url" indexer.text.fieldname: "content" indexer.canonical.name: "canonical" URLを持っている

0熱

1答えて

ウォークボルトの新しいストリームの設定が失敗しました

ウォッチボルトにTikaボルトを接続するために新しいストリームを設定しようとしています。次のように私は私の新しい「WARC」ストリーム定義するoutputDeclarerFields機能を変更しているティカ定義で import com.digitalpebble.stormcrawler.tika.ParserBolt; import com.digitalpebble.stormcrawler

0熱

1答えて

Postgresで嵐のクローラを設定するには？

私はstormcrawlerをpostgresのsqlデータベースをバックエンドとして設定しようとしています。しかし、嵐のクローラを起動できるようにするためには、どのテーブルが存在する必要があるかに関するドキュメントはありません。必要なテーブルと必要なカラムは何ですか？または、必要なテーブルを自動的に作成する方法はありますか？また、このモードでクローラを起動するにはどうすればよいですか？サンプ

0熱

2答えて

利用可能なリソースを最大限に活用するためのストーム・クローラーのチューニング

私はStorm-Crawlerベースのクローラー専用のノードを持っています。私は20個のデュアルコアCPU、130GbのRAM、10Gb/sのイーサネット接続を自由に使用できます。トポロジをCollapsingSpout - > URLPartitionerBolt - > FetcherBoltに減らしました。注ぎ口はElasticsearchインデックス（約50Mレコード）から読み取ります。

0熱

1答えて

Storm-Crawlerの使い方

私はStorm-crawlerを使い始めていますが、Mavenに関しては混乱しています。私はちょうどStorm-crawlerのgithubリポジトリをクローンして、それにcdしてmvn clean installを実行しますか？私はstorm-crawlerをmkdirし、cdしてstormcrawler.netの開始ページにあるすべてのmavenコマンドを実行しますか？私は必要なものすべてを

0熱

3答えて

ストームクローラーとエラスティックサーチバージョン

Storm-crawlerで動作する最新バージョンのES（5x）の取得に取り組んでいます。私はhereをレポにクローンし、mvnクリーンインストールをビルドして、hereというすべてのmvnコマンドを入力しました。それはpom.xmlファイルに来るとき、私はおよそ混乱している事はversion numberために、次のとおりです。 <dependency> <groupId>com