1
クローラページのコンテンツの長さをドキュメントにメタデータとして格納するとします。 http.store.headers = trueを設定することができますが、私はサーバーのhttpヘッダーを信頼しません。 コンテンツの長さをフィールド値として格納する(インデックス付きドキュメントのメタデータとも呼ばれる)
は、だから我々はProtocolResponse#のgetContent()。( "bytes_fetched" メトリックに加えて)メタデータへの値として、長さ
を書くことFetchedBoltを変更しました。
コードを変更せずにこの値を取得する方法はありますか? (fetchとparseの間に余分なボルトを追加することもできます。もっと簡単な解決法がありますようお願いします)
細かい:-) https://github.com/DigitalPebble/storm-crawler/pull/524 –