クロールされたコンテンツから特定の情報を取得しようとしています。 nutchはウェブサイトの全文をまとめてダンプするので、特定のコンテンツを取得することは難しいです。私は、弾性検索でインデックスを作成しているクロールされたテキストコンテンツに区切り文字を追加したいと思います。クロールされたコンテンツに区切り文字を追加する
http://example.com/からデータをクロールしながら、私はそれが形式で
Example Domain | Example Domain | This domain is established to be used for illustrative examples in documents. You may use this domain in examples without prior coordination or asking for permission. | More information...
になりたい
Example Domain Example Domain This domain is established to be used for illustrative examples in documents. You may use this domain in examples without prior coordination or asking for permission. More information...
elasticsearchにインデックスを付けますのデータは、我々はどこかNutchの構成で、この区切り文字を定義することができますか?
ありがとうございました。 – vibhash
助けてくれてうれしいです! –