Nutchを使用して一部のWebサイトをクロールしていますが、正確には私はthis siteをクロールしています。readsegコマンドなしでNutchセグメントを読み取る方法
私はthese five segmentsを見つけました(見つかったすべての文書(約10,000文書))。今度は、の内容をなしでreadseg
コマンドを使用して処理します。これは、セグメントをプレーンテキストにダンプしないことです。
このため、各セグメントのサブディレクトリcontent
のみが私にとって役に立ちます(タグとドキュメントの内容)。
私はcontent
ディレクトリの中にさらに2つのコンテナがあることを認識しました:data
とindex
。しかし、私はそれらの説明を見つけられておらず、内部でコンテンツを処理するためにそれらをどのように読むことができますか?私もこの質問にpointersを見つけましたが、私はまだアルゴリズムの考え方を理解していません。
コンテンツはNutchセグメントにどのように格納されていますか?どのように読むことができますか?私は、短い例が与えられたい場合(しかし、必要ではない)、コレクションのウェブサイトとセグメントを与えました。
FileDumperの使用と修正が機能しました! –