2017-10-16 11 views
0

MahoutのXmlInputFormatは、そのメソッドをオーバーライドせずにgzippedデータを処理できますか?私はgzipされたwikipedia xmlデータを解析しようとしていますが、これまでのところ成功していません。MahoutのXmlInputFormatはgzip圧縮ファイルを書き換えずに処理しますか?

Hadoopはgzipファイルを自動的に処理できると聞いてきましたが、これはTextInputFormatクラスに含まれているか、他の入力フォーマットに固有で、Mahoutの入力フォーマットには組み込まれていないと仮定します。しかし、多分私は何かを逃した。

注:これまでXMLを解析することができましたが、これについて明確な答えを見つけることはできませんでしたが、苦労して驚いていました。うまくいけば、賢く誰かが私に啓発できることを願って&他。

答えて

1

この通り{code}コーデックは処理されません。オーバーライドすることはできません。可能ではないと思います。

この場合、{code}のようになり、ファイル拡張子に基づいてコーデックが適用されます。

は、あなたはまだcloud9 {here}

でWikipediaPageInputFormatを使用して試してみることができ、それらを扱うこの{codec}を持っている、それはあなたのために働くかどうかを確認します。

関連する問題