MahoutのXmlInputFormatは、そのメソッドをオーバーライドせずにgzippedデータを処理できますか?私はgzipされたwikipedia xmlデータを解析しようとしていますが、これまでのところ成功していません。MahoutのXmlInputFormatはgzip圧縮ファイルを書き換えずに処理しますか?
Hadoopはgzipファイルを自動的に処理できると聞いてきましたが、これはTextInputFormatクラスに含まれているか、他の入力フォーマットに固有で、Mahoutの入力フォーマットには組み込まれていないと仮定します。しかし、多分私は何かを逃した。
注:これまでXMLを解析することができましたが、これについて明確な答えを見つけることはできませんでしたが、苦労して驚いていました。うまくいけば、賢く誰かが私に啓発できることを願って&他。