2017-02-10 13 views
-1

当社ではHDFSを使用しています。今までのすべてが機能し、クエリを使用してデータを抽出することができます。HDFSデータによる統計

私は過去にProject Rで多くの仕事をしていましたが、私の分析には常に優れていました。そこで、私はProject RとHDFS(rbase、rhdfs、...)のサポートをチェックしました。

しかし、CSVファイルに保存された単純なデータで分析するチュートリアルがたくさんあるので、少し混乱しています。私を間違えないでください。それは問題ありませんが、クエリを作成し、データを抽出し、いくつかの統計を1回実行する可能性があるかどうかを尋ねたいと思います。

つまり、HDFSに保存されているデータの統計情報については、どのように対処していますか?

ありがとう、あなたの何人かが私の質問の賛否両論を見るのを手伝ってくれることを願っています。

すべてのベスト - ピーター

答えて

0

あなたがApache HiveApache Sparkをチェックアウトしたいかもしれません。他にもたくさんの選択肢がありますが、ファイル内でデータが手渡されていないときに、hdfsからデータを処理する方法を尋ねているかどうかはわかりません。

関連する問題