私が知っているHadoopは、半構造化されたデータ処理の一般的な選択肢ではありません。タブで区切られた単純なデータとunixツール(cut、grep、sed、...)と手書きpythonスクリプト。しかし時々私は本当に大量のデータを取得し、処理時間は20〜30分にもなります。私はデータセットを動的に実験し、セミアドホッククエリなどを実行したいので、私には受け入れられません。半構造化データのおおよその量は、Hadoopクラスタを設定するのに十分ですか?
このように、Hadoopクラスタを設定するには十分なデータ量がありますアプローチ?あなたがやっている内容を正確に把握することなく