0
私はJSON形式のオンラインソースからデータを抽出し、Apacheの水路を通じてHDFSにそれを格納しています。これで、Hadoopのように複数のファイルが作成されます。今私はこれらのファイルからこのデータから何かを検索し、それに関連する完全な情報を得たいと思う。解決策は何ですか?HadoopのHDFSデータから検索
私はJSON形式のオンラインソースからデータを抽出し、Apacheの水路を通じてHDFSにそれを格納しています。これで、Hadoopのように複数のファイルが作成されます。今私はこれらのファイルからこのデータから何かを検索し、それに関連する完全な情報を得たいと思う。解決策は何ですか?HadoopのHDFSデータから検索
あなたはMapReduceのか、スパークとHDFSに検索し、独自のスクリプトを開発することができます。あなたは別の解決策を持っています。ハイブと豚を使うことができます。 ピグガイド:http://archive.cloudera.com/cdh/3/pig/tutorial.html ハイブガイド:https://cwiki.apache.org/confluence/display/Hive/LanguageManual