2016-08-29 9 views
1

私はSparkでPostgres(バイナリまたはテキスト)ダンプファイルを使用して、それをインポートする方法を知りたいですか?私はSqoopを使ってPostgresをHDFSにインポートすることができ、SparkからHDFSにアクセスできることを知っていますが、ダンプファイルがあればどうなりますか?それをまずPostgresデータベースに復元する必要がありますか?私はしたくないでしょう。Postgres(バイナリまたはテキスト)ダンプファイルをSparkまたはHDFSにインポートするには?

+0

'hadoop fs -put' –

+0

私の質問の文脈でそのコマンドがどのように使われているかを明確にすることができますか?ありがとう – FullStack

答えて

2

pg_restore --data-only -t my_table db.dumpを使用すると、いくつかのコメントといくつかの余分なコマンドでタブ区切りのテキストを取得する必要があります。不要なものをすべて除外してそのファイルをHDFSに書き込むのは簡単でしょう。

次に、そのファイルをSparkまたはMapReduceからCSVファイルとして読み込むことです。

関連する問題