2016-11-28 12 views
0

私はhdfsでsqoopを使ってデータを取り込みましたが、私のデータには単一の列にカンマ「、」が含まれています。私がsparkで同じデータを使用しているときは、各コンマを区切り記号として使用しています。これらのカンマを変更するにはどうすればよいですか?sparkでデータを使用する際のトラブル?

xyz列がある場合、最初の行にa、b、cがあり、2行目にcdすれば、これらのカンマを避けることができますか?

+0

あなたが使用しているファイル形式説明できますか? csvを使用していると仮定すると、オプションの1つはsepです。あなたもコードを提供していれば、私は助けることができます –

+0

私はcsvファイルを使用していません。そのファイルは私のデータベースにあります。あなたが話しているコード – Rani

+0

どのようにファイルをスパークに読み込んでいますか?あなたはコードを提供できますか? –

答えて

0

デフォルトのフィールド区切り文字は、テキスト形式でデータをインポートするときにカンマ(,)です。データにコンマが含まれているため、フィールドの区切り文字を変更します。

sqoop importコマンドで--fields-terminated-by <char>を使用してください。

0

あなたはこれらのコマンドが便利かもしれません: --hive_drop-import-delims--hive-delims-replacement

More info here

関連する問題