私はhdfsでsqoopを使ってデータを取り込みましたが、私のデータには単一の列にカンマ「、」が含まれています。私がsparkで同じデータを使用しているときは、各コンマを区切り記号として使用しています。これらのカンマを変更するにはどうすればよいですか?sparkでデータを使用する際のトラブル?
xyz列がある場合、最初の行にa、b、cがあり、2行目にcdすれば、これらのカンマを避けることができますか?
私はhdfsでsqoopを使ってデータを取り込みましたが、私のデータには単一の列にカンマ「、」が含まれています。私がsparkで同じデータを使用しているときは、各コンマを区切り記号として使用しています。これらのカンマを変更するにはどうすればよいですか?sparkでデータを使用する際のトラブル?
xyz列がある場合、最初の行にa、b、cがあり、2行目にcdすれば、これらのカンマを避けることができますか?
デフォルトのフィールド区切り文字は、テキスト形式でデータをインポートするときにカンマ(,
)です。データにコンマが含まれているため、フィールドの区切り文字を変更します。
sqoop importコマンドで--fields-terminated-by <char>
を使用してください。
あなたはこれらのコマンドが便利かもしれません: --hive_drop-import-delims
か--hive-delims-replacement
あなたが使用しているファイル形式説明できますか? csvを使用していると仮定すると、オプションの1つはsepです。あなたもコードを提供していれば、私は助けることができます –
私はcsvファイルを使用していません。そのファイルは私のデータベースにあります。あなたが話しているコード – Rani
どのようにファイルをスパークに読み込んでいますか?あなたはコードを提供できますか? –