sparkでデータを使用する際のトラブル？

私はhdfsでsqoopを使ってデータを取り込みましたが、私のデータには単一の列にカンマ「、」が含まれています。私がsparkで同じデータを使用しているときは、各コンマを区切り記号として使用しています。これらのカンマを変更するにはどうすればよいですか？sparkでデータを使用する際のトラブル？

xyz列がある場合、最初の行にa、b、cがあり、2行目にcdすれば、これらのカンマを避けることができますか？

2016-11-28 Rani

あなたが使用しているファイル形式説明できますか？ csvを使用していると仮定すると、オプションの1つはsepです。あなたもコードを提供していれば、私は助けることができます –

私はcsvファイルを使用していません。そのファイルは私のデータベースにあります。あなたが話しているコード – Rani

どのようにファイルをスパークに読み込んでいますか？あなたはコードを提供できますか？ –

デフォルトのフィールド区切り文字は、テキスト形式でデータをインポートするときにカンマ（,）です。データにコンマが含まれているため、フィールドの区切り文字を変更します。

sqoop importコマンドで--fields-terminated-by <char>を使用してください。

2016-11-28 13:19:48

あなたはこれらのコマンドが便利かもしれません： --hive_drop-import-delimsか--hive-delims-replacement

2016-11-28 15:36:33 Inconnu

答えて