サイズが100*512
のCSVファイルがありますので、それをさらに処理したいのはspark
です。ファイルの問題点は、ヘッダーが含まれていないことです。つまり、column names
です。さらなるETLのためにこれらの列名がmachine learning
に必要です。私は別のファイル(テキストファイル)に列名を持っています。上記のcsvファイルにこれらの列名をヘッダーとして入れる必要があります。例: csvファイルにヘッダーを追加する
CSVファイル: -
AB 1 23、SF 23 HJH
HS 6 89 IU 98 ADF
GH 7 78、π54 NGJ
JH 5 22 KJ 78 JDK
列ヘッダーファイル: -
1、2、3、4、5、6
私はこのような出力たい: -
AB 1 23平方フィートを23のHJH
HS 6 89 IU 98 ADF
GH 7 78 54 PI NGJ
JH 5 22 KJ 78 JDK
CSVファイルに列ヘッドを追加するために、いくつかの方法を提案してください。(CSVファイルの行を置き換えることなく。 pandasデータフレームに変換してみましたが、期待される出力が得られませんでした。
csvデータをファイルに追加する前に、ヘッダを含む行を書きます。何を試しましたか? –
csvファイルの行を置き換えずに_を指定するとどういう意味ですか? –