0
固定幅のテキストファイルを解析しようとしています。pysparkテキストファイルを解析します
私のテキストファイルは次のようになり、私は行ID、日付、文字列、および整数を必要とする:
00101292017you1234
00201302017 me5678
私はsc.textFile(パス)を使用して、RDDにテキストファイルを読み込むことができます。 解析されたRDDとスキーマを使用してcreateDataFrameを作成できます。 これは2つのステップの間の解析です。
#df = sqlContext.read.text( "blah.txt")sqlContextを使用する必要がありました。その後、それは働いた。私は文脈について少しは学ぶ必要があると思う。しかし、そうでなければ、あなたは答えました。 –
'spark'はバージョン2.0以上でsparkセッションを表します。 1.6以下のスパークを使用する場合は、 'sqlContext'を使用する必要がありますが、データにアクセスするという点では同じ動作をします – Mariusz