固定長のファイル(サンプルは以下に示します)を使用し、このファイルをSparkのDataFrames API(SCALAまたはPythonではなく)を使用して読み込みます。 。 DataFrames APIを使用すると、textFile、jsonファイルなどを読み取る方法はありますが、固定長ファイルを読み取る方法があるかどうかはわかりません。私はこれをインターネットで検索していました。linkが見つかりましたが、私はこの目的のためにspark-fixedwidth-assembly-1.0.jar
をダウンロードしなければなりませんでしたが、どこでもその瓶を見つけることができませんでした。私はここで完全に失われており、あなたの提案や助けが必要です。 Stackoverflowにはいくつかの投稿がありますが、ScalaとDataFrame APIには関係ありません。DataFrame APIとSCALAを使用してSparkで固定長ファイルを読み取る方法
は、ここでファイル
56 apple TRUE 0.56
45 pear FALSE1.34
34 raspberry TRUE 2.43
34 plum TRUE 1.31
53 cherry TRUE 1.4
23 orange FALSE2.34
56 persimmon FALSE23.2
各列の固定幅である3、10、5、4
あなたの意見を提案してください。
私はREPLでそれを試してみましたが、私はエラーを得ました。あなたはREPLで運動するものを教えていただけますか? –
':32:エラー:パラメータの数が正しくありません。期待値= 1 val mapRDD = file.map(l =>(l.substring(0、4).trim()、l.substring(4,14).trim()、l.substring(14,19)。 map((e1、e2、e3、e4)=> DataUnit(e1.toInt、e2、e3.toBoolean、e4.toDouble))。 toDF ^ ' –
今すぐ修正する必要があります。 REPLでステップごとに各マップを実行してみてください。 –