値が二重引用符で囲まれた列の1つを持つcsvファイルがあります。この列にもカンマが入ります。 Scalaを使用してRVDにSparkでこのタイプの列をCSV形式で読み取るにはどうすればよいですか。二重引用符で囲まれた列の値は、「総資産」、「総負債」などの値であるため、整数型として読み取られる必要があります。 csvファイルからスカラを使用してSparkでRDDを作成するための区切り文字と数値データを含むCSVファイルを読み込みます。
例のレコードが
Jennifer,7/1/2000,0,,0,,151,11,8,"25,950,816","5,527,524",51,45,45,45,48,50,2,,
John,7/1/2003,0,,"200,000",0,151,25,8,"28,255,719","6,289,723",48,46,46,46,48,50,2,"4,766,127,272",169
私は{val result = input.map(x => x.split( "、"))}を試しました。これは、1行の値として25を取り、1行目から別の列の値として950を取っていますが、それ以上のアイデアは得られませんでした。 – ibh