1.8mのアマゾンレビューと同じ内容のjsonとcsvファイルがあります。複数のコアを持つcsvよりも処理速度がかなり遅い
私は2つの操作を行っています:データフレームの行数とテキストデータのTFIDFの生成。私は1,2,4,8コアでこの操作を試みました。コアの増加に伴い、csvベースのDataFrameの処理速度は比例して増加していますが、jsonベースのものはそのままです。
行数例:
data = spark.read.format("csv").option("header", "true").load("path/amazon_half.csv")
%timeit -n 10 data.count()
djs = spark.read.format("json").option("header", "true").load("path/amazon_half.json")
%timeit -n 10 djs.count()
アタッチテーブルは、それがコアの異なる数のこれらの操作を実行するために秒単位で時間を表しています。
Iは、同じデータをJSONやCSVファイルを処理するのに要する時間は、多かれ少なかれ等しいであろうと予想されます。これは正常ですか?あれば、sparkのcsvと同じ速度でjsonを処理する方法はありますか?
あなたの質問は? –
申し訳ありません、質問を追加しました。 –