時間効率のためにどのapiまたはコマンドを論理的に使用するかを論理的に結論づけるステップは何ですか?スパークで時間的に効率的なコードに使用するapisを決定する方法
例:経験的には、sql api呼び出しでデータフレームを結合すると、ネイティブのscalaコマンドを使用するよりも30%以上効率が良いことがわかりました。
df1.join(df2, df1.k == df2.k, joinType='inner') sqlContext.sql('SELECT * FROM df1 JOIN df2 ON df1.k = df2.k')
最適なコマンドを決定する際に関与して最初の原則は何ですか?
「ネイティブスカラコマンド」とはどういう意味ですか? spark apiと比較するために使用したコマンドの例を挙げることができますか? – avr
@avr sqlContextでsqlクエリを呼び出す代わりに 'join'を使うことを意味していました – Omley