私は、タイムスタンプとマシンIDを含むSpark Data Frameを持っています。私は各グループから最低のタイムスタンプ値を削除したいと思います。私は、次のコードを試みた:HiveContextを使用してSparkの最小値を含む行以外の行を選択します。
sqlC <- sparkRHive.init(sc)
ts_df2<- sql(sqlC,"SELECT ts,Machine FROM sdf2 EXCEPT SELECT MIN(ts),Machine FROM sdf2 GROUP BY Machine")
しかし、次のエラーが来ている:
16/04/06 06:47:52 ERROR RBackendHandler: sql on 35 failed
Error in invokeJava(isStatic = FALSE, objId$id, methodName, ...) :
org.apache.spark.sql.AnalysisException: missing EOF at 'SELECT' near 'EXCEPT'; line 1 pos 35
問題は何ですか? HiveContextがEXCEPTキーワードをサポートしていない場合、HiveContextで同じことをする同義の方法は何ですか?スパークで
感謝トンを作成する必要があると思いますけれどもあなたはまた、()以外sparkR組み込み関数を使用することができます
!! – ps30