sklearn DTとSpark ML DTを使用して取得したテキスト分類の精度を、同じ機能とデータセットで比較しています。それらを比較することも適切ですか?その理由は、パラメータのリストが両方とも異なるため、結果は異なると思います。私は、どのような基準で比較することができないのでしょうか?どちらの方がデフォルト設定の精度とパフォーマンスが向上するはずですか?私は、ユースケースからユースケースに依存していることは知っていますが、少なくとも同じユースケースでは一般化できますか?scikit-learnとSpark MLの精度の点で、デシジョンツリーアルゴリズムのパフォーマンスをどのように比較できますか?
-1
A
答えて
0
2つのアルゴリズムを異なるハイパーパラメータで比較できます。精度測定(比較のための測定基準)はまったく同じでなければなりません。たとえば、SickitとMlibの両方について、AUC(曲線下面積)メトリックを使用できます。データセットと機能も同じでなければならないことに注意してください。
https://spark.apache.org/docs/2.1.0/mllib-evaluation-metrics.html
http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html
関連する問題
- 1. Spark View EngineのパフォーマンスはASP.NETとどのように比較されますか?
- 2. パンダのデータフレームの比較と浮動小数点の精度
- 3. (Jagged Arrays、Arrays、ArrayList)のパフォーマンスをどのように比較できますか?
- 4. Pythonで2つのリストを比較する精度はどうですか?
- 5. Sparkで小数精度をどのように増やすのですか?
- 6. ナノ秒精度のタイムスタンプの比較R
- 7. ARMのsssemblyで前のcmpと比較してbne分岐をどのように比較できますか?
- 8. UIPickerViewでどのように比較できますか?
- 9. Array.findとforeachなどのイテレータをどのように比較できますか?
- 10. 倍精度浮動小数点数型(Double#)の倍精度浮動小数点型をscalaで比較すると保存されますか?
- 11. ディレクトリ間の精度比較方法は?
- 12. どのように変数をPowerShellの配列と比較できますか?
- 13. Spark ml libのクロスバリデーションから正確精度、リコール、ROCを得るには?
- 14. 文字列の比較。どのようにstd :: wstringと文字列を比較できますか? WRT strcmp
- 15. PythonのRFモデルの精度を比較します
- 16. データベースとのデータの比較はどのようにですか?
- 17. 錆の2つのフロートと任意の精度レベルの比較
- 18. Javaの2つの倍精度値を比較するには?
- 19. 精度が低下した浮動小数点数のリストを比較する
- 20. SqlCommandと比較するにはどのように追加できますか?
- 21. 処理の小数精度をどのように制限できますか?
- 22. C#Viewbagの値をJavascriptでどのように比較できますか?
- 23. どのように各オブジェクトをそれぞれと比較できますか?
- 24. datetimeデータ型を "12:00:00"とどのように比較できますか?
- 25. Sparkでのdouble値の精度
- 26. パフォーマンス:XDocumentとXmlDocumentの比較
- 27. Java:intとStringsの比較 - パフォーマンス
- 28. コードの比較とパフォーマンス
- 29. IISとKestrelのパフォーマンス比較
- 30. MIPSの倍精度値を比較するには?
私の関心は、Spark MLとsklearnのためのデフォルトパラメータが異なっている、です。たとえば、最大深度はsklearnではNone、Spark MLでは5です。これにより、データセットとフィーチャが同じであっても精度スコアが変更されます。では、パラメータのデフォルト値とパラメータ自体が異なる場合に達成される最終的な精度をどのように比較できますか?それとも、それを比較できないのでしょうか? – Alvin
@Alvin、それは匹敵します、グリッド検索に精通していますか?これはSparkにも存在し、Sickitにも存在します。グリッド検索でパラメータを最適化してから比較してみてください。 – Masoud