-1

sklearn DTとSpark ML DTを使用して取得したテキスト分類の精度を、同じ機能とデータセットで比較しています。それらを比較することも適切ですか?その理由は、パラメータのリストが両方とも異なるため、結果は異なると思います。私は、どのような基準で比較することができないのでしょうか?どちらの方がデフォルト設定の精度とパフォーマンスが向上するはずですか?私は、ユースケースからユースケースに依存していることは知っていますが、少なくとも同じユースケースでは一般化できますか?scikit-learnとSpark MLの精度の点で、デシジョンツリーアルゴリズムのパフォーマンスをどのように比較できますか?

答えて

0

2つのアルゴリズムを異なるハイパーパラメータで比較できます。精度測定(比較のための測定基準)はまったく同じでなければなりません。たとえば、SickitとMlibの両方について、AUC(曲線下面積)メトリックを使用できます。データセットと機能も同じでなければならないことに注意してください。

https://spark.apache.org/docs/2.1.0/mllib-evaluation-metrics.html

http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html

+0

私の関心は、Spark MLとsklearnのためのデフォルトパラメータが異なっている、です。たとえば、最大深度はsklearnではNone、Spark MLでは5です。これにより、データセットとフィーチャが同じであっても精度スコアが変更されます。では、パラメータのデフォルト値とパラメータ自体が異なる場合に達成される最終的な精度をどのように比較できますか?それとも、それを比較できないのでしょうか? – Alvin

+0

@Alvin、それは匹敵します、グリッド検索に精通していますか?これはSparkにも存在し、Sickitにも存在します。グリッド検索でパラメータを最適化してから比較してみてください。 – Masoud

関連する問題