2016-11-02 10 views
1

JavaコードからStanford NLP Text Classifier(ColumnDataClassifier)を使用しています。私は2つの主な質問があります。スタンフォードNLPテキストクラシファイア、カスタムフィーチャ、コンフュージョンマトリックス

1-)混乱行列などの詳細な評価情報を印刷する方法を教えてください。

2)私のコードはすでに、前処理を行い、バイナリフィーチャやTF-IDF値などの用語の数値フィーチャ(ベクトル)を抽出します。これらの機能を使用して、分類子をトレーニングしてテストするにはどうすればよいですか。

+0

これは、分類器のために見て良いリソースです。 stanford.edu/wiki/Software/Classifier – StanfordNLPHelp

+0

私は混乱マトリクスをすぐに印刷する方法はないと思います。ここにクラスのjavadocもあります:http://nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/classify/ColumnDataClassifier.html – StanfordNLPHelp

+0

@StanfordNLPHelpありがとう。これを見てください:http://stackoverflow.com/questions/40685303/stanford-nlp-columndataclassifier-how-to-serialize-model-with-only-top-features – hrzafer

答えて

1
  1. 私はhereで関連する質問をしました。 ColumnDataClassifierには、混乱マトリクスでメトリックを出力するオプションがありません。しかし、ColumnDataClassifier.javaのコードを見ると、TP、FP、TN、FNがstdinに出力されている場所を知ることができます。この場所には、あなたが必要とする生の価値があります。これらを混同行列に集約して実行後に​​出力する方法に使用できますが、このコードを自分で記述する必要があります。

  2. wikiには、ColumnDataClassifierで数値機能を使用する方法の例があります。あなたは、数値の機能を使用する場合は、あなたには、いくつかの変換を適用んできるようAPIから、これらのオプションを見てみます。http:// NLP

    realValued boolean false Treat this column as real-valued and do not perform any transforms on the feature value. Value 
    logTransform boolean false Treat this column as real-valued and use the log of the value as the feature value. Log 
    logitTransform boolean false Treat this column as real-valued and use the logit of the value as the feature value. Logit 
    sqrtTransform boolean false Treat this column as real-valued and use the square root of the value as the feature value. Sqrt 
    
関連する問題