2017-04-07 4 views
0

こんにちは私は、文書リストの中で最も代表的な文書が何であるかを調べようとしています。私はそれを行うことができることについてのリソースやドキュメントがあるかどうか疑問に思っています。持っているものは何でも文書ドキュメント 文書リストの中で最も代表的な文書

  • のスコアを取得するためにDFを掛けTFのバイグラム
  • 行列乗算と加算を使用して、ストップワードを削除

    • :私は一緒に私はこれを行うに役立ついくつかの単純な統計を入れています平均TF * DFに最も近いTF * DFスコアが検索されます

    したがって、DFが高いほど、それがコーパスの代表であるという考えがあります。 TFスコアリングが平均値に対して最適化されているため、高DF単語を過度に使用または過小使用する文書は処罰されます。

    これはかなりハッキーですが、そこに人が遭遇したことがあるかどうかが疑問です。

  • 答えて

    0

    正しくDFを参照していますか?または文書の頻度を逆にすることを意味しますか?罰則を導入するために、あなたは逆を使用する必要があります。私は最近、より高速な結果のために辞書を使ってこれを行うためのいくつかのツールを実装しました。それはそれらを削除する必要はありませんので、IDFは、ストップワードを罰する必要があります - TF、また

    token_doc_count = { doc_id: {token_id: count}} 
    tokens_freq_corpus = {token_id: count} 
    tokened_docs = {doc_id: list_of_tokens or string_of_tokens} 
    

    は、あなたはそれらの3を必要とします。

    +0

    IDFは、コーパス内の重要な話題にペナルティを課します。つまり、トランプに関するコーパスでは、90%が移民について言及し、10%は環境について言及します。 IDFは、より代表的ではあるが、「移民」を罰する – eljusticiero67

    関連する問題