0
こんにちは私は、文書リストの中で最も代表的な文書が何であるかを調べようとしています。私はそれを行うことができることについてのリソースやドキュメントがあるかどうか疑問に思っています。持っているものは何でも文書ドキュメント 文書リストの中で最も代表的な文書
- :私は一緒に私はこれを行うに役立ついくつかの単純な統計を入れています平均TF * DFに最も近いTF * DFスコアが検索されます
したがって、DFが高いほど、それがコーパスの代表であるという考えがあります。 TFスコアリングが平均値に対して最適化されているため、高DF単語を過度に使用または過小使用する文書は処罰されます。
これはかなりハッキーですが、そこに人が遭遇したことがあるかどうかが疑問です。
IDFは、コーパス内の重要な話題にペナルティを課します。つまり、トランプに関するコーパスでは、90%が移民について言及し、10%は環境について言及します。 IDFは、より代表的ではあるが、「移民」を罰する – eljusticiero67