私はテキストを分類するためのロジスティック回帰テクニックを練習しようとしています。そして、私はp x n行列、演劇のためのp行とユニークな単語のためのn列の形式でデータセットを構築したいと思います。私はすでに働くテキストを持っていますが、その中の言葉を数えるだけです。 どの演奏にどの言葉が含まれているかを把握することが重要です。演劇のために私はユニークな言葉を引用するPython辞書を作成すること
文書分類でIDF(逆文書頻度)を計算することに疑問があります。私はトレーニングのために複数のドキュメントを持つ複数のカテゴリを持っています。私は、次の式を使用して文書内の各用語のためのIDFを計算しています: IDF(t,D)=log(Total Number documents/Number of Document matching term);
私の質問は以下のとおりです。 何を意味する「