2017-01-19 18 views
2

私はWikiでtf–idfを読んでいたので、 "ドキュメント"という言葉が意味するところでは混乱しました。段落を意味するのでしょうか?NLPコンテキストで「ドキュメント」とは何を意味しますか?

"逆文書頻度は、単語がどれくらいの情報を提供するか、つまり、その用語がすべての文書にわたって共通であるかまれであるかの尺度であり、取得された単語を含む文書の対数スケールの逆数です文書の総数をその用語を含む文書の数で割った上で、その商の対数をとることによって計算される。

答えて

2

Documenttf-idfコンテキストは、通常、bag of wordsと考えることができる。 vector space modelでは、各単語は非常に高次元の空間内の次元であり、単語ベクトルの大きさは文書内の単語(用語)の出現数である。 Document-Term行列は、行が文書を表し、列が用語を表し、行列の各セルが文書内の単語の出現を表すマトリックスを表す。それは明らかです。

0

「ドキュメント」は別個のテキストです。これは、一般に、各記事、本などがそれ自身の文書であることを意味する。

あなたが望むのであれば、個々の段落や文章を「ドキュメント」として扱うことができます。それはすべての視点の問題です。

関連する問題