Gensimのデータ解析

これはGensimのPythonライブラリにトレーニングデータを提供する際に必要なデータ構造についての具体的な質問です。特に、それは提供される任意のデータで文書を（それ以外の場合は、例えば、TF-IDFを見つけることができないであろう）を構成するものの暗黙の理解がなければなりません。Gensimのデータ解析

特定の例では、wikipediaダンプは、学習目的でライブラリのチュートリアルで使用されます。ウィキペディアダンプはXMLで提供されています。 gensimは別々の文書をどのように理解していますか？この理解はxml要素のnesingを前提としていますか？

出典

2017-02-22 Stumbler

これは最初の2つのGensimチュートリアルCorpora and Vector Spaces TutorialとCorpora and Vector Spacesで回答されています。コード例を使ってすべての手順を順を追って説明します。

documentsオブジェクト（文字列のリスト）から始まり、辞書とコーパスを作成する方法、および辞書とコーパスを使用してLDAやLSIなどのモデルを作成する方法を示します。

チュートリアルのサンプルコードで分かるように、辞書とコーパスはシリアライズされたファイルから読み込まれます。私はtutorialsとサンプルコードをすべて読むことをお勧めします。

出典

2017-03-03 22:43:19 tkja

Gensimはデータソースに依存しません。その機能のほとんどは、文章のリストをドキュメントとして要求するだけです。実際には、これらの文書は、作成された単語（すなわち、word2vec on graphsを使用するためのもの）から構成することさえできる。

Wikipediaのダンプ及び他の一般的なコーパスの種類を解析するためには、some utility classesを提供します。確認してくださいAPI docsのcorpora.*

出典

2017-03-16 10:36:23 pembeci

答えて

関連する問題