2017-02-22 10 views
0

これはGensimのPythonライブラリにトレーニングデータを提供する際に必要なデータ構造についての具体的な質問です。特に、それは提供される任意のデータで文書を(それ以外の場合は、例えば、TF-IDFを見つけることができないであろう)を構成するものの暗黙の理解がなければなりません。Gensimのデータ解析

特定の例では、wikipediaダンプは、学習目的でライブラリのチュートリアルで使用されます。ウィキペディアダンプはXMLで提供されています。 gensimは別々の文書をどのように理解していますか?この理解はxml要素のnesingを前提としていますか?

答えて

1

これは最初の2つのGensimチュートリアルCorpora and Vector Spaces TutorialCorpora and Vector Spacesで回答されています。コード例を使ってすべての手順を順を追って説明します。

documentsオブジェクト(文字列のリスト)から始まり、辞書とコーパスを作成する方法、および辞書とコーパスを使用してLDAやLSIなどのモデルを作成する方法を示します。

チュートリアルのサンプルコードで分かるように、辞書とコーパスはシリアライズされたファイルから読み込まれます。私はtutorialsとサンプルコードをすべて読むことをお勧めします。

1

Gensimはデータソースに依存しません。その機能のほとんどは、文章のリストをドキュメントとして要求するだけです。実際には、これらの文書は、作成された単語(すなわち、word2vec on graphsを使用するためのもの)から構成することさえできる。

Wikipediaのダンプ及び他の一般的なコーパスの種類を解析するためには、some utility classesを提供します。確認してくださいAPI docscorpora.*