これはGensimのPythonライブラリにトレーニングデータを提供する際に必要なデータ構造についての具体的な質問です。特に、それは提供される任意のデータで文書を(それ以外の場合は、例えば、TF-IDFを見つけることができないであろう)を構成するものの暗黙の理解がなければなりません。Gensimのデータ解析
特定の例では、wikipediaダンプは、学習目的でライブラリのチュートリアルで使用されます。ウィキペディアダンプはXMLで提供されています。 gensimは別々の文書をどのように理解していますか?この理解はxml要素のnesingを前提としていますか?