メモリに収まらないコーパスに基づいてtf-idfモデルを構築したいと思います。私は、チュートリアルを読みますがコーパスは、一度にロードされているようだ:メモリに収まらないコーパスのTfidfVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = ["doc1", "doc2", "doc3"]
vectorizer = TfidfVectorizer(min_df=1)
vectorizer.fit(corpus)
私が代わりにそれらのすべてをロードするのいずれかによってメモリ1に文書を読み込むことができる場合、私は疑問に思います。
、 'TfidfVectorizer'が減少し、メモリ使用量と速度向上のために見直しが行われましたように、最近の開発版ではなく、安定したリリースを使用するのは良い考えかもしれません。 –