3
ファイルにアイテムを持たなくてもコーパスを作成する方法はありますか?たとえば、私はウェブからつかむつぶやきや段落を操作したいと思う。私はNLTKで文字列の集合からコーパスを作成できますか?
myCorpus = MyCorpus([
('id', 'item', 'category'),
('id', 'item', 'category'),
('id', 'item', 'category'),
... ])
それとも
myCorpus.add('id', 'item', 'category')
目的は、既存のNLTK機能を持つコーパスを操作することであるような何かを行うことができます。私はTextCollection
をチェックしましたが、カテゴリを処理していないようです。
メモリに保存する方が速い場合があります。たとえば、ウェブからコンテンツをスクラップしている場合などです。 –