2010-12-27 5 views
3

ファイルにアイテムを持たなくてもコーパスを作成する方法はありますか?たとえば、私はウェブからつかむつぶやきや段落を操作したいと思う。私はNLTKで文字列の集合からコーパスを作成できますか?

myCorpus = MyCorpus([ 
    ('id', 'item', 'category'), 
    ('id', 'item', 'category'), 
    ('id', 'item', 'category'), 
    ... ]) 

それとも

myCorpus.add('id', 'item', 'category') 

目的は、既存のNLTK機能を持つコーパスを操作することであるような何かを行うことができます。私はTextCollectionをチェックしましたが、カテゴリを処理していないようです。

答えて

-1

文字列をファイルに書き込んでコーパスとして処理するのはなぜですか?

+0

メモリに保存する方が速い場合があります。たとえば、ウェブからコンテンツをスクラップしている場合などです。 –

関連する問題