2017-02-05 4 views
0

元のテキストへの参照を維持するために、私は/テキストNLTK:どのように

  • 実行トークン化、ストップワード、削除、補題及びその他の分析

  • を取り、その後、一定の基準を満たす段落を印刷したいですスコア

ただし、上記の手順では情報/トークンを削除します。どのように元のテキストへの参照を保持するので、それらの要素が元々出現した場所を知っているので、正しい段落を引用できますか?

+1

あなたのテキストデータをbeanにラップすることができます。 –

+0

豆とは何ですか?それについて何も見つけることができません... – user7519033

+0

単語ごとに整列インデックスを持つクラスを作成します。索引の境界から必要なコンテキストを抽出できます。 1つの変数は変更されていないテキストを格納し、別の変数は変更を加え、もう1つはアライメント索引を格納します。 –

答えて

1

コーパスを読み込んで段落に分割し、さらに一度に1つの段落に処理を適用することができます。 nltkのPlaintextCorpusReaderを使用してテキストを読むと、文章と単語にトークン化された段落を、paras()メソッドを呼び出すだけで簡単に持つことができます。 gutenbergコーパス(例:PlaintextCorpusReader)を使用した例を次に示します。

from nltk.corpus import gutenberg 
tagged_paras = [ nltk.pos_tag_sents(par) for par in gutenberg.paras() ] 
関連する問題