0
元のテキストへの参照を維持するために、私は/テキストNLTK:どのように
実行トークン化、ストップワード、削除、補題及びその他の分析
を取り、その後、一定の基準を満たす段落を印刷したいですスコア
ただし、上記の手順では情報/トークンを削除します。どのように元のテキストへの参照を保持するので、それらの要素が元々出現した場所を知っているので、正しい段落を引用できますか?
元のテキストへの参照を維持するために、私は/テキストNLTK:どのように
実行トークン化、ストップワード、削除、補題及びその他の分析
を取り、その後、一定の基準を満たす段落を印刷したいですスコア
ただし、上記の手順では情報/トークンを削除します。どのように元のテキストへの参照を保持するので、それらの要素が元々出現した場所を知っているので、正しい段落を引用できますか?
コーパスを読み込んで段落に分割し、さらに一度に1つの段落に処理を適用することができます。 nltkのPlaintextCorpusReader
を使用してテキストを読むと、文章と単語にトークン化された段落を、paras()
メソッドを呼び出すだけで簡単に持つことができます。 gutenberg
コーパス(例:PlaintextCorpusReader
)を使用した例を次に示します。
from nltk.corpus import gutenberg
tagged_paras = [ nltk.pos_tag_sents(par) for par in gutenberg.paras() ]
あなたのテキストデータをbeanにラップすることができます。 –
豆とは何ですか?それについて何も見つけることができません... – user7519033
単語ごとに整列インデックスを持つクラスを作成します。索引の境界から必要なコンテキストを抽出できます。 1つの変数は変更されていないテキストを格納し、別の変数は変更を加え、もう1つはアライメント索引を格納します。 –