品詞付きのタグ付き文章をテキストファイルに読み書きするための既存のモジュールまたは簡単な方法があるかどうか知りませんか?私はPythonとNatural Language Toolkit(NLTK)を使用しています。たとえば、このコード:NLTKとPythonを使用してテキストファイルからPOSタグ付き文を読み書きする
import nltk
sentences = "Call me Ishmael. Some years ago - never mind how long precisely - having little or no money in my purse, and nothing particular to interest me on shore, I thought I would sail about a little and see the watery part of the world."
tagged = nltk.sent_tokenize(sentences.strip())
tagged = [nltk.word_tokenize(sent) for sent in tagged]
tagged = [nltk.pos_tag(sent) for sent in tagged]
print tagged
戻り、このネストされたリスト:
[[('Call', 'NNP'), ('me', 'PRP'), ('Ishmael', 'NNP'), ('.', '.')], [('Some', 'DT'), ('years', 'NNS'), ('ago', 'RB'), ('-', ':'), ('never', 'RB'), ('mind', 'VBP'), ('how', 'WRB'), ('long', 'JJ'), ('precisely', 'RB'), ('-', ':'), ('having', 'VBG'), ('little', 'RB'), ('or', 'CC'), ('no', 'DT'), ('money', 'NN'), ('in', 'IN'), ('my', 'PRP$'), ('purse', 'NN'), (',', ','), ('and', 'CC'), ('nothing', 'NN'), ('particular', 'JJ'), ('to', 'TO'), ('interest', 'NN'), ('me', 'PRP'), ('on', 'IN'), ('shore', 'NN'), (',', ','), ('I', 'PRP'), ('thought', 'VBD'), ('I', 'PRP'), ('would', 'MD'), ('sail', 'VB'), ('about', 'IN'), ('a', 'DT'), ('little', 'RB'), ('and', 'CC'), ('see', 'VB'), ('the', 'DT'), ('watery', 'NN'), ('part', 'NN'), ('of', 'IN'), ('the', 'DT'), ('world', 'NN'), ('.', '.')]]
私は簡単にピクルスにこれをダンプする可能性が知っているが、私は本当に大きなテキストのセグメントとしてこれをエクスポートしますファイル。私は、リストをテキストファイルにエクスポートし、それから後でそれを解析し、元のリスト構造を復元することができるようにしたいと思います。これを行うためにNLTKに組み込まれている関数はありますか?それはおそらく、自動のタグラッパーで、pickle.dumpsを使用して、テキストファイルにその出力を挿入するように思える
<headline>Article headline</headline>
<body>Call me Ishmael...</body>
<pos_tags>[[('Call', 'NNP'), ('me', 'PRP'), ('Ishmael', 'NNP')...</pos_tags>
ありがとうございました。ええ、可能ならば人間が読めるようにしたいと思います。私は新聞記事からデータを抽出し、タグ付きレコードを作成しています。私はフィールドの1つに記事のPOSタグ付き文章を入れることを望みます。理想的な出力の例として上記の編集を参照してください... – rjf
あなたが望む出力はあなたのリストのpython reprと同じですか? – so12311
ええ、repr()を使って文字列にしたら、それをリストに戻す方法はありますか? – rjf