2011-07-22 18 views
2

私はタグ付けして保存したいプレーンテキストコーパスを持っています。これを行う最善の方法は何ですか?タグなしコーパスをタグ付き(NLTK)に変換する

私はすでにタグ付けがなされていますが、私はあなたが簡単なユニグラムタギングをやっている、またはあなたが実際にテキストを解析している

答えて

0

乱雑ではありませんコーパスを変更する方法を把握することはできませんか?私はNLTKがすべてのトークンの出力が(トークン、PoS)であるようにタグを解析すると信じています。タプルの配列があなたのコーパスを格納するのに受け入れられないのですか?なぜあなたはこれが厄介であると思いますか?

1

出力例については、茶色のような他のタグ付きコーパスを見てください。これは、タグ付けされたコーパスがどのように見えるべきかのアイデアを提供します。次に、コーパスをロードして(PlaintextCorpusReader)、各文にタグを付けて繰り返します。次に、from nltk.tag.util import tuple2strの後に、' '.join([tuple2str(t) for t in tagged_sent])のように、タグ付きセンテンスから文字列を作成して、各タグ付きセンテンスをファイルに書き込みます。そして、あなたのコードが正しく仕事をしている限り、「乱雑」であれば大丈夫です。あなたはここで優雅なアルゴリズムを探しているわけではなく、非常に特定のスクリプトを実行してカスタムコーパスを作成しています。

関連する問題