2011-05-12 7 views
2

私は、スタンフォードPOSタグを使って文にタグを付けるつもりです。文書を文に分割し、文をトークンに分割したい。私は初めてjavaを使用しているので、コマンドラインからタグを実行したいだけです。スタンフォードPOSタガーでトークン化はどのように行われますか?

私はタガーを実行しているので、それは出力を与えますが、 "untokenizable"という警告を出します。 この警告は何を意味しますか?タグ付けによってトークン化が暗黙的に行われていませんか?

指定した文章にテキストを分割するコマンドを実行しようとしましたが、動作しません。タガーは、パスを開くことができなかったというエラーを返します。

また、テキストファイルの数を入力して対応するファイルに出力して、すべての出力が混乱しないようにする方法も知りたいと思います。

+0

メーリングリストに尋ねる方がいいかもしれません。http://nlp.stanford.edu/software/tagger.shtml#Mail – ceving

+0

または、少なくともstanford-nlpタグを追加してください:-) –

答えて

4

はい、スタンフォードPOSタグャーには、高品質の確定的なトークナイザが含まれています。これは、テキストがすでにトークン化されていると言わない限り使用されます。正式な英語のテキストの場合は、他のほとんどのトークナイザよりも優れていますが、SMS、つぶやきなどにはまったく適していません。

警告が無効になるということは、入力にバイト/プロセス。

これは実際にはこれが意味することです:タガーのデフォルトの文字エンコーディングはutf-8(Unicode)ですが、ドキュメントはiso-8859-1やWindows cp1252のような8ビットエンコーディング。 -encodingフラグを使用して、ドキュメントを変換したり、入力ドキュメントのエンコードを指定することができます。

しかし、入力に稀な文字があることを知らないということもあります。そのような場合には、たまにしかないキャラクターであれば、メッセージを無視することができます。文字を削除するか、1文字のトークンにするかを選択できます。

現在、1つのコマンドで複数のファイルを実行する機能はありません。ファイルごとに別々に実行するか、独自のコードを書く必要があります。

関連する問題