私は、スタンフォードPOSタグを使って文にタグを付けるつもりです。文書を文に分割し、文をトークンに分割したい。私は初めてjavaを使用しているので、コマンドラインからタグを実行したいだけです。スタンフォードPOSタガーでトークン化はどのように行われますか?
私はタガーを実行しているので、それは出力を与えますが、 "untokenizable"という警告を出します。 この警告は何を意味しますか?タグ付けによってトークン化が暗黙的に行われていませんか?
指定した文章にテキストを分割するコマンドを実行しようとしましたが、動作しません。タガーは、パスを開くことができなかったというエラーを返します。
また、テキストファイルの数を入力して対応するファイルに出力して、すべての出力が混乱しないようにする方法も知りたいと思います。
メーリングリストに尋ねる方がいいかもしれません。http://nlp.stanford.edu/software/tagger.shtml#Mail – ceving
または、少なくともstanford-nlpタグを追加してください:-) –