んPythonのNLTKツールキットは、各反復ごとに異なる結果を返しますか?NLTKは実行ごとに異なる結果を返しますか?</p> <p>1)トークン化</p> <p>2)POSタグ付け:
NLTKを使用して大きなテキストファイルをタグ付けしています。トークン化されたタプルのリストは毎回異なるサイズを持ちます。どうしてこれなの?
んPythonのNLTKツールキットは、各反復ごとに異なる結果を返しますか?NLTKは実行ごとに異なる結果を返しますか?</p> <p>1)トークン化</p> <p>2)POSタグ付け:
NLTKを使用して大きなテキストファイルをタグ付けしています。トークン化されたタプルのリストは毎回異なるサイズを持ちます。どうしてこれなの?
いずれの反復ループでもロジックまたは計算を変更しません。 NLTKで
、デフォルトでtokenzationは、デフォルトでは
POSタグ付けが英語のために訓練モデルを使用し、そのためのトークンごとに同じPOSタグを与える文からのトークンを分割するために、正規表現を使用して、ルールベースであります与えられた訓練されたモデル。そのモデルが再び訓練されれば、それは変わるでしょう。
したがって、あなたの質問への基本的な答えはno
鬼とトークナイザの両方が確定的です。 Pythonディクショナリの反復処理では、プログラムの実行ごとに異なる順序で結果が返される可能性がありますが、これはトークン化には影響しません。したがって、トークンの数(タグ付けされているかどうか)は変わるべきではありません。あなたのコードに他の何かが間違っています。
[mcve] –