なぜNLTKのword_tokenizerが文字列 "this's"を参照し、それらをまとめて保存するのではなく "this" "" "s"に分割するのかを理解することに問題があります。私は "テストの"とテストして、これはうまく動作します。私が「結果」でテストしたところ、アポストロフィを再び分割しました。これは単なるアポストロフィで起こることでしょうか?Wordのトークナイザが "this's"を取得しない
1
A
答えて
0
NLTKとトークナイザの一般的な動作は、分割することですthis's
- >this
+ 's
です。 's
はクリティークなので、2つの別々の構文単位です。それは同じだ結果の場合には
>>> from nltk import word_tokenize
>>> word_tokenize("this's")
['this', "'s"]
:
>>> word_tokenize("results'")
['results', "'"]
はなぜそのホストから's
と'
別のエンティティですか?
this's
の場合、's
は、コプラを示すis
の省略形です。場合によっては、それはあいまいであり、所有者を示すこともできます。
results'
の2番目のケースでは、'
は、所有権を示しています。
我々は、我々が入手トークン化されたフォームタグ付けPOSのであれば:this's
の場合には
>>> from nltk import word_tokenize, pos_tag
>>> pos_tag(word_tokenize("results'"))
[('results', 'NNS'), ("'", 'POS')]
を、POSタガーは、人々はめったに書かれたテキストでthis's
を使用していないので、それは所有格だと思っ:
>>> from nltk import word_tokenize, pos_tag
>>> pos_tag(word_tokenize("this's"))
[('this', 'DT'), ("'s", 'POS')]
しかし、He's
- >He
+ 's
を見ると、's
がコピュラを示していることがわかります。
>>> pos_tag(word_tokenize("He's good."))
[('He', 'PRP'), ("'s", 'VBZ'), ('good', 'JJ'), ('.', '.')]
関連する問題
- 1. Wordアドイン:ドキュメント全体を取得しますが、File.getSliceAsyncメソッドが返さない
- 2. net/htmlトークナイザからストリームの現在の位置を取得
- 3. R-bigramトークナイザの文書用語行列が動作しない
- 4. エラスティック検索ハイライトがカスタムアナライザ/トークナイザで動作しない
- 5. PySpark:トークナイザ
- 6. Wordアドインフルテキストを取得するには?
- 7. WordからRTFを取得する
- 8. unknow wordのランダムなword2vecベクトルを取得する方法は?
- 9. wordが間違っていない場合にnullを返す文字列メソッドを取得します。
- 10. Word save promptのユーザーの反応を取得しますか?
- 11. 良いjavaトークナイザですか?
- 12. StorageFolderが非同期取得のデータを取得しない
- 13. NLTKのトークナイザとスタンフォードcorenlpのトークナイザは、期間
- 14. WPFウィンドウで使用するWordのウィンドウハンドルを取得します。
- 15. Solrファセットとトークナイザ
- 16. Rスペルチェッカー/トークナイザ
- 17. トークナイザは、トークンフィルタ
- 18. トークナイザで選択ボックスが表示されない
- 19. Wordが予期しない( ")")メイクファイルで
- 20. MS WordでRegExが機能しない
- 21. Kerasパイプラインでのトークナイザのエラー
- 22. SWIプロローグを使用するシンプルなトークナイザ
- 23. Word VBAがデザインモードエラーを終了できない(Word 2003)
- 24. MS-Word ApplicationClassからPIDを取得しますか?
- 25. Microsoft Interop Word見出しから範囲を取得
- 26. C#Word文書からFormFieldを取得してテキストファイルに挿入
- 27. PHPがJSON値を取得しない
- 28. KotlinがリソースIDを取得しない
- 29. シミュレータが場所を取得しない
- 30. GlassfishがPOSTGRESプロパティを取得しない
私はこれはと思う(あわや!)関連:https://ell.stackexchange.com/q/145503 –
母はあなたに感謝します! –
\を先に追加しようとしましたか? IE ''これは\ 's "? – Simon