トークン化コードがかなり複雑であることがわかりましたが、コード内のどこに文が分割されているのかわかりませんでした。spaCyトークナイザはどのように文を分割しますか?
例えば、どのようにトークナイザが
Mr. Smitt stayed at home. He was tired
は「ミスター」に分割すべきではないことを知っているん"彼"の前に分割する必要があります。そして、コードのどこで "彼"が起こる前に分割が行われますか?
(私は右の場所で探していた場合に実際に、私はわからない実際にわからない午前:私はtokenizer.pyx
にsents
を検索する場合、私は任意の発生を見つけることができません)
これは読んでいますか? https://spacy.io/docs/usage/customizing-tokenizer#how-tokenizer-works –