PythonのSpacyパッケージには、文をトークンにインテリジェントに分割する統計トークナイザがあります。私の質問は、私が後方に、すなわちトークンのリストからきれいにフォーマットされた文に行くことを可能にするパッケージがあるということですか?それはおそらく間隔、総額または収縮が適切な文で働くべきかを知るために、統計的/ルールベースの手順のいくつかの並べ替えを必要とするNLP reverse tokenizing(トークンからきれいにフォーマットされた文へ)
>>> toks = ['hello', ',', 'i', 'ca', "n't", 'feel', 'my', 'feet', '!']
>>> some_function(toks)
"Hello, I can't feel my feet!"
:基本的に、私は私が次の操作を行うことができます機能が欲しいです。
I spaCyの 'token'オブジェクトにアクセスできます。私は、フォーマットされた文にトークンのリストを照合するdictを作成します。ありがとう! –