与えられた入力 "速い茶色のキツネが飛んで"私は単語のためにすべての可能なトークンの組み合わせを作成したいと思います。ですから、例えば文字列がすべての可能な単語の組み合わせにトークン化
[
"quick", "quick brown", "quick fox", "quick jumped",
"brown", "brown quick", "brown fox", "brown jumped",
...,
"jumped quick", "jumped brown", "jumped fox", "jumped"
]
にトークン化されるだろう、私はそれのためにshingle tokeniserを使用することができますが、それは唯一の隣接条件を連結して新しいトークンを作成し、私はで終わる:前方右のステップです
[
"quick", "quick brown", "quick brown fox", "quick brown fox jumped",
"brown", "brown fox", "brown fox jumped",
"fox", "fox jumped",
"jumped"
]
私が探しているものではありません。
あなたの後にあるユースケースについて説明できますか? – Val
@Valロングストーリー短く - 単一の用語だけでなく(["クイック"、 "ブラウン"、 "キツキ"、 "ジャンプ"))、これらの単語/用語の組み合わせ –