をトークン化私は以下のように連結した単語を含む文字列のセットを持って:私はグーグルにこれらの用語を入力するとは、連結文字列
longstring (two English words)
googlecloud (a name and an English word)
、それはとの言葉を認識し、「もしかして?」 (「長い文字列」、「googleクラウド」)。私は自分のアプリケーションに似た機能が必要です。
私はPythonとElasticSearchのオプションを調べました。私が見つけたすべてのトークン化の例は、空白、大文字、特殊文字などに基づいています。
文字列は英語で提供されていますが、名前は含まれていますか?それは特定の技術にある必要はありません。
Google BigQueryでこれを行うことはできますか?