私は多くの文字列を持っています。それらのすべてには文字のみが含まれています。文字と単語は、スペースで区切られていません。いくつかの文字は英語の単語と他のちょうどバグを構成します。ストリングは文全体を含むことはできません。文字列に英語の音声が含まれているかどうかを確認するための効率的なアルゴリズムが必要です
有効な英語の言葉で書かれたものを見つける必要があります。私が言いたいのは、ストリングはよく書かれた英語の単語を連結することで構築できるということです。私は単語リストで何かをすることができることを知っています。しかし、その言葉は互いに分裂しているわけではありません。したがって、すべての可能な単語の組み合わせをテストするのは非常に時間がかかることがあります。
私は、文字列が英単語または英語の音声で構築されているかどうかをチェックする高性能のアルゴリズムまたは方法を探しています。たぶん、文字列に英語の音声が入っている可能性があります。
私を助ける方法やアルゴリズムをご存知ですか? Sphinxのようなものがありますか?
ありがとうございます。私は何を使うことができるかを調べる時間が必要です。 –
ちょっと説明するだけです。セグメンテーションをまったく心配する必要がないので、ここではN-gramが適切です。あなたの言語N-gramモデルは、セグメント化されていないテキストコーパス上に生成されるべきです。 –