2016-12-30 9 views
-1

私はこれが既に作成されていると考えていましたが、文字列を検証して単語かどうかを判断できる関数をイメージしています。例えば単語チェックアルゴリズムは存在しますか?

print(validateWord("Hello")) --> true 
print(validateWord("Haloe")) --> true (may not be a real word but follows the standards of placements of vowels and such) 
print(validateWord("sewxdw")) --> false 

私はちょうどこれがすでに存在し、それがなかった場合は、このアルゴリズムへのwikiポストがいいだろう場合の知識たいと思い、コードを求めていませんよ。

+0

"word"の言語と定義に依存します。だから一般的には:いいえ。そのようなアルゴリズムまたは少なくとも近似が特定の言語に対して存在するかもしれないが。要するに、現在の状態では、この質問は広すぎ、特定の言語の重複がすでに存在する可能性が非常に高い。 – Paul

+0

「アルゴリズム」について質問することで、有効な単語を含む辞書の入力を調べるだけで問題を解決するものを探していますか? –

+0

@RichardSchwartz:言語のすべての有効な単語を含む辞書を見つけるのは難しいです。 – usr2564301

答えて

3

あなたが望むのは、英語のコーパス内の単語(または興味のある言語)で訓練された隠れマルコフモデルです。モデルが好きであるかどうかの推定単語をスコアリングすることができます。それは実際には "jx"のような禁止された組み合わせだけを許可しませんが、そうでない候補者には低いスコアを与えるべきです。

生の文字を使用するモデルを書くのではなく、音素記号(th、ae qu、phなど)にテキストを分割しようとする方がよいかもしれません。

関連する問題