A-Za-z0-9
正規表現を使用して英語の文字と数字を抽出できることがわかりました。他の言語から単語を抽出する正規表現
アラビア語などの他の言語から単語を抽出するにはどうすればいいですか?スクリプト内の文字と数字のみを許可する方法はありますか?
私が使用した方法の1つは、テキストから欲しがらないものをすべて除外して、ただの言葉で残しておきますが、この方法はCPU時間がかかり、大規模アプリケーションでは効率的ではありません。
私は他のどのメソッドが使用されていたのか、他の言語のテキストを分析するために使用できることが分かっていました。
中国語、日本語など、単語間のスペースを使用しない言語からどのように単語を抽出できますか?私が言葉を区別するために取った1つのアプローチは、スタイルや改行を異なる作業でなければならないことを認識する方法として見ていますが、人々が改行や書式設定をして別の言葉。
したがって、要約すると、正規表現を使用して他の言語をどのように分析できますか?
笑、今私は私がどんな中国語の単語辞書を見つけることができないとして取るべきアプローチを知らないとして私をbogglesのthats。たぶんあなたはいくつかのリンクで私を助けることができます。 – Vish
無料の中国語辞書ファイルをGoogleで検索すると、次のようになります。http://www.mdbg.net/chindict/chindict.php?page=cedict私は中国語で単語を分割する方法に関する別の答えを追加します。 – Nayuki