私はカスタム検索エンジンを開発しており、各単語を適切な言語固有の語幹に渡す必要があります。UTF8バッファから各単語の単語境界と言語を検出します。
私は最近、UTF8バッファの印象的な言語検出を提供するコンパクト言語検出器(CLD)http://blog.mikemccandless.com/2011/10/language-detection-with-googles-compact.htmlを発見しました。
CLDは特定のバッファの言語を検出するのに最適ですが、バッファから単語の境界を抽出するだけでなく、これらの単語のそれぞれについて言語を検出する必要があります。
アイデア?
正規表現 '\ b'で特殊文字。 – kirilloid