私は現在、正規表現のマッチングに基づいてC#での人間の言語のための非常に単純な字句analiserに取り組んでいます、と私は現在、その正規表現をspecifingの問題に直面していますターゲット言語のすべての句読記号と一致させることができます。また、すべての種類の空白にも一致する別の句読記号に一致させることができます。スタックオーバーフローと別のサイトでここを検索したところ、正規表現\p{P}
と句読点\p{Z}
をそれぞれ使用することができ、テキストファイルから読み込むときに機能します。問題は、最終的なプログラムでは、SQLデータベースからレコードを読み取り、このレキシカルアナライザーを使用して処理する必要があり、DB内のレコードのエンコーディングがわからないということです。この状況でこれが問題になることはありますか?上記のRegexesは、エンコーディングに関係なく、入力のすべての句読点や空白文字にマッチできますか?
ありがとうございました。
どのデータベースを使用していますか? – Amirshk
SQL Server 2008. – Miguel