0
私はMS Word .doc/.docxファイルのテキストを解析するプログラムを作成していますので、テキストを単語に分割する必要があります。隠し記号は削除できません
私は区切り文字として最も人気のある文字でこのためにString.Splitメソッドを使用しています。 すべてはいいですが、MS Wordはいくつかの隠れた記号を使用しており、1つの記号が見つかりません。
Wordで「表示されていない記号を表示する」をクリックすると、これはhided symbolのようになります。
私は、少なくともそれについて知っておく必要があり:ユニコード、名前に進コードを、など
ここで私はこれを行うには良い方法を使用することだと思うすべての私のセパレータを
char[] separators = { ' ', ',', '.', ':', '"', '\'', ';', '-', '‴', '‵',' ', '\b','\x00A0',
')', '\\', '*', '%', '$', '@', '{', '}', '„', '“','…', '′', '″','’',' ', '\x2007', '\x200C',
'№', '(', '?', '!', '_', '\t', '\n', '\r', '\a', '<', '>','‶', '‷',' ','\0', '\x202F',
'/', '~', '#', '+', '—', ']', '[', '|', '«', '»', '&', '–', '¶', '‘', '\f', '\x2060'};
string[] splittedWords = text.Split(separator);
これを行うには、\ b(単語境界)で正規表現を分割する方が良いでしょう。 –
'doc'はバイナリ形式であり、' docx'はXMLファイルの圧縮されたパッケージであり、バイナリです。分割する単語はありません。どのような「隠れた」シンボルがあなたに話しているのですか、それをどこで見つけましたか?どのようにテキストを読んだのですか? –
これを見てみましょう:https://stackoverflow.com/questions/3114027/regex-expressions-for-all-new-alphanumeric-symbolsを正規表現 – ccalboni