隠し記号は削除できません

私はMS Word .doc/.docxファイルのテキストを解析するプログラムを作成していますので、テキストを単語に分割する必要があります。隠し記号は削除できません

私は区切り文字として最も人気のある文字でこのためにString.Splitメソッドを使用しています。すべてはいいですが、MS Wordはいくつかの隠れた記号を使用しており、1つの記号が見つかりません。

Wordで「表示されていない記号を表示する」をクリックすると、これはhided symbolのようになります。

私は、少なくともそれについて知っておく必要があり

：ユニコード、名前に進コードを、など

ここで私はこれを行うには良い方法を使用することだと思うすべての私のセパレータを

 char[] separators = { ' ', ',', '.', ':', '"', '\'', ';', '-', '‴', '‵',' ', '\b','\x00A0', 
      ')', '\\', '*', '%', '$', '@', '{', '}', '„', '“','…', '′', '″','’',' ', '\x2007', '\x200C', 
      '№', '(', '?', '!', '_', '\t', '\n', '\r', '\a', '<', '>','‶', '‷',' ','\0', '\x202F', 
      '/', '~', '#', '+', '—', ']', '[', '|', '«', '»', '&', '–', '¶', '‘', '\f', '\x2060'}; 

     string[] splittedWords = text.Split(separator);

出典

2017-06-26 Dmitriy Skopintsev

これを行うには、\ b（単語境界）で正規表現を分割する方が良いでしょう。 –

'doc'はバイナリ形式であり、' docx'はXMLファイルの圧縮されたパッケージであり、バイナリです。分割する単語はありません。どのような「隠れた」シンボルがあなたに話しているのですか、それをどこで見つけましたか？どのようにテキストを読んだのですか？ –

これを見てみましょう：https://stackoverflow.com/questions/3114027/regex-expressions-for-all-new-alphanumeric-symbolsを正規表現 – ccalboni

です正規表現。正規表現を使用すると、セパレータを宣言する必要なく、単語をマッチ、置換、分割することができます。見てみてくださいhttps://msdn.microsoft.com/en-us/library/system.text.regularexpressions.regex(v=vs.110).aspx これがうまくいきますように。

出典

2017-06-26 14:29:10

隠し記号は削除できません

答えて

関連する問題