Word Interop adn C#を使用して作業中のプログラムを作成していて、その中の機能の1つが語数を取得しています。c#interopを使用してワードドキュメントから書式を取得する
これは、私が職場で使用されているCATトールの単語数をエミュレートする必要があるため、これはワード数ではありません。
私が見つけた問題の1つは、CATツールがテキストフォーマットを使用して単語を分割することです。つまり、最初にstを上書きした単語がある場合、単語は1単語(2つの単語が分かれることはないため)をカウントし、CATツールはテキスト形式の変更ごとに2語をカウントします。
CATツールは形式の変更を追跡しており、その情報が単語を壊すことがあります。
単語ごと、文字ごとに移動し、可能性(フォント、太字、斜体など)をすべて確認することはできますが、それはそれぞれ1000語の複数の文書では動作が遅くなります。
もっと良い解決法を知っている人はいますか? MSDNフォーラムから
ドキュメントに適用されているさまざまなスタイルを確認できますか? –
Word-docまたはdocxのどのバージョンですか? docxの場合は、xmlの解析を試すことができます。 – sq33G
Interopは必須ですか? – Yahia