テキストマイニングMS Word文書？

-2

私は、人々の名前やスキルなどのデータを含む約30の.docx文書（履歴書）を持っています。私はこの情報の一部をスプレッドシートに取り込み、手作業を減らすために、テキストマイニングのアプローチを使うことができると考えました。テキストマイニングMS Word文書？

これらの文書からマイニング（半構造の並べ替え）に役立つツールやアプローチはありますか？

出典

2012-04-27 dani

[python-docx]（https://github.com/mikemaccana/python-docx）のようなツールを使ってファイルの内容にアクセスできます。名前、スキルなどを取得することは困難です（同じフォーマットに従わないと仮定して）。あなたはいくつかのルールを手作業でコーディングしようとすることができますが、これをより堅牢にしたい場合、そこには商用ツールがあります（http://www.daxtra.com/parsing.html）... – Dougal

私が知っているように、pull from word documents（それ自体は難しいかもしれませんが）とpopulate xml spreadsheets perlモジュールを使用することができます。

私は長い間怒りの中でperlを書いていないので、これを行う方法の例を提示することはできませんが、私がこれを行うために何かをまとめると、私はperlを推奨します。誰かがPythonで同等の機能を持っているとか、多分Rubyでもそうだとは思うが、perlは私が使っているものだから、テキストの操作/マッチング/解析/処理には非常に効果的だ。

出典

2012-04-27 18:22:48 ebullient

catdochttp://www.wagner.pp.ru/~vitus/software/catdoc/ツールを使用すると、テキストファイルをMS Wordファイルから抽出してから、必要なテキスト処理を行うことができます。私はたぶんgrepのために、catdocの出力に対する履歴書にある特定の言葉の存在を知っています。解決策のオーバーエンジニアリングには意味がありません。

出典

2012-05-08 05:14:00 Idr

テキストマイニングMS Word文書？

答えて

関連する問題