2012-04-27 20 views
-2

私は、人々の名前やスキルなどのデータを含む約30の.docx文書(履歴書)を持っています。私はこの情報の一部をスプレッドシートに取り込み、手作業を減らすために、テキストマイニングのアプローチを使うことができると考えました。テキストマイニングMS Word文書?

これらの文書からマイニング(半構造の並べ替え)に役立つツールやアプローチはありますか?

+0

[python-docx](https://github.com/mikemaccana/python-docx)のようなツールを使ってファイルの内容にアクセスできます。名前、スキルなどを取得することは困難です(同じフォーマットに従わないと仮定して)。あなたはいくつかのルールを手作業でコーディングしようとすることができますが、これをより堅牢にしたい場合、そこには商用ツールがあります(http://www.daxtra.com/parsing.html)... – Dougal

答えて

0

私が知っているように、pull from word documents(それ自体は難しいかもしれませんが)とpopulate xml spreadsheets perlモジュールを使用することができます。

私は長い間怒りの中でperlを書いていないので、これを行う方法の例を提示することはできませんが、私がこれを行うために何かをまとめると、私はperlを推奨します。誰かがPythonで同等の機能を持っているとか、多分Rubyでもそうだとは思うが、perlは私が使っているものだから、テキストの操作/マッチング/解析/処理には非常に効果的だ。

0

catdochttp://www.wagner.pp.ru/~vitus/software/catdoc/ツールを使用すると、テキストファイルをMS Wordファイルから抽出してから、必要なテキスト処理を行うことができます。私はたぶんgrepのために、catdocの出力に対する履歴書にある特定の言葉の存在を知っています。解決策のオーバーエンジニアリングには意味がありません。

関連する問題