2012-09-25 12 views
6

私は病気を記述するテキスト文書をたくさん持っています。これらの文書はほとんどの場合非常に短く、しばしば単一の文のみを含む。例がここで与えられる:病気の実体認識

原発性肺高血圧症は、最も小さい肺動脈の広範な閉塞が肺血管抵抗の増加につながり、続いて右心室失敗した進行性疾患です。私は必要なもの

は文章で(この場合、例えば、「肺高血圧症」)は、すべての病気の用語を検索し、MeSHなどの統制語彙にマッピングするツールです。

ご回答いただきありがとうございます。

+1

これは非常に具体的であり、プログラミング上の問題ではありません。少なくともここには表現されていません。 –

+1

これはデータマイニングに関する質問のほうが多いようですね。 – Harpal

答えて

2

は、テキストに タスクをテキストマイニング行うことができますテキスト処理システムであるWhatizit http://www.ebi.ac.uk/webservices/whatizit/info.jsf

を参照してください。タスクは、上記のウィンドウのドロップダウンリスト のドロップダウンリストのパイプラインによって定義され、テキストはテキスト エリアに貼り付けることができます。

またbiostarsを求めることができる:それを行うには、多くのツールがhttp://www.biostars.org/show/questions/

2

があります。いくつかの人気のあるもの:

その中にはいくつかの定義済みのモデルが付属しています。つまり、既にいくつかの一般的なデータセットで訓練されていますs(ニュース記事など)。しかし、あなたのテキストは非常に特殊なので、最初にコーパスを構成し、それらのツールの1つを再編成してデータに合わせることができます。

さらに簡単に言えば、最初のテストとして、エンティティ名のリストを設計し、正確な一致または近似的な一致を実行する辞書ベースのアプローチを試すことができます。例えば、この操作はLingPipe's tutorialに記載されています。

はどちらもUMLS、統一された医療言語システムを使用するので、あなたが持っていることが必要です。ここで

6

は、具体的には、医療文書の解析のために設計されている2つのパイプラインがあります(無料)ライセンス。どちらもJavaで、多かれ少なかれセットアップが簡単です。

+2

私はそれらを「セットアップが簡単」と分類しているかどうかはわかりませんが、どちらかというとうまくいきます。昨年末、MetaMapの新しいバージョンがリリースされました。 –

関連する問題