2017-09-25 9 views
3

最近、私はspaCyで文章にいくつかの医学テキストを分割している間にいくつかの問題を経験しています。たぶんあなたは説明することができます、なぜこれらの問題が発生する?spaCyが適切に医学テキストを解析できない

単語の長さが1で、文章の終わりがドットで終わる場合、文末は認識されません。例えば :

I.(ここでNO SPLIT)術前 経口補酵素Q心臓を受けている患者における(10)治療術前又は 術後血行動態またはトロポニンの放出には間の治療差はなかったです手術は、心筋および心筋ミトコンドリア補酵素Q(10)レベルを増加させ、ミトコンドリア効率を改善し、心筋寛容をインビトロ低酸素再酸素化ストレスに増加させる( )。

もう1つの問題は、文章の末尾として扱われる文字+/-です。例えば1つの全文は、以下のようないくつかの文に分割される:

  • VO(2MAX)3.6 +/-
  • 2.1によって有意に減少し、14 +/-
  • 2.5、および27.4 +/-
  • 3.6 TWにおける%、5 +/-
  • 4によって、それぞれ9.4 +/-
  • 6.4、1000、2500 SWで18.7 +/-
  • 7%、4500 M、。

上記のすべてが1つの単一の文です。

単語と特殊文字(特殊文字と特殊文字、数字と長さが3未満の単語)の間で文が中断されることがあります。

左心室を受けた患者の生存率は患者が最適な医学的管理 (N = 61)を受信対 装置(N = 68)アシストは1年で​​28%対52%とで13%対29%でした2年ここに (P = .008、ログランクテスト)。

ありがとうございました!

答えて

1

SpaCyの英語モデルは、ウェブデータ(主にブログ記事のようなもの)で訓練されています。明らかに、平均的なブログ記事はあなたが取り組んでいる医学文献のようには見えないので、spaCyは大混乱しています。この問題はspaCyに固有の問題ではなく、医学論文を含まない統計的モデリングを使用する「典型的な」英語で作業するように設計されたシステムでも発生します。

医療用テキストは、他の状況でも動作するNLP技術に問題があることで有名です。そのために特別に調整されたものを探してみるとよいでしょう。また、データに基づいて小さなトレーニングセットを作成し、新しいspaCyモデルを作成することもできます。

つまり、+/-の問題は奇妙に見え、モデルの問題ではなくトークン化の問題などに基づいている可能性があります。バグレポートhereを提出することをお勧めします。

関連する問題