最近、私はspaCyで文章にいくつかの医学テキストを分割している間にいくつかの問題を経験しています。たぶんあなたは説明することができます、なぜこれらの問題が発生する?spaCyが適切に医学テキストを解析できない
単語の長さが1で、文章の終わりがドットで終わる場合、文末は認識されません。例えば :
I.(ここでNO SPLIT)術前 経口補酵素Q心臓を受けている患者における(10)治療術前又は 術後血行動態またはトロポニンの放出には間の治療差はなかったです手術は、心筋および心筋ミトコンドリア補酵素Q(10)レベルを増加させ、ミトコンドリア効率を改善し、心筋寛容をインビトロ低酸素再酸素化ストレスに増加させる( )。
もう1つの問題は、文章の末尾として扱われる文字+/-
です。例えば1つの全文は、以下のようないくつかの文に分割される:
- VO(2MAX)3.6 +/-
- 2.1によって有意に減少し、14 +/-
- 2.5、および27.4 +/-
- 3.6 TWにおける%、5 +/-
- 4によって、それぞれ9.4 +/-
- 6.4、1000、2500 SWで18.7 +/-
- 7%、4500 M、。
上記のすべてが1つの単一の文です。
単語と特殊文字(特殊文字と特殊文字、数字と長さが3未満の単語)の間で文が中断されることがあります。
左心室を受けた患者の生存率は患者が最適な医学的管理 (N = 61)を受信対 装置(N = 68)アシストは1年で28%対52%とで13%対29%でした2年ここに (P = .008、ログランクテスト)。
ありがとうございました!