2012-01-12 11 views
3

私は自動的に英語のテキストを識別できない自然言語ツールを探しています。たとえば、すべての電子メールアドレスの名前を変更するか、あいまいにする必要があります。しかし、適切な名前は、住所とそれ以外のものと同様に、識別されなくてはならない。自然言語の識別を解除

MITRE Identification Scrubber Toolkitがあります。私はそれがどれくらいうまく機能しているか分かりません。

私の質問は:

  • は、他のツールがそこにありますか?
  • 誰でもMITERツールを使い慣れていますか?どれくらいうまくいくのですか?

ありがとうございます。その成功は明らかにヘルスケアのためのNLP、医学などのような分野での本格的なテキストコーパスを使用するための必要条件であるとして

+0

@eowl合意されたエンティティの認識+トークンの置換は、主に名前付きエンティティの認識に関するものです。ただし、アナフォラの解像度を追加することもできます。アナフォラ(「彼」、「公式」、「スポークスマン」など)を識別できることは、テキストをさらに匿名化する上で重要です。そのようなツールは、NLPドメインにはっきりとあり、コーディングについてはあまりありません(つまり、上記のSEサイトと同様にSOにあまり関係しません)。 – Iterator

+0

(続き)これが法的または倫理的な要件に関連している場合、NLPコミュニティが提供できるものを調べることは非常にうまくいくでしょう。単に何かを新たにコーディングするよりも実体的でしょう。最先端のリソースを使用して)。とにかく、これはコーディングよりツールに関連しています。これが移行の理由です。幸い、興味深い質問です。 – Iterator

+0

@Iterator NLPは依然として提案に過ぎません。したがって、実際にサイトになるまでは、NLPを移行することはできません。 –

答えて

2

デ識別が(おそらくより頻繁に匿名という)非常に活発な研究領域であります。 CrossValidatedのthis questionへの回答に記載されているツールを見ることをお勧めします。さらにリンクをたどった場合は、これらのツールがどのように機能しているかを説明したリサーチ・ペーパーと、さらに参照や結果の評価があります。