2017-06-26 1 views
0

教科書から特定の用語の定義的な要約を選別したいと考えています。NLP:教科書からの特定の用語の定義による要約

たとえば、生物学の教科書から、私は「ミトコンドリア」という単語の簡潔な要約を作成することができます。私はまず、「ミトコンドリア」という言葉を含むすべての文章をテキストブックで解析し、TextRankやLexRankなどの要約アルゴリズムを使ってそれらの文章を送ってみましたが、これらのアルゴリズムは「定義的」な文章をうまく決定できませんでした。

定義的な要約では、定義が進む限り有用な文章を意味します。例えば、「ミトコンドリアは細胞の強力である」という文は定義的な文であり、「真菌細胞はミトコンドリアも含み、小胞体およびゴルジ体を含む内膜の複雑な系」は実際には関係しないミトコンドリアの定義。

ヘルプやリードは非常に高く評価されます。

答えて

0

これは非常に未解決の質問です。私はこのアプローチにどのようにアプローチするかを指摘しようとすることができます。 またはsent2vecが頭に浮かぶことがあります。

次に、ベクトル形式の文の平均を符号化し、これと単語の余弦の類似性をチェックすることによって、あなたが求める定義文に近いものを得ることができます。

も、あなたは、要約アルゴリズムから抜け出すという用語は、あなたがこれを行うための簡単な方法は本当にありません

0

どのくらい近いかを判断するために閉じてしまうかもしれません平均文章のコサイン類似度をテストしたが、いくつかのオプションがあります:

  1. "mitochondria is"の正規表現を使用してください。可能な限りもっとも愚かなことですが、教科書があれば、それは満足のいくものです。それは簡単で十分なテストは容易でなければならず、最悪の場合は代替案を比較するためのベースラインを提供します。

  2. 単語「ミトコンドリア」を含む各文にパーサ(例:Stanford Parser)を実行し、ミトコンドリアが対象となる文章を抽出します。これはあなたが与えた否定的な例を排除します。おそらく、主動詞の制限、コーディネーターの説明など、これを調整する必要があります。

  3. 使用情報抽出(例:Stanford OpenIE)ミトコンドリアについての事実のリストを取得する(is-in(mitochondria, cell)など)とそれに何かをします。

関連する問題