-2

記事の要約を自動的に作成できる学習Algoを書いてみたい。要約小説のためのAlgo:教師あり学習

たとえば、フィクション小説(フィルタと見なす1つのカテゴリ)がPDF形式で存在します。私はその要約を作成する自動プロセスを作りたいと思う。 教師あり学習の手法で実装するためのサンプルデータを提供することができます。 これを適切に実装するにはどうすればよいか教えてください。

私は初心者ですAndrew Ngコースを習得し、いくつかの一般的なアルゴリズム(線形reg、ロジスティック、ニューラルネット)+ Udacity Statisticsコースを理解し、NLP、深い学習などにもっと潜る準備ができましたが、この。 :) ありがとうございます

+3

これは広く未解決のトピックです。この種の問題を初心者に取り組むことは良い考えではないと思います。私が言ったように、これは広範かつ未解決の問題であり、何かをする "解決策"があり、一つしかない**本当に**動作します)。 – lejlot

答えて

3

キーワードはAutomatic Summarizationです。 抽出抽象

は一般に、自動要約には2つのアプローチがあります。

  • 抽出メソッドは、元のテキストの既存の単語、句、または文のサブセットを選択して要約を作成することによって機能します。
  • 抽象メソッドは、内部セマンティック表現を構築し、自然言語生成テクニックを使用して、人間が生成するものに近い要約を作成します。

抽象的な要約ははるかに難しいです。興味深いアプローチは、Alexander M.Rush、Sumit Chopra、Jason Weston(論文hereに基づくソースコード)によってA Neural Attention Model for Abstractive Sentence Summarizationに記載されています。

「単純な」アプローチは、ワード(AutoSummary Tool)で使用される:

要約の作成、文書を分析し、各センテンスのスコアを割り当てることにより、キーポイントを決定します。文書中で頻繁に使用される単語を含む文章は、より高いスコアを与えられる。その後、要約文に表示する最高スコアの文章の割合を選択します。

文書のキーポイントを強調表示するか、エグゼクティブサマリーまたは要約を文書の先頭に挿入するか、新しい文書を作成してそこに要約を入れるか、要約以外のすべてを非表示にするかを選択できます。

キーポイントを強調表示するか、要約以外のすべてを非表示にすることを選択した場合、ドキュメント内のキーポイントのみを表示するか(ドキュメントの残りの部分は非表示にする)、ドキュメント内でキーポイントを強調表示に切り替えることができます。読んでいるときに、いつでも詳細レベルを変更することができます。

とにかく自動データ(テキスト)要約は、機械学習/データマイニングのアクティブな領域であり、多くの進行中の研究があります。いくつかの良い概観を読むはずです:

関連する問題