Webページからテキストコンテンツを抽出する方法は？

私は、さまざまなWebページからテキスト情報を取り込んで、1ページにまとめることができるjavaでアプリケーションを開発しています。たとえば、ヒンズー教、インドの時代、政治家などの異なるWebページにニュースがあるとします。今、私のアプリケーションは、これらのページのそれぞれから重要なポイントを抽出し、単一のニュースとしてまとめます。このアプリケーションは、Webコンテンツマイニングの概念に基づいています。このフィールドの初心者として、私はこのアプリケーションを構築する際の最初のステップとしてノイズ除去を説明する研究論文を読んだ。Webページからテキストコンテンツを抽出する方法は？

ニュースのウェブページがある場合、最初のステップはハイパーリンク、広告、無駄な画像などを除いたページからメインニュースを抽出することです。私の質問は私がこれをどうやってすることができるかです。私には、Webコンテンツのマイニングを使用して、このような種類のアプリケーションの実装を説明する良いチュートリアルを教えてください。少なくとも、それを達成するためのヒントを教えてください。

出典

2012-02-09 dark_shadow

このタスクでは、2つのオープンソースツールreadabilityまたはboilerpipeを使用できます。チュートリアルの場合は、これら2つのプロジェクトのコード&のマニュアルを読んでください。

出典

2012-02-09 17:17:56

私はボイラーパイプについて聞いたことがありますが、それはかなり良いですが、私はそれを私がそれから学ぶことができるようにしたいと思っています。どのような手順に従うべきですか？ –

件名に関する論文をGoogleの学者で検索してください。既存の実装のコードを読んでください。ウェブサイトの評価コーパスと正しいテキスト抽出を構築する。各エクストラクタがどのくらい正確に動作するかを計算します。エラーを見て、それらを修正する方法を考え、抽出器を改善してください。 –

助けてくれてありがとう。 –

Webページからテキストコンテンツを抽出する方法は？

答えて

関連する問題