0
Pythonで可読性(テキスト抽出アルゴリズム)とカスタムアルゴリズムを使用してテキストからリンクを抽出する方法はありますか?Pythonで可読性(テキスト抽出アルゴリズム)とカスタムアルゴリズムを使用してテキストからリンクを抽出する方法はありますか?
私はテキストの本文にあるリンクを抽出する方法を理解したいと思います。
1)私はPythonで可読性を使用https://github.com/gfxmonk/python-readability
2)私は何とか、物品の実際の身体内のリンクを抽出するために、元のHTMLテキストに抽出されたテキストを比較したいと思います。
BeautifulSoupは確かに行く方法です。 –
@Sri:可読性は既にBeautifulSoupを使用しています。これは、ページ、コンテンツ、広告、ナビゲーションなどを除外するように設計されています。 –