私はウェブページの内容を分析したい学校プロジェクトに取り組んでいます。しかし、私たちは、ナビゲーションバーやコメントのようなものに対処したいとは考えていません。特定のWebサイトを見ていれば、そのサイトのためにそのような無関係なものをフィルタリングするためのパーサを作ることができますが、これまでに遭遇したことのない任意のサイトで作業することを期待しています。ウェブページのコンテンツを分離するツールはありますか?
このようなことはもう存在しないと私は驚くことはありませんが、任意のウェブサイトでこの種のコンテンツを分離できるツールを知っている人はいますか?私は同じサイトから他の人とページを分けて運が少しありましたが、それは不完全であり、コメントなどが残っています。
私はJavaで作業していますが、アイデアに使用できる言語であれば何でもオープンソースを歓迎します。
これは本当にクールに見える!私はそれをもっと近く見なければならないでしょう。 – Matt