0
htmlドキュメント構造の処理について説明するリソースがあるかどうかは疑問でした。たとえば、ニューヨークタイムズのページがあり、どのページであっても、主要な記事がどこにあるのか、ページの重要な要素はどこにあるのか理解したいと思います。いくつかのウェブサイトでは、生のhtml文書はこの種の処理のための何らかの指示を与えます。他のサイトでは、一般的には書式設定タグ(フォントなど)です。私はOCR技術を見てきましたが、それらのほとんどは個々の要素を認識するために使用されていますが、これはOCRとはまったく異なる問題です。htmlドキュメント構造の処理
誰でもこのトピックに関する洞察があれば、非常に感謝しています!
のようなHTMLパーサの上に何かを構築することができます。あなたが消費するためにこの情報を公開している場合を除き、私は彼らがあなたのビジネスのどれともみなさないと考えています。 –
私は単に、メタデータが完全ではない、または利用できない場合に有用なコンテンツをキャプチャするというこのタイプの問題に対する一般的なアプローチを必要としています – FurtiveFelon