私は過去にHtmlAgilityPackを使って.NETでHTMLを解析しましたが、DOMモデルのみを使用しているというのは嫌いです。.NETのHTMLに相当するXmlReaderはありますか?
大きなドキュメントおよび/または重いレベルのネストでは、スタックオーバーフローまたはメモリ不足の例外が発生する可能性があります。一般に、DOMベースの解析モデルでは、ストリーミングベースのアプローチよりも大幅に多くのメモリが使用されます。これは、通常、HTMLを使用するプロセスでは、一度に利用できる要素がほんの数だけ必要となるためです。
あなたはXmlReader
クラスと同様の方法でHTMLを解析することができる.NetのためのまともなHTMLパーサーを知っていますか?順方向のみのストリーミング方式である。
あなたの質問が合法的であることを超えて、Html Agility Packでスタックオーバーフローやメモリ不足の例外が発生するようなHtmlページの本当の例がありますか?私はそれがどのように見えるか興味があるだろう。 –
明日あなたに試してみましょう。しかし、将来、ライブラリに 'XmlReader'スタイルのクラスを追加することを検討しますか? – RobV
あまりにも多くの時間を無駄にしないで、私はちょうど興味があった:-)私は在庫のHtmlReaderを持っていますが、それは公開されていません。 –