0
データベーステーブルのテキストフィールドにマークアップがたくさんありますが、このマークアップは異なる構造を持つ可能性があります。 データベースに格納されたこれらのマークアップのそれぞれからプレーンテキストを抽出する必要があるので、テストの結果、ruby用の最速のxml解析ライブラリであるので、Ox
gemを使用することにしました。私はそれをしようとすると、私はこのようなエラーが出る:'Ox' gemの助けを借りてRubyのhtmlマークアップからプレーンテキストを抽出する方法
irb(main):026:0> Ox.parse(some_html)
Ox::ParseError: invalid format, document not terminated at line 1, column 23 [parse.c:521]
私はNokogiri
でそれを行う方法を知っているが、私は、私はサックスハンドラでOx.sax_html
メソッドを使用するHTMLを解析するためのOx
ライブラリ
あなたのHTMLは実際には有効なXMLですか? HTMLはXMLのように見えるかもしれませんが、XMLの厳密な規則に従っていても、有効なHTMLによっては引き続き使用できません。 – spickermann
このhtmlは有効なxmlではありません。例えば、自己閉じタグ '
')'を含むことができます。主な質問はどのように解析し、いつも有効なxmlではないHTMLからテキストを抽出することです。 'Nokogiri'のような他のライブラリはそういう可能性があるので、おそらく' Ox'でもできるでしょう。 –
Edward
OXのホームページでHTML解析に関するセクションを読んでみましたか:http://www.ohler.com/ox/? – spickermann