入力時にプレーンテキスト(通常はHTMLになります)と「文法仕様」(プレーンテキストから構造化データにデータを抽出するための何らかの方法)を使用し、出力I構造化されたデータが必要です(JSONは問題ありませんが、おそらくもっと良いものがありますか?)プレーンテキストから構造化データを抽出する
このタスクのライブラリはありますか? "文法仕様"を指定する良い方法は何ですか? このような問題を解決する最良の方法は何ですか?
入力時にプレーンテキスト(通常はHTMLになります)と「文法仕様」(プレーンテキストから構造化データにデータを抽出するための何らかの方法)を使用し、出力I構造化されたデータが必要です(JSONは問題ありませんが、おそらくもっと良いものがありますか?)プレーンテキストから構造化データを抽出する
このタスクのライブラリはありますか? "文法仕様"を指定する良い方法は何ですか? このような問題を解決する最良の方法は何ですか?
文法ベースの変換のためのいくつかのツール:
追加:
HTMLを解析するには、文法スペックを使用して解析するHTMLコードの品質に応じて少し寛大なDOMパーサーが必要です。次に、必要なデータ構造のタイプを提供する必要があります
プレーンテキストファイルの構造が整形式の場合は、JavaオブジェクトDOM API(またはJDOM)とDOCTYPEを組み合わせてDOMオブジェクトを作成するのはなぜですか?そこから、そのオブジェクトを繰り返し処理して、google-gsonライブラリのようなものを使って簡単にJSONに変換できます。
これは、非構造化テキスト形式で受け取り、構造化されたJSONを与えjilapi
を見てください。
HTMLはいつプレーンテキストと同じですか? –
あなたの質問から文法の仕様があるかどうかは不明です。はいの場合、どの形式ですか? – fge
@DaDaDomそれは平文なので...構造化されているのは別の話です – fge