2012-01-05 5 views
0

入力時にプレーンテキスト(通常はHTMLになります)と「文法仕様」(プレーンテキストから構造化データにデータを抽出するための何らかの方法)を使用し、出力I構造化されたデータが必要です(JSONは問題ありませんが、おそらくもっと良いものがありますか?)プレーンテキストから構造化データを抽出する

このタスクのライブラリはありますか? "文法仕様"を指定する良い方法は何ですか? このような問題を解決する最良の方法は何ですか?

+0

HTMLはいつプレーンテキストと同じですか? –

+0

あなたの質問から文法の仕様があるかどうかは不明です。はいの場合、どの形式ですか? – fge

+0

@DaDaDomそれは平文なので...構造化されているのは別の話です – fge

答えて

2

文法ベースの変換のためのいくつかのツール:

追加:

+0

はこれらのJavaベースですか? – MozenRath

+0

残念ながら、それぞれには、変換規則を定義するための独自の宣言言語があります。 – Raihan

+0

私はあなたが彼を失ったと思う。 – MozenRath

0

は、HTMLの構文解析のためのjsoupを見て、とgson JavaとJSONのためです。

+0

私はjsoupが好きです。しかし、それは私が必要とするほど普遍的ではありませんが、私の場合は最も実用的な解決策になります。 – Solvek

0

HTMLを解析するには、文法スペックを使用して解析するHTMLコードの品質に応じて少し寛大なDOMパーサーが必要です。次に、必要なデータ構造のタイプを提供する必要があります

-1

プレーンテキストファイルの構造が整形式の場合は、JavaオブジェクトDOM API(またはJDOM)とDOCTYPEを組み合わせてDOMオブジェクトを作成するのはなぜですか?そこから、そのオブジェクトを繰り返し処理して、google-gsonライブラリのようなものを使って簡単にJSONに変換できます。

0

これは、非構造化テキスト形式で受け取り、構造化されたJSONを与えjilapi

を見てください。

関連する問題