2011-01-12 8 views
0

私は、フォーラムで分類広告から価格を解析するスクリプトを書いています。緩やかに構造化されたテキストから価格を解析する

テキストは非常にひどく構造化されていますが、価格が存在する場合もあります。時には、ユーザーは同じアイテムが店内で100ユーロかかるとの発言を追加することもありますが、80ユーロで販売しています。そして私はそのような広告から価格80ユーロを得たいと思っています。

他のケースでは、それぞれ異なる価格の商品を販売していますが、価格の合計を取得したいと考えています。それ以外の場合は、すべての物を買う人に特別価格があります。この場合、通常、すべての価格の合計よりも低い全体セットの価格を取得したいと考えています。

今、私は正規表現の束といくつかのif-sでそれをやっています。このようなことができるアルゴリズムがあるのだろうかと思っていますが、私はそれらを認識していませんか?

+0

それは私には「普通」聞こえません。 – jasonbar

答えて

2

あなたが本当に正規表現を超えて道を行くテキスト分析について話している、それはちょうどあなたが価格を引き出す手助けしようとしています。あなたは 'xユーロだった、今ユーロを求めている'のようなフレーズをスキャンする必要があるでしょう。

実際のサンプル入力データの大きなセットを取得することをお勧めします。アナライザーを接続し、アナライザーが失敗したレコードを見て、その結果を確認し、その結果に満足するまで修正してみましょう。

Luceneプロジェクトには、索引付けの対象となるテキストを準備するために通常使用される分析モジュールがあり、入力を正規化して独自のカスタムアナライザを作成して着信トークンを処理できます。私は正規表現が組み込まれたtokenizerを持っていると信じていますが、確かに覚えていません。

+0

よろしくお願いいたします。それを見てみるが、おそらく私はちょうどいくつかの正規表現とifsに固執する:) – Andraz

関連する問題