2012-02-20 14 views
0

私は現在ブックマークレットを開発中で、このタスクに直面しています:すべてのページからすべての価格を収集する必要があります。JavaScriptを使用してページから価格を収集

価格は、さまざまな通貨やHTMLマークアップを考慮せずに、複数のフォーマット($ 19.00、15.45 $など)になる可能性があるという問題があります。良いニュースは私がjqueryを使っていることです。

誰もがそれを達成することができる方法のアイデアを持っている場合は、事前に:)

おかげを共有してください!

+1

私たちは私の友人素晴らしいアイデアを持っていませんが、あなたはすべての可能なフォーマットを扱うことのできる価格抽出ルーチンを記述する必要が –

+2

マークアップは解;-)何の可能性があります。データ品質の問題に対処するための一般的な魔法の弾丸はありません。いくつかの制約を指定することができれば、示唆すべきいくつかのトリックがあるかもしれません。 –

+0

「任意のページ」とは、自分のページ(同じドメイン)または外部ページを意味しますか? –

答えて

2

一貫したマークアップがない場合は、おそらく既知のパターンの正規表現を書く必要があります。たとえば:

あなたは、ターゲット・データは、私はよく分からないので、非構造化されているので
\$[0-9]*.?[0-9]{1,2} 

が単一あります:

は、あなたがこのようになります正規表現を使用します$ 19.00のようなパターンをキャプチャするにはこれに対する良い答え。あなたはあなたが探しているパターンを識別し、それらを識別するための正規表現を書く必要があります。ここ

テストあなたの正規表現:http://regexpal.com/

運のベスト。

-R

+0

ありがとうございます、私はそれを調べます。 – Grin

関連する問題