2016-08-19 13 views
-2

私は、別の町のレストランを見つけるためにいくつかのgeoInfoコードを見つけるために、トリップからJavaスクリプトを抽出しようとしています。私は他のプロジェクトのための偉大な成功を収めてそれを使用しているので、私はBeautifulSoupを使用していますBeautifulSoupでJavaスクリプト(/ geo json?)を抽出する

geoInfo: { 
geoId: 31743,       geoName: `'London',       parentName: 'United `States',       shortParentName: 'United States', 

:私はいくつかのページを訪問して、ページの以下のビットからgeoNameとparentNameをこすりしたいこれを行うには

しかし、私はこれらの変数を取り除くのに苦労しています。

上記のコードは、例えば、地理検索ページにタグ内に座っている:

https://www.tripadvisor.co.uk/Search?geo=31743

私は例えば、のようなものを試してみた:

parentname = soup.findAll('script', {'geoInfo': 'parentName'}).string 

を...しかしでどんなバリエーションにも運がない、ちょうどページからそれを得ることができない。

ご協力いただきありがとうございます。

ありがとう:

答えて

0

私はそれをしました!正規表現と同様に:

find_name = re.search('geoName:(\s\').+?(?=\')', str(soup)) 
    geoName = find_name.group(0) 
関連する問題