2016-09-06 19 views
-1

私はこのWebページでは、いくつかのパラメータを取得したいのSave htmlファイル:たとえばhttps://pubchem.ncbi.nlm.nih.gov/compound/16678118#section=2D-Structure完全にソースコード

私は「トポロジカル極の表面積」の値を検索する場合

もし私が手動でInternet Explorerでは、ページを保存し、その後、私はしかし、これらのコマンド

cat file.html | grep -c "Topological Polar Surface Area" , 

で値を見つけることができ、私はコマンドwgetまたはcurlで保存したいならば、私は値を見つけることができません。

+0

サーバーが送信するものを取得します。後でJS/AJAXを介して追加のコンテンツが読み込まれた場合は、もちろん取得できません。この場合、状況はより複雑になります。 「ヘッドレスブラウザ」は検索キーワードです。 – CBroe

答えて

0

JavaScriptによるコンテンツの非同期読み込みが原因です。 wgetまたはcurlでドキュメントを保存すると、JSが実行されないため、Webサイトから動的に読み込まれたコンテンツは取得されません。

探しているデータは、このJSON URL https://pubchem.ncbi.nlm.nih.gov/rest/pug_view/index/compound/16678118/JSON/からロードされています。

クロム開発者ツール(または類似のもの)の[ネットワーク]タブでは、どのデータがどのURLから読み込まれているかを確認できます。

+0

このJSON URLに、Topological Polar Surface Area(77.4 A^2)の値が必要です。https://pubchem.ncbi.nlm.nih.gov/rest/pug_view/index/compound/16678118/JSON/私は見つけることができます値(77.4 A^2) –

+0

これは私たちがあなたのためにすべての仕事をするウェブサイトではありません。私はあなたが期待した結果を得られない理由とそれをどのように解決できるのかを説明しました。あなた自身でさらに調査してください。私はあなたにヒントを与えます:それは値を含む他のJSON URLです。 –

+0

よろしくお願いします。ありがとう –

関連する問題