2011-10-26 13 views
0

URLの#文字がwgetの動作が私の期待とは異なることがわかりました。基本的に#までのURL文字列は保持され、#の部分文字列は破棄されます。 #これは#ページ内のナビゲーションリンクだからですしかし明らかに特定のサイトはそれを "?" (URLパラメータの先頭)。これをwgetで処理するにはどんなソリューションですか?私はカールを試みましたが運がありません。wget:ショップ(#)の文字でURLをクロールする方法

+0

はあなたが#はアンカー/ブックマークとして使用されていない例のリンクを供給することはできますか?より明示的。毎日のブラウザの代わりにwgetを使用すると、どこが違うのでしょうか? – ath88

+0

ブラウザは文字列を切り捨てずにそのまま渡すので、問題ありません。私は例を指定するのが少し嫌ですが、私は他の例を見つけることができるかどうか見てみましょう。 – kee

+0

正確に。 #は、表示されたhtmlのアンカーを定義するための予約文字です。これはブラウザにスクロールバーの配置場所を指示します。 wgetはそれほど気にすることができないということは意味をなさない。 – ath88

答えて

2

これが役立つかどうかはわかりませんが、私はあなたがajaxにハッシュタグ(#)を使用していると推測しています。その場合、wgetの使用は無意味です。なぜなら、JavaScriptを実行できないからです。したがって、通常はJavaScriptで生成されたコンテンツがない場合です。

JavaScriptを実行してウェブページのコンテンツをダウンロードする場合は、「ヘッドレスブラウザ」が必要です。これらをチェックアウト:

htmlunit

phantomjs

zombiejs

+0

ありがとう。これは私が探していた答えであることが判明しました。 – kee

関連する問題