特定のページをテキストファイルに変換するか、wget(例:-m
)を使用してリンクをダウンロードしていますが、ほとんどのツールはソースの解釈に失敗しています。私は、このページには、いくつかのバイナリデータと特殊文字を、例えば構成されていることを発見しましたこのhtmlページで何が問題になっていますか?
$ html2text -check http://www.free-energy-info.co.uk/
<HTML>
<HEAD>
<TITLE>
...
:
$ curl http://www.free-energy-info.co.uk/ | html2text
curl: (23) Failed writing body (0 != 2896)
しかし-check
戻っ正しくソースコードを使用します。たとえば
$ curl -s http://www.free-energy-info.co.uk/ | head | cat -v
M-^?M-~<^@h^@t^@m^@l^@>^@
^@
^@<^@h^@e^@a^@d^@>^@
^@
^@<^@T^@I^@T^@L^@E^@>^@F^@r^@e^@e^@-^@E^@n^@e^@r^@g^@y^@ ^@D^@e^@v^@i^@c^@e^@s^@,^@ ^@z^@e^@r^@o^@-^@p^@o^@i^@n^@t^@ ^@e^@n^@e^@r^@g^@y^@,^@ ^@a^@n^@d^@ ^@w^@a^@t^@e^@r^@ ^@a^@s^@ ^@H^@H^@O^@ ^@f^@u^@e^@l^@<^@/^@T^@I^@T^@L^@E^@>^@
このウェブサイトに問題がありますか?それはWebサーバーのバグですか、ソースコードは意図的にスクランブルされているか、(圧縮されていないので)特別なフォーマットを使用していますか?このページを標準のutils(例えばwget
)で理解できるようにするには?
ウェブブラウザでは問題なく動作します。
有効なユーザーエージェントを送信しているときにもcurlと同じ結果が得られます。しかし、wgetは私のために働く。 – Paul
@Paul Wgetは単一のページをダウンロードしますが、ソースコードを理解していないようなリンク( '-m'や' -r'を指定する場合)を辿っていません。 – kenorb