SAS URLアクセス方法からHTMLを削除するにはどうすればよいですか？

-5

SAS URLアクセス方法を使用してWebページを読むときに、すべてのHTMLタグを削除する最も簡単な方法は何ですか？SAS URLアクセス方法からHTMLを削除するにはどうすればよいですか？

2009-06-08 Joe Whitehurst

ご質問をもう少し明確にしようとしました。 –

あなたは惨めに失敗しました。私は、SAS URLアクセスメソッドからHTML Gobbeltygoodk を削除しようとしていません。私は、SAS URLアクセスメソッドでWebページを読み取った結果からHTML Gobbeltygookを削除しようとしています。私はあなたにF +（惨めに失敗しました）を与えなければなりません。 –

私はあなたに近い投票をしなければならなかったので、それを呼びましょうか？次回は少し頑張ってみてください。 –

これは、必要な操作を行う必要があります。 <>> <>を含むすべてのコンテンツを削除し、内容だけを残します（別名innerHTML）。

Data HTMLData; 

filename INDEXIN URL "http://www.zug.com/"; 

input; 

textline = _INFILE_; 

/*-- Clear out the HTML text --*/ 
re1 = prxparse("s/<(.|\n)*?>//"); 
call prxchange(re1, -1, textline); 

run;

出典

2009-06-08 23:24:31

ありがとうWarpraptor !! Perlのようなアマチュアなツールは必要ありません。プロフェッショナルなプログラミング環境の枠内で、エレガントでシンプルなソリューションを本当に好きです。 HTML Gobbelgookを削除すると、次のような美しさが残されます：あなたの目標を忘れてしまったとき、狂信的な心理はあなたの努力を倍増させることにあります。出産と死の治療法はありません。生きる人間性を全面的に握って、世界を裁かせ、妥協を許さない誠実さで他の男性を審査すると、男は道徳的に自由です。 –

Joe、喫煙はご遠慮ください。 – alamar

この方法は、HTMLをページから削除するのではなく、キャプチャしようとしているデータの標準パターンを特定することだと思います。これは、perl /正規表現型の方法論です。

例は、ロゴイメージのあとに非常に多くの文字が含まれるデータや表の場合があります。データだけを保持するスクリプトを書くことができます。

いくつかのhtmlを投稿したい場合は、それをデコードすることができます。

出典

2009-06-08 22:28:49 AFHood

純粋なSASシステムソリューションを探しています。私はSASが正規表現をサポートしていることを知っています。私はコードを欲しいので、私は車輪を再発明するのが好きではないので、自分で行う必要はありません。 gobbeltygook HTMLは、Gobbelgook HTMLで実行可能なものになります。私は、さまざまな種類のWebページを読んで、Gobbeltygook HTML以外のコンテンツだけを抽出したいと考えています。 –

SAS URLアクセス方法からHTMLを削除するにはどうすればよいですか？

答えて

関連する問題