2009-06-08 7 views
-5

SAS URLアクセス方法を使用してWebページを読むときに、すべてのHTMLタグを削除する最も簡単な方法は何ですか?SAS URLアクセス方法からHTMLを削除するにはどうすればよいですか?

+1

ご質問をもう少し明確にしようとしました。 –

+0

あなたは惨めに失敗しました。私は、SAS URLアクセスメソッドからHTML Gobbeltygoodk を削除しようとしていません。私は、SAS URLアクセスメソッドでWebページを読み取った結果からHTML Gobbeltygookを削除しようとしています。私はあなたにF +(惨めに失敗しました)を与えなければなりません。 –

+0

私はあなたに近い投票をしなければならなかったので、それを呼びましょうか?次回は少し頑張ってみてください。 –

答えて

4

これは、必要な操作を行う必要があります。 <>> <>を含むすべてのコンテンツを削除し、内容だけを残します(別名innerHTML)。

Data HTMLData; 

filename INDEXIN URL "http://www.zug.com/"; 

input; 

textline = _INFILE_; 

/*-- Clear out the HTML text --*/ 
re1 = prxparse("s/<(.|\n)*?>//"); 
call prxchange(re1, -1, textline); 

run; 
+0

ありがとうWarpraptor !! Perlのようなアマチュアなツールは必要ありません。プロフェッショナルなプログラミング環境の枠内で、エレガントでシンプルなソリューションを本当に好きです。 HTML Gobbelgookを削除すると、次のような美しさが残されます: あなたの目標を忘れてしまったとき、狂信的な心理はあなたの努力を倍増させることにあります。 出産と死の治療法はありません。 生きる人間性を全面的に握って、世界を裁かせ、妥協を許さない誠実さで他の男性を審査すると、男は道徳的に自由です。 –

+5

Joe、喫煙はご遠慮ください。 – alamar

0

この方法は、HTMLをページから削除するのではなく、キャプチャしようとしているデータの標準パターンを特定することだと思います。これは、perl /正規表現型の方法論です。

例は、ロゴイメージのあとに非常に多くの文字が含まれるデータや表の場合があります。データだけを保持するスクリプトを書くことができます。

いくつかのhtmlを投稿したい場合は、それをデコードすることができます。

+0

純粋なSASシステムソリューションを探しています。私はSASが正規表現をサポートしていることを知っています。私はコードを欲しいので、私は車輪を再発明するのが好きではないので、自分で行う必要はありません。 gobbeltygook HTMLは、Gobbelgook HTMLで実行可能なものになります。私は、さまざまな種類のWebページを読んで、Gobbeltygook HTML以外のコンテンツだけを抽出したいと考えています。 –

関連する問題