私はwepageからテーブルの内容を取得しようとしています。私は内容が必要だが、タグ<tr></tr>
は必要ない。私はコンテンツだけの "tr"や "td"は必要ない。例えばのため:sedなどのhtmlタグを削除
<td> I want only this </td>
<tr> and also this </tr>
<TABLE> only texts/numbers in between tags and not the tags. </TABLE>
も私はSEDをしようとした新しいCSVファイルでこのような最初の列出力 COLUMN1、INFO1、INFO2、情報3 coumn2、INFO1、INFO2、情報3
を入れたいです<tr>
<td>
を削除しましたが、私がテーブルをフェッチするときには<color>
<span>
などのような他のタグもありますので、すべてのタグを削除します。すべての短いとすべて<と>。
コンテンツはどのくらいレギュラーですか? ['lynx'](http://lynx.browser.org/)を使ってページをつかみ、テキストに変換してプレーンテキストを解析することができます。より詳細な説明がなければ、画面スクレイピングはさまざまな醜いハッキングの選択肢となる傾向があります。 –
これは最初の問題を解決しました** sed -e 's/<.*> // g'入力**上のコメントに私はページをwget'edし、テーブル部分だけを掻きました。ファイルにはクリーンなテーブルタグとデータのみが含まれています。試験時間表ルーチンのようなものです。 – user913492