bashの複数の特定の文字列の間でテキストを抽出する

私は不要な迷惑テキストがたくさんある大きなxhtmlファイルを持っています。私はそのファイル内で何度も出現する2つの特定の文字列の間にあるテキストを必要とします。bashの複数の特定の文字列の間でテキストを抽出する

<html> 
<xyz> unneeded text </xyz> 
<mytag> important text1 </mytag> 
<xyz> unneeded text </xyz> 
<xyz> unneeded text </xyz> 
<mytag> important text2 </mytag> 
<mytag> important text3 </mytag> 
<xyz> unneeded text </xyz> 
</html>

私の出力は次のようになります。

important text1 
important text2 
important text3

私はbashスクリプトを使用していることを行う必要があります。

ご協力ありがとうございます

出典

2016-04-25 SoCRaT

とは固定ストリングではありません。さまざまな不必要なタグがたくさんあります。 – SoCRaT

XMLパーサーを使用するのが最適な方法です。 PCREでgrepを使用して

ソリューション：

grep -Po '^<mytag>\s*\K.*?(?=\s*</mytag>$)'

例：XMLパーサーを使用して

$ cat file.xml          
<html> 
<xyz> unneeded text </xyz> 
<mytag> important text1 </mytag> 
<xyz> unneeded text </xyz> 
<xyz> unneeded text </xyz> 
<mytag> important text2 </mytag> 
<mytag> important text3 </mytag> 
<xyz> unneeded text </xyz> 
</html> 

$ grep -Po '^<mytag>\s*\K.*?(?=\s*</mytag>$)' file.xml 
important text1 
important text2 
important text3

出典

2016-04-25 08:49:53 heemayl

ありがとうございました。私はテストして、あなたに戻ってきます。 – SoCRaT

がより良いアプローチである、また、例えば、LinuxでのXML解析のためのラインツールがコマンドされています。 xmllintでも、このようにgrepを使用するとできます。

$ cat data1 
<html> 
<xyz> unneeded text </xyz> 
<mytag> important text1 </mytag> 
<xyz> unneeded text </xyz> 
<xyz> unneeded text </xyz> 
<mytag> important text2 </mytag> 
<mytag> important text3 </mytag> 
<xyz> unneeded text </xyz> 
</html> 
$ grep -oP '(?<=<mytag>).*(?=</mytag>)' data1 
important text1 
important text2 
important text3 
$

(?<=<mytag>).*(?=</mytag>)これはXML形式に正規表現を使用して正の先読みおよび後読みアサーション

出典

2016-04-25 08:50:40 ritesht93

ありがとうございました。私はテストしてあなたに戻ってきます – SoCRaT

を使用してテキストを抽出するには、特にラインとベースのテキスト処理ツールのgrep危険です。結果が常に正しいことを確認することはできません。

入力が有効なxml形式だった場合は、xmlの方法：xpath式を使用します。

ツールxmlstarletで、あなたは行うことができます：

xmlstarlet sel -t -v "//mytag/text()" file.xml

それは所望の出力を提供します。

また、xmllintで行うこともできますが、出力をさらにフィルタリングする必要があります。

出典

2016-04-25 09:03:48 Kent

ありがとうケントですが、問題はそれがXHTMLファイルだから、全くフォーマットされていないので、xmllintはそれを処理できるのでしょうか？ – SoCRaT

@SoCRaT 'XHTML（Extensible Hypertext Markup Language）は、XMLマークアップ言語のファミリーの一部です – Kent

bashの複数の特定の文字列の間でテキストを抽出する

答えて

関連する問題