2017-08-29 11 views
1

私は毎日チェックして内容が更新されているかどうかを確認する必要がある2500個のドメインが大量にあります。各ページには、そのソースにスタンプ追跡することができhtmlから各ドメインに別々のBashスクリプト一括抽出コンテンツ

timeSincePublish:123412412 

を持って、私はすべてのドメインに対して、このスタンプをチェックして、脇にそれぞれ1のためにそれを抽出する必要があります。

今私は、このコマンドを持っている:

url.txtからすべてのドメインを分析し、スタンプを抽出しますが、私はちょうどスタンプを保存することができますし、私がどのように私は出力でき、ドメインとタイムスタンプ知っていただきたいと思い
cat url.txt | xargs -n 1 curl -L0 | grep -oP '"timeSincePublish":(\d+)' - 

csvなどです。

だから私は持っているでしょう:

domain.com - timesincepublished: 133213124 
eweqwe.com - timesincepublished: 312316 

答えて

1

あなたは

while read -r domain; do 
    timestamp=$(curl -L0 "$domain" | grep -op "timeSincePublish:\k\d+") 
    printf "%s\t%s\n" "$domain" "$timestamp" 
done <url.txt> output.file 
+0

を行うことができ、これは.SHファイルにすべきですか? bashスクリプトとして実行しますか? –

+0

そのままコマンドラインで実行できます。関数内で.bashrcに追加することができます。これをファイルに入れてbashスクリプトとして実行することができます。選択はあなた次第です。 –

+0

残念ながら、ドメイン名だけを出力します。 http://imgur.com/JfG63Sb –

関連する問題