2016-08-10 7 views
-1

私はregexを使って、Nodejを使って検索したウェブサイトのHTMLコードからテキストを抽出します。私が受け取ったテキストは次のようなものでした:Node.js正規表現を使ってレスポンスから特定の文字列を抽出する

<body> 

... 

<p>text with certain format that I want.</p> 

... 

</body> 

私はテストをどのように抽出して変数に格納しますか?

私がこれを行う理由は、多数のページから情報を取得する必要があるためです。手動で行うことは不可能です。

大変ありがとうございます!

+0

あなたは、特定の文字列をお探しですか?これらのページに複数の段落がありますか? –

+0

[Cheerio](https://github.com/cheeriojs/cheerio)を使用してください。サーバーサイドのjQueryです。または、[YQL](https://developer.yahoo.com/yql/)を使用することもできます。 – strah

+0

1)重複2)しない3)両方のリンクhttp://stackoverflow.com/a/1732454/1178921 – deltree

答えて

0

段落の最初のインスタンスを探しているだけなら、これを行うことができますが、これは最初の段落の内容のみを取得します。特定の段落が必要な場合は、その段落をHTML内の他の段落と区別するための方法が必要です。

もっと具体的なものをお探しの場合は、何をしようとしているのかを詳しく知る必要があります。

var regex = /<p>(.*)?<\/p>/, 
 
    html = [your html here], 
 
    results = regex.exec(html); 
 

 
console.log(results); // an array of matches

0
var text= '<p>text with certain format that I want.</p>'; 
jQuery('<div>' + text + '</div>').text(); 
+0

このコードは質問に答えるかもしれませんが、なぜこのコードが質問に答えるか、および/またはどのようにして追加の文脈を提供すると、長期的な価値が向上します。コードのみの回答はお勧めできません。 – Ajean

+0

この「トリック」では、htmlタグやhtmlエンティティなどからあなたの応答をきれいにすることができます。 – Laurianti

関連する問題