2012-02-21 11 views
-1

私はウェブサイトをスクラップして文字列を取得するプロジェクトで作業しています。これはテキストの一部です。regexは一致するパターンの前に文字列を取得します

のhref = "/ダッシュボード/インデックス/ 2971" タイトル= "Project1の:Project1の"> Project1の

私は、全体の "/ダッシュボード/インデックス/ 2971" の部分を取得する必要があります正規表現を使用してテキスト。現在、私はこれを持っています:

while(true){ 
       if (buff.readLine()!=null){ 
        String wholeText = buff.readLine(); 
        System.out.println(wholeText.contains("title=Project1")); 
        htmlCode += buff.readLine() + "\n"; 
       }else{ 
        break; 
       } 

これはちょうど "title = Project1"の文字列を識別します。私は "/ダッシュボード/インデックス/ 2971"の部分を取得し、それを文字列に入れる必要があります。

答えて

0
<?php 
$str = 'a href = "/dashboard/index/2971" title="Project1:Project1">Projeca...'; 

preg_match_all('#href\s*=\s*"(.*?)"#', $str, $matches, PREG_SET_ORDER); 

$foundURLs = array(); 
foreach ($matches as $match) { 
    $foundURLs[] = $match[1]; 
} 

var_dump($foundURLs); 
関連する問題