2009-04-21 12 views
1

私のデータベースには、html文書を含むフィールドがあります。今、この文書を検索する可能性があります。ただし、htmlタグが見つからないことがあります。だから私はこのようなものを持っています:正規表現を使用したT-SQL検索html?

<html> 
    <head> 
    <title>Bar</title> 
    </head> 
    <body> 
    <p> 
    this content my be found 
    </p> 
    </body> 
</html> 

データベースに保存されている文書がxhtmlではない可能性があります。コンテンツを検索する最良の方法は何ですか?正規表現を使用しますか?それで、どのように見えるでしょうか?もしそうでなければ、他に何を使うべきですか?

答えて

2

Full-Text Searchをオンにするか、Lucene.Netのようなものを使用してコンテンツのインデックスを作成できます。

2

レコードのボリュームはありますか?これを効率的に行うには、全文検索とIFilterを使用する必要があります。 Htmlは正規表現にはあまり適していません - 非常に単純なことをすばやく行うのは非常に難しいでしょう。

ボリュームが巨大でない場合は、外部の解析アプリケーションを使用して、HTML Agility Pack(for .NET)などの任意のDOMを使用してレコードを繰り返し処理できますか?

しかし、FTS/IFilterが私の最初の選択です。

+0

検索は5つのテーブルで行う必要があります。各テーブルには、数100のレコードがあります。 FTSとIFilterはどのように使用しますか? – Martijn

+0

これはどこか下にあります:http://msdn.microsoft.com/en-us/library/ms142571.aspx –

+0

Management Studioの "管理"ノードの下にあるように見えます。 –

関連する問題