2013-01-23 4 views
5

私はすべての物語をXMLとして保存するニュースウェブサイトで働いています。私は知っています、行くべき最善の方法ではありませんが、それはそれが何であるかです。私がしようとしているのは、WebサイトからXMLファイルを検索することです。現在のところ、Googleの検索機能はGoogleのすべての機能です(Googleが既にクロールしたものだけを検索します)。XMLファイルを検索またはインデックス登録する

私がバットからすぐに考えているのは、Grepを使用することです。これはどのような作業でも問題ありませんが、あまりにも大きくスケールされません。他にももっと多くの作業が必要ですが、XMLの一部をリレーショナルデータベースに保存することもできます。

私たちのバックエンドが設定されていることを考えれば、別のストレージモデルに移行するには時間がかかるので、当面はこれが必要です。アイデア?

答えて

3

キャッシュを追加すると、grepの考え方をスケールアウトするのに役立ちます。しかし、今日の問題に対処するだけでなく、明日のより良いソリューションに近づけるソリューションを検討することもできます。たぶん、より良いソリューションを設計し、時間をかけてそれを少しずつ実装することは、そのトリックを行うでしょう。

0

XMLを使用することを約束したら、Berkeley DBXMLやeXist-dbなどのネイティブXMLデータベースソリューションを使用することをお勧めします。彼らは両方ともあなたにxqueriesを発動させることができます。 eXistはDBXMLにはない全文検索も実装していますが、後者はデータの検索が高速です。

1

また、私は、BaseX(.org)などのXMLデータベースシステムを使用することをお勧めします。私は別のファイルに各記事を格納することをお勧めします。 BaseXはXQuery 3.0とフルテキスト、更新機能をサポートしています...