私は、ドキュメントのいくつかのページ(おそらく約500以上のページ)の間に単語の出現をすべて認識することを考えています。私はすでに単語が出現するページを見つける作業を行っています。たとえば、コンピュータという言葉が出現するすべてのページをリストしたいとします。文書索引データベース構造?
ウェブサービス経由でこのデータをすばやく検索できるようにするにはどうすればよいでしょうか?
テーブルの構造:: VARCHAR(30)WORD、ブロブPAGES
とページフィールドは言葉だけで、その後に発生し、すべてのページのカンマ区切りのリストも持っている私の本能はちょうど何かなどを行うことですそれを分解して、クエリがWORDフィールドに一致するとすべてのページを一覧表示します。私はこれを達成するより効率的な方法があるかどうか疑問に思っていますか?私はMySQLとPHP/Zendを使用している可能性が高いのは、それが私が最もよく知っていることだからです。しかし、あなたが良いアイデアを持っていれば、私はそれらを聞くことができます。
ドキュメント内のすべてのユニークワードに対してローが必要なため、テーブルが非常に長くなる可能性があります。おそらく、私は3文字または4文字よりも短い文字列に制限を設定していましたが、それでもなお10-20kワード以上を想像していました。私は行のリストをアルファベット順に並べれば、私のデータベースサーバでどうにかして簡単にできますか? (つまり、リンゴ、リンゴ、ブランチは昇順になっていますか?)MySQLはこれを処理できますか?他の何かがそれをより良く扱うことができますか?
最後に、興味のあるデータを収集/提供できる構造スキーマがありますか? (すなわち、ユーザに近接して現れることが多い関連する単語を与えるなど)
私は決してデータベースでCSVを使用しません。 :)ヒントをありがとう! – Emeka