0
私は、Web上の記事をその内容について分析するWebアプリケーションに取り組んでいます。目標は、これらの記事内の用語を識別し、分類し、それらが所定の用語リストの一部であるかどうかをチェックし、それらが出現する頻度を数えることです。テキストマイニング統計情報を保存するための最適なストレージ戦略は何ですか?
エンティティは、次のとおりです。
- 記事(URL、日付、短い説明、コンテンツ)
- 規約(名前、種類、頻度)
- リスト(名前、用語のリスト)
クエリの例は次のとおりです。
- 特定の種類の観点から、この用語は、記事や記事の数千人あたり数千の用語があるかもしれないことを考えると、ほとんどの場合、
を発生する記事を返す、特定の用語のために、すべての記事
正規化されたリレーショナルデータベースは意味がありますか?非正規化するかNoSQLデータベースを使用する必要がありますか?