2016-04-27 8 views
0

私は、Web上の記事をその内容について分析するWebアプリケーションに取り組んでいます。目標は、これらの記事内の用語を識別し、分類し、それらが所定の用語リストの一部であるかどうかをチェックし、それらが出現する頻度を数えることです。テキストマイニング統計情報を保存するための最適なストレージ戦略は何ですか?

エンティティは、次のとおりです。

  • 記事(URL、日付、短い説明、コンテンツ)
  • 規約(名前、種類、頻度)
  • リスト(名前、用語のリスト)

クエリの例は次のとおりです。

  • 特定の種類の観点から、この用語は、記事や記事の数千人あたり数千の用語があるかもしれないことを考えると、ほとんどの場合、

を発生する記事を返す、特定の用語のために、すべての記事

  • 上でその頻度を数えますどのようにデータを保存しますか?

    正規化されたリレーショナルデータベースは意味がありますか?非正規化するかNoSQLデータベースを使用する必要がありますか?

  • 答えて

    1

    正規化されたリレーショナルデータベース(RDBMS)は、常に私にとって意味があります。正規化を行うと、最も頻繁に発生するクエリの一貫性とスピードが向上します。

    エンティティがシンプル(IDと属性の束)なので、NoSQLソリューションを検討することもできます。したがって、RDBMSの力は本当に必要ありません。

    あなたのケースでは、私はRDBMSソリューションのために設計されています。 MySQLは仕事にとって完璧ではありません。

    関連する問題