2011-06-25 4 views
3

テキストの傾向を計算するためのアルゴリズムと一般的な方法については、ここでいくつかの記事を読んできましたが、実際的で簡単な例が必要ですこれはPHPを使用して行います。PHPを使用してユーザーテキストのデータベースのトレンドを判断する

One post that was more helpful than the rest各テキストを正規化し、単語に基づいて配列にリンクしたり(リンク、ユーザー名などを除外した後に)、各単語の各単語の大きな配列を作成してからarray_count_valuesを使用して最も頻繁に。これは実行可能なようですが、それが最良の方法かどうかはわかりません。たとえば、フレーズ(「Barack Obama」ではなく「Barack」と「Obama」)ではなく、単語の結果を好むと思われます。

これよりも進歩する方法はありますか?実用的な例、または既存のソリューション(スクリプトやクラス)を使用するかもしれませんか?ありがとうございました!

答えて

0

あなたが求めていることは、最初に単語やフレーズに関する大量のデータを収集しなければ、自動的に行うことは非常に困難です。

自動化するために膨大な時間、費用、継続的なリソースを費やしたくないのであれば、私は手動でフレーズとして数えられる単語のリストを作成することをお勧めします(BarackとObamaがバーラック・オバマのように抽出する)、あるいはすべてを忘れて、ポストが説明するようにする。

は、あなたが望む方法でデータを解析することができ、外部のサービスがあるかもしれませんが、間違いなく彼らは多額の価格でレスポンスの

+0

感謝を来ります。私はまだこれのために開発されたより単純な解決策がない理由を理解していない。最も洗練されたソリューション(Twitterのトレンドなど)である必要はありませんが、何かが必要です。 :/ – mcleodm3

+0

膨大な量のテキストデータがなければ、Twitterはそれを行うことができません。誰もが「バラク・オバマ」について話しているが、それはトレンドを捉えることができるが、傾向のあることは、バックアップのためにデータの履歴が必要であり、 – adlawson

関連する問題