2012-03-02 14 views
2

私は7つの「投稿」を持つプロジェクトに取り組んでいます。投稿は件名の文章だけです。私がする必要があるのは、投稿を見て特定の傾向を特定するアルゴリズムを開発することです。 たとえば、「Aは良好ですがBを引き起こします。私はAとBの間のリンクを特定するアルゴリズムを開発する必要があります。単語を分析するためのアルゴリズムを開発する

しかし、あなたは私のサブアンプの説明からわかるかもしれませんが、私はこの問題にどう対処するか分かりません。誰かが私を正しい方向に向けることができますか?私はデータマイニングを見ましたが、それが私の必要なものかどうかはわかりません。

+0

実際、これはあまりデータマイニングではなく(重要なリンクの検出を超えた)、ほとんどの場合自然言語処理の課題です。 –

答えて

8

あなたが求めているのは、テキストマイニングと自然言語処理の熱い研究トピックです。しかし、あなたの質問はあまりにも一般的です。

最も簡単なことは、文章(または連続する文章)に頻繁に出現する単語を特定することです。それは少なくともあなたにある種の相関関係を提供します。 user1161595が示唆するようにAssociation Rule Learningを調べてください。クラスタリング技術も役立つかもしれません。まず、cluster analysistext clusteringをご覧ください。

単語間の関係を抽出するには、自然言語処理に深入りする必要があります。テキストマイニング、傾向分析、情報検索に関する関連調査を検索するのにGoogle Scholarを使用できます。

はまた、以下のリンクは、あなたが扱っているかのアイデアを与えるかもしれません: - 記事をガーディアン

  • Text Mining and Twitter
  • Text Data Mining With Twitter And R
  • How to Use Twitter for Information Mining
  • に -

    • Datamining Twitterに言及しますこの目的のために書かれたPythonモジュール。

    実装に関しては、Wikipediaに記載されているオープンソースのフレームワークを調べることができます。さらに、多くの機械学習とNLPライブラリがあります。

    最後に、探しているものに似たものが既にどこかで実装されている可能性が高いと思います。だから、適切なキーワードを使ってGoogleを検索することで、研究に深入りすることなく、必要なものを得ることができます。

    7

    一般的なデータマイニング手法がいくつかあります。最も簡単なものはAssociation Rule Learningと呼ばれるものです。

    アソシエーションルールラーニングは、一緒に出現する傾向があるものを識別します。食料雑貨品店は、この方法を使用して食料品店の領収書からのデータを照合して、通常どのアイテムを一緒に購入して店舗内にお互いに置くことができるかを判断します。チップスとサルサ、グラハムクラッカー、マシュマロとチョコレート、おむつとビールなど...

    +4

    おむつとビールは、それが投票に値するものでなければ、何もありません。あなたは確かにパーティーをする方法を知っている。 :) – biziclop

    関連する問題