2009-07-14 7 views
12

書籍やウィキペディアにどのようなデータマイニングがあるのか​​、技術的な説明がありますが、どのような開発が正確に行われているのでしょうか?それは、ツールの使用やツールの作成についての詳細な情報ですか? R & Dについては、実際に他のドメインと大きく異なるのでしょうか?開発者の観点から見たデータマイニングとは何ですか?

+0

StackOverflowはデータマイニングではありませんか? :-) –

+0

ところで、はい。時間の経過と共に特定のタグの関心を分析して、将来のトレンドを確認することができます。 – Treb

+0

実際には、訪問者の知識レベルを測定することもできます。これは、提供された回答と組み合わせて、特定のトピックで最高のエキスパートを見つけるために使用できます。ヘッドハンターのために非常に実用的で、もし彼らがこのサイトからの評判の高い訪問者すべてに関する十分な情報を収集できるならば。 –

答えて

22

データマイニングは、大量のデータで興味深いパターンを検出するプロセスです。 ではなく、のデータを照会しています。これはユーザーTrebが説明しているとおりです(ごめんねTreb)。

開発者の観点からDMを理解するには、Programming Collective IntelligenceのToby Segaranの本を読んでください。

+1

私はあなたに同意するとは言えません - 最初に問い合わせることなくデータのパターンをどのように発見しますか?クエリは最初のステップなので、開発者がまず考えなければならないのはクエリです。私は、データ分析について言及することを完全に忘れてしまったことは認めています。統計は、大量のデータセットを視覚的に表示するだけでなく、どのデータマイニングアプリケーションにとっても絶対必要です。しかし、**分析を実行することは、開発者ではなくデータマイナーによって行われます。 OPはデベロッパーのPOVからのデータマイニングについて質問していたので、これは私が答えようとしたものです。 – Treb

+4

"最初にクエリを実行しなくても、データのパターンはどのように見えますか?"あなたが尋ねる。クエリを使って釣るのではなく、プログラムによる実装によってデータのパターンを発見します。これがポイントです。データのパターンを検出するようにマシンを設定します。 – ybakos

+0

パターンをプログラムで検出するには、まずデータを調べる必要があります。だから、最終的に誰が質問しているかにかかわらず、それは質問になる。 – Treb

0

データマイニングとは、与えられたデータからパターンや傾向を見つけることです。開発者の観点は、Anti Money Laundring ...のようなアプリケーションにある可能性があります。パターンが与えられている場合は、そのパターンのデータを検索します。もう1つの用途はProjection Softwaresです。現在の傾向をデータから認識して学習することで、ヒューリスティックに反する結果や結果を将来予測します。

1

データマイニングは、大量のデータを隠しパターンの検索についてです。 Web 2.0の例:News Corpは、サイトmyspace.comを大規模なデータマイニングとして使用して、宣伝する映画や製品を決定します。ユーザーがサイトに投稿したデータの傾向を特定するためのソフトウェアを作成します。ニュースコーポレーションは、広告キャンペーンや市場予測に役立つ情報を収集するためにこれを行います。それは、データ提供者の観点からは、その受動的な点において、R & Dの他のドメインとは異なります。今年の夏に見られる映画やそのような質問を人に尋ねるのではなく、データマイニングツールはユーザーが自発的にデータを分析することでこれらの問題を整理します。

ウィキペディアは実際にはかなり良い記事を持っている: - http://en.wikipedia.org/wiki/Data_mining

3

私の経験では(私は、元のデータ鉱夫:-)だ)、それはツールと書き込みツールを使用しての混合物です。多くの場合、特定のデータセットを分析するために必要なツールは存在しないため、まず自分で作成する必要があります。非常に面白いかもしれませんが、私は今やっているプログラミング(組み込み無線)にはかなり異なるアプローチが必要なことがよくあります。

0

自分で開発するのではなく、棚のツールを使用する方法についてもっと詳しく考えています。そのようなツールの学術的な例はWEKAです。もちろん、アルゴリズムの使用方法、データの前処理方法(この部分は非常に重要です)などを理解しておく必要があります。

In R & DIはあまり考えていませんが、統計、数学...

+0

私は同意しません。シェルフソリューションはすべてをカバーすることができず、プロトタイプ作成にのみ適しているため、特定のユースケースのアルゴリズムの実装と調整については多くのことがあります。 –

-3

開発レベルでは、データマイニングはデータベースアプリケーションに過ぎませんが、膨大なデータがあります。

マイニング自体は、データベースで特定のクエリを実行することによって行われます。重要な作業が行われたクエリの作成にあります。彼らはもちろん、データモデルと仮説に基づいて、顧客がどのような傾向を見出すのかを判断します。 したがって、クエリの微調整は通常、開発中に行うことはできませんが、一度システムが稼働し、ライブデータがある場合にのみ実行されます。次に、ユーザは彼の仮説をテストし、彼が彼が探している傾向を示すためにクエリを適応させることができる。

だからビューのDEVの観点から、データmaining約

  1. があなたのクライアントに大量のデータセットを管理している(ユーザーの提供

  2. (1つのクエリは100.000データの行を返す場合があります)クエリを変更して結果を表示する効果的な方法で、SQLやリレーショナルデータベースについては何も知らない人もいます)。

+0

+1これは私が実際にやっていることであり、これはデータマイニングとは言えませんでした。良い説明!ありがとう! –

+1

クラスタリング、分類、異常検出、類似性測定などは、データを単に「照会」し、これらの照会を「適合」することによっては行われない。同意しません。 – colithium

+0

@colithium:それ以外の手段は*ですか? ybakosの答えに対する私の回答に述べられているように、私の答えはデータ分析法への言及がない。しかし、私は、データマイニングの第一歩が、他の何かになる可能性はないと思う。 DMアプリのデベロッパーが念頭に置いておくべき技術的な困難があると私は考えています。 – Treb

2

あなたは本当にこの質問について受け入れられた回答を変更する必要がありますので、それを遭遇する人を誤解させないようにしてください。

"最初にクエリを実行しなくてもデータ内のパターンを検出できますか?"という理由で、データベースにクエリを実行しているとします。最初に車のドアを開けることなくどこかに運転することができますか?

必要に応じて、テキストファイルからデータを読み取ることができます。私の最初のデータマイニング割り当てでは、UCI repositoryのデータセットが使用されていました。ほとんどすべてがテキストファイルです。

クラスタリングと分類を調べることでデータマイニングを開始したい場合は、ディシジョンツリーとルールベースの分類について学びます。 k-nearest-neighborとk-meansを見てください。その後、Chameleon、DBScan、およびSupport Vector Machinesを見てみると、どのようなデータマイニングが本当に必要かを知りたい場合は、最後の3つの細部を必ずしも習得する必要はありません(かなり複雑で数学的に重いですが)何が起こったのかという抽象的な考えを理解すれば、利用可能な多くのツールとライブラリを使用するために知る必要があることがわかります各戦略。

これはちょうど私の頭の中に突然現れたアルゴリズムです。私が思い出したり、まだ知らないことはたくさんあります。

関連する問題