のPython:クラスタリング検索エンジンキーワードPythonの:クラスタリング検索エンジンキーワード
こんにちは、 私は、CSVを持っている(私は別のウェブサイトのため100,000持っていた)、参照キーワードを含む各列(すなわち2万行まで問題のウェブサイトを見つけるために検索エンジンに入力したキーワード)、および多数の訪問数を含む。
私が探しているのは、これらのキーワードを「類似の意味」のクラスターにクラスター化し、クラスターの階層を作成することです(クラスターごとの合計検索数の順に構造化されています)。
例クラスタ - "女性の服" - 理想的には、これらの線に沿ってのキーワードが含まれています: は服レディース、1000年 女性が着る、300 は、衣服、50人の 婦人服、6人の 女性が着るレディース2
私はPython Natural Language Toolkitのようなものを使うことができます:http://www.nltk.org/とWordNetですが、WordNetには何も知られていない言葉や言葉が参照されているウェブサイトがあります。たとえば、ウェブサイトが有名人のウェブサイトである場合、WordNetは「Lady Gaga」について何も知らない可能性があります。
したがって、ソリューションはソースデータそのものを使用するように見える必要があるとも推測しています。
私のクエリは、How to cluster search engine keywords?で生成されたものと非常に似ていますが、私はどこかで、Javaの代わりにPythonを使用しています。
Google PredictやGoogle Refineが何らかの用途に使用されているかどうかは疑問でした。とにかく
、任意の思考/提案を大歓迎、
おかげで、 C
助けるが、[関連する質問に答え]自分を切り売りすることはできません(http://stackoverflow.com/questions/4787984/i-want-to-get-related-searches-or-keywords)。 – 9000