2016-09-06 6 views
0

テキスト分類の場合の学習プロセスでは、process documentモジュールから生成された単語リストの長さは約15000語です。反対に、フィーチャー選択モジュール、すなわちweight by information gainselect by weightを適用して上位500個のフィーチャーを選択しました。単語リストと選択された重みの両方が保存されます。この生成された500ウェイトをワードリストに適用する方法はありますか?500ワードのウェイトに正確に一致する短いワードリストを作成します。言い換えれば、元の単語リスト(約15000語)と上位500個の特徴(またはそれに基づいた上位500語)の交差点を持っていたいと思います。重み付けに基づいて選択された単語リストと上部特徴の対話

次のスクリプトは、私が使用しているスクリプトを示しています。赤い丸で囲まれた太さは、最初の列が単語(属性)で、2列目が対応する重み値です。これに基づいて、トップ500または他のトップフィーチャーを選択することができます。元の単語リスト(赤で丸で囲んだもの)は15000語、15000行の行列を持つことができます。

私の質問は、ランク付けされたウェイトオブジェクトに基づいてフィルタリングされたワードリストオブジェクトを生成する方法です。

Rapidminer forumにこの質問を投稿しました。そこの更新に従ってください。

答えて

0

代表的なプロセスを掲載する必要があります。それがなければ、助けを与えるのは難しいですが、私の見解では、500単語の例を取り、それを再度処理して単語リストを作ることができます。

+0

あなたの提案に基づいて元の投稿を更新しました。 – user297850

+0

私はこれをRapidMinerフォーラムで回答しました。これにリンクする価値があるので、他の人が利益を得ることができます。 – awchisholm

+0

ありがとうございます、リンクは元の投稿に含まれています。 – user297850

関連する問題