重み付けに基づいて選択された単語リストと上部特徴の対話

テキスト分類の場合の学習プロセスでは、process documentモジュールから生成された単語リストの長さは約15000語です。反対に、フィーチャー選択モジュール、すなわちweight by information gainとselect by weightを適用して上位500個のフィーチャーを選択しました。単語リストと選択された重みの両方が保存されます。この生成された500ウェイトをワードリストに適用する方法はありますか？500ワードのウェイトに正確に一致する短いワードリストを作成します。言い換えれば、元の単語リスト（約15000語）と上位500個の特徴（またはそれに基づいた上位500語）の交差点を持っていたいと思います。重み付けに基づいて選択された単語リストと上部特徴の対話

次のスクリプトは、私が使用しているスクリプトを示しています。赤い丸で囲まれた太さは、最初の列が単語（属性）で、2列目が対応する重み値です。これに基づいて、トップ500または他のトップフィーチャーを選択することができます。元の単語リスト（赤で丸で囲んだもの）は15000語、15000行の行列を持つことができます。

私の質問は、ランク付けされたウェイトオブジェクトに基づいてフィルタリングされたワードリストオブジェクトを生成する方法です。

Rapidminer forumにこの質問を投稿しました。そこの更新に従ってください。

出典

2016-09-06 user297850

代表的なプロセスを掲載する必要があります。それがなければ、助けを与えるのは難しいですが、私の見解では、500単語の例を取り、それを再度処理して単語リストを作ることができます。

出典

2016-09-06 05:28:13 awchisholm

あなたの提案に基づいて元の投稿を更新しました。 – user297850

私はこれをRapidMinerフォーラムで回答しました。これにリンクする価値があるので、他の人が利益を得ることができます。 – awchisholm

ありがとうございます、リンクは元の投稿に含まれています。 – user297850

重み付けに基づいて選択された単語リストと上部特徴の対話

答えて

関連する問題