質問1:wide_n_deep_tutorial.py
で'hash_bucket_size'パラメータを設定する原則は?
、そこ両方tf.feature_column.categorical_column_with_hash_bucket
とtf.feature_column.crossed_column
方法に対するhash_bucket_size
名前ハイパーパラメータであり、その値はhash_bucket_size=1000
あります。
なぜ1000?このパラメータの設定方法は?
質問2: 2番目の質問についてcrossed_columns
、つまり、wide_n_deep_tutorial.py
で
crossed_columns = [ tf.feature_column.crossed_column(["education", "occupation"], hash_bucket_size=1000), tf.feature_column.crossed_column([age_buckets, "education", "occupation"], hash_bucket_size=1000), tf.feature_column.crossed_column(["native_country", "occupation"], hash_bucket_size=1000) ]
、
なぜcrossed_columns
として["education", "occupation"]
、[age_buckets, "education", "occupation"]
と["native_country", "occupation"]
を選択し、任意のルールがあります親指?
_ hash_bucket_のために、「10 *ユニークなエントリよりも小さな整数(たとえば、100,1000,10000,100000)」というルールを使用できますか?例えば、 'A'は120個のユニークなエントリを持っているので、' hash_bucket_size = 10000'は意味がありますか? – feng1122
_フィーチャークロス - 時間と労力を要するフィーチャー工学が必要なようですね。何百もの機能があり、どのようにクロスカラムを決定するのか想像してみてください。 – feng1122
hash_bucketについては、実際にテストするだけで、すべての入力のハッシュを作成し、重複が発生していないことを確認することができます。機能の横断については、数百の機能がある場合は時間がかかりますが、無料のランチがないことを覚えておいてください。これにはいくつかの作業とデータの理解が必要です。 –