だからのように私のコードは次のとおりです。新しいラベルにscikit LabelEncoderを使用するにはどうすればよいですか?
>>> le = preprocessing.LabelEncoder()
>>> le.fit(train["capital city"])
LabelEncoder()
>>> list(le.classes_)
['amsterdam', 'paris', 'tokyo']
>>> le.transform(["tokyo", "tokyo", "paris"])
array([2, 2, 1])
>>> list(le.inverse_transform([2, 2, 1]))
['tokyo', 'tokyo', 'paris']
しかし、私のテストデータセットであれば、私は「北京」ではなく「北京は」トレーニングセットに存在しないようなものを持っているもの?エンコーダが地球上のすべての首都に追加することなくこれを処理する方法はありますか?
ええと「の値の前に見たことがないとsklearn.LabelEncoder」からソリューションを試すことができます。私は現実の世界でこれを使用しています。あなたの提案はスケーラブルではないと思います。私はこの[PR](https://github.com/scikit-learn/scikit-learn/pull/9151)がマージされることを望んでいます。さもなければ、私は新しいカテゴリ的な情報をどのように扱うかについて私自身の方法を実装しようとします。 – Flair
@Flair。はい、それは私が尋ねたものです。現実世界では、あなたのデータを1つに訓練し、見えないデータが予測時間に来ると、それは良い結果を得られない可能性があるため、完全に失敗する可能性があります。 –