私は大きな文字列を持っています。各文字列はトレーニングデータセットの異なる例であり、カテゴリのリストを含み、各カテゴリはコンマで区切られています。例えば。カテゴリデータ - ワンホットエンコーディング
mesh = ['aligator, dog, cat', 'cat, mouse, aligator', '']
一部の例は、どのカテゴリにも属していない可能性があります。したがって、空の文字列として表されます。
機械学習で使用するために、これらのカテゴリをエンコードするためにワンホットエンコーディングを使用したいと考えています。
どうすればいいですか?私はカテゴリーの完全なリストを持っておらず、およそ5,000のカテゴリーがあります。
あなたの 'mesh'は' 1次元numpy配列の文字列 'のようには見えません... 1D配列の文字列か文字配列の配列を持っていますか? – MaxU
@MaxU編集済み – scutnex
@MaxUからの回答に問題はありましたか?それは空の文字列のために働くはずです – elphz