{brand: canon, model number: d1000, lens: 4MP zoom: 2X, display type: LCD}
のような構造化データに「Canon D1000 4MP Camera 2X Zoom LCD」のような構造化されていない製品タイトルを解析することを検討しています。製品タイトル(構造化されていない)を構造化データに解析する方法は?
これまでのところ私が持っている:
- ストップワードを削除し、クリーンアップ(
-
;
:
/
のような文字を削除) - は言葉に長い文字列をトークン化。
どのような技法/ライブラリ/方法/アルゴリズムであれ、非常に高く評価されます。
編集:製品タイトルのヒューリスティックはありません。売り手は何でもをタイトルとして入力できます。たとえば、「Canon D1000」はタイトルにすぎません。また、この演習はカメラデータセットだけでなく、タイトルはどの製品でも可能です。
トレーニングデータはありますか? 1000製品の製品仕様を教えてください。 – Jirka
私は多くのトレーニングデータを持っています。私はこれを1億アイテム分実行する必要がありますが、今はカメラ関連の約10,000個の製品でプロトタイプを構築しようとしています。 – stealthspy
私は同じ問題を解決しようとしています。私は〜50Kの製品を持っている、それらのすべてが構造化されておらず、トレーニングデータもありません。私の最初のステップは、ブランド、モデルなどの属性が定義された製品を意味するトレーニング用のデータを見つけることです。製品は電子機器(電話、ノートパソコン、カメラ)に属します。属性を持つ製品を見つけるためのアドバイス – dzeno