商品の説明から機能を抽出するテキストパーサーを作成しています。プレーンテキストからフィーチャーを抽出するにはどうすればよいですか?
例:
text = "Canon EOS 7D Mark II Digital SLR Camera with 18-135mm IS STM Lens"
features = extract(text)
print features
Brand: Canon
Model: EOS 7D
....
私はこれを行う方法は、構造化データとシステムを訓練し、機能に用語をマッピングすることができ転置インデックスを考え出すことです。これはほとんどうまく動作します。テキストは50ml
、または2kg
などの測定が含まれている場合
、転置インデックスは、例えばのため2kg -> Size
と50ml -> Size
を言うだろう。
ここでの問題は、私が前に見たことがない値を得るときに、13ml
のように処理されないことです。しかし、パターンはサイズにマッチするので、サイズとしてタグ付けすることができます。
私はテキストから得たトークンを前処理して、私が知っているパターンを探すことでこの問題を解決しようと考えていました。したがって、新しいパターンが識別された場合、そのパターンを前処理に追加する必要があります。
私はこれを知るにはこれが最善の方法でしょうか?または、これを行うためのより良い方法がありますか?
ありがとうございました。私は同じ考えをしていた。 –