3
薬の説明を格納するテーブルから、各エントリの製品名、強度、製品の数量、製薬会社を特定する必要があります。目標は、あらかじめ定義された構造を持つテーブルのコピーを持つことです。テキストの中のパターンを特定し、それらを分類する方法
現在のテーブル:
正規化されたテーブル:
これまでのところ、私は自然言語処理の少し読んだが、私は別のアプローチを知りたいです。私はRegexを使うことを考えていましたが、多くの場合があります。
あらゆる種類の洞察が認められるでしょう。
あなたが考慮すべきケース/シナリオがたくさんあるので、私は、これを処理するために私のコードでは正規表現と文字列操作のコンボを使用します。私はRegexを安全に失敗させ、(PharmaceuticalCompanyName)のような「クリーン」グループを抽出し、例えばStrengthからProduct Nameを分離するための文字列操作を使用します。 –