2017-07-04 7 views
0

NLP/Machine Learingを使用してテレビや映画ファイルにトークン/タグを付ける方法があるかどうかは分かりました。NLP /機械学習でTVと映画のファイル名を一致させるには?

すでにこれを行う多くの正規表現アプローチがあることは知っていますが、NLP /機械学習でもこれを行うことはできませんか?

例: The.Heart.Guy.S01E07.Die.Belastungsprobe.German.DL.720p.HDTV.x264-GDR

ようなものになるはずです。

The Heart Guy SHOW-NAME 1 SEASON 7 EPISODE Die Belastungsprobe EP-NAME German DL LANGUAGE 720p RESOLUTION HDTV SOURCE x264 CODEC GDR GROUP

誰もが今までこのような何かを試してみましたか?あるいは、どこから始めるべきか、あるいはこのようなことを得ることさえ可能であるというヒント。

+1

カスタマイズされたアプローチは、1つの(エピソード名と共同でテレビデータベース)外部データを使用する可能性がある場合は特に、優れただろう。ここでは時間の無駄のようなMLの音を使用すると、何とかしていくつかの学習セットを準備する必要がありますが、これはやりにくいでしょう。 – sascha

答えて

2

機械学習アプローチは、ルールベースアプローチよりもコストがかかるでしょう。しかし、機械学習のソリューションを試してみたいのであれば、マルコフモデルを使うのが最良の解決策です。なぜなら問題は連続観測であり、有限状態オートマトンで扱うことができるからです。このpaperを参照として使用できます。私は正規表現を使用して疑う

1

はこれを最も簡単な解決策ですが、いくつかの時間に条件付き確率場を入れて喜んでいる場合にも最適なソリューションです。 HereはレシピデータのCRFベースのモデルを使ったニューヨークタイムズの記事です。

Example CRF data

短いテキストでのCRFの別の例は、郵便住所の部分を抽出libpostal、です。

enter image description here