"to"、 "and"のような単純な一般的なフレーズと、 "pick up"、 "fall in love"、 "赤ちゃん "、"デッドエンド "?NLPテクニックを使ってイディオムを吟味し、フレーズを他の一般的なフレーズと区別する方法は?
辞書がなくてもうまくいくテクニックはありますか?たとえば、HMMは大規模なコーパスを訓練していますか?
単独で、または特定の限られた慣用句のいずれかで出現する単語に対して、ほぼあらゆる単語と共起することができる「乱雑」単語を無視または重み付けするといったヒューリスティックスがありますか?
このようなヒューリスティックスがある場合、「ビートアップ」、「ビートアップ」、「アップアップ」、「アップアップ」、「アップアップ」などの無差別な言葉を組み込んだセットフレーズおよび口語フレーズ"?
UPDATE
興味深い論文をオンラインでIを見つけた:あなたはコロケーション検出用Unsupervised Type and Token Identification of Idiomatic Expressions
井戸コロケーションは、イディオムよりも広いフィールドですが、一般的なフレーズよりも狭いので、リンクに感謝します。 – hippietrail