皆さん。元のコーパスの最大文章を含む文章コーパスの最小文章を取得するにはどうすればよいですか?
私は1つの「最適化」問題を抱えています。どのような方法で立ち上げるべきかわかりません。ここに私の問題の説明があります:
私はたくさんのテキストセンテンスを持つコーパスを持っています。今では、録音する文章(オーディオファイル)を最小限にする必要がありますが、録音された文章から作成された元のコーパスの文章の数を最大にする必要があります。
私は何をする必要があるかの非常に短い例に:
コーパス:
- 黒い犬
- 灰色猫
- 大きな犬
- 大きな灰色のマウス
- マウス
元コーパスの最大値をカバーする最小の文の例:
- 黒い犬
- 大きいマウス
- グレー猫
3つの文章(およびそれらの言葉から)以上であれば、残りの文章をコーパスに書くことができます。もちろん、私のコーパスには何千もの文が含まれているため、計算上最適な方法を探しています。あなたはこの問題に適した方法を知っていますか?
ありがとうございました!
Morphid
コーパスでもっと多くの単語をカバーするために、あなたが最小限のリストで余分な単語を交換する意志を指定するためにここに余分なパラメータが必要なようです。例えば、なぜ "黒犬のマウス"ではないのですか? – samgak
セットカバーの問題のような音:https://en.wikipedia。org/wiki/Set_cover_problem – m69
あなたの答えをありがとう:-) @samgak私は自分の書式を保持する必要があるため、私のコーパスから正確なフレーズを記録する必要があります(将来の実験のために、コーパス) – Morphid