ただ1つの値が残るまで、再帰的な2-Gramストレージを使用して大きなグループのテキストを1つの整数に分割するという考え方に慣れてきました。再帰的なNグラムを使用してテキストを圧縮する
table pair
{
id
first_parent_id (points to -> this.id)
second_parent_id (points to -> this.id)
}
は、例えば、次のコードに私は11ワード文(周期12)を有します。私はデータベース( "this" + "is = ID#1")に各単語のペアを格納し、データベース(1 + 2 = ID#7)に2組のワードペアを格納し、 1つの単語だけ左にセット - 番号「12」(私たちは、同じデータセットを持っている場合)、これは取るだろうが、我々は後方
------------------------12-------------------------
----------------10---------------11----------------
-------7--------|--------8-------|-------9---------
---1---|--2-----|--3-----|-----4-|----5--|-------6-
This is my group of words which I plan to compress.
を動作することができますを使用して、その後12
This is my group of words which I plan to compress.
---1---|--2-----|--3-----|-----4-|----5--|-------6-
-------7--------|--------8-------|-------9---------
----------------10---------------11----------------
------------------------12-------------------------
IDだろう各文字列を圧縮/解凍する膨大な作業量 - 内容を保存する必要のある種のアーカイブ作業で使用する可能性があるようですが、解凍プロセスがプロでないまれなケースを除いては決して読み込まれません傷み。
私はこれについて正しく考えていますか?単語列の可能な数はこのように格納するには大きすぎるでしょうか? (500単語の文書を想像してみてください)。