データにスペル/文法エラーを追加する

-2

基本的に、私は既に持っている一連の文章を含むデータセットを増やしたいので、データセットの各文に文法/スペルミスのエラーを追加する予定です。私が持っているデータセットは完全に清潔です。つまり、スペル/文法上の誤りはありません。あまりにも多くの誤りを特定の文に加えて、その意味/意味の変化を防ぐべきではないことを心に留めておくと、どのようにしてそれを行うことができますか？データにスペル/文法エラーを追加する

出典

2017-06-12 Parth

Edit Distanceを見ましたか？

編集距離は4つの基本操作の点で単語間の距離を測定する：（文字xを添加）

挿入[1部]
削除（xを削除する）[1部]
転置（隣接する2文字のスワップ）xとy [1単位]
置換（xの代わりにy）[2単位= 1インertion + 1削除]たとえば、「アルゴリズム」と「対数」については

は、実世界のデータは、次のアプローチを検討することもできモデル有意義なノイズを導入するために3

の編集距離で分離されています各ストリング内

、4つのいずれかの操作を選択し、単語の任意の部分にランダムにそれを適用する、各ランダム・ワードのためのランダム
で1~2単語を取ります。同じ単語に対して2つの操作を適用することもできます。実際には、編集距離3-4よりも劇的なエラーはありません。

編集距離を考慮する理由は、間違ったスペルが正しいスペルから2〜4を超えないようにする必要があるということです。

出典

2017-06-13 06:24:50

データにスペル/文法エラーを追加する

答えて

関連する問題