-2
基本的に、私は既に持っている一連の文章を含むデータセットを増やしたいので、データセットの各文に文法/スペルミスのエラーを追加する予定です。私が持っているデータセットは完全に清潔です。つまり、スペル/文法上の誤りはありません。あまりにも多くの誤りを特定の文に加えて、その意味/意味の変化を防ぐべきではないことを心に留めておくと、どのようにしてそれを行うことができますか?データにスペル/文法エラーを追加する
基本的に、私は既に持っている一連の文章を含むデータセットを増やしたいので、データセットの各文に文法/スペルミスのエラーを追加する予定です。私が持っているデータセットは完全に清潔です。つまり、スペル/文法上の誤りはありません。あまりにも多くの誤りを特定の文に加えて、その意味/意味の変化を防ぐべきではないことを心に留めておくと、どのようにしてそれを行うことができますか?データにスペル/文法エラーを追加する
Edit Distanceを見ましたか?
編集距離は4つの基本操作の点で単語間の距離を測定する:(文字x
を添加)
x
を削除する)[1部]x
とy
[1単位]x
の代わりにy
)[2単位= 1インertion + 1削除]たとえば、「アルゴリズム」と「対数」についてはは、実世界のデータは、次のアプローチを検討することもできモデル有意義なノイズを導入するために3
の編集距離で分離されています各ストリング内
編集距離を考慮する理由は、間違ったスペルが正しいスペルから2〜4を超えないようにする必要があるということです。