2017-06-12 4 views
-2

基本的に、私は既に持っている一連の文章を含むデータセットを増やしたいので、データセットの各文に文法/スペルミスのエラーを追加する予定です。私が持っているデータセットは完全に清潔です。つまり、スペル/文法上の誤りはありません。あまりにも多くの誤りを特定の文に加えて、その意味/意味の変化を防ぐべきではないことを心に留めておくと、どのようにしてそれを行うことができますか?データにスペル/文法エラーを追加する

答えて

0

Edit Distanceを見ましたか?

編集距離は4つの基本操作の点で単語間の距離を測定する:(文字xを添加)

  1. 挿入[1部]
  2. 削除(xを削除する)[1部]
  3. 転置(隣接する2文字のスワップ)xy [1単位]
  4. 置換(xの代わりにy)[2単位= 1インertion + 1削除]たとえば、「アルゴリズム」と「対数」については

は、実世界のデータは、次のアプローチを検討することもできモデル有意義なノイズを導入するために3

の編集距離で分離されています各ストリング内

  1. 、4つのいずれかの操作を選択し、単語の任意の部分にランダムにそれを適用する、各ランダム・ワードのためのランダム
  2. で1~2単語を取ります。同じ単語に対して2つの操作を適用することもできます。 実際には、編集距離3-4よりも劇的なエラーはありません。

編集距離を考慮する理由は、間違ったスペルが正しいスペルから2〜4を超えないようにする必要があるということです。

関連する問題