テキストデータの検証とクリーニング

数字の値を検証することも、すべての項目を読み取ることもできないことを考慮して、そのテキストデータを検証して検証する方法については疑問に思っています。テキストデータの検証とクリーニング

特定のケースでは、.mboxファイルから取得した電子メールのテキストデータを処理しています。ですから、すべての種類の書式があります。つまり、署名などです。分析したいテキストは基本的に本文のサブセクションです。私が好きなものを抽出する方法を見つけたら、私が作業するデータが私が特に必要としているものであることを検証するにはどうしたらいいですか？

出典

2017-01-25 jf2qm

サンプルメッセージからデータを抽出し、その結果を目的の結果と比較できるテストフレームワークを構築します。

ランダムに選択したメッセージをテストフレームワークに追加します。このテストに合格するまで、必要に応じて抽出/洗浄コードを調整してください。

ランダムに選択したメッセージを追加し、すべてのテストが終了するまで抽出コードを修正し続けます。

テストフレームワークのメッセージが、可能性のあるすべてのケースを処理したと確信できるほど大きなデータセットのサブセットを表すまで繰り返す。

正しいことをしないメッセージを発見した場合は、それをテストスイートに追加し、既知のケースを壊さないことを確信してコードを修正することができます。

出典

2017-01-25 22:07:34

テキストデータの検証とクリーニング

答えて

関連する問題