data-quality

    1

    2答えて

    重複分析要件では、入力データに1418レコードがあり、うち1380レコードが重複レコードです。 PowerCenterと統合されたIDQにMatch Analysis(Mat Generator、Matcher、Associator、Consolidatorを使用)を使用している場合を除き、すべての重複が削除されました。 これらのレコードを除外してワークフローを実行すると、以前の実行で重複が発生し

    18

    4答えて

    最近、私はブラウザのサポートでデータの品質が原因でバグを起こしました。必要がない限り、ダブルサイズなしで文字列エスケープを適用するための安全なルールを探しています。 Unicodeデータベースで完全に有効な文字であるUTF-8バイトシーケンス "E2-80-A8"(U + 2028、ラインセパレータ)。ただし、そのシーケンスは行区切り文字を表します(「はい」、「0A」以外)。 ひどく、多くのブラウ

    0

    2答えて

    カスタムルールで大量のデータファイル(.csv)を操作するためのソフトウェアオプションを特定したいと考えています。たとえば、適切な大文字と小文字の区別フィールド内の特定の単語の単語数、および他のいくつかのカスタムルールを特定することができます。どんな指導も高く評価されます。彼らはあなたが探しているものに非常に近いように見える http://data-scrubbing.qarchive.org/

    1

    1答えて

    データ品質のためにデータベースに接続するデータベースモデルの例が必要です。回答のベストフォームは少なくともMySQLで実行可能なDDLであるべきです。他のRDMS DDLは大丈夫です。コードの移植を求める別の質問を投稿します。 偉大なプラスとなるでしょう。 質問、コメント、フィードバックなど - ちょうどコメント、感謝!!

    0

    1答えて

    2つの質問があります。 1)ソースアナライザービューのオブジェクトを並べ替えることができるように、何らかの種類の整理された書式で整列しようとしています。しかし、レイアウトアナライザパネルに行くと、ソースアナライザのオプションで「すべて整列」が「グレー表示」になります。 オブジェクトを手配する方法はありますか? 2)私のソースのオブジェクトは、インポート元のDBによって編成されていますが、ターゲット

    2

    3答えて

    私は物理的なものを記述する大きなデータセットを持っている場合、そのデータが表現すると思われるものにどのくらい適しているかを測定するにはどうすればよいでしょうか? 例としては、12個のウィジェットを保管している箱があり、各ウィジェットの重さが1ポンドであることがわかります。データの品質が「チェック」で、13ポンドの重さがあることを確認してください。 もう1つの例は、ランプとそのランプを表す画像がある

    1

    2答えて

    以下のコードは、ソースシステムの温度(人が病院にいる​​ときの気温)を含むグループ化されたデータのサンプルです。 明らかにデータは恐ろしいですが、私たちがUOM(計量単位)フィールドを持っているので何らかの形でこのデータをINTに変換できるかどうか疑問に思っています。 データの問題: 88度摂氏 3635が36.35 0.368が36.8 37.3だろうだろう明らかに華氏ではありません。 37.3

    4

    2答えて

    のは、私のようなテーブルがあると仮定しましょう: Date Sales 09/01/2017 9000 09/02/2017 12000 09/03/2017 0 09/04/2017 11000 09/05/2017 14400 09/06/2017 0 09/07/2017 0 09/08/2017 21000 09/09/2017 15000 09/10/2017 23

    0

    1答えて

    と比較するRスクリプトを使用して 'ffff' en 'fdaljfdlksajf'のような奇妙なオープン回答(文字列変数)を除外しようとしています。 Rで利用可能な辞書パッケージがあると思っていましたが、これを見つけることができませんでした。 別のオプションは、オランダ語のリスト(必要な辞書です)をアップロードして入力と比較することですが、それを見つけるのは簡単ではありません。 これまでにこれま