でぃするだいありー?

そんな気はないんだれど、でぃすっちゃってる。 でぃすでれ?

続・衝撃の数千件

数千件の実態は7000件強で、データでご提供いただき一安心。

さて、提供されたデータファイルの拡張子はxlsで、開いてみたところ、各行A列にのみデータが格納されている。一見してcsv変換に失敗しているように見受けられたが、実際は、csv形式で保存されたファイルの拡張子をxlsにリネームしただけのシロモノだった。そうと気づかず、1.5hかけてDBに格納するプログラムを書いてしまったことはさておき。
最近は、bmp画像の拡張子をjpgにリネームして画像変換できたわーいとする風潮があるようだが、なまじ開けただけに、ファイル形式を疑うことは思いつかなかった次第である。
いらんワナしかけんなと。

事前に了解していたとおり、顧客を管理するテーブルが10個ほどあり、ざっと見てみると、同じテーブルに重複する顧客データが存在する。異なるテーブルにも重複する顧客データが存在する。クライアントが二十年蓄積したエントロピーを目の当たりにしているわけだ。
テーブルごとに桁数が異なる顧客コードはあてにならない。同じ顧客データであるかどうかを識別するためは電話番号か顧客名に依るしかないのだが、電話番号が未入力のレコードが存在し、同じ顧客と思える名称もバリエーションに富んでいる。

とりあえずは、データのパターンを洗い出し、重複と見なせる条件を設定する必要がある。
この手のデータ解析は須く然りであるが、答えのないパズルであり、精度は眼力に依存する。わかりやすい、アナログとデジタルの境界線の一例といえよう。