アカウント名:
パスワード:
一意キーで識別する必要はなくて、特定健診と診療報酬明細書の人物を、大体一致できればいい、って程度の考えだったんでしょうね。全体の傾向を読み取るのが目的だったので。だから、氏名を一方向ハッシュにしてキーにすりゃいいじゃん、と考えた。ハッシュ化したのは個人情報保護のために密に結合できないように、でしょう。
でも、ハッシュ元のキーの正規化を考慮してないという超絶基本の設計抜けで残念なことにwだれも指摘しなかったとは思えないんですけどね…。どういう経緯で黙殺されたのかが気になる。氏と名の間に空白を入れるかベタにつけるか、とか、文字コードどうすんの、とか考慮してるうちに漢字なのかカナなのかぐらいは出てくるだろーにさ…。
#ビッグデータはキーの選択がキモになるとは言うけど、なんかそれ以前な感じw
開発受注側 「名前ならハッシュ値でユニークキーに出来ると思ったので提案し、実装した」開発発注側 「運用時に名前の書式を統一すればデータを個人情報と切り離して管理できる、というので提案を承諾した」健診監督者 「名前の書式を統一しなければならないらしい。漢字だとコンピューターで使えない漢字とかあるからカタカナで統一な」明細書記入側 「うちは今まで通り手書きだから、コンピューターに入れるときにうまくやってくれ」データ入力監督 「名前は読み仮名を入力するようにね」データ入力者(バイト) 「書いてある通り入力しときました」
こう言う感じじゃない?2割はマッチングできてるから、ちゃんとやってるバイトもいたけどそうじゃない奴が多かったんだろう。もしくはバイトが途中でやめて別のバイトを雇ったりしたときに、監督者が言い忘れたとかそういう可能性もあるね。
ちゃんとやってる、ってより、たまたま名前が片仮名だったとか、名前と苗字の間を半角スペースにした、とか、そいういう類の奇跡じゃないかな。
特定検診からの変換は自動で、明細書からはいくらかを手作業でやっていたのでそれぞれしか見てない人には問題がわからなかったのかな。それか、生データをもらって変換したんじゃなくて、はじめからハッシュ値になってるものをもらってきたんでしょうかね。で、ようやく準備できて解析始めようとしたら2つのDBに同じ人がほとんどいないことに気づいてあれ?みたいな。
なんかこう、技術的な問題点はわかったけど悲しすぎますね。個人情報的なアレもあるから、事前に対応が取れてる少人数分でテストってのも難しいのかなぁ。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
※ただしPHPを除く -- あるAdmin
いわゆるビッグデータ (スコア:1)
一意キーで識別する必要はなくて、特定健診と診療報酬明細書の人物を、大体一致できればいい、って程度の考えだったんでしょうね。
全体の傾向を読み取るのが目的だったので。
だから、氏名を一方向ハッシュにしてキーにすりゃいいじゃん、と考えた。
ハッシュ化したのは個人情報保護のために密に結合できないように、でしょう。
でも、ハッシュ元のキーの正規化を考慮してないという超絶基本の設計抜けで残念なことにw
だれも指摘しなかったとは思えないんですけどね…。どういう経緯で黙殺されたのかが気になる。
氏と名の間に空白を入れるかベタにつけるか、とか、文字コードどうすんの、とか考慮してるうちに漢字なのかカナなのかぐらいは出てくるだろーにさ…。
#ビッグデータはキーの選択がキモになるとは言うけど、なんかそれ以前な感じw
Re:いわゆるビッグデータ (スコア:1)
開発受注側 「名前ならハッシュ値でユニークキーに出来ると思ったので提案し、実装した」
開発発注側 「運用時に名前の書式を統一すればデータを個人情報と切り離して管理できる、というので提案を承諾した」
健診監督者 「名前の書式を統一しなければならないらしい。漢字だとコンピューターで使えない漢字とかあるからカタカナで統一な」
明細書記入側 「うちは今まで通り手書きだから、コンピューターに入れるときにうまくやってくれ」
データ入力監督 「名前は読み仮名を入力するようにね」
データ入力者(バイト) 「書いてある通り入力しときました」
こう言う感じじゃない?
2割はマッチングできてるから、ちゃんとやってるバイトもいたけどそうじゃない奴が多かったんだろう。
もしくはバイトが途中でやめて別のバイトを雇ったりしたときに、監督者が言い忘れたとかそういう可能性もあるね。
Re: (スコア:0)
ちゃんとやってる、ってより、たまたま名前が片仮名だったとか、名前と苗字の間を半角スペースにした、とか、そいういう類の奇跡じゃないかな。
Re: (スコア:0)
特定検診からの変換は自動で、明細書からはいくらかを手作業でやっていたのでそれぞれしか見てない人には問題がわからなかったのかな。
それか、生データをもらって変換したんじゃなくて、はじめからハッシュ値になってるものをもらってきたんでしょうかね。
で、ようやく準備できて解析始めようとしたら2つのDBに同じ人がほとんどいないことに気づいてあれ?みたいな。
なんかこう、技術的な問題点はわかったけど悲しすぎますね。
個人情報的なアレもあるから、事前に対応が取れてる少人数分でテストってのも難しいのかなぁ。