やじうまの杜
プログラマーを苦しめてきた郵便番号データ「KEN_ALL.CSV」が改善! 扱いやすい新形式
従来形式のデータも引き続き利用できるから安心してネ
2023年7月6日 06:45
「やじうまの杜」では、ニュース・レビューにこだわらない幅広い話題をお伝えします。
「KEN_ALL.CSV」として知られる日本郵便の郵便番号データが、2023年6月の更新から改善されたそうで、界隈が歓喜の声に包まれています。
KEN ALLまじかよ
— まいまい (@maimai77)July 4, 2023
あの人道に対する罪と呼ばれたken_all.csvが!?
— ジャカルタ読み専ブラザーズ (@_oinarisan_)July 1, 2023
新しいデータファイル「utf_all.csv」の改善ポイントは、以下の通り。
- 文字コードが「Shift_JIS」から「UTF-8」に
- 読み仮名データが半角カタカナから全角カタカナに
- 複数レコードへの分割は廃止。従来は全角町域名の文字数が38文字を超える場合、半角カタカナ町域名のフリガナが76文字を超える場合に複数のレコードに分割されていた
まじか。あの郵便番号データ「KEN_ALL.CSV」がバージョンアップして、人の形をしたデータになってる。今後も改善予定のようで楽しみ。
— にゃんこそば🌤データ可視化 (@ShinagawaJP)June 30, 2023
・町域名が長い場合に複数レコードに分割するのをやめた
・半角カナをやめた
・UTF-8形式に変更
🔗郵便番号データダウンロード|日本郵便https://t.co/OgElcsc5Xcpic.twitter.com/a9AjUdAwSJ
「ぇ、古いのはどうしたの? システム更新しなきゃいけないの?」と思った方はご安心を。従来形式のデータも引き続き利用可能です。
「utf_all.csv」に都道府県別のデータはなく、ファイルサイズもちょっと増えています(展開後CSV形式の比較で11.7MB→17.4 MB)が、昨今のPCで問題になることはないでしょう。
「以下に掲載がない場合」といった、機械では扱いづらい人間向けの補足説明は残っており、完全な排除も難しいようですが、これもいずれはフラグに置き換えることが検討されているとのこと。データ処理が格段にやりやすくなると期待されています。
ただし、BOMはついていないようで「Excel」などで読み込んだときに文字化けすることがある点には依然注意が必要です。