やじうまの杜

プログラマーを苦しめてきた郵便番号データ「KEN_ALL.CSV」が改善! 扱いやすい新形式

従来形式のデータも引き続き利用できるから安心してネ

 「やじうまの杜」では、ニュース・レビューにこだわらない幅広い話題をお伝えします。

「KEN_ALL.CSV」として知られる日本郵便の郵便番号データ

 「KEN_ALL.CSV」として知られる日本郵便の郵便番号データが、2023年6月の更新から改善されたそうで、界隈が歓喜の声に包まれています。


 新しいデータファイル「utf_all.csv」の改善ポイントは、以下の通り。

  • 文字コードが「Shift_JIS」から「UTF-8」に
  • 読み仮名データが半角カタカナから全角カタカナに
  • 複数レコードへの分割は廃止。従来は全角町域名の文字数が38文字を超える場合、半角カタカナ町域名のフリガナが76文字を超える場合に複数のレコードに分割されていた

 「ぇ、古いのはどうしたの? システム更新しなきゃいけないの?」と思った方はご安心を。従来形式のデータも引き続き利用可能です。

今年1月の配布ページ(「web.archive.org」より)
今年7月の配布ページ。1レコード1行、UTF-8形式が追加されている。従来形式のデータも引き続き利用可能

 「utf_all.csv」に都道府県別のデータはなく、ファイルサイズもちょっと増えています(展開後CSV形式の比較で11.7MB→17.4 MB)が、昨今のPCで問題になることはないでしょう。

 「以下に掲載がない場合」といった、機械では扱いづらい人間向けの補足説明は残っており、完全な排除も難しいようですが、これもいずれはフラグに置き換えることが検討されているとのこと。データ処理が格段にやりやすくなると期待されています。

「以下に掲載がない場合」みたいな余計なデータもまだあるけど、大きな前進!

 ただし、BOMはついていないようで「Excel」などで読み込んだときに文字化けすることがある点には依然注意が必要です。

文字化けには依然注意です