全国地名のローマ字表記データ

概要

全国の地名のローマ字表記を記したCSV形式のファイルを提供します。このCSVファイルには例えば「東京」に対応する「Tōkyō」、「Tôkyô」といったローマ字綴りが収録されています。

地名の種類は、都道府県名、市区町村名、等です。下記に詳述しています。

ローマ字の綴り方は、ヘボン式、訓令式の両方に対応します。

ダウンロード

CSVファイルを以下からダウンロードできます。これら3つのファイルは内容は同一で、ファイルの文字コードだけが異なります。

これらのファイルは、JIS X 0213で追加された「ō」や「ô」といった符号つきのアルファベットを含んでいます。JIS X 0213の文字に対応した環境でご使用ください。

利用条件

自由に使用、再配布、加工、加工したものの再配布等していただいてかまいません。(創作性の低いデータと考えられ、著作権が適用されるのかどうかよく分かりません)

本データの正確性や有用性等について保証しません。

CSVの内容

  • 第1列: 漢字の地名 (例: 大船渡市)
  • 第2列: 第1列の読みの平仮名 (例: おおふなとし)
  • 第3列: 「県」「市」などを除いた中核部分の読み (※) (例: おおふなと)
  • 第4列: 第3列に対応するヘボン式ローマ字 (例: Ōfunato)
  • 第5列: 第3列に対応する訓令式ローマ字 (例: Ôhunato)

(※ 例外として、「北海道」は「道」を除かない「ほっかいどう」)

第1列において、「茅ヶ崎市」などの「ヶ」、つまり、「か」「が」と読む、「箇」「个」の略とされる「ヶ」については、一律に「ヶ」(1面5区86点)を用いています。片仮名の「ケ」(1面5区17点)は用いません。

元データと収録地名の種類

元にしているデータは、統計局提供の、統計に用いる標準地域コードのCSVファイルです。このファイルに市町村名等とその読み仮名が入っているので、それを(ほぼ)機械的に処理してヘボン式・訓令式両方のローマ字表記を生成しています。

含まれる地名は下記に相当するものです。

  • 都道府県名
  • 市町村名
  • 区名 (政令指定都市、および東京特別区)
  • 郡、支庁(小笠原等)、振興局 (北海道における以前の支庁)の名前

ただし、北海道の郡名は入っていません。かわりに振興局名が入っています。これは元データがそうなっていたためです。

ローマ字の綴り方について

本データでは、ヘボン式と訓令式の両方の綴りを収録しています。

訓令式については、内閣告示の方法に準拠しています。

ヘボン式については、一般的なヘボン式の綴り方(内閣告示の第2表?)に加えて、下記の要領です:

  • 長音はマクロン (上つきの横線、¯)で表す (内閣告示では一律に「^」ですが、ヘボン式ではマクロンの使用が一般的なために採用しました)
  • はねる音は一律に「n」で表す (例: きょうたんば → Kyōtanba)。「b, p, m」の前でも「m」にはしません
  • 「ち」の前のつまる音(促音)は「tc」で表す (例: くっちゃん → Kutchan。本データで適用対象はこの例のみ)

複数の語が組み合わされたと考えられる名前でも、ハイフンでつなぐことはせず、一律に完全な一語として扱っています(例: 山陽小野田→San'yōonoda)。これが適当かどうかはよく分かりません。

本辞書で採用している綴りは、各地方自治体がウェブサイト等で使用している綴りとは必ずしも一致しません。また、一致させることを意図してもいません。(地方自治体のウェブサイトに見られるローマ字綴りは長音を明示せず、日本語のローマ字綴りとして問題のあるものが多く見受けられます)

関連


2012年11月 初版公開

最近のブログ記事

Unicode 10.0リリース、変体仮名を収録
Unicode 10.0が2017年6月…
Chrome 拡張機能 Personal Blocklist でパクリサイトをブロックしよう
Google検索結果からサイトを除外でき…
Unicode の嫌なところを触ってしまった Python
Pythonとlibiconv, nkf…
電子マネーiDの良さが今更ながら分かった
iDとはどんなものか 電子マネーというと…
書家の第3水準漢字が文字化けするわけ
北海道南部の松前町は、20世紀日本の書家…

広告