日常

小学校1年生までに習う漢字で書ける駅名

Twitter (X) を眺めていると、こんなのが流れてきていました。

リプライでかなりの駅名が挙げられていますが、まあプログラマで片足鉄っちゃんに突っ込みかけている私としては自動でなんかやりたくなりますよね。
ということで、公開されているデータを集めて抽出してみます。

まず、抽出条件が曖昧なので、整理する必要があります。これはもはや定義なので、人によって含める含めないなどの派閥があると思います。受け入れてください。
別に受け入れなくてもいいですが、決めないと始まらないので。
一番論争になりそうなアルファベットに関してはもう受け入れない人はその駅をなかったことにしてくれればそれでいいです。

  • 「小学校1年生までにならう漢字」は、文部科学省のリストに従います。 https://www.mext.go.jp/a_menu/shotou/new-cs/youryou/syo/koku/001.htm 閲覧時点で「一 右 雨 円 王 音 下 火 花 貝 学 気 九 休 玉 金 空 月 犬 見 五 口 校 左 三 山 子 四 糸 字 耳 七 車 手 十 出 女 小 上 森 人 水 正 生 青 夕 石 赤 千 川 先 早 草 足 村 大 男 竹 中 虫 町 天 田 土 二 日 入 年 白 八 百 文 木 本 名 目 立 力 林 六(80字)」だそうです。
  • 「ひらがな」「カタカナ」「数字」は使用して良いとします。
  • 「アルファベット(ローマ字)」も使用して良いとします。
  • 「ヶ」「ヵ」はカタカナであるとみなします(「ヶ」=「个」という立場を取りません)。
  • 会社名や路線名はこの判定に利用しないものとします。

また、実装上の都合(めんどくさい)やデータソースの都合上、次のような制約があります。

  • 同名かつほぼ同じ地点にある駅をまとめていません。会社が同じであっても路線が違うものなど実質完全に同一の駅でも複数回掲載されているものがあります。
  • 駅名のデータは https://nlftp.mlit.go.jp/ksj/gml/datalist/KsjTmplt-N02-v2_3.html から令和2年のデータを取得して利用しています。
  • 令和2年(のある時点)以降に開業・廃止・改名等された駅は反映されていません。例えば、スカイレールサービスが掲載されています。
  • 会社名や路線名は上述のデータに掲載のものをそのまま掲載しています。一般に知られている名称と違う場合があります(例えば、「つくばエクスプレス線」が「首都圏新都市鉄道・常磐新線」となっています)

ということで抽出したリストいきましょう。 続きを読む