GlyphWiki logo
navigation
help
search

toolbox
languages
groupdiscussionedit this pagehistory

Group:文字情報基盤について (Ratio of glyphs implemented: 100% [91 glyphs implemented, 0 glyphs pending])

From GlyphWiki, the free glyph database

GlyphWiki:日本の行政用の統一文字コードについて > Group:MJ文字情報 > グループ:文字情報基盤について

文字情報基盤整備事業

  • 文字情報基盤整備事業は,戸籍統一文字と住民基本台帳ネットワーク統一文字のすべての漢字を符号化するプロジェクトです。
  • この事業の結果,戸籍統一文字の漢字部分55,271字のうち55,253字と住基統一文字の漢字部分19,565字のうち19,562字が漢字として符号化されています。
  • この事業で定義されたMJ文字図形は,戸籍統一文字と住基統一文字のすべての漢字を含んだ文字集合です。
  • 文字情報基盤漢字は,MJ文字図形のうち符号化された文字です。
  • 戸籍統一文字,住基統一文字とMJ文字図形,文字情報基盤漢字の関係は,以下のようになります。

戸籍統一文字住基統一文字
総数56 04421 170
_非漢字7731 605
_漢字55 27119 565
__対象外koseki-152650juki-ad1bjuki-b159
__MJ文字図形55 27019 563
___『大漢和辞典』の重出15
___文字情報基盤漢字55 25519 563
____非漢字koseki-001340koseki-001070juki-ad1d
____漢字55 25319 562

MJ文字図形(58,862字)

典拠と符号化の状況

  • MJ文字図形58,862字のうち,58,816字が戸籍統一文字または住基統一文字と対応し,46字が対応しません。
  • 字形や対応づけのバグを修正するため,新しいMJ文字図形を追加して典拠を移したことで,以前に対応づけられた字形が典拠のない文字になりました。Ver.004.01で1字,Ver.005.01で44字,Ver.005.02で1字生じました。
  • MJ文字図形での戸籍統一文字,住基統一文字,登記統一文字の重なりは,以下のようになります。
  • なお,戸籍統一文字,住基統一文字と同定されない登記統一文字9,051字は,MJ文字図形に含まれません。

MJ文字図形
(58 862字)
戸籍統一文字
(55 270字)
住基統一文字
(19 563字)
登記統一文字
(56 381字)
その他
(46字)
16 017
39 253
1 111
2 435
46

  • MJ文字図形58,862字のうち,58,843字が符号化され,19字が符号化されていません。
  • 戸籍統一文字と住基統一文字に典拠がある58,816字のうち,戸籍統一文字にある大漢和辞典の重出15字をのぞいた58,801字(漢字58,798字,非漢字3字)が符号化されています。 戸籍統一文字と住基統一文字に典拠がない46字のうち,42字は符号化され,4字は符号化されていません。 典拠と符号化の関係は,以下のようになります。

典拠あり典拠なし合計
符号化58 8014258 843
(文字情報基盤漢字)
未符号化15419
合計58 8164658 862

文字情報基盤漢字(58,843字)

BMP(24 212字)
_CJK統合漢字18 253
_CJK統合漢字拡張A5 855
_CJK互換漢字(同時にSVSで実装)101Group:文字情報基盤-CJK互換漢字
_非漢字3
SIP(28 395字)
_CJK統合漢字拡張B25 744
_CJK統合漢字拡張C387
_CJK統合漢字拡張D117
_CJK統合漢字拡張E502Group:文字情報基盤-CJK統合漢字拡張E
_CJK統合漢字拡張F1 645Group:文字情報基盤-CJK統合漢字拡張F
_CJK互換漢字補助0
IVS(6 236字)
_Hanyo-DenshiとMoji_Johoの共有5 309
_Moji_Johoのみ927Group:文字情報基盤-IVD-MJのみ

符号化されていない文字(19字)(Group:文字情報基盤-符号化されていない文字)

(参考)その他の登記固有文字(9,051字)(Group:文字情報基盤-登記固有文字)

  • ホットな話題があるブロックの漢字表を作成しました。
  • CJK互換漢字ブロックにある統合漢字12字(Group:CJK統合漢字2001の特殊部分)は,「CJK互換漢字」の項に計上してあります。
  • 重複なく数え上げるため,基底文字として符号化された文字は,「IVS」の項に含まれません。
  • 「非漢字」の3字は,非漢字領域に符号化されています。戸籍統一文字,住基統一文字ともに同じ符号位置に該当する非漢字をもっており,非漢字を含めるとUCS/Unicodeと1対1対応になりません。

No.UCS/UnicodeMJ文字図形戸籍統一文字住基統一文字大漢和辞典備考
1u3005jmj-000001juki-ad1ddkw-00097juki-3005koseki-901930
2u3006jmj-000002koseki-001340juki-3006koseki-901940
3u303bjmj-000003koseki-001070dkw-00092juki-303bkoseki-902820

番号に関する注意事項

  • MJ文字図形名は,MJ文字図形を識別する名称です。MJの後に6桁の数字(10進法)がつき,MJ000001からMJ068101まで付番されています。この番号は,以下のようなブロックに分けることができます。

MJ文字図形名総数実数欠番備考
MJ000001 - MJ05681856 81855 1461 672UCS/Unicodeと対応づけられたもの
MJ056819 - MJ0592922 4742 4731その他の戸籍統一文字(一部の住基統一文字含む)
MJ059293 - MJ0603851 0931 0930その他の住基統一文字
MJ060386 - MJ0679517 56607 566その他の登記固有文字
MJ067952 - MJ0681011501500追加分
合計68 10158 8629 239

  • 以下の2つの事情から,9,239(=68,101-58,862)の欠番が生じています。
  • (1)MJ文字図形名の番号は,『平成20年度 汎用電子情報交換環境整備プログラム成果報告書』(汎用電子2008)別冊の文字一覧表の並び順(汎用電子整理番号)からとられています。汎用電子は,戸籍統一文字,住基統一文字,登記統一文字を対象としましたが,文字情報基盤は登記統一文字を対象としません。このため,戸籍統一文字と住基統一文字と同定されなかった登記統一文字の欄につけられた番号が欠番になりました。文字一覧表の欄は67,951ありましたが,9,238字の登記統一文字が除外され,当初のMJ文字図形名(当時はすべて情報基盤漢字)は58,713字となりました。
    MJ000001~MJ056818のUCSと対応がついた文字枠に飛び飛びに1,672の欠番があるとともに,UCSと対応がつかない登記統一文字があったMJ060386~MJ067951までの7,566文字枠がそっくり欠番になっています。
    (2)コード化小委員会(2011年3月8日)の資料3 によれば,『平成22年度 汎用電子情報交換環境整備プログラム フォローアップ成果報告書』(汎用電子2010)で文字情報基盤対象の1字が削除され,文字情報基盤でもそれに合わせて1字が削除されました。フォローアップ成果報告書は国立国会図書館にも置いていないようで未見ですが,koseki-152650に対応するMJ057629の欠番がこれに相当すると思われます。

  • 登記統一文字番号の下6桁は戸籍統一番号と原則一致しますが,例外が3件あります。
  • 登記統一文字は戸籍統一文字をすべて含み,00の後に6桁(10進法)の戸籍統一文字番号をつけて,8桁(10進法)の登記統一文字番号とします。戸籍統一文字にない登記統一文字(登記固有文字,と呼ばれる)の番号は上2桁が01となり,戸籍統一文字とは区別されます。 登記固有文字が新しく戸籍統一文字となった場合には,新しい戸籍統一番号がつけられ,それを下6桁にもつ登記統一文字番号は以前のものとは違います。この場合,文字情報一覧表の登記統一文字番号欄には以前の番号が入っています。以下の3字がこれに該当します。

No.UCS/UnicodeIVS文字情報基盤漢字戸籍統一文字住基統一文字登記統一文字
1u8511u8511-ue0105 jmj-022670koseki-552680juki-ba1ftoki-01080430
2u2e326jmj-060082koseki-552690juki-b8e8toki-01042410
3u83ef-ue0104 jmj-068053koseki-552710toki-01078030

  • 登記統一文字番号の上2桁が01だから登記固有文字,と判断すると誤りになります。登記固有文字は,戸籍統一文字番号がなく,登記統一文字番号がある文字として探す必要があります。

MJ文字図形でないJソースのCJK統合漢字(46字)

  • JソースはCJK統合漢字拡張Fまでで16,226字ありますが,MJ文字図形が実装されていない符号位置にあるのは以下の46字です。

JARIBソース(1字)

u9fc5

JKソース(45字)

u2a708 u2a70c u2a784 u2a789 u2a8a6

u2a8b1 u2a915 u2a959 u2aa46 u2aa63

u2aa8d u2ab23 u2abac u2ac0c u2acac

u2ad1c u2ad25 u2ad61 u2ae09 u2af3f

u2af76 u2afd3 u2affc u2b016 u2b076

u2b07d u2b0e5 u2b1c5 u2b26b u2b2c1

u2b2e5 u2b2ec u2b31d u2b354 u2b3f2

u2b499 u2b4a0 u2b51b u2b5db u2b674

u2b6b0 u2b6ba u2b6c7 u2b6c9 u2b6ca

  • 『平成20年度 汎用電子情報交換環境整備プログラム成果報告書』(汎用電子2008,86-92頁)では,これらに加えて以下の2字が対象に含まれていないとしましたが,文字情報基盤漢字では同定されています。

No.UCS/UnicodeIVS文字情報基盤漢字戸籍統一文字・登記固有文字住基統一文字
1u2ad06jmj-057847koseki-179060
2u2b64bjmj-059084koseki-518790