Unicode 区画一覧 Unicode Blocks
Unicode 13.0 (2020.3.10. Released) 全区画 [ CodeCharts ] コード順
以下の表内には、マウスで色が変わるリンクの箇所があり、クリックすると、インターネットの該当ページを参照できます。
左端の始点側コードのリンクからは、Unicode の文字コード表(pdf) を、別のタブに表示できます。(以下それぞれ専用のタブに開きます。)
その隣にある終点側のコード、および英語の区画名のリンクからは、Wikipedia英語版での Unicode区画 および文字に関する説明を、また
日本語の区画名のリンクからは、日本語版ウィキペディアの説明(または Unicode 登録申請時の pdf資料)を表示し、さらに
右端の区画文字数(枠数)のリンクからは、【地球ことば村・世界言語博物館】内「世界の文字」にある該当項目を、それぞれ参照できます。
表内右側にある縦2列の数字は、[区画内
定義済み文字数] / [区画内
定義可能文字数(枠数)] です。
Unicode 13.0 時点の総計:
[ 143,924 ] / [ 1,114,112 ] または
[ 143,859 ] / [ 1,112,064 ] (→数え方)
黄色で示した行 は、Unicode 13.0 にて追加された 新区画です。(旧版 12.1からの相違点は こちら を参照)
黄色に赤の数字 は、Unicode 13.0 にて文字が追加された区画の、最新の定義済み文字数です。
灰色で示した行 は、現状で未登録となっている 空き領域 を表現したもので、第1~14面の末尾にある 濃い灰色の行 は 割り当て無しの区画です。
Unicode 13.0 コード順 区画一覧 Unicode Blocks
第0面 基本多言語面 (BMP : Basic Multilingual Plane)
第1面 追加多言語面 (SMP : Supplementary Multilingual Plane)
第2面 追加漢字面 (SIP : Supplementary Ideographic Plane)
20000 | 2A6DF | CJK Unified Ideographs Extension B | CJK統合漢字拡張B | 42718 | 42720 |
2A6E0 | 2A6FF | (UnRegistered Block) | (未登録区画) | 0 | 32 |
2A700 | 2B73F | CJK Unified Ideographs Extension C | CJK統合漢字拡張C | 4149 | 4160 |
2B740 | 2B81F | CJK Unified Ideographs Extension D | CJK統合漢字拡張D | 222 | 224 |
2B820 | 2CEAF | CJK Unified Ideographs Extension E | CJK統合漢字拡張E | 5762 | 5776 |
2CEB0 | 2EBEF | CJK Unified Ideographs Extension F | CJK統合漢字拡張F | 7473 | 7488 |
2EBF0 | 2F7FF | (UnRegistered Block) | (未登録区画) | 0 | 3088 |
2F800 | 2FA1F | CJK Compatibility Ideographs Supplement | CJK互換漢字補助 | 542 | 544 |
2FA20 | 2FF7F | (UnRegistered Block) | (未登録区画) | 0 | 1376 |
2FF80 | 2FFFF | Unassigned | 非割り当て区画 | 0 | 128 |
第3面 第三漢字面 (TIP : Tertiary Ideographic Plane)
30000 | 3134F | CJK Unified Ideographs Extension G | CJK統合漢字拡張G | 4939 | 4944 |
31350 | 3FF7F | (UnRegistered Block) | (未登録区画) | 0 | 60464 |
3FF80 | 3FFFF | Unassigned | 非割り当て区画 | 0 | 128 |
第4面~第13面 未定義
40000 | 4FF7F | (Plane 4. Undecided) | (第4面・未定) | 0 | 65408 |
4FF80 | 4FFFF | Unassigned | 非割り当て区画 | 0 | 128 |
50000 | 5FF7F | (Plane 5. Undecided) | (第5面・未定) | 0 | 65408 |
5FF80 | 5FFFF | Unassigned | 非割り当て区画 | 0 | 128 |
60000 | 6FF7F | (Plane 6. Undecided) | (第6面・未定) | 0 | 65408 |
6FF80 | 6FFFF | Unassigned | 非割り当て区画 | 0 | 128 |
70000 | 7FF7F | (Plane 7. Undecided) | (第7面・未定) | 0 | 65408 |
7FF80 | 7FFFF | Unassigned | 非割り当て区画 | 0 | 128 |
80000 | 8FF7F | (Plane 8. Undecided) | (第8面・未定) | 0 | 65408 |
8FF80 | 8FFFF | Unassigned | 非割り当て区画 | 0 | 128 |
90000 | 9FF7F | (Plane 9. Undecided) | (第9面・未定) | 0 | 65408 |
9FF80 | 9FFFF | Unassigned | 非割り当て区画 | 0 | 128 |
A0000 | AFF7F | (Plane 10. Undecided) | (第10面・未定) | 0 | 65408 |
AFF80 | AFFFF | Unassigned | 非割り当て区画 | 0 | 128 |
B0000 | BFF7F | (Plane 11. Undecided) | (第11面・未定) | 0 | 65408 |
BFF80 | BFFFF | Unassigned | 非割り当て区画 | 0 | 128 |
C0000 | CFF7F | (Plane 12. Undecided) | (第12面・未定) | 0 | 65408 |
CFF80 | CFFFF | Unassigned | 非割り当て区画 | 0 | 128 |
D0000 | DFF7F | (Plane 13. Undecided) | (第13面・未定) | 0 | 65408 |
DFF80 | DFFFF | Unassigned | 非割り当て区画 | 0 | 128 |
第14面 追加特殊用途面 (SSP : Supplementary Special-purpose Plane)
第15面 私用面A (Supplementary Private Use Area-A)
第16面 私用面B (Supplementary Private Use Area-B)
他の面と同様に、私用面A,B にも それぞれ末尾2文字分ずつの[非文字]となっているコードポイントがあります。
それらの[非文字]を含む、両面末尾128文字分ずつの部分の Unicodeのコード表(pdf)は、表内右端の数値の箇所にあるリンクから参照できます。
以上、全17面 (第0面~第16面) 各面(枠数) 16⁴ = [ 65,536 ] 文字 Unicode 13.0 有効区画数[
308 ]
附録・再掲
日本語名について
当方では Unicode の Block を「区画」の語で表現しています。
個々の Unicode Block(区画)ごとの コード表(pdf) 内で、いくつかの章に分かれる部分は、当方では「セクション」と呼んでいます。
英語の区画名は Unicode コンソーシアム による「オリジナルな名称」となっている場合も多いようです。
これは、実際は言語学会や学者等により複数の呼び方があっても、Unicode 側では便宜上「ひとつに決める必要があるため」と考えられます。
あまり知られていない文字など、世界共通に認識される名称が特にないものについては、Unicode 側で独自に決めた名前もあるようです。
文字区画の日本語名に「表記ゆれ」があるものについては、できるだけわかりやすい、標準的と思えるものを取捨選択しています。
なお日本語名に 標準和名 のようなものが無い場合には、当方で Unicode の英語名をカナ表記に直したものを含むことがあります。
様々な場合があるため一概には言えませんが、全体的な優先順位としては、まず「標準的な日本語の名称」があるか探し、
もし無いようなら、Unicode による英語の文字名との違いを最小化するよう「Unicode の英語名を基にしたカナ表記」を作り
さらに「日本語版ウィキペディアでの文字名」や「【地球ことば村・世界言語博物館】内 [世界の文字] での文字名」があれば比較して
共通する場合は日本国内における慣用名とみなし、相互に異なる場合や 紛らわしい場合も なるだけ括弧内に明記して、明確化・一元化を図っています。
当方でアレンジした日本語の文字区画名は、正しい発音等が明確になった際などには、改善のため変更する場合があります。
(上記一覧に掲載の日本語名は、Unicode区画を用いる当方作成のアプリ「dNetFontViewer」および「UniCharFinder」にも適用しています。)
数え方 Unicode の仕様における、定義可能 な文字の総数(枠数): [ 1,114,112 ] 文字
各1面分:16進4桁(0000~FFFF)… 16 × 16 × 16 × 16 = 16⁴ = [ 65,536 ] 文字 全17面(第0面~第16面): [ 65,536 ] × 17 = [ 1,114,112 ] 文字
上記はコードポイントの総数として単純に計算した理論値であり、上の一覧表での[右端の数字]の集計値と一致しています。
ただし実際には[代用符号位置](上位(896+128=)1024文字+下位1024文字=計2048文字)が重複(下記▼)するため 具体的に字形定義が可能なのは [ 1,114,112 ] - [ 2,048 ] = [ 1,112,064 ] 文字 となります。
Unicode 13.0 の時点で 定義済み の、有効な文字の総数: [ 143,924 ] 文字
• 代用符号位置(U+D800~U+DFFF;上位/下位計2048文字分)は、第1面以降の各文字の定義用で重複(下記▼)するため除外。 • 私用領域(6400文字分) および 私用面A/B(各65536(-2)文字分)は、個人やフォント製作者の自由利用のため、定義が無く除外。 • 各面の末尾に2文字分ずつある[非文字](<not a character>; -FFFE, -FFFF)は、文字として有効になり得ないため除外。
これらは上の表でも 0件 となっていますが、それ以外の、数字, 半記号, 制御符号, 空白, タグ, 字形選択肢 なども含めて 定義されたものはすべて[文字]として集計しており、この文字数は 上の表での[右から2番目の数字]の集計値と一致しています。
なお 定義済みの総文字数は、制御符号([<control>]と表現される 65文字)を含めるかどうかで 2通りの数え方があるようです。
• 制御符号を[文字]に含める場合 [ 143,924 ] 文字 (英語版Wikipedia や 本稿 での数え方) • 制御符号を[文字]に含めない場合 [ 143,859 ] 文字 (日本語版ウィキペディア や Unicodeコンソーシアム での数え方)
|
▼ 第1面以降の各文字は、第0面[代用符号位置]の[上位]と[下位]との組み合わせで構成されています。(サロゲートペア=[代用対])
具体例:以下は結果の文字を表示できる対応フォントさえ用意しておけば「メモ帳」などで実際にやってみることも可能です。 (ブラウザや環境によっては正しい表示にならず、以下からコピーしてもサロゲートペアの文字は作れない場合があります。 メモ帳では「IMEパッド」等を使って「上位サロゲート」の次に「下位サロゲート」の文字を組み合わせると良いでしょう。)
| U+D800〔〕 [上位代用符号位置]の1番目 | & | U+DC00〔〕 [下位代用符号位置]の1番目 | → | U+10000〔𐀀〕 [線文字B音節文字]の1文字目 | 〔𐀀〕 | | U+D800〔〕 [上位代用符号位置]の1番目 | & | U+DC01〔〕 [下位代用符号位置]の2番目 | → | U+10001〔𐀁〕 [線文字B音節文字]の2文字目 | 〔𐀁〕 |
| | | | U+D801〔〕 [上位代用符号位置]の2番目 | & | U+DC00〔〕 [下位代用符号位置]の1番目 | → | U+10400〔𐐀〕 [デザレット文字]の1文字目 | 〔𐐀〕 | | U+D801〔〕 [上位代用符号位置]の2番目 | & | U+DC01〔〕 [下位代用符号位置]の2番目 | → | U+10401〔𐐁〕 [デザレット文字]の2文字目 | 〔𐐁〕 |
| | | | U+D802〔〕 [上位代用符号位置]の3番目 | & | U+DC00〔〕 [下位代用符号位置]の1番目 | → | U+10800〔𐠀〕 [キプロス音節文字]の1文字目 | 〔𐠀〕 | | U+D802〔〕 [上位代用符号位置]の3番目 | & | U+DC01〔〕 [下位代用符号位置]の2番目 | → | U+10801〔𐠁〕 [キプロス音節文字]の2文字目 | 〔𐠁〕 |
| | | | U+D803〔〕 [上位代用符号位置]の4番目 | & | U+DC00〔〕 [下位代用符号位置]の1番目 | → | U+10C00〔𐰀〕 [古テュルク文字]の1文字目 | 〔𐰀〕 | | U+D803〔〕 [上位代用符号位置]の4番目 | & | U+DC01〔〕 [下位代用符号位置]の2番目 | → | U+10C01〔𐰁〕 [古テュルク文字]の2文字目 | 〔𐰁〕 |
| | | | U+DB80〔〕 [上位私用代用符号位置]の1番目 | & | U+DC00〔〕 [下位代用符号位置]の1番目 | → | U+F0000〔〕 [補助私用領域A]の1文字目 | 〔〕 | | U+DB80〔〕 [上位私用代用符号位置]の1番目 | & | U+DC01〔〕 [下位代用符号位置]の2番目 | → | U+F0001〔〕 [補助私用領域A]の2文字目 | 〔〕 |
つまり、第1面以降のすべての文字は、第0面にある文字(コード)を、必ず2つずつ使って作られるもの、だということです。
このため、Unicode 全体の文字数を数えるのであれば、第1面以降の文字を構成している第0面の部分は あらかじめ外しておかないと、結果的に重複していることになりますね、ということです。 (それでも、理論値は理論値として成立するので、どっちが正しい、と言えるものでもないのです。)
|
定義済み文字数・区画別総合トップ50
(1) 1位~10位↓
(2) 11位~20位↓
(3) 21位~30位↓
(4) 31位~40位↓
(5) 41位~50位↓
再掲 (系統別にまとめ直したもの。抜粋。)
CJK統合漢字系統 合計:[ 92,844 ] / [ 92,896 ]
• 伝統的な漢字(繁体字)に、新中国の簡体字, 日本の新字体, 日本の国字, 朝鮮製の漢字, ベトナム語のチュノム(𡨸喃)などを統合。
• 各区画の分割基準は不明瞭だが、概観すると各区画ごとに、康熙部首の順(簡化による簡体字の派生部首を含む)で並んでいる。
• フォントによっては漢字に[字形選択肢](異体字セレクタ)を併用することにより、用意された字形表現に変更できる場合がある。
CJK互換漢字系統 合計:[ 1,014 ] / [ 1,056 ]
• CJK
互換漢字は、Unicode 以外の旧文字コードとの
互換用として収録されたもので、CJK
統合漢字との重複字形もあり、
非推奨。
• 日本では過渡期的なフォント仕様で[旧字体]の表現にも使われたが、Unicodeの資料では各地域の旧コードが明記されている。
• 日本語の[旧字体]については、現在では[CJK
統合漢字]内で[伝統的な漢字](繁体字)として符号化されているものを優先する。
漢字の部首など
• 康熙部首は、現代の漢字字典の祖「
康熙字典」での漢字の分類に使われた部首で、現在も漢和辞典の[部首索引]などに使われる。
• CJK部首補助は、康熙部首の字形が象徴する各部首の、偏旁などの具体的な字形や、簡体字での部首字形を示す際などに用いる。
• CJKの筆画は 漢字の画数単位のパーツである。近年は簡体字用[五笔画输入法]や繁体字用[筆劃輸入法]などの入力方式にも利用。
• 注音字母は、おもに台湾で使われ、義務教育で習得する。伝統的な漢字の部分から抽出された字形であるが、抽象化の度合いは
筆画より緩い。日本語の[ルビ]のように漢字に書き添えて漢字の読み方を示す。近年は繁体字の入力方式[注音輸入法]でも利用。
CJKの記号系
• [漢字構成記述文字]は、ある漢字の構成要素となっている漢字に 偏旁冠脚繞などの構成を示して 再構成を可視化するための記号。
特定の漢字が得にくいなどの場合に、要素の漢字とともに 文字列として代用表現する際に用いる。[漢字変換]には利用できない。
• [漢文用記号]は、漢字のみの縦書き中国語文(主に古典)を 日本語の順序で[訓読](くんどく)するために付される[返り点]等の記号。
• [CJKの記号及び句読点]は、日本の[郵便マーク]や中国の[蘇州号碼]などを含む。中国語での 句点[。]と読点[、]は 中央に配置。
• [CJK互換用文字]は、日本のJISコードが発祥であるため 日本語系の記号が多く含まれる。元号[
令和](
㋿)は[囲みCJK文字・月]収録。
漢字周辺の文字(抜粋1)
• [ハングル]は、朝鮮語(韓国語)の一連の音節(初声子音,中声母音,終声子音)を、左(上),右(上),下側の順で、1文字の中に書きあらわす。漢字でいう偏,旁,脚の構成。
• [イ文字]は、中国西南部の彝(イ)族の文字。近代化改革で、縦書きの横長字形を 90°倒し、縦長字形で横書きするよう、表記法が変わったもの。(老彝文→規範彝文)
• [モンゴル文字]は、日本の草書のように、伝統的に[続け書き]をおこなう[縦書き]専用の文字である。しかも個々の文字は続け書きによる[字形変化]を伴うもので
さらに縦書きの各行は日中韓と異なり左側から書き進める[左縦書き]の特殊性もあり、符号化が遅れた。Unicodeでは、文字を 90°倒した字形で一旦[横書き]とし
内部処理的に、横書きのまま続け書きの字形変化を施した上で、90°戻して縦書きにした行を作り、各行が左側から進むように配置し直す、という複雑な手法を採る。
• [悉曇文字]は、インドのブラーフミー系の文字であり、漢字の系統ではない。日本にも伝わった[梵字]表現では毛筆や刷毛状の朴筆を使うため、大胆な字形をとる。
• [突厥文字]は、現モンゴルを含む6世紀頃の遊牧国家[突厥](Türk)の[古テュルク語]を記した、中東[アラム文字]系列の文字。[突厥]の語は中国伝来の漢字表記。
漢字周辺の文字(抜粋2)
• [リス(フレイザー)文字][ミャオ(ポラード)文字]は、中国南部や周辺地域のリス(傈僳)族やミャオ(苗)族へのキリスト教の布教のため英国人宣教師が作った文字。
(現在の中国ではラテン文字も併用する。ラテン文字は標準中国語の漢字の読みを示すピンイン(漢語拼音)や現代ベトナム語のクォック・グーでも多用される。)
• [タイ・レ(タイ・ナ)文字][新タイ・ルー(タイ・ロ)文字]は、タイ王国などのタイ(泰:Thai)族ではなく、中国雲南省に住むタイ(傣:Tai)族系ルー族のための文字。
(前者は徳宏州(德宏傣族景頗族自治州)で話される[德宏傣語]の表記用で、中国語での文字名は[傣那文](傣哪文,傣纳文,德宏傣文)とも書く。)
(後者は西双版納(シーサンパンナ)傣族自治州で話される[傣仂語](傣泐語)の表記用で、中国語での文字名は[傣仂文](新傣文,西双版纳(新)傣文)とも書く。)
• [タイ・タム文字]は、現在のタイ王国付近にあったラーンナー王国で使われた、丸みを帯びた古い文字で、[ラーンナー文字]とも[ラーンナータム文字]ともいう。
(中国語では[老傣文][老傣仂文][蘭納文](ラーンナー王国は[蘭納王国])とも書く。雲南省では[新傣文]以前が[老傣文]で、[西双版纳[老]傣文]の意である。)
• [タイ・ヴィエト文字]は、ベトナム,ラオス,タイの3ヵ国における、主に3種類の[タイ諸語]を表記する手書きの文字が、Unicodeにおいて統合されたものである。
(黒タイ語(黑傣语:Black Tai)、別名 タイ・ダム語(傣担语:Tai Dam))
(白タイ語(白傣语:White Tai)、別名 タイ・ドン語(傣端语:Tai Dón, 金平傣语, Tai Khao))
(タイ・ソン語(Thai Song)、別名 ラオ・ソン語(Lao Song) …漢字表記未詳)
• [タイ文字]は、現在のタイ王国で話される[タイ語]を表記する文字だが、これはカンボジアの[クメール文字]から派生しており、[ラーンナー文字]との関連は薄い。
(この変化はラーンナー王国の次のスコータイ王朝での変更によるもの。タイ王国のタイ(泰)族は中国の揚子江以南が発祥とされ、雲南省も経由したと見られる。)
漢字に似た文字
• [西夏文字]は、チベット系のタングート族が中国西北部を征服した「西夏」王朝で話される タングート語の表記用に、漢字をもとに考案された文字。
• [契丹小字]は、中国の北辺を支配したキタイ人(契丹人)による征服王朝「遼」(大契丹国)において、漢字から作った[契丹大字]をもとに、改良追加された表音文字。
• [女書]は、中国南部の湖南省江永県などの、女性が漢字を学べなかった地域で、漢字を真似るなどして作られた、女性たち独自の文字である。絶滅が危惧されている。
• [表意文字の記号及び句読点]には、これら漢字類の[西夏文字][女書]や CJK統合漢字 収録の[チュノム]などに対する、言語用の[文字]以外の[記号]等が収録される。
日本語の仮名文字
• 平仮名・片仮名は、明治期の教育制度で制定された。漢字を崩した字形で、五十音図に載らなかったものは[
変体仮名]と呼ばれる。
変体仮名は [仮名補助]~[仮名拡張A] にかけて収録。これらはおもに[
住民基本台帳収録変体仮名(住基仮名)]が基になっている。
• [平仮名][片仮名]には、[より][コト]の合字(
合略仮名)[ゟ][ヿ]がある。[トモ]の合字[𪜈]は[CJK統合漢字拡張C]に収録されている。
• [半角・全角形]には、日本語で使う[半角カタカナ]のほか、全角のASCII記号、ラテン文字、通貨記号、半角のハングル字母 なども含む。
• [片仮名拡張]は 一般的な日本語にはない発音を表現する 半角ではない小書きの片仮名で、おもに[
アイヌ語仮名]の表記に用いる。
• [小書き仮名拡張]には、日本統治期に台湾語を表記した[
台湾語仮名]や 東北地方の発音表記に使われる文字などが収録されている。
私用領域系統 合計:( 0 / 137,468 ) / [ 137,472 ]
• E000~F8FF の「私用領域」6,400 文字分については、Windows 付属の「外字エディタ」(eudcedit.exe)で 字形登録が可能。
• 個人などで登録した外字は「ユーザー外字」、フォント製作者による外字は「ベンダー外字」という。補助私用領域A/Bは後者。
• 私用面A,B は末尾に2文字分ずつ[非文字]があり「最後の2個のコードポイントを除いた全体が私的利用に捧げられている。」との
Unicode側の注釈もあるとおり、
実際に利用可能な文字数は 両面とも 65,534 文字、私用領域系統の合計も
137,468 文字となる。