Двоичный код windows русские буквы
БлогNot. Таблица кодов кириллицы в Unicode, UTF-8 и Windows-1251
Таблица кодов кириллицы в Unicode, UTF-8 и Windows-1251
Во-первых, напомню, что Юникод — не кодировка, а стандарт кодирования, кодировки — это UTF-8, UTF-16 и т.д., но, в силу инерции, разработчики и пользователи часто говорят о «кодировке Юникод», имея в виду распространённую именно в их деревне форму представления символов 🙂
Во-вторых, на самом деле кодирование там довольно замудрённое, возьмём, скажем русскую заглавную «Ж».
Представляемые в Юникоде символы кодируются целыми числами без знака, их можно называть «кодами символов Unicode».
Так, для буквы «Ж» Unicode = 104610 или 041616 или 10000 0101102. Unicode в двоичном виде разбивается на две части: пять левых бит и шесть правых. Левая часть в старших разрядах дополняется до байта признаком 110 двухбайтного кода UTF-8, получаем 11010000. К правой части в старших разрядах приписываются два бита 10 признака продолжения многобайтного кода, получаем 10010110. Окончательно код буквы «Ж» в UTF-8 будет иметь вид 11010000 100101102 или D0 9616.
Именно последний код мы увидим в любом 16-ричном вьюере файла, например, создав в текстовом редакторе файл со словом «Жора» и сохранив его в UTF-8 (только не из Блокнотика Windows, который добавит в начало файла 3-байтовую метку BOM):
То есть, каждая буква кодируется как бы дважды, сначала в 11-битный Unicode, затем в 16-битный UTF-8.
Ниже приведена таблица кодов кириллицы в Unicode, UTF-8 и однобайтовой кодировке Windows-1251.
Символ | Unicode | UTF-8 | Windows-1251 | ||
---|---|---|---|---|---|
16-ричн. | 10-тичн. | 16-ричн. | 10-тичн. | ||
А | 0410 | 1040 | D090 | 208 144 | 192 |
Б | 0411 | 1041 | D091 | 208 145 | 193 |
В | 0412 | 1042 | D092 | 208 146 | 194 |
Г | 0413 | 1043 | D093 | 208 147 | 195 |
Д | 0414 | 1044 | D094 | 208 148 | 196 |
Е | 0415 | 1045 | D095 | 208 149 | 197 |
Ж | 0416 | 1046 | D096 | 208 150 | 198 |
З | 0417 | 1047 | D097 | 208 151 | 199 |
И | 0418 | 1048 | D098 | 208 152 | 200 |
Й | 0419 | 1049 | D099 | 208 153 | 201 |
К | 041A | 1050 | D09A | 208 154 | 202 |
Л | 041B | 1051 | D09B | 208 155 | 203 |
М | 041C | 1052 | D09C | 208 156 | 204 |
Н | 041D | 1053 | D09D | 208 157 | 205 |
О | 041E | 1054 | D09E | 208 158 | 206 |
П | 041F | 1055 | D09F | 208 159 | 207 |
Р | 0420 | 1056 | D0A0 | 208 160 | 208 |
С | 0421 | 1057 | D0A1 | 208 161 | 209 |
Т | 0422 | 1058 | D0A2 | 208 162 | 210 |
У | 0423 | 1059 | D0A3 | 208 163 | 211 |
Ф | 0424 | 1060 | D0A4 | 208 164 | 212 |
Х | 0425 | 1061 | D0A5 | 208 165 | 213 |
Ц | 0426 | 1062 | D0A6 | 208 166 | 214 |
Ч | 0427 | 1063 | D0A7 | 208 167 | 215 |
Ш | 0428 | 1064 | D0A8 | 208 168 | 216 |
Щ | 0429 | 1065 | D0A9 | 208 169 | 217 |
Ъ | 042A | 1066 | D0AA | 208 170 | 218 |
Ы | 042B | 1067 | D0AB | 208 171 | 219 |
Ь | 042C | 1068 | D0AC | 208 172 | 220 |
Э | 042D | 1069 | D0AD | 208 173 | 221 |
Ю | 042E | 1070 | D0AE | 208 174 | 222 |
Я | 042F | 1071 | D0AF | 208 175 | 223 |
а | 0430 | 1072 | D0B0 | 208 176 | 224 |
б | 0431 | 1073 | D0B1 | 208 177 | 225 |
в | 0432 | 1074 | D0B2 | 208 178 | 226 |
г | 0433 | 1075 | D0B3 | 208 179 | 227 |
д | 0434 | 1076 | D0B4 | 208 180 | 228 |
е | 0435 | 1077 | D0B5 | 208 181 | 229 |
ж | 0436 | 1078 | D0B6 | 208 182 | 230 |
з | 0437 | 1079 | D0B7 | 208 183 | 231 |
и | 0438 | 1080 | D0B8 | 208 184 | 232 |
й | 0439 | 1081 | D0B9 | 208 185 | 233 |
к | 043A | 1082 | D0BA | 208 186 | 234 |
л | 043B | 1083 | D0BB | 208 187 | 235 |
м | 043C | 1084 | D0BC | 208 188 | 236 |
н | 043D | 1085 | D0BD | 208 189 | 237 |
о | 043E | 1086 | D0BE | 208 190 | 238 |
п | 043F | 1087 | D0BF | 208 191 | 239 |
р | 0440 | 1088 | D180 | 209 128 | 240 |
с | 0441 | 1089 | D181 | 209 129 | 241 |
т | 0442 | 1090 | D182 | 209 130 | 242 |
у | 0443 | 1091 | D183 | 209 131 | 243 |
ф | 0444 | 1092 | D184 | 209 132 | 244 |
х | 0445 | 1093 | D185 | 209 133 | 245 |
ц | 0446 | 1094 | D186 | 209 134 | 246 |
ч | 0447 | 1095 | D187 | 209 135 | 247 |
ш | 0448 | 1096 | D188 | 209 136 | 248 |
щ | 0449 | 1097 | D189 | 209 137 | 249 |
ъ | 044A | 1098 | D18A | 209 138 | 250 |
ы | 044B | 1099 | D18B | 209 139 | 251 |
ь | 044C | 1100 | D18C | 209 140 | 252 |
э | 044D | 1101 | D18D | 209 141 | 253 |
ю | 044E | 1102 | D18E | 209 142 | 254 |
я | 044F | 1103 | D18F | 209 143 | 255 |
Символы вне общего правила | |||||
Ё | 0401 | 1025 | D081 | 208 129 | 168 |
ё | 0451 | 1105 | D191 | 209 145 | 184 |
23.09.2018, 12:37; рейтинг: 43099
Запись текстов двоичным кодом (Запись букв двоичным кодом)
Все символы и буквы могут быть закодированы при помощи восьми двоичных бит. Наиболее распространенными таблицами представления букв в двоичном коде являются ASCII и ANSI, их можно использовать для записи текстов в микропроцессорах. В таблицах ASCII и ANSI первые 128 символов совпадают. В этой части таблицы содержатся коды цифр, знаков препинания, латинские буквы верхнего и нижнего регистров и управляющие символы. Национальные расширения символьных таблиц и символы псевдографики содержатся в последних 128 кодах этих таблиц, поэтому русские тексты в операционных системах DOS и WINDOWS не совпадают.
При первом знакомстве с компьютерами и микропроцессорами может возникнуть вопрос — «как преобразовать текст в двоичный код?» Однако это преобразование является наиболее простым действием! Для этого нужно воспользоваться любым текстовым редактором. В том числе подойдет и простейшая программа notepad, входящая в состав операционной системы Windows. Подобные же редакторы присутствуют во всех средах программирования для языков, таких как СИ, Паскаль или Ява. Следует отметить, что наиболее распространенный текстовый редактор Word для простого преобразования текста в двоичный код не подходит. Этот тестовый редактор вводит огромное количество дополнительной информации, такой как цвет букв, наклон, подчеркивание, язык, на котором написана конкретная фраза, шрифт.
Следует отметить, что на самом деле комбинация нулей и единиц, при помощи которых кодируется текстовая информация двоичным кодом не является, т.к. биты в этом коде не подчиняются законам двоичной системы счисления. Однако в Интернете поисковая фраза «представление букв в двоичном коде» является самой распространенной. В таблице 1 приведено соответствие двоичных кодов буквам латинского алфавита. Для краткости записи в этой таблице последовательность нулей и единиц представлена в десятичном и шестнадцатеричном кодах.
Таблица 1 Таблица представления латинских букв в двоичном коде (ASCII)
Десятичный код | Шестнадцатеричный код | Отображаемый символ | Значение |
---|---|---|---|
0 | 00 | NUL | |
1 | 01 | ☺ | (слово управления дисплеем) |
2 | 02 | ☻ | (Первое передаваемое слово) |
3 | 03 | ♥ | ETX (Последнее слово передачи) |
4 | 04 | ♦ | EOT (конец передачи) |
5 | 05 | ♣ | ENQ (инициализация) |
6 | 06 | ♠ | ACK (подтверждение приема) |
7 | 07 | • | BEL |
8 | 08 | ◘ | BS |
9 | 09 | ○ | HT (горизонтальная табуляция |
10 | 0A | ◙ | LF (перевод строки) |
11 | 0B | ♂ | VT (вертикальная табуляция) |
12 | 0С | ♀ | FF (следующая страница) |
13 | 0D | ♪ | CR (возврат каретки) |
14 | 0E | ♫ | SO (двойная ширина) |
15 | 0F | ☼ | SI (уплотненная печать) |
16 | 10 | ► | DLE |
17 | 11 | ◄ | DC1 |
18 | 12 | ↕ | DC2 (отмена уплотненной печати) |
19 | 13 | ‼ | DC3 (готовность) |
20 | 14 | ¶ | DC4 (отмена двойной ширины) |
21 | 15 | § | NAC (неподтверждение приема) |
22 | 16 | ▬ | SYN |
23 | 17 | ↨ | ETB |
24 | 18 | ↑ | CAN |
25 | 19 | ↓ | EM |
26 | 1A | → | SUB |
27 | 1B | ← | ESC (начало управл. послед.) |
28 | 1C | ∟ | FS |
29 | 1D | ↔ | GS |
30 | 1E | ▲ | RS |
31 | 1F | ▼ | US |
32 | 20 | Пробел | |
33 | 21 | ! | Восклицательный знак |
34 | 22 | « | Угловая скобка |
35 | 23 | # | Знак номера |
36 | 24 | $ | Знак денежной единицы (доллар) |
37 | 25 | % | Знак процента |
38 | 26 | & | Амперсанд |
39 | 27 | ‘ | Апостроф |
40 | 28 | ( | Открывающая скобка |
41 | 29 | ) | Закрывающая скобка |
42 | 2A | * | Звездочка |
43 | 2B | + | Знак плюс |
44 | 2C | , | Запятая |
45 | 2D | — | Знак минус |
46 | 2E | . | Точка |
47 | 2F | / | Дробная черта |
48 | 30 | 0 | Цифра ноль |
49 | 31 | 1 | Цифра один |
50 | 32 | 2 | Цифра два |
51 | 33 | 3 | Цифра три |
52 | 34 | 4 | Цифра четыре |
53 | 35 | 5 | Цифра пять |
54 | 36 | 6 | Цифра шесть |
55 | 37 | 7 | Цифра семь |
56 | 38 | 8 | Цифра восемь |
57 | 39 | 9 | Цифра девять |
58 | 3A | : | Двоеточие |
59 | 3B | ; | Точка с запятой |
60 | 3C | Знак больше | |
63 | 3F | ? | Знак вопрос |
64 | 40 | @ | Коммерческое эт |
65 | 41 | A | Прописная латинская буква А |
66 | 42 | B | Прописная латинская буква B |
67 | 43 | C | Прописная латинская буква C |
68 | 44 | D | Прописная латинская буква D |
69 | 45 | E | Прописная латинская буква E |
70 | 46 | F | Прописная латинская буква F |
71 | 47 | G | Прописная латинская буква G |
72 | 48 | H | Прописная латинская буква H |
73 | 49 | I | Прописная латинская буква I |
74 | 4A | J | Прописная латинская буква J |
75 | 4B | K | Прописная латинская буква K |
76 | 4C | L | Прописная латинская буква L |
77 | 4D | M | Прописная латинская буква |
78 | 4E | N | Прописная латинская буква N |
79 | 4F | O | Прописная латинская буква O |
80 | 50 | P | Прописная латинская буква P |
81 | 51 | Q | Прописная латинская буква |
82 | 52 | R | Прописная латинская буква R |
83 | 53 | S | Прописная латинская буква S |
84 | 54 | T | Прописная латинская буква T |
85 | 55 | U | Прописная латинская буква U |
86 | 56 | V | Прописная латинская буква V |
87 | 57 | W | Прописная латинская буква W |
88 | 58 | X | Прописная латинская буква X |
89 | 59 | Y | Прописная латинская буква Y |
90 | 5A | Z | Прописная латинская буква Z |
91 | 5B | [ | Открывающая квадратная скобка |
92 | 5C | \ | Обратная черта |
93 | 5D | ] | Закрывающая квадратная скобка |
94 | 5E | ^ | «Крышечка» |
95 | 5 | _ | Символ подчеркивания |
96 | 60 | ` | Апостроф |
97 | 61 | a | Строчная латинская буква a |
98 | 62 | b | Строчная латинская буква b |
99 | 63 | c | Строчная латинская буква c |
100 | 64 | d | Строчная латинская буква d |
101 | 65 | e | Строчная латинская буква e |
102 | 66 | f | Строчная латинская буква f |
103 | 67 | g | Строчная латинская буква g |
104 | 68 | h | Строчная латинская буква h |
105 | 69 | i | Строчная латинская буква i |
106 | 6A | j | Строчная латинская буква j |
107 | 6B | k | Строчная латинская буква k |
108 | 6C | l | Строчная латинская буква l |
109 | 6D | m | Строчная латинская буква m |
110 | 6E | n | Строчная латинская буква n |
111 | 6F | o | Строчная латинская буква o |
112 | 70 | p | Строчная латинская буква p |
113 | 71 | q | Строчная латинская буква q |
114 | 72 | r | Строчная латинская буква r |
115 | 73 | s | Строчная латинская буква s |
116 | 74 | t | Строчная латинская буква t |
117 | 75 | u | Строчная латинская буква u |
118 | 76 | v | Строчная латинская буква v |
119 | 77 | w | Строчная латинская буква w |
120 | 78 | x | Строчная латинская буква x |
121 | 79 | y | Строчная латинская буква y |
122 | 7A | z | Строчная латинская буква z |
123 | 7B | < | Открывающая фигурная скобка |
124 | 7С | | | Вертикальная черта |
125 | 7D | > | Закрывающая фигурная скобка |
126 | 7E | Тильда | |
127 | 7F | ⌂ |
В классическом варианте таблицы символов ASCII нет русских букв и она состоит из . Однако в дальнейшем эта таблица была расширена до и в старших 128 строках появились русские буквы в двоичном коде и символы псевдографики. В общем случае во второй части размещены национальные алфавиты разных стран и русские буквы там просто один из возможных наборов (855) там может быть французская (863), немецкая (1141) или греческая (737) таблица. В таблице 2 приведен пример представления русских букв в двоичном коде.
Таблица 2. Таблица представления русских букв в двоичном коде (ASCII)
Десятичный код | Шестнадцатеричный код | Отображаемый символ | Значение |
---|---|---|---|
128 | 80 | А | Прописная русская буква А |
129 | 81 | Б | Прописная русская буква Б |
130 | 82 | В | Прописная русская буква В |
131 | 83 | Г | Прописная русская буква Г |
132 | 84 | Д | Прописная русская буква Д |
133 | 85 | Е | Прописная русская буква Е |
134 | 86 | Ж | Прописная русская буква Ж |
135 | 87 | З | Прописная русская буква З |
136 | 88 | И | Прописная русская буква И |
137 | 89 | Й | Прописная русская буква Й |
138 | 8A | К | Прописная русская буква К |
139 | 8B | Л | Прописная русская буква Л |
140 | 8C | М | Прописная русская буква М |
141 | 8D | Н | Прописная русская буква Н |
142 | 8E | О | Прописная русская буква О |
143 | 8F | П | Прописная русская буква П |
144 | 90 | Р | Прописная русская буква Р |
145 | 91 | С | Прописная русская буква С |
146 | 92 | Т | Прописная русская буква Т |
147 | 93 | У | Прописная русская буква У |
148 | 94 | Ф | Прописная русская буква Ф |
149 | 95 | Х | Прописная русская буква Х |
150 | 96 | Ц | Прописная русская буква Ц |
151 | 97 | Ч | Прописная русская буква Ч |
152 | 98 | Ш | Прописная русская буква Ш |
153 | 99 | Щ | Прописная русская буква Щ |
154 | 9A | Ъ | Прописная русская буква Ъ |
155 | 9B | Ы | Прописная русская буква Ы |
156 | 9C | Ь | Прописная русская буква Ь |
157 | 9D | Э | Прописная русская буква Э |
158 | 9E | Ю | Прописная русская буква Ю |
159 | 9F | Я | Прописная русская буква Я |
160 | A0 | а | Строчная русская буква а |
161 | A1 | б | Строчная русская буква б |
162 | A2 | в | Строчная русская буква в |
163 | A3 | г | Строчная русская буква г |
164 | A4 | д | Строчная русская буква д |
165 | A5 | е | Строчная русская буква е |
166 | A6 | ж | Строчная русская буква ж |
167 | A7 | з | Строчная русская буква з |
168 | A8 | и | Строчная русская буква и |
169 | A9 | й | Строчная русская буква й |
170 | AA | к | Строчная русская буква к |
171 | AB | л | Строчная русская буква л |
172 | AC | м | Строчная русская буква м |
173 | AD | н | Строчная русская буква н |
174 | AE | о | Строчная русская буква о |
175 | AF | п | Строчная русская буква п |
176 | B0 | ░ | |
177 | B1 | ▒ | |
178 | B2 | ▓ | |
179 | B3 | │ | Символ псевдографики |
180 | B4 | ┤ | Символ псевдографики |
181 | B5 | ╡ | Символ псевдографики |
182 | B6 | ╢ | Символ псевдографики |
183 | B7 | ╖ | Символ псевдографики |
184 | B8 | ╕ | Символ псевдографики |
185 | B9 | ╣ | Символ псевдографики |
186 | BA | ║ | Символ псевдографики |
187 | BB | ╗ | Символ псевдографики |
188 | BC | ╝ | Символ псевдографики |
189 | BD | ╜ | Символ псевдографики |
190 | BE | ╛ | Символ псевдографики |
191 | BF | ┐ | Символ псевдографики |
192 | C0 | └ | Символ псевдографики |
193 | C1 | ┴ | Символ псевдографики |
194 | C2 | ┬ | Символ псевдографики |
195 | C3 | ├ | Символ псевдографики |
196 | C4 | ─ | Символ псевдографики |
197 | C5 | ┼ | Символ псевдографики |
198 | C6 | ╞ | Символ псевдографики |
199 | C7 | ╟ | Символ псевдографики |
200 | C8 | ╚ | Символ псевдографики |
201 | C9 | ╔ | Символ псевдографики |
202 | CA | ╩ | Символ псевдографики |
203 | CB | ╦ | Символ псевдографики |
204 | CC | ╠ | Символ псевдографики |
205 | CD | ═ | Символ псевдографики |
206 | CE | ╬ | Символ псевдографики |
207 | CF | ╧ | Символ псевдографики |
208 | D0 | ╨ | Символ псевдографики |
209 | D1 | ╤ | Символ псевдографики |
210 | D2 | ╥ | Символ псевдографики |
211 | D3 | ╙ | Символ псевдографики |
212 | D4 | ╘ | Символ псевдографики |
213 | D5 | ╒ | Символ псевдографики |
214 | D6 | ╓ | Символ псевдографики |
215 | D7 | ╫ | Символ псевдографики |
216 | D8 | ╪ | Символ псевдографики |
217 | D9 | ┘ | Символ псевдографики |
218 | DA | ┌ | Символ псевдографики |
219 | DB | █ | |
220 | DC | ▄ | |
221 | DD | ▌ | |
222 | DE | ▐ | |
223 | DF | ▀ | |
224 | E0 | р | Строчная русская буква р |
225 | E1 | с | Строчная русская буква с |
226 | E2 | т | Строчная русская буква т |
227 | E3 | у | Строчная русская буква у |
228 | E4 | ф | Строчная русская буква ф |
229 | E5 | х | Строчная русская буква х |
230 | E6 | ц | Строчная русская буква ц |
231 | E7 | ч | Строчная русская буква ч |
232 | E8 | ш | Строчная русская буква ш |
233 | E9 | щ | Строчная русская буква щ |
234 | EA | ъ | Строчная русская буква ъ |
235 | EB | ы | Строчная русская буква ы |
236 | EC | ь | Строчная русская буква ь |
237 | ED | э | Строчная русская буква э |
238 | EE | ю | Строчная русская буква ю |
239 | EF | я | Строчная русская буква я |
240 | F0 | Ё | Прописная русская буква Ё |
241 | F1 | ё | Строчная русская буква ё |
242 | F2 | Є | |
243 | F3 | є | |
244 | F4 | Ї | |
245 | F5 | Ї | |
246 | F6 | Ў | |
247 | F7 | ў | |
248 | F8 | ° | Знак градуса |
249 | F9 | ∙ | Знак умножения (точка) |
250 | FA | · | |
251 | FB | √ | Радикал (взятие корня) |
252 | FC | № | Знак номера |
253 | FD | ¤ | Знак денежной единицы (рубль) |
254 | FE | ■ | |
255 | FF |
При записи текстов кроме двоичных кодов, непосредственно отображающих буквы, применяются коды, обозначающие переход на новую строку и возврат курсора (возврат каретки) на нулевую позицию строки. Эти символы обычно применяются вместе. Их двоичные коды соответствуют десятичным числам — 10 (0A) и 13 (0D). В качестве примера ниже приведен участок текста данной страницы (дамп памяти). На этом участке записан ее первый абзац. Для отображения информации в дампе памяти применен следующий формат:
- в первой колонке записан двоичный адрес первого байта строки
- в следующи шестнадцати колонках записаны байты, содержащиеся в текстовом файле. Для более удобного определения номера байта после восьмой колонки проведена вертикальная линия. Байты, для краткости записи, представлены в шестнадцатеричном коде.
- в последней колонке эти же байты представлены в виде отображаемых буквенных символов
В приведенном примере видно, что первая строка текста занимает 80 байт. Первый байт 82 соответствует букве ‘В’. Второй байт E1 соответствует букве ‘с’. Третий байт A5 соответствует букве ‘е’. Следующий байт 20 отображает пустой промежуток между словами (пробел) ‘ ‘. 81 и 82 байты содержат символы возврата каретки и перевода строки 0D 0A. Эти символы мы находим по двоичному адресу 00000050: Следующая строка исходного текста не кратна 16 (ее длина равна 76 буквам), поэтому для того, чтобы найти ее конец потребуется сначала найти строку 000000E0: и от нее отсчитать девять колонок. Там снова записаны байты возврата каретки и перевода строки 0D 0A. Остальной текст анализируется точно таким же образом.
Дата последнего обновления файла 04.12.2018