- Приложения
- Кодировки Windows-1251, KOI8-R и ISO 8859-5
- ISO 8859-5
- Содержание
- Применение
- Кодировка ISO 8859-5
- Таблицы кодировок ASCII, CP1251 (windows1251), ISO-8859-5
- Таблица ASCII
- Таблица CP1251 (windows-1251)
- Таблица IS0-8859-5
- Кодировка UTF-8 (Unicode Transformation Format)
- Кодировка windows iso 8859 5
- ISO 8859-5
- Применение
- Кодировка ISO 8859-5
- Ссылки
- Смотреть что такое «ISO 8859-5» в других словарях:
Приложения
Кодировки Windows-1251, KOI8-R и ISO 8859-5
ASCII (American Standard Code for Information Interchange) — одна из самых старых компьютерных кодировок, в которой каждому символу соответствует строго определенное число. Например, символу «a» соответствует число 97, а символу «A» — число 65.
Всего в стандартной кодировке ASCII определено 256 символов, из которых первые 128 приходятся на символы латинского алфавита, а последующие — на умляуты и символы для создания псевдографических изображений.
Именно символы, занимающие позиции 128-255, в эпоху MS-DOS заменялись на символы кириллицы. Так возникли вариации стандартной кодировки ASCII, получившие названия KOI8-R (долгое время считалась стандартной русскоязычной кодировкой де-факто), DOS CP-866 (использовалась в русскоязычных версиях операционной системы MS-DOS), ISO 8859-5 (стандарт ISO, который практически нигде не используется), Macintosh Cyrillic (поддержка кириллицы для компьютеров Apple) и т. д.
Все эти кодировки присваивали разные численные обозначения одному и тому же символу кириллицы, из-за чего были частично или полностью несовместимы между собой.
В настоящее время проблема множества несовместимых кодировок практически решена путем постепенного вытеснения всех прочих кодировок стандартной кодировкой MS Windows, носящей название Windows 1251. Кроме того, постепенно происходит переход к стандартной двухбайтовой кодировке UTF-8 (Unicode), в которую изначально включены все символы не только латиницы и кириллицы, но и множества других алфавитов.
ISO 8859-5
ISO 8859-5 — 8-битная кодовая страница из семейства кодовых страниц стандарта ISO-8859 для представления кириллицы.
ISO 8859-5 была создана в 1988 году на базе «основной кодировки» (все русские буквы сохранили своё расположение, за исключением заглавной Ё). Российской адаптацией стандарта является ГОСТ Р 34.303-92 [1] , в котором кодировка названа КОИ-8 В1, однако в ней не установлены буквы нерусских алфавитов и коды управляющих символов.
Имеются буквы многих языков, использующих кириллицу, однако в целом ISO 8859-5 — не очень удобная кодировка, поскольку в ней отсутствуют многие нужные символы, такие как тире (—), кавычки-ёлочки («»), градус (°) и др. Нет также буквы Ґ, используемой в украинской письменности.
Порядок символов этой кодовой страницы использовался при размещении букв кириллицы в наборе символов Unicode (со сдвигом вверх на 864 позиции).
Содержание
Применение
ISO 8859-5 широко применяется в Сербии и иногда в Болгарии на юниксоподобных системах. В России эта кодировка почти не употребляется (взамен на юниксоподобных системах широкое применение нашла КОИ-8); тем не менее на некоторых иностранных системах для русского языка по умолчанию ставится ISO 8859-5.
На данный момент использование этой кодировки часто применяется при интеграции ERP систем. Также данная кодировка используется по умолчанию EDI провайдерами России при передаче кириллических символов.
Кодировка ISO 8859-5
Нижняя часть таблицы кодировки полностью соответствует кодировке ASCII. Числа под буквами — шестнадцатеричный код буквы в Юникоде.
Таблицы кодировок ASCII, CP1251 (windows1251), ISO-8859-5
Таблица ASCII
Таблица ASCII (American standard code for information interchange) является мировым стандартом для кодирования букв английского алфавита, популярных спец символов (! $ # % & и т.д.) и некоторых непечатных символов (например, возврат каретки 0x0D и перенос строки 0х0А).
Таблица создавалась те времена, когда возникла необходимость связать символы и числа. А такое соответствие необходимо было для того что бы с помощью чисел можно было передать текстовое сообщение между разными устройствами с цифровой связью.
Таблица CP1251 (windows-1251)
Эта кодировочная таблица может называться или CP1251 или Windows-1251 Это стандарт кодирования кириллических символов в операционных системах windows с русскоязычным интерфейсом.
Первая часть этой таблицы (до байта 0x7F) повторяет таблицу ASCII, а вторая часть (от 0x80 до 0xFF) кодирует кириллические символы в алфавитном порядке.
Таблица IS0-8859-5
Эта кодировка применяется в дисплеях Nextion для кодирования кириллических символов.
Стоит обратить внимание, что в данной таблице кириллические символы расположены в алфавитном порядке и сдвинуты ровно на 16 байт по сравнению с кодировочной таблицей windows-1251.
Кодировка UTF-8
(Unicode Transformation Format)
Очень распространенный формат кодирования символов, позволяющий кодировать символы переменным количеством байт.
Например, если для кодирования номера символа требуется 21 бит, то используется 4 байта для кодировки. Если для кодирования достаточно 11 бит, то используют 2 байта. А если номер символа может быть закодирован 7 битами, то используется один байт.
Все ASCII символы в кодировке UTF8 закодированы без изменений, то есть 1 байтом, как в стандартной таблице ASCII.
А вот остальные символы закодированы количеством байт от 2 до 4.
Кириллические символы закодированы двумя байтами.
Кодировка windows iso 8859 5
Стандарт ISO 8859-5 [1] определяет однобайтную восмибитную кодировку символов кириллицы и латинского алфавита ISO/IEC 8859-5:1988 (Information Processing — 8-bit single-byte coded graphic character sets — Part 5: Latin/Cyrillic alphabet).
Стандарт ISO 8859-5 является международным и поэтому в нем представлены не только символы алфавита русского языка, но и других языков, использующих кириллицу:
- Белорусский
- Украинский
- Болгарский
- Сербский
- Македонский
Это обстоятельство является особенно важным при разработке систем предачи, обработки и хранения информации. Именно поэтому кодировка ISO 8859-5 получила широкое распространение в программных продуктах, устройствах ввода и отображения информации крупных производителей программного обеспечения и вычислительной техники. Кроме этого, кодировка ISO 8859-5 широко используется в основных международных и индустриальных стандартах средств обработки, и передачи информации.
В сети Internet , кодировка ISO 8859-5 определена в стандарте STD-2 [2]:
Замечание: в настоящий момент в сети Internet для этой кодовой таблицы используются и другие синонимы (alias).
Русские буквы в кодировке ISO 8859-5 расположены в алфавитном порядке. Коды с 176 по 207 — заглавные буквы, коды с 208 по 239 — строчные буквы. Остальные cимволы кириллицы, включая русскую букву » Ё «, располагаются на местах 161 — 175 (заглавные буквы) и 241 — 255 (строчные буквы). Коды символов кириллицы имеют смещение 864 (0x0360) отосительно универсальной шестнадцатибитной кодировки ISO 10646 [3].
Управляющие, латинские и специальные символы с кодами от 0 до 160 эквивалентны соответствующим символам в кодировке ISO 8859-1 (Latin Alphabet No. 1).
Буквы русского алфавита и их коды в стандарте ISO 8859-5 приведены в таблицах 1 , и 2 . В таблицах также приведены дескриптивные имена и коды символов согласно стандарту ISO 10646, а также имена символов [4], используемые в приложениях языка SGML [5], например, широкоизвестного языка гипертекстовой разметки HTML ( HyperText Markup Language ).
[3] ISO/IEC 10646-1:1993 Information technology — Universal Multiple-Octet Coded Character Set (UCS) — Part 1: Architecture and Basic Multilingual Plane.
URL — http://www.iso.ch/cate/d18741.html
[4] ISO 8879:1986 ENTITIES — Russian Cyrillic
URL — ISOcyr1.ent.txt
[5] ISO 8879:1986 Information processing — Text and office systems — Standard Generalized Markup Language (SGML).
URL — http://www.iso.ch/cate/d16387.html [Русские кодировки] Федотов А.М. Введение в Internet
Документация по Интернет технологиям
Начало создания курса: Mondy, 19-Aug-1996 10:12:15 NOVST
Дата последней модификации: Thursday, 12-Feb-1998 00:00:00 NOVT
© 1996 — 2001, А.М.Федотов
© 1996 — 2001, Институт вычислительных технологий СО РАН, Новосибирск
ISO 8859-5
ISO 8859-5 — 8-битная кодовая страница из семейства кодовых страниц стандарта ISO-8859 для представления кириллицы.
ISO 8859-5 была создана на базе «основной кодировки» (все русские буквы сохранили своё расположение, за исключением заглавной Ё).
Имеются буквы многих языков, использующих кириллицу, однако в целом ISO 8859-5 — не очень удобная кодировка, поскольку в ней отсутствуют многие нужные символы, такие как тире (—), кавычки-ёлочки («»), градус (°) и др. Нет также буквы Ґ, используемой в украинской письменности.
Порядок символов этой кодовой страницы использовался при размещении букв кириллицы в наборе символов Unicode (со сдвигом вверх на 864 позиции).
Применение
ISO 8859-5 широко применяется в Сербии и иногда в Болгарии на юниксоподобных системах. В России эта кодировка почти не употребляется (взамен на юниксоподобных системах широкое применение нашла КОИ-8); тем не менее на некоторых иностранных системах для русского языка по умолчанию ставится ISO 8859-5.
Кодировка ISO 8859-5
Нижняя часть таблицы кодировки полностью соответствует кодировке ASCII. Числа под буквами — шестнадцатеричный код буквы в Юникоде.
.0 | .1 | .2 | .3 | .4 | .5 | .6 | .7 | .8 | .9 | .A | .B | .C | .D | .E | .F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
8. | PAD 80 | HOP 81 | BPH 82 | NBH 83 | IND 84 | NEL 85 | SSA 86 | ESA 87 | HTS 88 | HTJ 89 | VTS 8A | PLD 8B | PLU 8C | RI 8D | SS2 8E | SS3 8F |
9. | DCS 90 | PU1 91 | PU2 92 | STS 93 | CCH 94 | MW 95 | SPA 96 | EPA 97 | SOS 98 | SGCI 99 | SCI 9A | CSI 9B | ST 9C | OSC 9D | PM 9E | APC 9F |
A. | A0 | Ё 401 | Ђ 402 | Ѓ 403 | Є 404 | Ѕ 405 | І 406 | Ї 407 | Ј 408 | Љ 409 | Њ 40A | Ћ 40B | Ќ 40C | SHY AD | Ў 40E | Џ 40F |
B. | А 410 | Б 411 | В 412 | Г 413 | Д 414 | Е 415 | Ж 416 | З 417 | И 418 | Й 419 | К 41A | Л 41B | М 41C | Н 41D | О 41E | П 41F |
C. | Р 420 | С 421 | Т 422 | У 423 | Ф 424 | Х 425 | Ц 426 | Ч 427 | Ш 428 | Щ 429 | Ъ 42A | Ы 42B | Ь 42C | Э 42D | Ю 42E | Я 42F |
D. | а 430 | б 431 | в 432 | г 433 | д 434 | е 435 | ж 436 | з 437 | и 438 | й 439 | к 43A | л 43B | м 43C | н 43D | о 43E | п 43F |
E. | р 440 | с 441 | т 442 | у 443 | ф 444 | х 445 | ц 446 | ч 447 | ш 448 | щ 449 | ъ 44A | ы 44B | ь 44C | э 44D | ю 44E | я 44F |
F. | № 2116 | ё 451 | ђ 452 | ѓ 453 | є 454 | ѕ 455 | і 456 | ї 457 | ј 458 | љ 459 | њ 45A | ћ 45B | ќ 45C | § A7 | ў 45E | џ 45F |
Ссылки
Кодовые таблицы символов в ISO 8859 |
---|
ISO 8859‑1 | ISO 8859‑2 | ISO 8859‑3 | ISO 8859‑4 | ISO 8859‑5 | ISO 8859‑6 | ISO 8859‑7 | ISO 8859‑8 | ISO 8859‑9 | ISO 8859‑10 | ISO 8859‑11 | ISO 8859‑12 | ISO 8859‑13 | ISO 8859‑14 | ISO 8859‑15 | ISO 8859‑16 |
Кодировки символов | |||
---|---|---|---|
Основы → | алфавит • текст ( файл • данные ) • набор символов • конверсия | ||
Исторические кодировки → | Докомп.: семафорная (Макарова) • Морзе • Бодо • МТК-2 | Комп.: 6 бит • УПП • RADIX-50 • EBCDIC ( ДКОИ-8 ) • КОИ-7 • ISO 646 | |
совре- менное 8-битное представ- ление | символы → | ASCII ( управляющие • печатные ) | не-ASCII ( псевдографика ) |
8бит. код.стр. | Разные → Кириллица: КОИ-8 • ГОСТ 19768-87 • MacCyrillic | ||
ISO 8859 → | 1(лат.) 2 3 4 5(кир.) 6 7 8 9 10 11 12 13 14 15(€) 16 | ||
Windows → | 1250 1251(кир.) 1252 1253 1254 1255 1256 1257 1258 | WGL4 | ||
IBM&DOS → | 437 • 850 • 852 • 855 • 866 «альт.» • ( МИК ) • ( НИИ ЭВМ ) | ||
Много- байтные | Традиционные → | DBCS ( GB2312 ) • HTML | |
Unicode → | UTF-16 • UTF-8 • список символов ( кириллица ) | ||
Связанные темы → | интерфейс пользователя • раскладка клавиатуры • локаль • перевод строки • шрифт • кракозябры • транслит • нестандартные шрифты • текст как изображение | Утилиты: iconv • recode |
Wikimedia Foundation . 2010 .
Смотреть что такое «ISO 8859-5» в других словарях:
ISO 8859 — ISO 8859, également appelée plus formellement ISO/CEI 8859, est une norme commune de l ISO et de la CEI de codage de caractères sur 8 bits pour le traitement informatique du texte. Le standard est divisé en parties numérotées publiées séparément … Wikipédia en Français
Iso 8859 — ISO 8859, également appelée plus formellement ISO/CEI 8859, est une norme commune de l ISO et de la CEI de codage de caractères sur 8 bits pour le traitement informatique du texte. Le standard est divisé en parties numérotées publiées séparément … Wikipédia en Français
ISO-8859-1 — Latin 1, Westeuropäisch 2 Latin 2, Mitteleuropäisch 3 Latin 3, Südeuropäisch 4 Latin 4, Baltisch 5 Kyrillisch 6 Arabisch 7 Griechisch 8 … Deutsch Wikipedia
ISO 8859-1 — Latin 1, Westeuropäisch 2 Latin 2, Mitteleuropäisch 3 Latin 3, Südeuropäisch 4 Latin 4, Nordeuropäisch 5 Kyrillisch 6 Arabisch 7 Griechisch … Deutsch Wikipedia
ISO-8859-1 — Unicode Jeux de caractères UCS (ISO/CEI 10646) ISO 646, ASCII ISO 8859 1 WGL4 UniHan Équivalences normalisées NFC (précomposée) NFD (décomposée) NFKC (compatibilité) NFKD (compatibilité) Propriétés et algorithmes ISO 15924 … Wikipédia en Français
Iso 8859-1 — Unicode Jeux de caractères UCS (ISO/CEI 10646) ISO 646, ASCII ISO 8859 1 WGL4 UniHan Équivalences normalisées NFC (précomposée) NFD (décomposée) NFKC (compatibilité) NFKD (compatibilité) Propriétés et algorithmes ISO 15924 … Wikipédia en Français
ISO 8859 — семейство ASCII совместимых кодовых страниц, разработанное совместными усилиями ISO и IEC. По состоянию на 2006 год это семейство состояло из 15 ти кодовых страниц. Общая информация Поскольку кодировки ISO 8859 разрабатывались как средства для… … Википедия
ISO-8859-15 — ISO 8859 1 Latin 1, Westeuropäisch 2 Latin 2, Mitteleuropäisch 3 Latin 3, Südeuropäisch 4 Latin 4, Baltisch 5 Kyrillisch 6 Arabisch 7 Griechisch 8 … Deutsch Wikipedia
ISO 8859-1 — ISO/IEC 8859 1 (также известная как ISO 8859 1 и Latin 1) кодовая страница, предназначенная для западноевропейских языков; она базируется на символьном наборе популярных в прошлом терминалов VT220. Кодовые позиции 0 31 (0x0 0x1F) и 127… … Википедия
ISO-8859 — семейство кодовых страниц, разработанное совместными усилиями IEC. По состоянию на 2006 г. это семейство состоит из 15 кодовых страниц. Общая информация Поскольку кодировки ISO 8859 разрабатывались как средства для обмена информацией, а не как… … Википедия
ISO-8859-13 — ISO 8859 1 Latin 1, Westeuropäisch 2 Latin 2, Mitteleuropäisch 3 Latin 3, Südeuropäisch 4 Latin 4, Baltisch 5 Kyrillisch 6 Arabisch 7 Griechisch 8 … Deutsch Wikipedia