ДСТУ 4353-5:2004 Информационные технологии. Восьмибитные однобайтные наборы кодированных графических символов. Часть 5. Латиница/кириллица (ISO/IEC 8859-5:1999, MOD)
НАЦІОНАЛЬНИЙ СТАНДАРТ УКРАЇНИ
Інформаційні технології
ВОСЬМИБІТНІ ОДНОБАЙТНІ НАБОРИ КОДОВАНИХ ГРАФІЧНИХ
СИМВОЛІВ
Частина 5. Латиниця/кирилиця
(ISO/IEC 8859-5:1999,
MOD)
ДСТУ
4353-5:2004
Київ
ДЖСПОЖИВСТАНДАРТ УКРАЇНИ
2006
ПЕРЕДМОВА
1 РОЗРОБЛЕНО: Технічний комітет зі стандартизації «Інформаційні технології» Держспоживстандарту України (ТК 20); Інститут кібернетики імені В.М.Глушкова НАН України
РОЗРОБНИКИ: А. Гречко; О. Перевозчикова, чл.-кор. НАН України (науковий керівник)
2 ПРИЙНЯТО ТА НАДАНО ЧИННОСТІ: наказ Держспоживстандарту України від 15 листопада 2004 р. № 257 3 2006-04-01
3 Національний стандарт відповідає міжнародному стандарту ISO/IEC 8859-5:1999 Information technology - 8*bit single-byte coded graphic character sets - Part 5: Latin/Cyrillic alphabet (Інформаційні технології. Восьмибітні однобайтні набори кодованих графічних символів. Частина 5. Латиниця/кирилиця) за винятком додатка А, до якого долучено кодові таблиці усіх частин стандарту ISO/IEC 8859.
Ступінь відповідності - модифікований (MOD)
Переклад з англійської (en)
4 УВЕДЕНО ВПЕРШЕ
ЗМІСТ
Національний вступ
1 Сфера застосування
2 Відповідність стандарту
2.1 Відповідність обміну інформацією
2.2 Узгодження засобів
3 Нормативні посилання
4 Терміни та визначення понять
5 Нотація, кодова таблиця та імена
5.1 Нотація
5.2 Формат кодової таблиці
5.3 Імена і значення
6 Специфікація набору графічних символів латиниці/кирилиці
6.1 Набір символів та їхнє графічне подання
6.2 Кодова таблиця латиниці/кирилиці
7 Ідентифікація набору символів латиниці/кирилиці
7.1 Ідентифікація згідно з ІSО/ІЕС 2022 та ІSО/ІЕС 4873
7.2 Ідентифікація згідно з ІSО/ІЕС 8824-1
7.3 Ідентифікація з використанням ІSО-реєстру наборів кодованих символів із ЕSС-послідовностями
Додаток А Охоплення мов частинами 1-10 та 11-16 ІSО/ІЕС 8859
А.1 Європейські мови з латинським письмом
А.2 Мови, що не використовують латинське письмо
Додаток В Відмінності між першим та другим виданням ІSО/ІЕС 8859
Додаток С Бібліографія
НАЦІОНАЛЬНИЙ ВСТУП
Цей стандарт згармонізовано з ISO/IEC 8859-5:1999 «Information technology - 8-bit single-byte coded graphic character sets - Part 5: Latin/Cyrillic alphabet»; ступінь гармонізації - модифікований (MOD). Ступінь відповідності ISO/IEC 8859-5:1999 - модифікований (MOD).
Відповідальний за цей стандарт - Технічний комітет зі стандартизації «Інформаційні технології». Редагування тексту виконала чл.-кор. НАН України О. Перевозчикова.
Міжнародний стандарт ISO/IEC 8859 складають частини, кожна з яких визначає набори аж до 191 графічного символу та їхнє подання у 8-ми-бітному однобайтному коді. Кожен набір призначено для конкретної групи природних мов:
Частина 1: Латиниця № 1
Частина 2: Латиниця № 2
Частина 3: Латиниця № 3
Частина 4: Латиниця № 4
Частина 5: Латиниця/Кирилиця
Частина 6: Латиниця/Арабська абетка
Частина 7: Латиниця/Грецька абетка
Частина 8: Латиниця/Іврит
Частина 9: Латиниця № 5
Частина 10: Латиниця № 6
Частина 11: Латиниця/Тайська абетка
Частина 12: зарезервована
Частина 13: Латиниця № 7 (Baltic Rim)
Частина 14: Латиниця № 8 (Celtic)
Частина 15: Латиниця № 9 Частина 16: Латиниця № 10
До цієї частини стандарту внесено такі редакційні зміни:
— слова «ця частина ISO/IEC 8859» замінено на «цей стандарт»;
— структурні елементи цього стандарту: «Обкладинку», «Передмову», «Зміст», «Національний вступ», «Бібліографічні дані», «Нормативні посилання», «Терміни та визначення понять» - оформлено відповідно до вимог національної стандартизації України;
— до розділу 2 «Нормативні посилання» та до бібліографії у додатку С долучено і взято у рамку «Національне пояснення» з українським перекладом назв стандартів. З цими стандартами можна ознайомитися у Головному фонді нормативних документів.
Ця частина стандарту має три додатки А, В та С. Додаток А має технічні відхили, позначені рискою зліва чи взяті у прямокутну рамку. Текст цього додатка осучаснено описами усіх складових частин ISO/IEC 8859 (станом на 01.12.2004). Тут наведено кодові таблиці інших мов ISO/IEC 8859, потрібних для організації обміну даними і мережного спілкування.
В Україні діють відразу кілька кодових таблиць української абетки (у складі кирилиці), серед яких розглянемо однобайтні, що стали де-факто стандартами, оскільки або зареєстровані у міжнародному ISO-реєстрі згідно з ISO 2375, як це робили до початку 90-х років XX століття, або зафіксовані у спеціальних RFC у Network Information Systems Center Товариства Інтернет, або описані у чинних стандартах. Зазначимо, що об’єднаний комітет зі стандартизації JTC1 ISO/IEC фактично відмовився від визнання багатьох кодових таблиць, навіть для однобайтного кодування, і для всіх природних мов на Землі встановив єдиний стандартний репертуар символів Unicode з універсальним мультиоктетним USC-набором кодованих символів згідно з ISO/IEC 10646.
1) Кодова таблиця RUSCII, що розширює таблицю ASCII, згідно з чинним стандартом РСТ УРСР 2018-91 зафіксувала усічений репертуар символів кирилиці, який містить тільки символи російської та української абетки, причому Ґґ, Єє, Її, Іі розташовано після всіх російських літер. Таблиця вже застаріла, не відповідає ISO/IEC-стандартам і містить не вживані зараз символи псевдографіки.
2) Таблицю СР866 задіяно у MS DOS. Повністю підтримуючи російську, болгарську, македонську і сербохорватську мови, вона за відсутності літер «Іі» ускладнює оброблення українських і білоруських текстів.
3) Таблицю СР1251 задіяно у MS Windows. Разом із СР866 наприкінці 1980-х років її зареєструвала фірма Microsoft у ISO-реєстрі. Підтримує шість слов'янських мов і офіційний лексикографічний порядок російської абетки.
4) Таблицю KOI8-Unified складено додаванням до KOI8-U відсутніх символів кирилиці для білоруської і південнослов'янських мов та узгоджено з ISO-IR-111 ЕСМА ССР. Згідно з RFC-2319 у 1998 p. KOI8-U введено додаванням чотирьох українських літер до KOI8-R, яку з публікацією RFC1489 у 1993 р. довгий час застосовували для кодування україномовних текстів, хоч вона містила лише символи російської абетки.
5) Таблицю ISO-IR-111, ЕСМА Cyrillic Code Page зареєстровано у 1985 р. під номером 111 у ISO-реєстрі і визнано ЕСМА. Вона не містить українську фрикативну літеру "Ґґ", а лексикографічний порядок символів кирилиці узгоджено з латиницею.
Мета цієї частини стандарту - зафіксувати однобайтну кодову таблицю кирилиці, що відповідає усім вимогам кодування символів української абетки. Саме тому за об'єкт стандартизації взято кодову таблицю латиниці/кирилиці з гармонізованого стандарту ISO/IEC 8859-5. Цю таблицю не змінено, оскільки у ній немає вільних позицій для розміщення української фрикативної літери "Ґґ".
Кодові таблиці символів абеток природних мов входять до переліку культурних елементів національної локалізації інтернаціоналізованих IT. На зразок кількох абеток латиниці у складі ISO/IEC 8859, для потреб національно-української локалізації передбачено розширити репертуар кирилиці, розробивши стандарт ще однієї абетки кирилиці, куди мають увійти не лише фрикативна буква ”Ґґ", а й символи стародавньої кирилиці і кириличні символи, використовувані в абетках таких неслов'янських мов, як кримськотатарська, гагаузька тощо.
Надання чинності цьому стандарту разом з ДСТУ 4354-1:2004 на схеми однобайтного і мультиоктетного кодування відповідно покликано упорядкувати подання україномовних текстів в інтерфейсах POSIX-сумісних середовищ відкритих систем згідно з ДСТУ 4249:2003. Йдеться про організацію трьох видів інтерфейсу (мережного, АРІ і людина-комп'ютер) одиницями обміну, тобто файлами лише у стандартному кодуванні за таблицями UCS-4 та UCS-2 (Unicode, UTF-8), ДСТУ 4353-5, СР1251 та KOl8-Unified, з обов’язковим наданням користувачеві права вибору способу кодування файлу з однієї з цих таблиць. Усі інші кодування, так само як і нові, що випливають зі специфіки алгоритмів застосувань, треба вважати внутрішніми і, можливо, складовими ноу-хау фірми-розробника застосування.
НАЦІОНАЛЬНИЙ СТАНДАРТ УКРАЇНИ
ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ
ВОСЬМИБІТНІ ОДНОБАЙТНІ НАБОРИ КОДОВАНИХ ГРАФІЧНИХ СИМВОЛІВ
Частина
5. Латиниця/кирилиця
ИНФОРМАЦИОННЫЕ
ТЕХНОЛОГИИ
ВОСЬМИБИТНЫЕ
ОДНОБАЙТНЫЕ НАБОРЫ КОДИРОВАННЫХ ГРАФИЧЕСКИХ СИМВОЛОВ
Часть 5.
Латиница/кириллица
INFORMATION TECHNOLOGY
8-BIT
SINGLE-BYTE CODED GRAPHIC CHARACTER SETS
Part 5:
Latin/Cyrillic alphabet
Чинний з 2006-04-01
1 СФЕРА ЗАСТОСУВАННЯ
У цьому стандарті визначено набір із 191 кодованого графічного символу, що відповідає об’єднанню абеток латиниці/кирилиці. Цей набір призначено для використання в обробленні текстів і даних, а також в обміні інформацією.
Набір складено з графічних символів, переважно використовуваних у цільових застосуваннях звичайних офісних систем, що працюють принаймні з такими мовами: болгарська, білоруська, англійська, латинська, македонська (слов’янська), російська, сербська, українська.
Примітка. Дві літери, нещодавно додані до офіційної української абетки, не включено у набір символів цього стандарту. З цього питання підготовлено звіт CEN/CENELEC/PT004 (див. Бібліографію).
Цей набір кодованих графічних символів можна розглядати як версію восьмибітного коду згідно з ISO/IEC 2022 або ISO/IEC 4873 на рівні 1.
Стандарт можна використовувати як сполучну ланку з усіма іншими частинами ISO/IEC 8859. Якщо спільно застосовують кодовані символи більше, ніж з однієї частини, використовуючи методи розширення коду, то еквівалентний набір кодованих символів з ISO/IEC 10367 треба використовувати замість версії ISO/IEC 4873 на рівні 2 чи 3.
Кодовані символи з цього набору можна використовувати у поєднанні з кодованими функціями керування, обраними згідно з ISO/IEC 6429. Однак функції керування не використовують для створення складених графічних знаків із двох чи більше графічних символів (розділ 6).
Примітка. Цей стандарт не призначено для використання службами телематики, визначеними ITU-T. Якщо інформацію, закодовану згідно з ISO/IEC 8859, перекладають для таких служб, вона має відповідати технічним вимогам цих служб.
2 ВІДПОВІДНІСТЬ СТАНДАРТУ
2.1 Відповідність обміну інформацією
Кодовано-символьний елемент даних (КС-елемент - CC-data-element) всередині закодованої інформації, призначеної для обміну, узгоджено з цим стандартом, якщо всі кодовані подання графічних символів всередині цього КС-елемента даних відповідають технічним вимогам розділу 6.
2.2 Узгодження засобів
Засіб узгоджено з цією частиною стандарту, якщо він відповідає технічним вимогам 2.2.1 та одночасно або окремо вимогам 2.2.2 та 2.2.3. Згідно з вимогою відповідності розпізнають документ, що містить опис, специфікований у 2.2.1.
2.2.1 Опис засобів. Засіб, який відповідає цій частині стандарту, може бути об’єктом опису, що ідентифікує значення, за яким користувач може вводити символи у засіб або розпізнавати їх, якщо вони стають доступними, як визначено у технічних вимогах 2.2.2 та 2.2.3.
2.2.2 Передавальний засіб дає змогу користувачу постачати в певному порядку символи, описані у розділі б і прийнятні, щоб передавати їхнє кодоване подання у КС-елементі даних.
2.2.3 Приймальний засіб здатний приймати й інтерпретувати кодоване подання символів, що складає частину КС-елемента даних і відповідає розділу 6, і може відповідні символи зробити доступними користувачу, щоб він міг розпізнати їх і відрізнити один від іншого.
3 НОРМАТИВНІ ПОСИЛАННЯ
Цей стандарт містить положення інших стандартів, які стали його невід’ємною частиною через посилання. На момент опублікування зазначені стандарти були чинні. Усі рекомендації й стандарти підлягають перегляду, тож учасники узгоджень, основаних на цій частині стандарту, мають застосовувати останню редакцію перелічених далі рекомендацій і стандартів. Члени ІЕС та ISO ведуть реєстри чинних на поточний момент міжнародних стандартів.
ISO/IEC 2022:1994 Information technology - Character code structure and extension techniques
ISO/IEC 4873:1991 Information technology - ISO 8-bit code for information interchange - Structure and rules for implementation
ISO/IEC 8824:1995 Information technology - Abstract Syntax Notation One (ASN1): Specification of basic notation.
НАЦІОНАЛЬНЕ ПОЯСНЕННЯ
ISO/IEC 2022:1994 Інформаційні технології. Структура символьних кодів і техніка розширення
ISO/IEC 4873:1991 Інформаційні технології. Восьмибітний код ISO для обміну інформацією. Структура і правила реалізації
ISO/IEC 8824:1995 Інформаційні технології. Нотація-1 абстрактного синтаксису (ASN.1): Специфікація базової нотації.
4 ТЕРМІНИ ТА ВИЗНАЧЕННЯ ПОНЯТЬ
У цій частині стандарту використано такі поняття.
4.1 бітова комбінація (bit combination)
Упорядкований набір бітів, використовуваних для подання символів
4.2 байт (byte)
Рядок бітів, розглядуваних як єдине ціле
4.3 символ (character)
Член набору елементів, використовуваних для організації, контролю або подання даних
4.4 кодова таблиця (code table)
Таблиця, що подає символи, розміщені у коді згідно з їхньою бітовою комбінацією
4.5 набір кодованих символів, код (coded character set, code)
Набір точно сформульованих правил, за якими встановлюють набір символів і взаємно однозначну відповідність між символами з набору та їхньою бітовою комбінацією
4.6 кодовано-символьний елемент даних (CC-data-element)
Елемент обміну інформацією, складений із послідовності кодів символів згідно з одним або кількома стандартами для наборів кодованих символів
4.7 графічний символ (graphic character)
Символ, який відрізняють від функції керування, має візуальне подання, зазвичай рукописне, друковане чи виведене на екран, має кодоване подання, складене з однієї або кількох бітових комбінацій.
Примітка. У цій частині стандарту однобайтні комбінації використовують для подання кожного символу
4.8 графічний знак (graphic symbol)
Візуальне подання графічного символу або функції керування
4.9 позиція (position)
Частина кодової таблиці, обумовлена координатами по вертикалі і горизонталі.
БІБЛІОГРАФІЯ
ISO/IEC 6429:1992 Information technology- Control functions for coded character sets.
ISO/IEC 10367:1991 Information technology - Standardized coded graphic character sets for use in 8-bit codes.
ISO/IEC 10646-1:2000 Information technology- Universal Multiple-Octet Coded Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane.
ISO International register of coded character sets to be used with escape sequences ISO.
CEN/CENELEC IT/PT004 Report from the project team on Definition of a Cyrillic primary set of graphic characters (CEN, Brussels, July 1992).
НАЦІОНАЛЬНЕ ПОЯСНЕННЯ
ISO/IEC 6429:1992 Інформаційні технології. Функції керування для набору кодованих символів
ISO/IEC 10367:1991 Інформаційні технології. Стандартизовані набори кодованих графічних символів для використання у восьмибітному коді
ISO/IEC 10646-1:2000 Інформаційні технології. Універсальний мультиоктетний набір кодованих символів (UCS). Частина 1. Архітектура і базова мультилінгвістична плата
ISO Міжнародний реєстр наборів кодованих символів, що використовують ESC-послідовності
CEN/CENELEC IT/PT004 Звіт проектної групи про визначення первинного набору графічних символів кирилиці (CEN, Брюссель, липень 1992).
Полная версия документа доступна в тарифе «ВСЕ ВКЛЮЧЕНО».