ДСТУ 4032-2001 Інформація та документація. Одномовний тезаурус. Методика розроблення (ISO 2788:1986)

Даний документ доступний у тарифі «ВСЕ ВРАХОВАНО»

У Вас є питання стосовно документа? Ми раді на них відповісти!Перелік безкоштовних документівПомітили помилку в документі або на сайті? Будь ласка, напишіть нам про це!Залишити заявку на документ

ДЕРЖАВНИЙ СТАНДАРТ УКРАЇНИ

Інформація та документація
ОДНОМОВНИЙ ТЕЗАУРУС
Методика розроблення

ДСТУ 4032-2001
(ISO 2788:1986)

Відповідає офіційному тексту

Київ
ДЕРЖСТАНДАРТ УКРАЇНИ
2001

ПЕРЕДМОВА

1 РОЗРОБЛЕНО І ВНЕСЕНО ВАТ «Інститут прикладної інформатики»

2 ЗАТВЕРДЖЕНО ТА ВВЕДЕНО В ДІЮ наказом Держстандарту України від 5 травня 2001 р. № 216

3 Цей стандарт відповідає міжнародному стандарту ISO 2788:1986 Documentation — Guidelines for the establishment and development of monolingual thesauri (Документація. Настанови щодо побудови та розроблення одномовних тезаурусів)

Ступінь відповідності — еквівалентний (eqv)

4 ВВЕДЕНО ВПЕРШЕ зі скасуванням в Україні ГОСТ 7.25-80

5 РОЗРОБНИКИ: А. Стогній, чл.-кор. НАН України; В. Дриянський, канд. фіз.-мат. наук, Г. Жогов, канд. фіз.-мат. наук; С. Альошкіна; В. Діденко; В. Труб

ЗМІСТ

Вступ

Загальні зауваження

1 Сфера застосування

2 Нормативні посилання

3 Визначення

4 Скорочення та позначки

5 Контролювання словника

6 Терміни індексування

6.1 Загальні міркування

6.2 Форми термінів

6.3 Вибір форм однини чи множини

6.4 Омографи або полісеми

6.5 Вибір термінів

6.6 Обмежувальні примітки та означення

7 Складені терміни

7.1 Загальні міркування

7.2 Терміни, які слід зберігати складеними

7.3 Терміни, які підлягають синтаксичному розкладанню

7.4 Порядок слів у складених термінах

8 Базові відношення в тезаурусі

8.1 Загальні міркування

8.2 Відношення еквівалентності

8.3 Ієрархічне відношення

8.4 Асоціативне відношення

9 Відтворення термінів та їхніх відношень

9.1 Загальні міркування

9.2 Абеткове відтворення

9.3 Систематичне відтворення

9.4 Графічне відтворення.

10 Аспекти управління щодо побудови тезауруса

10.1 Методи укладання

10.2 Записування термінів

10.3 Верифікація термінів

10.4 Специфічність

10.5 Допущення та вилучення термінів

10.6 Застосування засобів автоматичного оброблення даних

10.7 Форма та вміст тезауруса

10.8 Інші редакційні матеріали

Додаток А Символіка парадигматичних відношень у тезаурусах

ВСТУП

Цей стандарт належить до системи стандартів «Інформація та документація». Його слід також використовувати у разі застосування ДСТУ 4031—2001 «Інформація та документація. Багатомовний тезаурус. Методика розроблення».

Цей стандарт гармонізований з міжнародним стандартом ISO 2788:1986. Ступінь відповідності — еквівалентний (eqv). З метою якнайповнішого відтворення змісту міжнародного стан- дарту-першоджерела в цьому стандарті крім україномовних прикладів наведені як паралельний ілюстративний матеріал приклади з англомовного оригіналу.

Цей стандарт має посилання на такі ДСТУ, гармонізовані з міжнародними стандартами: ДСТУ 2395-2000 (ГОСТ 30671-99) (ISO 5963:1985) Інформація та документація. Обстеження документа, встановлення його предмета та відбір термінів індексування. Загальна методика ДСТУ 4031-2001 (ISO 5964:1985) Інформація та документація. Багатомовний тезаурус. Методика розроблення

Цей стандарт має обов’язковий додаток А.

З метою полегшити супроводження стандарту, зокрема внесення в подальшому можливих змін згідно зі змінами у міжнародних стандартах, у тексті стандарту збережено не тільки склад і послідовність структурних елементів, а й позначення структурних елементів, зокрема пунктів переліків, прикладів і додатків, а також порядок розташування (за англійською абеткою) означуваних термінів. Абетковий покажчик українських термінів наведено далі.

ДЕРЖАВНИЙ СТАНДАРТ УКРАЇНИ

ІНФОРМАЦІЯ ТА ДОКУМЕНТАЦІЯ
ОДНОМОВНИЙ ТЕЗАУРУС
Методика розроблення

ИНФОРМАЦИЯ И ДОКУМЕНТАЦИЯ
ОДНОЯЗЫЧНЫЙ ТЕЗАУРУС
Методика разработки

DOCUMENTATION
GUIDELINES FOR THE ESTABLISHMENT AND
DEVELOPMENT OF MONOLINGUAL THESAURI

Чинний від 2002-01-01

ЗАГАЛЬНІ ЗАУВАЖЕННЯ

Ефективність предметних покажчиків як засобу ідентифікування та пошуку (retrieval) документів залежить від якості застосовуваної мови індексування. Це стосується будь-яких систем, в яких вибір термінів індексування оснований на інтелектуальному рішенні індексатора, у тому числі і систем, в яких для зберігання та опрацювання термінів чи для ідентифікування документів, пов’язаних з термінами чи комбінаціями термінів, приписаними індексатором, застосовується комп’ютер. Перед укладачем предметного покажчика стоять три головні завдання:

a) визначення предметної суті документів;

b) вибір термінів, сукупність яких стисло передає предмет;

c) зазначення відношень між поняттями, представленими цими термінами (для спрощення слова "термін" та "поняття" іноді вживаються як синоніми).

Перше з цих завдань окремо висвітлюється в ДСТУ 2395. Друге та третє завдання стосуються не лише індексатора, але й користувача покажчика. У цьому стандарті розглядаються деякі аспекти вибору термінів: наведено рекомендовані процедури керування складом словника, але в першу чергу розглядаються засоби встановлення та відтворення (displaying) певних різновидів відношень між термінами індексування.

Розрізняють два види відношень між термінами::

а) апостеріорні, чи синтагматичні відношення між термінами, сукупність яких стисло передає предмет документа. Наприклад, індексатор, який працює з документом "Комп’ютери в банках Амстердаму" ["Computers in banks in Amsterdam"], може приписати документу три терміни: "Банки" ["Banks"], "Комп’ютери" ["Computers"] і "Амстердам" ["Amsterdam"]. У посткоорди- натній системі відношення між цими термінами явно не зазначено, і документ буде вважатися відібраним, якщо будь-який чи всі ці терміни будуть використані як пошукові ключі. У перед- координатному покажчику відношення між цими термінами можуть відтворюватися різними способами, наприклад за допомогою позначок, які виражають специфічні відношення, позицій термінів у записах, їхнього друкарського оформлення і/або пунктуації, що їх супроводжує. У цьому прикладі терміни не є пов’язаними відповідно до загальновживаних схем посилання, тому їхні відношення можуть розглядатися як документозалежні;

Ь) апріорні, чи парадигматичні відношення між термінами, приписаними документам, та іншими термінами, які маються на увазі, через те, що вони є складовими загальновживаних схем посилання. У вищенаведеному прикладі термін "Банки" ["Banks"] зумовлює ширший термін, як-то: "Фінансові установи" ["Financial institutions"]; термін "Комп’ютери" ["Computers"] пов’язується уявно з "Обробленням даних" ["Data processing"], а "Амстердам" ["Amsterdam"] зумовлює ширшу місцевість "Нідерланди" ["Netherlands"]. Будь-який з цих пов’язуваних уявно термінів може слугувати підходом користувача до предметного покажчика. Ці відношення не залежать від документів, оскільки вони загальновідомі і можуть бути встановлені за допомогою стандартних джерел: словників та енциклопедій.

Різницю між цими двома різновидами відношень поміж термінами можна відтворити таким чином:

Цей стандарт має справу в першу чергу з такими апріорними відношеннями, які можуть бути відтворені в тезаурусі, де вони, як показано вище, фактично додають другий вимір мові індексування.

1 СФЕРА ЗАСТОСУВАННЯ

1.1 Рекомендації, які містяться в цьс у стандарті, спрямовані на те, щоб забезпечити їхнє послідовне застосування в межах однієї індексувальної установи або між різними установами (наприклад, членами мережі). До них, однак, не слід ставитися як до обов’язкових інструкцій. У багатьох випадках описуються вибіркові процедури, як, наприклад, у разі відтворення відношень між термінами без конкретних вказівок, якому з методів слід віддати перевагу. Вибір конкретної процедури в тій чи іншій індексувальній установі може варіюватися і залежати від управлінських рішень, які виходять за межі компетенції цього стандарту. Описувана в цьому стандарті методика, по можливості, ґрунтується на найбільш загальних засадах, які можуть бути застосовані у будь- якій предметній галузі. В той же час визнано, що у індексатора, який працює в межах вузької предметної галузі, виникає іноді потреба відійти від цих загальних рекомендацій, і у відповідних випадках це зазначається.

1.2 Описувана в цьому стандарті методика, по можливості, не прив’язана до конкретного методу індексування — посткоординатного чи передкоординатного. На цей стандарт проте накладено такі обмеження:

a) стандарт стосується організації та відтворення термінів, які утворюють контрольовану підмножину природної мови. В ньому немає процедур організації та відтворення математичних і хімічних формул;

b) стандарт ґрунтується, головним чином, на понятті "преференційних термінів" (див. 3.5);

c) застосування стандарту обмежується рамками інтелектуального індексування, коли індексатор (людина) аналізує документи та виражає їхні предмети у термінах контрольованої мови індексування. Стандарт не придатний до застосування в організаціях, що використовують повністю автоматизовані засоби індексування, які передбачають, що терміни, котрі зустрічаються в тексті, впорядковано у множини відповідно до критеріїв, встановлених комп'ютером, наприклад, за частотою їхнього вживання і/або суміжності в тексті. Але все ж вважається, що добре побудований одномовний тезаурус може стати корисним засобом під час пошуку в такій системі на основі вільного тексту;

d) у стандарті розглядаються, головним чином, процедури індексування зібрань документів, перелічених у каталогах чи бібліографіях. Він не призначений для підготування прикінцевих книжкових покажчиків, хоча більшість рекомендованих процедур можуть виявитися корисними для цієї мети.

1.1 Рекомендації, що містяться в цьому стандарті, стосуються одномовного тезауруса і не враховують вимог, які висуваються до багатомовних тезаурусів, тобто до тезаурусів, у яких понятійні еквівалентності виражаються в термінах, що їх вибрано з більш як однієї природної мови. Побудова та супровід багатомовного тезауруса розглядається окремо в ДСТУ 4031. Оскільки засади, на яких ґрунтується цей стандарт, не залежать від конкретної мови та культури, вони також можуть бути прийняті як база для багатомовного стандарту. Тому загальні засади та процедури, придатні для тезаурусів обох типів, повністю висвітлюються тільки в цьому стандарті і не повторюються в ДСТУ 4031.

2 НОРМАТИВНІ ПОСИЛАННЯ

У цьому стандарті є посилання на такі стандарти:

ДСТУ 2395-2000 (ГОСТ 30671-99) (ISO 5963:1985) Інформація та документація. Обстеження документа, встановлення його предмета та відбір термінів індексування. Загальна методика ДСТУ 4031-2001 (ISO 5964:1985) Інформація та документація. Багатомовний тезаурус. Методика розроблення.

3 ВИЗНАЧЕННЯ

У цьому стандарті використовуються такі визначення:

3.1 документ (document): Будь-який елемент даних, надрукований чи поданий якось інакше, який підлягає каталогізації та індексуванню.

Примітка. Це визначення стосується не тільки матеріалів, написаних чи надрукованих на паперових носіях або у вигляді мікроформ (наприклад книги, часописи, діаграми, мапи), але також і недрукованих носіїв (наприклад, машинозчитні записи, фільми, звукозаписи тощо), а також тривимірних об’єктів чи реалій, що використовуються як зразки.

3.2 мова індексування (indexing language): Контрольована множина вибраних з природної мови термінів, що використовуються для представлення у стислій формі предметів документів.

3.3 тезаурус (thesaurus): Словник контрольованої мови індексування (див. 3.2), формально організований таким чином, що апріорні відношення між поняттями (наприклад, "ширший" і "вужчий") мають явне вираження.

3.4 термін індексування (indexing term): Представлення поняття переважно у формі іменника чи іменникового словосполучення.

Примітка. Термін індексування може складатися з більш ніж одного слова і тоді його називають складеним терміном (див. 3.7). У контрольованому словнику індексування термін позначається або як преференційний термін (див. 3.5), або як непреференційний термін (див. 3.6).

3.5 преференційний термін; переважальний термін (preferred term): Термін,, що послідовно використовується під час індексування для представлення даного поняття; іноді називається, "дескриптор".

3.6 непреференційний термін; непереважальний термін (non-preferred term): Синонім чи квазісинонім преференційного терміна. Непреференційний термін не приписується документам, але він становить статтю у тезаурусі чи абетковому покажчику і при цьому користувача скеровують вказівкою (наприклад, ДИВ (дивись)) до відповідного преференційного терміна; іноді називається "недескриптор", або "аскриптор".

3.7 складений термін (compound term): Термін індексування (див. 3.4), який можна морфологічно розкласти на окремі компоненти, кожний з яких може виражатися іменником, котрий може незалежно виступати як термін індексування.

Примітка. Компоненти більшості складених термінів можна розрізнювати, як зазначено нижче:

a) фокус {focus), чи головний термін (head), тобто іменниковий компонент, який ідентифікує загальний клас понять, до якого термін відноситься як ціле.

Приклади

1) іменниковий компонент "покажчики" ["indexes"] у складеному терміні "друковані покажчики" ["printed indexes];

2) іменник "лікарні" ["hospitals"] у прийменниковому словосполученні "лікарні для дітей" ["hospitals for children"];

3) розрізнювач (difference), чи модифікатор (modifier), тобто один чи більше додаткових компонентів, які слугують

для звуження обсягу фокуса шляхом задавання одного з його підкласів.

Приклади

1) прикметник "друковані" ["printed"] у складеному терміні "друковані покажчики" ["printed indexes"];

2) іменник з прийменником "для дітей" ["for children"] у складеному терміні "лікарні для дітей" ["hospitals for children"].

Фокус та його розрізнювач(і) можуть бути написані як окремі слова: "обідні кімнати" ["dining rooms”; "soup spoons"] або одним словом: "спальні” ["bedrooms"; "teaspoons"].

3.8 вузлова мітка (node label): "Фіктивний" ("dummy") термін, який не приписується документам під час індексування, але вноситься до систематичного розділу тезаурусів певного типу для зазначення логічної основи, за якою поділено ту чи іншу категорію; іноді її називають "фасетний індикатор" ("facet indicator").

Приклади За професією За метою Частини [By occupation By purpose Parts]

Примітка. Див. 8.3.3 щодо подальшого опису вузлових міток.

Повна версія документа доступна в тарифі «ВСЕ ВРАХОВАНО».

Увійти в Особистий кабінет Детальніше про тарифи

БУДСТАНДАРТ Online