За какво се използва тезаурусът? Значението на думата тезаурус

Н. В. Лукашевич

[имейл защитен]

Б. В. Добров

Изследователски изчислителен център на Московския държавен университет. М. В. Ломоносов;

АНО Център за информационни изследвания

[имейл защитен]

Ключови думи:тезаурус, извличане на информация, автоматична обработка на текст,

По-голямата част от технологиите, работещи с големи колекции от текстове, се основават на статистически и вероятностни методи. Това се дължи на факта, че лексикалните ресурси, които могат да се използват за обработка на текстови колекции с помощта на лингвистични методи, трябва да имат обем от десетки хиляди речникови статии и да имат редица важни свойства, които трябва да бъдат специално наблюдавани при разработването на ресурса. В доклада разглеждаме основните принципи на разработване на лексикални ресурси за автоматична обработка на големи текстови колекции, използвайки примера на тезауруса на руски език за компютърна обработка на текст RuTez, създаден през 1997 г., който в момента е йерархична мрежа от повече от 42 хиляди понятия . Ние описваме текущото състояние на тезауруса въз основа на сравнение на неговия лексикален състав и текстовия корпус на Университетската информационна система РУСИЯ (www.cir.ru) - 400 хиляди документа. Обсъждат се примери за използване на тезаурус в различни приложения за автоматична текстообработка.

  1. Въведение

В момента милиони документи са станали достъпни в електронен вид, създадени са хиляди информационни системи и електронни библиотеки. В същото време информационните системи, които използват лексикални и терминологични ресурси за търсене, се изчисляват в части от процента. Това се дължи на сериозните предизвикателства пред създаването на подобни езикови ресурси за автоматизирана обработка на съвременни колекции от електронни документи.

Първо, тези колекции обикновено са много големи; ресурсът трябва да включва описания на хиляди думи и термини. Второ, колекциите са набор от документи с различна структура с различни синтактични структури, което затруднява автоматичната обработка на текстови изречения. Освен това важната информация често се разпределя между различни изречения на текста.

Всичко това остро поставя въпроса какъв трябва да бъде езиковият ресурс, който, от една страна, би бил полезен за автоматична обработка и търсене в електронни колекции, от друга страна, би могъл да бъде създаден в обозримо време и да се поддържа с относително малко средства. усилие.

В тази статия ще разгледаме основните принципи на разработване на лексикални ресурси за автоматична обработка на големи текстови колекции. Тези принципи ще бъдат разгледани на примера на тезауруса на руски език, създаден от Центъра за информационни изследвания на ANO от 1997 г. за компютърна обработка на текст RuTez. В момента RuTez е йерархична мрежа от повече от 42 хиляди понятия, която включва повече от 95 хиляди руски думи, изрази и термини. Ще опишем текущото състояние на тезауруса въз основа на сравнение на неговия лексикален състав и речника на текстовия корпус на Университетската информационна система РУСИЯ, поддържана от Изследователския изчислителен център на Московския държавен университет. М. В. Ломоносов и ANO TSII. UIS RUSSIA (www.cir.ru) съдържа 400 хиляди документа на обществено-политически теми (около 3 GB текстове, 200 милиона думи). Статията ще обсъди и примери за използване на тезаурус в различни приложения за автоматична текстообработка.

  1. Принципи за разработване на езиков ресурс

за задачи за извличане на информация

За да се осигури ефективна автоматична обработка на електронни документи (автоматично индексиране, категоризиране, сравнение на документи), е необходимо да се изгради база за тяхното сравнение - списък на това, което е споменато в документа. За да бъде такъв индекс по-ефективен от индекса дума по дума, е необходимо да се преодолее лексикалното разнообразие на текста: синоними, многозначност, части на речта, стилистика и да се сведе до инвариант - понятие, което става основата за сравняване на различни текстове. По този начин понятията трябва да станат основата на езиков ресурс, а езиковите изрази: думи, термини - да станат само текстови входове, които инициализират съответната концепция.

За да могат да се сравняват различни, но сходни понятия, трябва да се установят връзки между тях. Традиционно лингвистичните ресурси за автоматична обработка на текстове на естествен език използват определени набори от семантични отношения, като напр. част, източник, причинаи така нататък. Въпреки това, когато работим с големи и разнородни текстови колекции, трябва да разберем, че с текущото състояние на текстообработващата технология компютърната система няма да може надеждно да открие тези връзки в текста, за да изпълни процедурите, които сме асоциирали с тези или други отношения. Следователно връзките между понятията трябва преди всичко да описват определени инвариантни свойства, които не зависят или слабо зависят от темата на конкретния текст, в който се споменава понятието.

Основната функция на тази връзка е да отговори на следния въпрос:

ако се знае, че текстът е посветен на обсъждане на C1, а C2 е свързано

поведениеРс C1, можем ли да кажем, че темата на текста(*)

свързани с C2?

Когато създаваме езиков ресурс за автоматична обработка, е важно да определим кои свойства на понятията C1 и C2 ни позволяват да установим правилни (*) връзки между тях.

Така например, независимо за какви текстове се пише брези,винаги можем да кажем, че тези текстове са за дървета.Но въпреки популярността и честото обсъждане на връзката дървокато част гори, много малко текстове за дървета са текстове за гори. Имайте предвид, че проблемът не е свързан с името на връзката. Така поляната е част от гората, а текстовете за сечища са текстове за гори.

Инвариантността на отношенията по отношение на спектъра от възможни теми на текстове в дадена тематична област до голяма степен се определя от по-дълбоки свойства от тези, отразени от имената на отношенията, а именно неговия квантор и екзистенциални свойства. По този начин, кванторните свойства на отношенията описват дали всички примери на концепция имат дадена връзка, дали тази връзка продължава през целия жизнен цикъл на примера. Проблем с използването на релация дървогораТова се дължи именно на факта, че не всяко конкретно дърво се намира в гората, но сечището не може да бъде извън гората.

Пример за описание на екзистенциалните свойства на отношенията - следва ли от съществуването на понятието C1 съществуването на понятието C2 (например съществуването на понятието ГАРАЖизисква наличието на понятие АВТОМОБИЛ) или съществуването на примери C1 зависи от съществуването на примери C2 (толкова специфични НАВОДНЕНИЕнеотделима от конкретен пример РЕКИ). Обсъждането в текста на зависимото понятие C2, особено в зависимост от примера, предполага, че текстът е свързан и с основното понятие C1.

Нека разгледаме връзката между понятията ГОРА и ДЪРВОв детайли. Всъщност част от концепцията ГОРАе ДЪРВО В ГОРАТА, докато ги има СВОБОДНО СТОЯЩО ДЪРВО,ДЪРВО В ГРАДИНАТАи т.н. Във всеки случай е необходимо да се прекъсне връзката на подчинение на понятието ДЪРВОконцепция ГОРА.

От друга страна, ГОРАе вид КОЛЕКЦИИ ОТ ДЪРВЕТА, не съществува без дървета (както и ГРАДИНА). По този начин концепцията ГОРАтрябва да е във връзка с концепцията ДЪРВО. Започвайки с анализ на нуждите на конкретни приложни проблеми, стигнахме до извода, че е важно да опишем дълбоките свойства на отношенията, които преди това бяха много малко отразени в езиковите ресурси, но които са от първостепенно значение за задачите на автоматичната обработка на големи текстови колекции и, вероятно, за много други задачи.

Сега моделираме описанието на квантора и екзистенциалните свойства на понятията с набор от традиционни тезаурусни отношения ГОРЕ-ДОЛУ (66% от всички отношения), ЧАСТ-ЦЯЛО (30% от отношенията), АСОЦИАЦИЯ (4%), в комбинация с определен набор от допълнителни модификатори (20% от отношенията са маркирани). Имайте предвид, че връзките ЧАСТ-ЦЯЛО и АСОЦИАЦИЯ се интерпретират, като се вземе предвид правилото (*). Общо са описани около 160 хиляди преки връзки между понятията, което, като се вземе предвид преходността на отношенията, дава общ брой различни връзки от повече от 1350 хиляди връзки, т.е. средно всяко понятие е свързано с 30 други .

  1. Тезаурус на RuTez: обща структура

Тезаурусът RuTez е йерархична мрежа от понятия, съответстващи на значенията на отделни думи, текстови изрази или синонимни серии. По този начин основните елементи на тезауруса са понятия, езикови изрази, връзки между езикови изрази и понятия и връзки между понятия.

Тезаурусът обединява в единна система както лингвистични знания - описания на лексеми, идиоми и техните връзки, традиционно свързани с лексикални, семантични знания, така и знания за термини и отношения в предметни области, традиционно свързани със сферата на дейност на терминолозите, описани в тезауруси за извличане на информация. Като такива предметни подобласти тезаурусът описва предметни области като икономика, законодателство, финанси, международни отношения, които са толкова важни за ежедневния човешки живот, че имат значително лексикално представителство в традиционните тълковни речници. В тях лексикалното и терминологичното са тясно взаимосвързани и силно взаимодействат помежду си.

Езиковите изрази са отделни лексеми (съществителни, прилагателни и глаголи), номинални и глаголни групи. По този начин тезаурусът в момента не включва наречия и функционални думи като езикови изрази. Многословните групи могат да включват термини, идиоми, лексикални функции ( влияниед).

За всеки езиков израз е описано следното:

Неговата полисемия е връзка с едно или повече понятия, което означава, че даден езиков израз може да служи като текстов израз на това понятие. Приписването на езиков израз на различни понятия също е имплицитна индикация за неговата многозначност;

Морфологичният му състав (част на речта, число, падеж);

Характеристики на писане (например с главна буква) и др.

Всяко понятие от тезауруса има уникално име, списък с езикови изрази, с които това понятие може да бъде изразено в текста, и списък от връзки с други понятия.

Едно от неговите недвусмислени текстови изрази обикновено се избира като уникално име за концепция. Но името на едно понятие може да бъде образувано и от двойка негови двусмислени текстови изрази - синоними, написани разделени със запетаи и недвусмислено го определящи (например понятието ДЕБЕЛ). Двусмислен текстов израз на името на концепция може също да бъде снабден с маркировка или съкратен фрагмент от тълкуване, например концепция ТЪЛПА (ГРУПА ХОРА).

  1. Примерен речников запис

Избрахме като пример речниковия запис за понятието ГОРА, отговарящ на едно от значенията на думата гора. Тази речникова статия е интересна, защото включва различни видове знания, традиционно класифицирани като лексикални (семантични) знания и енциклопедични знания (познания за предметната област, терминология).

Синоними на понятието ГОРА(общо 13):

гора(М), горска зона, горска среда,

гора, горски квартал, горски пейзаж,

горска местност, гориста местност, гориста местност,

горска площ, малка гора,

масив от гори.

По-долу понятия със синоними:

ДЖУНГЛА(джунгла);

ГОРСКИ ПАРК(градска градина, зелена площ,

зелена площ, горски парк,

лесоустройство, лесопарк

колан, парк(М), паркова зона);

ГОРСКО СТОПАНСТВО;

ЛИСТНА ГОРА(меколистна гора, твърдолистна

гора);

ГОРИЧКА(дъбова горичка);

ИГЛОЛИСТНА ГОРА (иглолистна гора, тъмна иглолистна гора)

Понятия-части със синоними:

WINDBREAK(неочакван прилив, неочакван прилив);

РЯЗАНЕ(площ на рязане);

ГОРСКА КУЛТУРА(горски видове, лесовъдство

култура);

ГОРСКИ ЗЕМИ (горски земи; земи покрити

гора; горски земи, горска територия;

залесена земя, залесена

■ площ);

ГОРСКИ НАСАДЕНИЯ(горски насаждения, горски насаждения,

залесяване);

КРАЙ НА ГОРАТА(ръб, ръб);

ПОДЛЕЗЕН (подраст);

ПРОСЕКА;

СУХИ ДЪРВА(мъртва дървесина).

Тук символите (M) отразяват забележка относно неяснотата на въведения текст.

Концепция ГОРАТой има и други връзки, така наречените отношения на зависимост (в съвременната версия те се наричат ​​ASC 2 - асиметрична асоциация): ГОРСКИ ПОЖАРИ(горски пожар, пожар в гората; ПОЛЗВАНЕ НА ГОРАТА (ползване на горите, ползване на територии от горския фонд); ГОРСКО СТОПАНСТВО; ЛЕСОНАУКА (наука за горите). Както вече беше отбелязано в параграф 2, концепцията за ГОРА зависи от концепцията за ДЪРВО, което в тезауруса се обозначава с връзката ASC 1.

Пълна концепция ГОРАе свързан директно с 28 други понятия, като се вземе предвид преходността на отношенията - с 235 понятия (общо повече от 650 текстови входа).

  1. Оценка на текущото състояние

Тезаурус на руски език rutez

5.1. Лексикален състав

В момента тезаурусната мрежа включва повече от 95 хиляди езикови израза, от които 61 хиляди са еднословни.

Този обем работа ни принуди да решим какви думи и езикови изрази трябва да бъдат включени в описанията на тезауруса. Естественото желание беше да се види как са представени най-често срещаните думи в руския език в тезауруса. За целта е използвана текстовата колекция на Университетската информационна система РУСИЯ (400 хиляди документа). Колекцията съдържа официални документи от различни органи на Руската федерация (55 хиляди документа от 1992 г.), както и материали от пресата от 1999 г. насам (вестници Известия, Независимая газета, Комсомолская правда, Аргументы и факти, сп. Експерт и др.), материали от науч. списания („Бюлетин на Московския университет“, „Социологически журнал“). Направено е сравнение между списъка с леми, включени в тезауруса, и списъка с най-често срещаните 100 000 леми в колекцията от текстове (честота над 25).

Полилексемното маркиране на списъка показа, че сред тези сто хиляди леми 35 хиляди са описани в RuTez, само около 7 хиляди лексеми заслужават включване в тезауруса, останалите са лемматични варианти на различни собствени имена. Следователно попълването е престанало да бъде приоритетна задача и се извършва постепенно, като се започне с най-честите думи. Предполага се, че веднага щом този списък бъде почти изчерпан, ще бъде направено ново сравнение с текстовия масив на информационната система, ще бъдат избрани нови лексеми с честота над 25. След това се предполага, че прагът на видимост ще бъде намален. . Наличието на голям брой текстови примери в текстовата колекция ви позволява бързо да реагирате на „лексикални иновации“ (например, инсталация,блокбъстър, бомонд, трилър) и ги включете на подходящите места в йерархичната система на тезауруса.

Постоянната работа с текуща текстова колекция предоставя уникални възможности за проверка на значимостта и качеството на лексикалните описания, предложени в речниците. Например необичайно висока честота на използване на думата Майка Виж(повече от 400 пъти). Проверката на масива показа, че думата наистина често се използва като синоним на думата Москва, докато тълковните речници често отбелязват тази дума като остаряла. Друг пример за често използвана дума (повече от 300 пъти), отбелязана като остаряла в речниците, е думата блажен.

5.2 Описание на значенията на думите

Сравнението с текстовата колекция показва, че много от често срещаните думи в масива са добре представени в тезауруса в поне едно от техните (обикновено основни) значения. Да разберем до каква степен спектърът от значения на многозначните думи в руския език е представен в тезауруса е нашата основна задача в момента.

Както е известно, често различните речникови източници дават различен набор от значения за многозначните думи, подчертават нюансите на значението и един и същи тип многозначност може да бъде описан по различен начин за различни думи дори в един и същи речник. Следователно задачата за последователно и представително описание на значенията на лексемите е важна задача за създателите на всеки речников ресурс.

Ако обаче ресурсът е предназначен за автоматична обработка, тогава задачата за балансирано описание на стойностите става много по-важна. Прекомерното увеличаване на стойността може да доведе до невъзможност на компютърната система да избере желаната стойност, което от своя страна води до значително намаляване на производителността на системата за автоматична текстообработка. И така, един от недостатъците на ресурса WordNet като ресурс за автоматична текстообработка е прекомерният брой значения, описани за някои думи (в WordNet 1.6: 53 значения за тичам, 47 фор играяи така нататък.). Тези значения са трудни за разграничаване дори за хората, когато семантично анотират текстове. Ясно е, че компютърната система също не може да се справи с избора на подходящата стойност. Ето защо различни автори предлагат различни начини за комбиниране на стойности за подобряване на качеството на обработка.

В същото време действа и обратният фактор: ако значенията наистина се различават в техния набор от речникови връзки (в нашия случай тезаурусни връзки) - те не могат да бъдат слепени в една единица (едно понятие) - това също ще доведе до влошаване на качеството на автоматичната обработка.

Да вземем пример с думите училищеИ църква, всяка от които може да се разглежда като организация и като сграда.

Всяка училищна организация има сграда (най-често една). Всички части на училищната сграда (класни стаи, дъски) са свързани с училищекак да една организация. Няма специфични видове училищни сгради. Следователно описанието училищаКато сгради е неуместно да се отделят в отделна концепция. Въпреки това, описанието на такова колективно понятие УЧИЛИЩЕкато организация и като сграда трябва да има специално проектирана връзка с концепцията СГРАДА. Когато се описват такива връзки в тезауруса, се използва знак за връзката - модификаторът „А“ („аспект“; по време на автоматичен анализ е необходимо „потвърждение“ от други понятия, за да се вземе предвид тази връзка).

УЧИЛИЩЕ

ПО-ВИСОК ОБРАЗОВАТЕЛНА ИНСТИТУЦИЯ

НАД А ОБЩЕСТВЕНА СГРАДА

Съответстващи значения на думата църкване толкова близо. ЦърквиКато организация може да има голям брой църковни сгради на различни места, а също така има много други сгради. Строителство на църквае тясно свързано с религията и изповеданието, но може да променя принадлежността си църковни организации. Църква-организацияИ църковно-строителенимат различни подвидове. Ето защо ЦЪРКВА (ОРГАНИЗАЦИЯ) И ЦЪРКВА (СГРАДА)са представени в RuTez като различни концепции.

Значителното разминаване в тезаурусните връзки корелира по интересен начин със способността на денотатите, съответстващи на значенията, да съществуват отделно едно от друго. По този начин една църковна сграда не престава да съществува и дори да се нарича църква, дори когато предназначението й се промени, за разлика от училищната сграда.

Процесът на проверка на представянето на стойностите в тезауруса е в ход непрекъснато, като се започне с най-честите леми. За всяка честотна лексема се проверява как нейните значения са описани в тълковните речници, какви значения са използвани в сборника и как са представени в Тезауруса. В резултат на това вече е оформен списък от 10 000 лексеми, чиято неяснота все още изисква или допълнителен анализ, или допълнително описание. Списъкът е получен въз основа на 30 хиляди от най-често срещаните леми.

Трябва да се отбележи, че в тезауруса проблемът с полисемията е частично премахнат поради факта, че тезаурусните връзки могат да бъдат описани между различни значения на една дума и следователно най-високото понятие в йерархията може да бъде избрано по подразбиране. Определено беше обсъдено в текста. Например думата снимкаима три значения: фотография като сфера на дейност, фотография като фотографско изображение, фотография като фото студио:

ФОТОГРАФИЯ(фотографиране, фото бизнес, ..., снимка )

ЧАСТ ФОТОГРАФСКО ИЗОБРАЖЕНИЕ

(снимка, снимка, снимка )

ЧАСТ ФОТО СТУДИО (снимка ).

По този начин, ако не беше възможно да се разбере какво значение е използвана думата снимка, по подразбиране се приема, че е направена снимка (на процес, резултат или местоположение), което е достатъчно за много приложения за автоматична обработка на текст.

  1. Приложение на тезауруса RuTez

за автоматична обработка на текст

От 1995 г. социално-политическата терминология RuTez (социално-политически тезаурус) се използва активно и успешно за различни приложения на автоматична обработка на текст, като автоматично концептуално индексиране, автоматично рубрикиране с помощта на няколко рубрикатора, автоматично анотиране на текстове, включително на английски език нечий. Социално-политически тезаурус (27 хиляди понятия, 62 хиляди текстови записа) е основен инструмент за търсене в системата за търсене на UIS RUSSIA (www.cir.ru).

Целият речник на тезауруса на RuTez се използва в процедури за автоматично категоризиране на текстове с помощта на сложни йерархични рубрикатори. В съществуващата технология всяка категория се описва като булев израз на термини, след което оригиналната формула се разширява по протежение на йерархията на тезауруса. Полученият булев израз може вече да включва стотици и хиляди конюнкти и дизюнкти.

Нека дадем като пример фрагмент от описание, използващо тезаурусни понятия (и езикови изрази след разширяване на формулата) на рубриката „Образ на жена“ на рубрикатора SOFIST 2, използван от VTsIOM за класифициране на въпросници за проучване на общественото мнение:

(ЖЕНА[N]

|| МОМИЧЕ[N]

|| РОДНИНА [L] (баба, внучка, братовчедка,

дъщеря, снаха, майка, мащеха, снаха, доведена дъщеря, ...))

(ЧЕРТА НА ХАРАКТЕРА[L] (пестелив, безсърдечен, забравящ,

несериозен, подигравателен, нетолерантен, общителен, ...)

|| ИЗОБРАЖЕНИЕ [E] (представяне, външен вид, външен вид,

външен вид, външен вид, изображение, вид)

|| ПРИЯТНО [L] (..., интересно, красиво, сладко,

привлекателен, сладък, привлекателен, ...)

|| НЕПРИЯТЕН[L] (несимпатичен, груб, гаден, ...)

|| ОЦЕНЯВАМ [L] (да почитам, обожавам, обожавам,

обожавам, обожавам, ...)

|| ПРЕДПОЧИТА[N]

Символът “E” означава пълно разширяване по йерархията на тезауруса, символът “L” - според родовите отношения (“ДОЛУ”), символът “N” - не се разширява.

Провеждат се изследвания за разработване на комбинирана технология за автоматично категоризиране на текстове, съчетаваща знания за тезауруса и процедури за машинно обучение.

Проучват се проблемите с използването на тезаурус за разширяване на заявка, формулирана на естествен език (в момента само социално-политическата част на тезауруса се използва за разширяване на терминологична заявка в системата за извличане на информация на UIS РУСИЯ) и търсенето на отговори на въпроси в големи колекции от текстове.

7. Заключение

Статията представя основните принципи на разработване на езикови ресурси за автоматична обработка на големи текстови колекции. Създаденият лингвистичен ресурс - Тезаурус на руския език RuTez - е предназначен за използване в такива приложения за автоматична обработка на текст като концептуално индексиране на документи, автоматично рубрикиране според сложни йерархични рубрикатори, автоматично разширяване на заявки на естествен език.

Тази работа е частично подкрепена от грант на Руската хуманитарна фондация № 00-04-00272a.

Литература

  1. Лукашевич Н.В., Салий А.Д., Представяне на знания в системата за автоматична обработка на текст //НТИ, Сер.2. 1997. № 3. С. 1-6.
  2. Журавлев С.В., Юдина Т.Н., Информационна система РУСИЯ //НТИ, Сер.2. 1995. № 3. С. 18-20.
  3. Уинстън М., Чафин Р., Херман Д., Таксономия на отношенията част-цяло // Когнитивната наука. 1987. бр. 11. С. 417-444.
  4. Priss U.E., Формализацията на WordNet чрез методи за релационен концептуален анализ // WordNet. Електронна лексикална база данни/Изд. от C. Fellbaum. Кеймбридж, Масачузетс, Лондон, Англия.: The MIT Press 1998. P. 179-196.
  5. Guarino N., Welty C., Формална онтология на свойствата // Доклади на семинара ECAI-00 за приложения на онтологии и методи за решаване на проблеми. Берлин: 2000. С. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Някои онтологични принципи за проектиране на лексикални ресурси от по-високо ниво // First Int. конф. относно езиковите ресурси и оценката. 1998 г.

  1. Лукашевич Н.В., Добров Б.В., Модификатори на концептуални отношения в тезауруса за автоматично индексиране // НТИ, Сер.2. 2000, № 4, стр. 21-28.
  2. Голям обяснителен речник на руския език / Изд. S.A. Кузнецова. СПб.: Норинт, 1998.
  3. Ожегов С.И., Шведова Н.Ю., Обяснителен речник на руския език - 3-то издание. М.: Аз, 1996.
  4. Апресян Ю.Д., Избрани произведения, том I. Лексикална семантика: 2-ро изд. М .: Школа „Езици на руската култура“, Изд. Фирма "Източна литература" РАН, 1995 г.
  5. Г. Милър, Р. Бекуит, К. Фелбаум, Д. Грос и К. Милър, Пет статии за WordNet, Доклад на CSL 43. Лаборатория за когнитивни науки, Принстънски университет, 1990 г.
  6. Chugur, J. Gonzalo и F. Verdjeo, Sense distinctions in NLP applications // Proceedings of “OntoLex-2000”: Ontologies and Lexical Knowledge Bases. София: OntoTextLab. 2000 г.
  7. Лукачевич Н., Добров Б., Базирано на тезаурус структурно тематично резюме в многоезични информационни системи // Преглед на машинния превод. 2000. бр. 11. С. 10-20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Тезаурус на руски език за обработка на естествен език

на големи текстови колекции

Наталия В. Лукачевич, Борис В. Добров

Ключови думи:тезаурус, обработка на естествен език, извличане на информация

В нашата презентация разглеждаме основните принципи на разработване на лексикални ресурси за автоматична обработка на големи текстови колекции и описваме структурата на тезауруса на руския език, който се разработва от 1997 г. специално като инструмент за автоматична обработка на текст. Сега тезаурусът е йерархична мрежа от 42 хиляди понятия. Ние описваме настоящия етап от развитието на тезауруса в сравнение със 100 000 най-често срещани леми от текстовата колекция на Университетската информационна система РУСИЯ (www.cir.ru), включително 400 хиляди документа. Също така разглеждаме използването на тезауруса в различни приложения за автоматична обработка на текст.

, антоними, пароними, хипоними, хиперними и др.) между лексикални единици. Тезаурусите са един от най-ефективните инструменти за описание на отделни предметни области.

В миналото терминът тезаурусОбозначени са предимно речници, представящи лексиката на езика с максимална пълнота с примери за използването й в текстове.

Също термин тезаурусизползва се в теорията на информацията за обозначаване на съвкупността от цялата информация, притежавана от субекта.

В психологията тезаурусът на индивида се характеризира с възприемането и разбирането на информация. Теорията на комуникацията също така разглежда общия тезаурус на сложна система, чрез която нейните елементи взаимодействат.

История

Един от първите тезауруси се нарича „Речник на синонимите“ от Филон от Библос. По-точно съответствие на термина е Амара-коша, написана на санскрит в поетична форма през 6 век. Първият съвременен английски тезаурус е създаден от Питър Марк Роджър през 1805 г. Публикувана е през 1852 г. и оттогава се използва без препечатване.

През 70-те години тезаурусите започват да се използват активно за задачи за извличане на информация. В такива тезауруси думите се съпоставят с дескриптори, чрез които се установяват семантични връзки.

Тезауруси

Вижте също

Напишете отзив за статията "Тезаурус"

Бележки

Откъс, характеризиращ тезауруса

- Какъв денди си днес! – каза Несвицки, гледайки новата си мантия и подложка за седло.
Денисов се усмихна, извади носна кърпичка от чантата си, която миришеше на парфюм, и я пъхна в носа на Несвицки.
- Не мога, отивам на работа! Излязох, измих си зъбите и се парфюмирах.
Достолепната фигура на Несвицки, придружен от казак, и решителността на Денисов, който размахваше сабя и викаше отчаяно, имаха такъв ефект, че те се притиснаха от другата страна на моста и спряха пехотата. Несвицки намери полковник на изхода, на когото трябваше да предаде заповедта, и след като изпълни инструкциите му, се върна.
След като освободи пътя, Денисов спря на входа на моста. Небрежно задържайки жребеца, който се втурна към неговия и риташе, той погледна ескадрилата, движеща се към него.
По дъските на моста се чуха прозрачни звуци на копита, сякаш няколко коня препускаха в галоп, а ескадронът с офицери отпред, четирима в редица, се разтегна по моста и започна да излиза от другата страна.
Спрелите пехотинци, тълпящи се в утъпканата кал близо до моста, гледаха чистите, елегантни хусари, които маршируваха стройно покрай тях с онова особено неприязнено чувство на отчуждение и насмешка, с което обикновено се сблъскват различните родове войски.
- Умници! Само да беше на Подновинское!
- За какво са полезни? Карат само за показ! - каза друг.
- Пехота, не праши! - пошегува се хусарят, при което конят, играейки, пръска кал върху пехотинеца.
„Ако те бях карал през два марша с твоята раница, връзките щяха да са изтъркани“, каза пехотинецът, избърсвайки мръсотията от лицето си с ръкав; - иначе не седи човек, а птица!
„Да можех да те кача на кон, Зикин, да беше пъргав“, пошегува се ефрейторът за слабия войник, превит от тежестта на раницата.
„Вземете тоягата между краката си и ще имате кон“, отговорил хусарят.

Останалата част от пехотата забърза през моста, образувайки фуния на входа. Най-после всички каруци минаха, тръпката намаля и последният батальон влезе на моста. Само хусарите от ескадрона на Денисов останаха от другата страна на моста срещу врага. Врагът, който се виждаше в далечината от отсрещната планина, отдолу, от моста, все още не се виждаше, тъй като от котловината, по която течеше реката, хоризонтът завършваше на противоположната височина на не повече от половин миля. Отпред имаше пустиня, по която тук-там се движеха групи от нашите пътуващи казаци. Изведнъж на отсрещния хълм на пътя се появиха войници със сини качулки и артилерия. Това бяха французите. Казашкият патрул се отдалечи с тръс надолу. Всички офицери и мъже от ескадрилата на Денисов, въпреки че се опитваха да говорят за аутсайдери и да се оглеждат, не спираха да мислят само за това, което беше там в планината, и непрекъснато се взираха в петната на хоризонта, които разпознаваха като вражески войски. Следобед времето отново се изясни, слънцето залезе ярко над Дунава и тъмните планини около него. Беше тихо и от тази планина от време на време се чуваха звуци на клаксони и писъци на врага. Между ескадрона и враговете нямаше никой, освен малки патрули. От него ги деляше празно пространство, триста сажена. Противникът престана да стреля и все по-ясно се усети онази строга, заплашителна, непревземаема и неуловима линия, която разделя двете вражески войски.
„Една крачка отвъд тази линия, напомняща за линията, разделяща живите от мъртвите, и - неизвестността на страданието и смъртта. И какво има там? кой е там? там, отвъд това поле, и дървото, и покрива, огрян от слънцето? Никой не знае, а аз искам да знам; и е страшно да пресечеш тази линия и ти се иска да я пресечеш; и знаеш, че рано или късно ще трябва да го пресечеш и да разбереш какво има от другата страна на линията, точно както е неизбежно да разбереш какво има от другата страна на смъртта. А самият той е силен, здрав, весел и раздразнителен, и заобиколен от такива здрави и раздразнително оживени хора.” Така че, дори и да не мисли, всеки човек, който е в полезрението на врага, го усеща и това чувство придава особен блясък и радостна острота на впечатленията на всичко, което се случва в тези минути.
Димът от изстрел се появи на хълма на врага и гюлето, свистящо, прелетя над главите на хусарския ескадрон. Стоящите заедно офицери отидоха по местата си. Хусарите внимателно започнаха да оправят конете си. Всичко в ескадрилата утихна. Всички гледаха напред към врага и към командира на ескадрилата в очакване на команда. Прелетя още едно, трето гюле. Очевидно е, че са стреляли по хусарите; но гюлето, свистейки равномерно, прелетя над главите на хусарите и удари някъде отзад. Хусарите не поглеждаха назад, но при всеки звук на летящо гюле, като по команда, целият ескадрон с монотонно разнообразните си лица, задържайки дъха си, докато гюлето летеше, се издигаше в стремената си и падаше отново. Войниците, без да обръщат глави, се споглеждаха косо един друг, любопитно търсейки впечатлението на своя другар. На всяко лице, от Денисов до бъглича, една обща черта на борба, раздразнение и вълнение се появи близо до устните и брадичката. Сержантът се намръщи и огледа войниците, сякаш заплашваше наказание. Юнкер Миронов се навеждаше при всяко подаване на гюлето. Ростов, застанал на левия фланг на докоснатия си крак, но видим Грачик, имаше щастлив вид на студент, извикан пред голяма публика за изпит, на който беше уверен, че ще бъде отличен. Той погледна ясно и светло към всички, сякаш ги молеше да обърнат внимание колко спокойно стои под гюлетата. Но и на лицето му се появи същата черта на нещо ново и строго, против волята му, близо до устата му.
-Кой се кланя там? Yunkeg "Mig"ons! Хексог, погледни ме! - извика Денисов, неспособен да стои мирен и се въртеше на коня си пред ескадрона.
Тъмносото и чернокосо лице на Васка Денисов и цялата му дребна, очукана фигура с жилавата (с къси пръсти, покрити с косми) ръка, в която държеше дръжката на извадена сабя, беше точно както винаги, особено вечер, след изпиване на две бутилки. Беше само по-червен от обикновено и вдигнал рошавата си глава нагоре, като птици, когато пият, безмилостно натискайки шпори в хълбоците на добрия бедуин с малките си крака, той, сякаш падаше назад, препусна в галоп към другия фланг на ескадрила и извика с дрезгав глас да бъдат прегледани пистолети. Той се приближи до Кирстен. Капитанът на щаба, на широка и спокойна кобила, яздеше с крачка към Денисов. Щабс-капитанът с дългите си мустаци беше сериозен както винаги, само очите му блестяха повече от обикновено.
- Какво? - каза той на Денисов, - няма да се стигне до бой. Ще видиш, ще се върнем.
"Кой знае какво правят", измърмори Денисов. "А! G" скелет! - извика той на юнкера, като забеляза веселото му лице. - Е, изчаках.
И той се усмихна одобрително, явно зарадван на кадета.
Ростов се почувства напълно щастлив. В това време на моста се появи началникът. Денисов препусна към него.
- Ваше превъзходителство! Нека нападна! Ще ги убия.
„Какви атаки има“, каза началникът с отегчен глас, трепвайки като от досадна муха. - И защо стоите тук? Виждате ли, фланговете отстъпват. Поведете ескадрилата обратно.
Ескадронът прекоси моста и избяга от стрелбата, без да загуби нито един човек. След него премина вторият ескадрон, който беше във веригата, а последните казаци прочистиха тази страна.
Два ескадрона жители на Павлоград, прекосили моста, един след друг се върнаха в планината. Командирът на полка Карл Богданович Шуберт се приближи до ескадрилата на Денисов и яздеше с крачка недалеч от Ростов, без да му обръща внимание, въпреки факта, че след предишния сблъсък над Телянин сега те се видяха за първи път. Ростов, чувствайки се на фронта във властта на човек, пред когото сега се смяташе за виновен, не откъсна очи от атлетичния гръб, русия тил и червената шия на командира на полка. На Ростов се стори, че Богданич само се преструва на невнимателен и че цялата му цел сега е да изпита смелостта на кадета, той се изправи и весело се огледа; тогава му се стори, че Богданич нарочно язди близо, за да покаже смелостта си на Ростов. Тогава той си помисли, че врагът му сега нарочно ще изпрати ескадрон в отчаяна атака, за да накаже него, Ростов. Смятало се, че след нападението той ще дойде при него и щедро ще протегне ръката на помирение към него, ранения.

3.1. Концепция за тезаурус

Тезаурус (от гръцки θήσαϋροξ - съкровище, запас) или идеографски речник (от гръцки idea - понятие, представяне, идея и grapho - пиша, описвам) - в съвременната лингвистика: 1) специален тип речник на обща или специална лексика, който съдържа семантични отношения между лексикални единици; 2) речник за търсене на дума въз основа на нейната семантична връзка с други думи; 3) определен начин на организиране (подреждане) на думите в речника; 4) начин за организиране на лексикалния състав, който ви позволява икономично да „моделира света“.

В първото, първоначално значение - хранилище, съкровище, терминът тезаурус е използван от Л.В. Щерба в статията „Опитът на общата лексикография“ (трета опозиция: тезаурус - обикновен (обяснителен или преводен) речник). Ученият пише: „Когато казват тезаурус, днес най-често имаме предвид „Thesaurus linguae latinae“, предприятие на пет немски академии, започнало през 1900 г. и досега доведено с пропуски само до буквата М. Характерна черта Този тип речник се състои в това, че те съдържат абсолютно всички думи, които се срещат на даден език поне веднъж, и че под всяка дума са дадени абсолютно всички цитати от текстове, налични на даден език. Основата на горната опозиция - тезаурус - обикновен (тълковен или преводен) речник - е противопоставянето на „езиков материал“ и „езикова система“ - понятия, които се опитах да обоснова в статията си „За тристранния аспект на езиковите явления и върху експеримента в лингвистиката.

Второто значение на този термин е свързано с широко известния речник-тезаурус „Тезаурус на английските думи и изрази“ на П.М. Роджър (Thesaurus of English Words and Phrases на Roget, 1852) и неговото продължение, речникът на О. В. Баранов.

В това тълкуване терминът тезаурус обозначава определен начин за организиране и подреждане на лексикалния състав в речника (виж третото значение на термина).

Четвъртото значение на термина тезаурус е свързано с всеобщото признание на този метод за организиране на лексикалния състав, който позволява икономично „моделиране на света“. От тази гледна точка тезаурусният речник е „систематично подреждане на речника на всяка научна или техническа област и в най-обща форма - общ литературен речник и освен това целия речник на даден език“.

Според Ю.Н. Караулова, общ езиков тезаурус, който фиксира в структурата и отношенията на своите заглавия, раздели, зони, области широките възможности за невербална връзка на идеи, осигурява отчитане на човешките ценности.

А.Н. Баранов и Д.О. Доброволски в предговора „От редакцията“ към неговия „Речник-тезаурус на съвременните руски идиоми“ дава на тезауруса следното определение - специален тип речник, който се различава от другите (по-специално, обяснителен, двуезичен и т.н.) по начина, по който организиране на езиков материал. В тезаурус езиковите единици не са представени по азбучен ред, както в обикновения речник, а са групирани въз основа на тяхното значение.

Л.П. Крисин нарича тезаурус (идеографски речник) специален вид обяснителен речник, речник „напротив“. „Ако в тълковния речник, пише ученият, „записът“ към речникова статия е дума, а съдържанието на речниковата статия е тълкуването на значението на тази дума, тогава в идеографския речник „записът“ е значението, идеята (оттук и името на този тип речник - идеографски), а съдържанието на речникова статия е списък от думи, изразяващи дадено значение. И ако обяснителният речник е незаменим инструмент за разбиране на текст, тогава идеографският речник може да се използва за генериране на текст: много често човек иска да изрази определена мисъл, но не може да намери думите, подходящи за това; идеографски речник улеснява тези търсения. Има два основни типа тезауруси:

лингвистичен тезаурус - речник, съдържащ списък от думи на естествения език, избрани в резултат на съдържателен анализ на текстове и систематизирани в съответствие с приетата система за класификация;

статистически тезаурус - речник за търсене на информация, съдържащ списък от думи, избрани в резултат на статистически анализ на текстове по конкретна тема и групирани в речникови статии въз основа на честотата на съвместно срещане на тези думи в едни и същи текстове.

Тезаурусите за търсене на информация (IRT) улесняват търсенето на информация по време на нейната автоматична обработка. IPT максимално разкрива семантичните отношения между лексикалните единици. Както е посочено в GOST за IPT, „едноезичен тезаурус за извличане на информация е контролиран и променящ се речник на лексикални единици, базиран на речника на един естествен език, показващ семантични връзки между лексикални единици и предназначен за обработка и извличане на информация.“

Основната единица на IPT са дескрипторни термини. Азбучната, лексико-семантична част на IPT е набор от дескрипторни статии.

Описателните речници са предназначени да опишат напълно речника на определена област и да записват всички употреби в нея; записват всички налични релевантни случаи. Типичен пример за описателен речник е „Обяснителен речник на живия великоруски език“ на В.И. Дал (първото издание в четири тома е публикувано през 1863-1866 г.). Целта на неговия създател не беше да стандартизира езика, а да опише напълно цялото многообразие на великоруската реч - включително нейните диалектни форми на народния език.

Всеки запис в речника на дескриптора започва с дескриптор, в който синонимите на този дескриптор, както и други лексикални единици, свързани с основния дескриптор чрез родово-видови или асоциативни отношения, са дадени по-долу в статията на GOST.

По този начин тезаурусите, особено в електронен формат, са един от ефективните инструменти за описание на отделни предметни области.

Тезаурусът рядко се среща в чист вид. В истинските тезауруси оригиналната идея е опростена или чужда, но потенциално необходима информация, която се добавя към потребителя. Най-известните днес са „Руски семантичен речник“ на Ю.Н. Караулова, „Речник на еднакви имена” Н.Ю. Шведова, „Тематичен речник на руския език“ от Л.Г. Смехова и др.

Резюме. Термин от тезауруса L.V. Щерба го използва във връзка с речник, който записва, ако е възможно, всички контексти, в които се среща дадена дума. Характерна особеност на тезаурусите е, че те изброяват всички думи, които се срещат на даден език поне веднъж, като под всяка дума са дадени всички цитати от текстове, налични на този език. Съдържанието на тезаурусния речник е езиков материал, а редовният речник е езиков материал и езикова система (термини на L.V. Shcherba).

Тази характеристика се допълва от кръстосани връзки от различни видове - често парадигматични (синонимни или антонимични), които показват общност или противопоставяне на значения. В допълнение, различни видове асоциации. връзки (т.е. връзки на синтагми).

По този начин задачата на тезаурус (идеографски речник) е да даде представа за семантичната организация на определен напречен разрез на езиков материал, показвайки основните семантични полета, тяхната вътрешна структура и външни връзки. Тезаурусът е ясна демонстрация на системната природа на езика, позволяваща да се видят много видове връзки, свързващи отделни езикови единици и групи от единици.

3.2. Историята на представянето на концептуално знание за света под формата на тезаурус

Необходимостта да се подредят думите според сходството, близостта и аналогията на техните значения се е усещала през цялата наблюдавана история на човешката мисъл.

За да проследим произхода на идеята за представяне на концептуално знание за света под формата на тезаурус, ще ни помогне да се обърнем към историята на съставянето на тезауруси (идеографски речници).

Така в зората на цивилизацията, когато хората са можели да изразяват мислите си писмено само с помощта на идеограми и символи, вероятно единственият възможен речник е бил този, в който думите са подредени в тематични групи. Просто за лексикографа по онова време беше трудно да намери друг критерий за класифициране на думите, различен от отношенията, които съществуват в самата реалност.

За съжаление нямаме доказателства дали народите, използвали идеографска писменост, наистина са имали такива речници. Сред най-древните опити за идеографска класификация, познати ни, е Attikai Lexeis на гръцкия граматик, директор на Александрийската библиотека, Аристофан от Византион (починал 180 г. пр. н. е.).

През II век. н. д. се появява основният труд „Ономастикон“, съставен върху материал от гръцки език от лексикографа и софиста Юлий Полукс (истинско име Полидевк), родом от египетския град Навкратис. Ю. Полукс е написал няколко творби, но само „Ономастикон” е достигнал до нас (Полукс Ю. Ономастикон. М., 1956).


Ономастиконът се състои от 10 книги. Книгите по същество са отделни трактати и съдържат най-важните думи, свързани с определена тема. И така, първата книга говори за богове и крале; във втория - за хората, техния живот и физиологично устройство; в третата - за родствени и граждански отношения и пр. Включените в речника думи са придружени с кратки тълкувания. В днешно време речникът е публикуван за първи път през 1502 г. във Венеция.

Между 2-ри и 3-ти век. н. д. Публикуван е прекрасният санскритски речник „Амаракоша” (Amarakosha. Париж, 1839 г.). Негов автор е древният индийски поет, граматик и лексикограф Амара Сина, който е наричан „една от деветте перли, които красят трона на Викрамадитя“. Амаракоша в превод на руски означава съкровищницата на Амара. Речникът съдържа 10 хиляди думи. За по-добро запомняне на тълкуването на значенията на думите, речниковите статии са изградени под формата на стихотворения. Всички речникови материали са разделени в 3 книги. Всяка книга включва няколко глави, а главата от своя страна, ако е необходимо, е разделена на няколко раздела. Първата книга е посветена на небето, боговете и всичко, което е пряко свързано с тях. Втората книга съдържа думи, свързани със земята, селищата, растенията, животните и хората (първо човекът се разглежда като живо същество, а след това като социално същество; пред очите ни се появява цялата кастова структура на съвременното общество на автора; свещеници , като Божии попечители, са най-отгоре, а по-долу са военните и царете, още по-ниско са земевладелците, а най-долу са занаятчиите, жонгльорите, слугите и т.н.). Третата книга е строго лингвистична, както става ясно от заглавията на нейните шест глави.

Речникът става известен на европейските учени едва в края на 18 век, когато първата му част е публикувана в Рим през 1798 г. Публикуван е изцяло с превод на английски през 1808 г. от английския санскритски учен G.T. Колбрук (N.T. Colebrooke). През 1839 г. се появява френският му превод, направен от A.L. Делоншам (A.L. Deslongchamps). По-нататъшното развитие на идеята за семантична класификация на лексиката е свързано с проблема за така наречения световен език.

Резюме. Това в най-общ план е първият етап от развитието на традицията на идеографска класификация на лексиката. Този етап може да се нарече предистория на идеографските речници. Сега е препоръчително да се обърнем към съвременната класификация на тезаурусните речници.

Лесно се вижда колко различни са описаните произведения от азбучните речници. Ако в азбучните речници представянето на думите се регулира от такъв конвенционален и силно неутрален инструмент като азбуката, тогава при изграждането на идеографски речник светогледът на самия лексикограф става решаващ.

3.3. Принципи на класификация на речниците-тезауруси

Както вече беше показано по-горе, проблемът за съставянето на класификация на тезаурусите не е нов и в продължение на няколко десетилетия привлича вниманието на редица местни и чуждестранни лингвисти (C. Marello, V. V. Morkovkin, L. P. Stupin, V. V. Dubichinsky и др. ). Резултатът от изследванията в тази област е създаването на алтернативни класификации на тези лексикографски произведения. Една от най-новите класификации се основава на следните критерии: а) вида на семантичните връзки между речниковите единици; 2) обем на речниковия запас; 3) обобщаване на речниковия запас; 4) развитие на значението на лексемите; 5) граматична и стилистична квалификация на лексемите; 6) демонстрация на функционирането на лексемите; 7) брой представени езици; 8) вида на семиотичните средства, използвани за семантизиране на лексемите. Тази класификация се основава на създадените по-рано класификации от O.M. Карпова и И. Бурханов (Burchanov I. On the Ideographic Description of Stylistically and Pragmatically Relevant Aspects of Lexical Meanings. London, 1996); терминологията, използвана при класификацията, се въвежда в лексикографския апарат


В.В. Морковкин, Ю.Н. Караулов, К. Марело. Критериите за класификация са формулирани от O.M. Карпова. В същото време К. Марело разграничава три вида тезауруси:

кумулативни, които са групи от думи без дефиниране на техните значения;

дефинитивни, тълкуващи всяка лексикална единица от група думи;

дву- и многоезични тезауруси за пътешественици (Marello C. Thesaurus//W.D.D. 1990. V. 2. P. 1083).

Кумулативните тезауруси не само дават възможност да се намери по-разбираема, точна, стилистично правилна дума в ситуацията на намиране в определено семантично поле, но и стават основа за формирането на тематични компютърни банки от данни.

Окончателните тезауруси могат да включват, наред с дефинициите на значението, етимологична информация и цитати от литературни произведения, което показва пряката енциклопедична насоченост на този тип тезаурус. В допълнение, речниците от този тип въвеждат потребителя в необходимата система от понятия, обясняват същността, приликите и разликите на понятията, техните парадигматични и синтагматични връзки, а понякога и предоставят информация за произношението, граматическите, словообразувателните и други възможности на лексикални единици, обозначаващи тези понятия.

Двуезични и многоезични тезауруси за пътници обикновено се създават според тематични раздели: номера, храна, транспорт, хотели и др. с преводни еквиваленти на два или повече езика.

За да се покажат възможно най-пълно видовете съществуващи тезаурусни речници, се създава многостепенна класификация. Първо, според вида на семантичните връзки между речниковите единици тезаурусите се разделят на три големи класа:

1. Асоциативен тезаурус (терминология на Ю. Н. Караулов

2. Аналогичен тезаурус (терминология на V.V. Morkovkin

3. Идеографски (идеологически) тезаурус (терминология на L.V. Shcherba, V.V. Morkovkin. Горните три вида тезауруси отразяват съответно следните типове семантични връзки на лексемите:

1. Семантико-синтактични връзки, въз основа на които
думите се комбинират в групи или двойки, предопределени в тяхното възникване и съществуване от двойни връзки: семантични и синтактични. Семантичните връзки между думите се установяват главно между глаголи и прилагателни, които изпълняват предикативна функция в изречение, и съществителни, например:

а) между действие и органа (инструмента), с който се извършва: да хващам - ръка, да виждам - ​​око, да плувам - лодка и др.;

б) между глаголи за действие, които изискват един субект и субект: лае - куче, цвили - кон и др.; в) между глаголи и определено граматическо допълнение, което първите изискват: цепя - дърва, ям - храна и др.

Следователно асоциативният тезаурус е речник-тезаурус, който организира лексикални единици въз основа на семантичните и синтактични връзки, които съществуват между тях, и подрежда групи в съответствие с графичната форма на централните думи.

2. Лексико-семантични връзки. Групирането с този тип връзка става според основния признак за думите - лексикалното значение. В този случай се вземат предвид и лексико-граматически връзки, под формата на които се реализират отделни значения на думите.

По този начин аналоговият тезаурус е лексикографски справочник, основната единица на макроструктурата на който е лексико-семантичната група; групите са систематизирани по азбучен ред на семантичните доминанти.

3. Предметни или тематични връзки, при които комбинацията от думи в една група се дължи на сходството или сходството на функциите на обектите и процесите, обозначени с думите: обекти
предмети от бита, части от тялото, видове дрехи, сгради и др.

По този начин идеографският тезаурус е лексикографска работа, която представя лексикални единици като част от предметни (тематични) групи и ги организира в йерархична структура, предназначена да представя концептуализирано знание за света.

В рамките на същия критерий ние допълнително подразделяме типовете. Така идеографският тезаурус е представен от следните 4 вида:


Всъщност идеографски тезаурус.

Тематичен речник.

Систематичен речник.

Тематично-систематичен речник


Самият идеографски тезаурус е специален тип идеографски речник, чиято макроструктура е организирана в съответствие с априорна синоптична карта, насложена върху лексикалния състав на езика. За разлика от други типове идеографски речник, самият идеографски тезаурус се характеризира с логична и строго подредена класификационна структура, създадена въз основа на научна таксономия, дори ако общият речник е обект на лексикографско описание (New Webster "Thesaurus. Landoll, 1991).

Тематичният речник е специален вид идеографски тезаурус, основната единица на макроструктурата на който е тематична група, включваща лексеми, обединени въз основа на класификацията на техните денотати (референти) и разглеждани от гледна точка на съответствие с конкретна тема.

Систематичният речник е специален тип идеографски тезаурус, чиято класификационна структура има за цел да представи действителните семантични връзки, които съществуват между лексикалните единици на даден език. В основата си класификационната структура представлява лексико-граматическата класификация на лексиката, с други думи, нейната парадигматична структура, описана от гледна точка на субординация и състав.

Тематично-систематичният речник е специален вид идеографски речник, който е комбинация от тематичен и систематичен речник.

Резюме. Разгледаната класификация на лингвистичните тезауруси включва следните видове речници: аналогов тезаурус (терминология на В. В. Морковкин); идеографски (идеологически) тезаурус (терминология на Л. В. Щерба и В. В. Морковкин); ст.н.с. тезаурус (терминология на Ю.Н. Караулов). След това ще бъде представен поп. тезаурусите и техните характеристики са разкрити.

3.4. Популярни тезауруси и техните характеристики

Най-известният от наличните речници-тезауруси, на които този термин дължи своето съществуване, е създаден върху материала на английския език; това е постоянно препечатван тезаурус от P.M. Тезаурусът на английските думи и изрази на Роджър Роже (1852 г.).

Важно е да се отбележи, че авторът на Тезауруса на английските думи и изрази е използвал напълно наличния дотогава опит. „Принципът, който ме ръководеше, когато класифицирах думите“, пише P.M. Роджър, е същото, което се използва при класифицирането на индивиди в различни области на естествената история. Следователно разделите, които подчертах, съответстват на естествените семейства на ботаниката и зоологията, а сериите от думи са циментирани от същите връзки, които обединяват естествените серии от растения и животни."

следобед Роджър вярваше, че убедителна класификация на думите според техните значения е невъзможна, докато обектите на реалността, наречени тези думи, не бъдат правилно проучени и организирани. Затова той започва работата си, като разделя концептуалното поле на английския език на четири големи класа: абстрактни отношения, пространство, материя и дух (ум, воля, чувства). Тези класове са допълнително разделени на редица родове, които от своя страна са разделени на определен брой видове.

Сред недостатъците на идеографския речник на П.М. Учените приписват на Роджър следното: 1) не съвсем убедителна номенклатура на основните концептуални класове; 2) абстрактната логика преобладава над естествените връзки на думите; 3) относително неудобство при използване (този недостатък е до голяма степен коригиран в следващите издания).

В съвременната руска лексикография има няколко речника, които трябва да бъдат класифицирани като речници-тезауруси (идеографски речници). Това, например, е създадено под ръководството на Ю.Н. Караулова „Руски семантичен речник“, „Руски семантичен речник“ под редакцията на Н.Ю. Шведова, „Тематичен речник на руския език“ от Л.Г. Саяхова, Д.М. Хасанова и В.В. Морковкина, „Речник на лексико-семантичните групи на руските глаголи”, изд. Е.В. Кузнецова, „Идеографски речник на руския език“ O.S. Баранова, „Концептосферата на вътрешния свят на човека на руски език“ от V.I. Убийко, изчерпателен образователен речник „Лексикална основа на руския език“ под ръководството на В.В. Морковкина.

Нека се запознаем с някои от тях.

Речник-тезаурус на съвременните руски идиоми” под редакцията на А.Н. Баранова и Д.О. Доброволски включва четири основни части: 1) синопсис; 2) легенда; 3) основната част на речника-тезаурус; 4) указатели. Целта на Синопсиса е да даде обща представа за структурата на основното тяло на тезауруса. Той изброява всички таксони с подтаксони и съответните парадигматични препратки. Основната част на Тезаурусния речник е колекция от речникови статии, групирани в групи (таксони) и подгрупи (подтаксони) в съответствие със значението на идиомите, описани в тях. Всяка статия съдържа идиом и примери за използването му в съвременния руски език. Синопсис, Легенда, Индекси са сервизни части на горепосочения Речник-тезаурус, предоставящи на потребителя възможност за бърза и ефективна работа. Легендата се използва в случаите, когато не са необходими примери за използване на идиоми, защото възпроизвежда цялата информация с изключение на примерите. Всъщност това е лексиката на Речника. Единиците на речника са леми. Лемата в този случай представя идиома в неговата оригинална (речникова) форма и включва, ако е възможно, всички негови значими варианти. Например, идиомът stand still е част от лемата mark time, stand still, skid in place.

Речникът съдържа два указателя. В края на книгата има статия „Теоретична концепция на речника-тезаурус на съвременната руска идеоматика“, която подробно анализира научните характеристики на този проект.

„Руски семантичен речник“, създаден под ръководството на Ю.Н. Караулова включва 10 хиляди руски думи, които са разделени на 1600 концептуални групи. Идентифицирането на групите се основава на повтарящи се елементи на тълкуване на думи в обяснителните речници: например „действие“, „свойство“, „инструмент“ и др.

„Руски семантичен речник“, създаден под ръководството на академик Н.Ю. Шведова, се основава на малко по-различни принципи, характерни за съставянето както на идеографски, така и на обяснителни речници. Първо, всички думи на езика са разделени тук на четири класа: 1) указващи единици (местоимения), 2) именуване (условни думи), 3) действителни връзки (съюзи, предлози, свързващи глаголи), 4) класифициране (модални думи , частици, междуметия). Второ, във всеки клас всички думи са разпределени според части на речта. Трето, във всяка част на речта се идентифицират множества и подмножества въз основа на тематична близост или, обратно, противопоставяне на значенията на думите.

DUDEN е книга с картинки (чертежи) от лявата страна (според различен софтуер) с номерирани части (до най-малките). От дясната страна този номериран списък е придружен от заглавия (дори на два езика). Например железопътно оборудване, гари и коловози са начертани на цяла страница. Вдясно са имената на стрели, семафори, патерици и др.

„Тематичен речник на руския език“ L.G. Саяхова, Д.М. Хасанова и В.В. Morkovkina съдържа 25 хиляди лексикални единици, групирани в три големи класа: „Човек“, „Общество“, „Природа“, които стъпаловидно се разклоняват на по-малки подкласове. Например в класа „Човек” има подкласове „Човешко тяло и организъм”, „Човешки живот”, „Външен вид, облик на човека”, „Емоционален облик на човека” и др. Всеки от подкласовете от своя страна е разделени на още по-специфични: „Емоционален свят на човек“ - „Психични свойства на човек“ - „Темперамент“, „Характер“ - „Общи черти на характера“ и др. Значението и употребата на думите, принадлежащи към всеки клас, са илюстрирани с най-често срещаните фрази. Например думата „смях“, която е в подгрупата „изразяване на чувства, емоции“ от клас „Човек“, е придружена от указание за такива комбинации с тази дума като весел смях, радостен смях, детски смях, избухване в смях и т.н.

Резюме. Един от ефективните инструменти за описание на отделни предметни области, особено в електронен формат, са тезаурусите.

Терминът тезаурус отдавна се използва широко в лингвистиката за обозначаване на специален тип речник, в една или друга степен отразяващ „картината на света“, „езиковия модел на света“ (според Ю. Н. Караулов). Тезаурусът като „съкровищница” разрасна своя семантичен обхват и получи ново значение. Започват да го наричат ​​речник, който не само поглъща всички лексикални богатства на един език, но ги организира по определен логическо-системен начин. В тезаурусния речник думите се комбинират в групи и това обединяване се извършва въз основа на способността на определена дума да предава определено понятие.

Тезаурусният речник винаги е бил разглеждан в лингвистиката като вид универсална система, която осигурява съхранението на колективни (за конкретно общество) знания за света в словесна форма. За разлика от други речници, в тезаурусния речник тези знания се съхраняват в структурирана форма, която отразява нашите представи за „структурата на света“.

Най-известните и популярни тезауруси в момента са английският тезаурус на Роджър, О. В. Идеографски речник на руския език. Баранова, Руски семантичен речник Ю.Н. Караулова, Руски семантичен речник на академик Н.Ю. Шведова, ДУДЕН, Тематичен речник на руския език Л.Г. Саяхова, Д.М. Хасанова и В.В. Морковкина.

Концептуална система на предметна област Основата на всяка предметна област е системата от понятия на тази област. Дефиниция на понятието: Понятието е мисъл, която отразява в обобщен вид обекти и явления от действителността чрез фиксиране на техните свойства и отношения; последните (свойства и отношения) се появяват в понятието като общи и специфични характеристики, съотнесени с класове обекти и явления (Лингвистичен речник)


Понятия и термини За изразяване на концепцията за предметна област в текстовете се използват думи или фрази, наречени термини. Наборът от термини на една предметна област образува нейната терминологична система. Връзката на конкретен термин с други термини от терминосистемата на предметната област се уточнява с дефиниция


Дефиниции на термина? Дума (или комбинация от думи), която е точно обозначение на конкретно понятие от всяка специална област на науката, техниката, изкуството, социалния живот и др. || Специална дума или израз, използвани за обозначаване на нещо. в една или друга среда, професия (Голям обяснителен речник на руския език)


Термини - точни имена на понятия Обикновено на всяко понятие от полето отговаря поне едно еднозначно разбрано понятие, чието значение е това понятие. - термини, в смисъла на традиционната теория на терминологията Свойства на термините - точни имена на понятията - терминът трябва да се отнася пряко към понятието, трябва да изразява ясно понятието; - значението на термина трябва да е точно и да не се припокрива по смисъл с други термини; - значението на термина не трябва да зависи от контекста. Термините, които точно назовават понятие, са обект на изследване от теорията на терминологията, терминолозите


Текстови термини В реалните текстове от предметната област, за обозначаване на понятие, освен основни термини, могат да се използват много различни езикови изрази, които наричаме текстови термини: - синтактични и словообразувателни варианти: получател на бюджетни средства - бюджет получател; - лексикални варианти – директно отписване, безспорно отписване; - полисемантични изрази, в зависимост от контекста, които служат като препратка към различни понятия в областта, например думата валута в различни контексти може да означава национална валута или чуждестранна валута.














Дескриптори с маркировки Отпадък - част от името на дескриптора кранове (повдигащо оборудване) срещу кранове (птици) черупки (конструкции) – сравнение на различни тезауруси Предпочитания за фрази: – Грамофонни записи vs. плочи (фонограф) Марки и множествено число: Дърво (материал) Гори (гористи райони)






Включване на дескриптори въз основа на многословни изрази Разделянето на термин увеличава неяснотата: растителна храна Значението на израза зависи от словореда: информационна наука - научна информация Една от съставните думи е извън обхвата на тезауруса или е твърде обща: първа помощ Отношенията на дескриптора не следват от неговата структура: –Изкуствени бъбреци, статут на бежанец, светофар




Асоциативни връзки Сфера на дейност - актьор - Математика - математик Дисциплина - обект на изследване - Неврология - нервна система Действие - агент или инструмент - Лов - ловец Действие - резултат от действие - Тъкане - тъкан Действие - цел - Подвързване на книги - книга Причина-следствие - Смърт – погребение Стойност – мерна единица – Сила на тока – ампер Действие – контрагент – Алерген – противоалергично лекарство и др.


Тезауруси за извличане на информация: етапи на развитие Първи етап: индексаторите описват основната тема на текста, използвайки произволни думи и фрази Термините, получени от много текстове, се обединяват Сред термините, които са сходни по значение, се избира най-представителният. Някои от останалите стават условни синоними, останалите се изтриват Специфичните термини обикновено не се включват


Тезауруси за извличане на информация: изкуството на разработката Дескрипторите са термини, които са необходими за изразяване на основната тема на документа. Синонимите включват само най-необходимите (например започващи с различна буква), за да не усложняват работата на индексатора Свързани термините трябва да бъдат сведени до един термин, за да се избегне субективното индексиране Нива на йерархия, включването на специфични термини е ограничено


Тезаурус за извличане на информация: изкуството на разработване - 2 В сложни случаи дескрипторите се доставят с маркировки и коментари –LIV: бомбардиране – бомбардиране – Полисемантични термини: едно значение в тезауруса (главна), не се вписват в тезауруса, маркировки !!! Традиционният тезаурус за извличане на информация е изкуствен език, изграден на базата на реални термини




Традиционен IPT: приложение при автоматична обработка Липса на знания за истинския език на софтуера Липса на знания за реалния език на софтуера Лексика за законодателно индексиране: Речник за законодателно индексиране: – в текста ВОЙСКИ – в тезауруса ВОЕННИ СИЛИ – в текста ГЛАВЕН – главен, в тезауруса само главен Препоръчва се: всеки дескриптор се допълва със списъци с думи и термини Предлага се: всеки дескриптор се допълва със списъци с думи и термини Но: полисемия или свързан с различни дескриптори. Но: полисемия или свързаност с различни дескриптори. Разрешаване на нееднозначност Разрешаване на нееднозначност


Традиционен IPT: автоматично разширяване на заявката Проблем с асоциациите Предложено: въведете тегла, въведете тегла, въведете имена на отношения: обект, свойство и т.н. въведете имената на връзките: обект, свойство и др. ЗАКЛЮЧЕНИЕ: трябва да се научите как да създавате езикови ресурси специално за автоматична обработка на текстови колекции


Тезаурус EUROVOC – многоезичен тезаурус на Европейската общност Тезаурус на 9 езика Руска версия на EUROVOC – +5 хиляди понятия, отразяващи руската специфика Многоезичен тезаурус – Дескриптор – имена на различни езици – Аскриптори – за някои езици


Автоматично индексиране според тезауруса EUROVOC, базирано на правила (Hlava, Heinebach, 1996) Примерно правило: IF (близо до „Технология“ И с „Развитие“) USE Програма на Общността USE помощ за развитие ENDIF 40 хиляди правила. Тестване: 20 най-чести дескриптора в текста, генерирани автоматично - 42% пълнота, в сравнение с ръчната рубрикация


Автоматично индексиране въз основа на установяване на тегла на съответствие между думи и дескриптори (Steinberger et al., 2000) Етап 1 - установяване на съответствие между текстови думи и присвоени дескриптори въз основа на статистически мерки (хи-квадрат или логаритмична вероятност) Дескриптор за УПРАВЛЕНИЕ НА РИБНИЯТ - следните думи (в низходящ ред на тегло): риболов, риба, запаси, риболов, опазване, управление, кораб и др. Самото индексиране на етап 2 - сумиране на логаритмите на теглата или като скаларно произведение на вектори


Комбинация от безплатни заявки и заявки, базирани на тезаурус за извличане на информация Ръчно индексирана колекция – установяване на корелации Потребител задава заявка на естествен език Заявката се разширява от дескрипторите на тезауруса, които са най-силно свързани със заявката (Petras 2004 ; Петрас 2005). Например при заявка Неплатежоспособни компании може да се получи списък с дескриптори ликвидност, задлъжнялост, предприятие, фирма., и заявката може да бъде разширена.Точността в експеримента се повишава с 13%.



Една от новите основни концепции, възникнали в резултат на развитието на машинни методи за обработка на информация, по-специално при превод от един език на друг, търсене на научна и техническа информация и създаване на информационен модел на предприятие в автоматизирани системи за управление , беше концепцията за тезаурус на информационната система. Терминът „тезаурус“ предполага набор от знания за външния свят - това е така нареченият тезаурус на света T. Всички концепции за външния свят, изразени с помощта на естествен език, съставляват тезаурус, от който могат да се разграничат частни тезауруси чрез йерархично разделение, като се вземе предвид подчинението на отделните понятия или чрез изолиране на части общ тезаурус на света. Тезаурусът в системите за търсене на информация играе важна роля при намирането на желания документ с помощта на ключови думи. Следователно изграждането на тезаурус е сложна и отговорна задача. Но тази задача може да бъде и автоматизирана.

Класификацията в нейната най-обща дефиниция е разделяне и подреждане на множества. Нарича се разпределение на обекти в класове въз основа на обща характеристика, присъща на тези явления или обекти и разграничаване от обекти и явления, които съставляват други класове. Ако е необходимо, всеки клас може да бъде разделен на подкласове. Рубрикаторът е специален вид класификация. Следователно те са създадени въз основа на общи разпоредби:
 научна основа за изграждане на класификацията;
 отразяване на съвременното ниво на развитие на науката;
 наличието на система от връзки и препратки, както и справочен и справочен апарат (CCA).

Рубрикаторът обаче е прагматична класификация, създадена на базата на информационните потоци и нуждите на специалистите. Това е неговата разлика от априорни класификации, като UDC и IPC.

Основните функции на класификациите и по-специално на рубрикатора са следните:
 тематично обособяване на информационните подсистеми;
 формиране на информационни масиви въз основа на всякакви характеристики;
 систематизиране на информационни материали и публикации;
 текущо и ретроспективно търсене;
 индексиране на документи и заявки;
 връзка с други класификационни схеми;
- нормативни функции.

Те се изграждат чрез разделяне на понятия - обекти на класификация въз основа на установени връзки между характеристиките на тези обекти в съответствие с определени логически принципи. Характеристиката, по която се извършва класификацията, се нарича основа за разделяне на класификацията. Класификациите широко използват методи на дедукция и индукция, за да фиксират групи, класове и да идентифицират връзките между тях. Това е характерно за йерархичните класификации. Дълбочината на класификация (броят йерархични нива) може да варира в зависимост от целта. Един от широко използваните рубрикатори е Държавният рубрикатор за научна и техническа информация (GRNTI).

GRNTI рубрикаторът е проектиран по такъв начин, че да може да се използва заедно с други класификации като UDC и IPC. Универсалната десетична класификация (UDC) съществува повече от 70 години, но все още няма равна на себе си по широта на разпространение и се използва в много страни по света. УДК обхваща цялата вселена от знания и се използва успешно за систематизиране и последващо търсене на голямо разнообразие от източници на информация.

Освен УДК в практиката широко приложение намира и библиотечно-библиографската класификация (ББК). BBK е изградена на принципите на логическото подчинение и представлява класификация от приложен тип.
В Руската федерация за класифициране на изобретенията и систематизиране на местни колекции от описания на изобретения се използва международната патентна класификация - доста сложна многоаспектна класификация, изградена на функционално-индустриален принцип. Същите технически концепции могат да бъдат намерени в IPC или специални класове (по индустрия) или във функционални класове (по принцип на работа). Секторният принцип на разпределение на понятията включва класификация на обекти в зависимост от тяхното приложение в определен исторически установен отрасъл на техниката и технологиите.

Сравнителни характеристики на рубрикаторите на SRNTI, UDC, BBK и IPC са дадени в таблица 1.

маса 1
Характеристика на рубрикатора на СРНТИ, УДК, ББК и ИПК

Име

Структура

Принципът на поставяне на раздели

Схема за изграждане на преграда

Йерархичен

Индустрия

От общо към конкретно

Йерархичен

Тематичен

Йерархичен

Функционално-отраслови

От общо към конкретно

LBC за научни библиотеки

Йерархичен

Индустрия

От общо към конкретно, по видове


По този начин можем да подчертаем основните отличителни черти на рубрикаторите и класификаторите:
- характеризират се с приложен характер и индустриална насоченост;
 това са отворени системи, които зависят от развитието на науката и технологиите, потребностите и заявките на специалистите;
- неорганични системи, тъй като обектите възникват и се развиват в околната среда и влизат в тях от нея. Елементите са способни да съществуват независимо извън системата. Тази черта е тясно свързана с втората черта;
- минималният елемент е понятието, свързано с околната среда. Понятието представлява система от определения;
 възникват връзки между понятията както „вертикално” (род-вид, цяло-част), така и „хоризонтално” (вид-вид, част-част), което показва йерархията на системите.

Следователно структурата и принципите на организация на класификациите и рубрикаторите позволяват автоматизирането на процеса на конструиране на тезаурусите на предметната област, като се използва методът на дедукцията. Алгоритъмът за конструиране на тезаурус с помощта на метода на дедукцията е показан на фиг. 1.

Основата за формиране на тезаурус е търсено изображение на документ, задача или приложение за търсене на информация, попълнено от оператора. Следователно, първата стъпка е да проучите и анализирате приложението. На първия етап операторът посочва темата или проблема от интерес, възможни ключови думи и техните синоними. В резултат на това получаваме повърхностно разбиране на предметната област.

Ориз. 1. Алгоритъм за конструиране на тезаурус по метода на дедукцията

Освен това се формира тезаурус от KS ключови думи, като се използва методът на дедукция, който изисква:
 KS масив, който се задава от самия потребител, обозначен на фигура 1 като MP;
 KS масив, извлечен от задачата за търсене, съответно MZ.

Въпреки това, за по-пълно и задълбочено разбиране на предметната област, ние използваме съществуващите рубрикатори и класификационни схеми (GRNTI, UDC, BBK, IPC). За да се постигне максимално покритие на тематичната област, е необходимо да се прегледат всички налични. Масивът от рубрикатори представлява MR. Алгоритъмът за търсене на приспадане се състои от две стъпки:
1. Намиране на родови понятия (фиг. 2);
2. Намиране на специфични термини в родовите понятия (фиг. 3).


Ориз. 2. Обработка на родовото понятие

Зареждаме първия рубрикатор от масива и организираме цикъл на проверка на наличието на CS, въведени от потребителя в рубрикаторите. Всеки KS се търси в рубрикатора и се сравнява с родово понятие или „гнездо“, след което условието се проверява, за да се види дали има връзка към конкретни термини. Ако такава връзка е налична, тогава KS се сравнява с конкретните условия. Ако не бъде намерена връзка, преминете към следващата обща концепция. Когато се видят въведените от оператора ключови думи на CS, преминаваме към масива от CS, извлечен от задачата. Процедурата за проверка е подобна - търсим KS, съответстващи на общи понятия, а след това техните връзки към конкретни термини.


Ориз. 3. Обработка на конкретни термини

Имайте предвид, че в рамките на всяка обща концепция е важно да прегледате всички налични специфични термини, за да получите максимално разбиране на проблемната област. Резултатът от тези действия е формирането на масив от KS ключови думи, който е пълен тезаурус, съответстващ на задачата за търсене на информация или изображението за търсене на документ.

Въз основа на пълен набор от изображения за търсене на документи (нека ги обозначим) е възможно да се създадат индустриални тезауруси и унифициран библиотечен класификатор. Очевидно самият пълен набор от  представлява прост тезаурус.

Въпреки това, използвайки критерия за избор
, (1)
можем да изградим тезауруси в индустрията. В този случай наборът от всички индустриални тезауруси образува пълен тезаурус
, (2)
разделите на които могат да бъдат йерархично структурирани в съответствие с изискванията на GOST според основните класификатори (GRNTI, UDC, BBK, MPK) или според вътрешен унифициран класификатор.

Автоматизирането на процеса на конструиране на тезаурус и класификация дава възможност да се улесни максимално работата на оператор, работещ с разпределени информационни ресурси.

В допълнение към конструирането на тезаурус, базиран на изображение за търсене на документ, предложеният подход може да се използва за автоматично абстрахиране на документи и групиране на текст.

Резюмето на документи е една от задачите, насочени към предоставяне на експертни специалисти с надеждна информация, необходима за вземане на управленски решения относно стойността на документите, получени от Интернет. Реферирането е процес на трансформиране на документна информация, завършващ с изготвянето на резюме, а резюмето е семантично адекватно представяне на основното съдържание на първичния документ, характеризиращо се с икономичен символен дизайн, постоянство на езикови и структурни характеристики и предназначено да изпълнява разнообразие от информационни и комуникационни функции в системата на научната комуникация. Алгоритъмът за абстрахиране на документа е представен на фиг. 4.


Ориз. 4. Алгоритъм за абстракция на документ

Като цяло алгоритъмът включва следните основни етапи.
1. Изреченията се извличат от документ, изтеглен от интернет и намиращ се в хранилище за данни, като се избират препинателни знаци и се съхраняват в масив.
2. Всяко изречение се разделя на думи чрез избиране на разделители и ние ги записваме в масив, като масивът е различен за всяко изречение.
3. За всяко изречение, за всяка дума от това изречение, броим броя на думите в други изречения (преди и след). Сумата от повторенията за всяка дума (преди и след) ще бъде теглото на това изречение.
4. За резюмето се подбират зададен брой изречения с максимален коефициент на тежест по реда на поява в текста.

Предложеният модел за изграждане на тезаурус и тематични каталози на информационна система представлява теоретична основа за автоматизиране на семантичното търсене и позволява на експерта не само да извършва търсене, но и в автоматизиран режим на абстрактни документи, получени в резултат на търсене в разпределени информационни системи в Интернет.

Литература:
1. Барушкова Р.И. Класификационни схеми на научна и техническа информация. Учебник надбавка. - М., 1981. - 80 с.
2. Барушкова Р.И. Рубрикатор като класификационна схема на научна и техническа информация. Инструментариум. - М., 1980. - 38 с.
3. Трусов A.V., Babarykin E.P. Оценка на границите на домейна на тематична информационна заявка в разпределени информационни системи. Материали от общоруската (с международно участие) конференция „Информация, иновации, инвестиции“, 24-25 ноември 2004 г., Перм / Перм CSTI. - Перм, 2004. - С.76-79.
4. Яцко В.А. Логико-лингвистични проблеми на анализа и резюмирането на научен текст. - Абакан: Хакаско държавно издателство. университет, 1996. - 128 с.

Последни материали в раздела:

Комедия Пигмалион.  Бърнард Шоу
Комедия Пигмалион. Бърнард Шоу "Пигмалион" Елиза посещава професор Хигинс

Пигмалион (пълно заглавие: Pygmalion: A Fantasy Novel in Five Acts, английски Pygmalion: A Romance in Five Acts) е пиеса, написана от Бърнард...

Талейран Шарл - биография, факти от живота, снимки, основна информация Великата френска революция
Талейран Шарл - биография, факти от живота, снимки, основна информация Великата френска революция

Талейран Шарл (напълно Charles Maurice Talleyrand-Périgord; Taleyrand-Périgord), френски политик и държавник, дипломат,...

Практическа работа с подвижна звездна карта
Практическа работа с подвижна звездна карта