Для чего служит тезаурус. Значение слова тезаурус

Н. В. Лукашевич

[email protected]

Б. В. Добров

Научно-исследовательский вычислительный центр МГУ им. М.В.Ломоносова;

АНО Центр информационных исследований

[email protected]

Ключевые слова: тезаурус, информационный поиск, автоматическая обработка текста,

Подавляющее большинство технологий, работающих с большими коллекциями текстов, базируется на статистических и вероятностных методах. Это связано с тем, что лексические ресурсы, которые могли бы использоваться для обработки текстовых коллекций с помощью лингвистических методов, должны иметь объем в десятки тысяч словарных статей и обладать рядом важных свойств, которые требуется специально отслеживать при разработке ресурса. В докладе мы рассматриваем основные принципы разработки лексических ресурсов для автоматической обработки больших текстовых коллекций на примере создаваемого c1997 года тезауруса русского языка для компьютерной обработки текстов РуТез, представляющего собой в настоящее время иерархическую сеть более 42 тысяч понятий. Мы описываем современное состояние тезауруса на базе сопоставления его лексического состава и текстового корпуса Университетской информационной системы РОССИЯ (www.cir.ru) - 400 тысяч документов. Обсуждаются примеры использования тезауруса в различных приложениях автоматической обработки текстов.

  1. Введение

В настоящее время миллионы документов стали доступными в электронной форме, созданы тысячи информационных систем и электронных библиотек. При этом информационные системы, использующие для поиска лексические и терминологические ресурсы, исчисляются долями процента. Это связано с серьезными проблемами создания таких лингвистических ресурсов для автоматической обработки современных коллекций электронных документов.

Во-первых, эти коллекции обычно очень большие, ресурс должен включать описания тысяч слов и терминов. Во-вторых, коллекции представляют собой набор документов разной структуры с разнообразными синтаксическими конструкциями, что затрудняет автоматическую обработку предложений текста. Кроме того, часто важная информация распределена между различными предложениями текста.

Все это остро ставит вопрос о том, каким должен быть лингвистический ресурс, который, с одной стороны, был бы полезен при автоматической обработке и поиске в электронных коллекциях, с другой стороны, мог быть создан за обозримое время и поддерживаться сравнительно небольшими усилиями.

В статье мы рассмотрим основные принципы разработки лексических ресурсов для автоматической обработки больших текстовых коллекций. Эти принципы будут рассмотрены на примере создаваемого АНО Центр информационных исследований c 1997 года тезауруса русского языка для компьютерной обработки текстов РуТез . РуТез представляет собой в настоящее время иерархическую сеть более 42 тысяч понятий, включающую в свой состав более 95 тысяч русских слов, выражений, терминов. Мы опишем современное состояние тезауруса на базе сопоставления его лексического состава и лексики текстового корпуса Университетской информационной системы РОССИЯ , поддерживаемой НИВЦ МГУ им. М.В.Ломоносова и АНО ЦИИ. УИС РОССИЯ (www.cir.ru) содержит 400 тысяч документов общественно-политической тематики (около 3 Гбайт текстов, 200 миллионов словоупотреблений). В статье также будут рассмотрены примеры использования тезауруса в различных приложениях автоматической обработки текстов.

  1. Принципы разработки лингвистического ресурса

для задач информационного поиска

Для обеспечения эффективной автоматической обработки электронных документов (автоматического индексирования, рубрицирования, сравнения документов) необходимо построить основу для их сравнения – список того, что упоминалось в документе. Чтобы такой индекс был более эффективным, чем пословный индекс, требуется преодолеть лексическое разнообразие текста: синонимы, многозначность, части речи, стилистику, и сводить его к инварианту – понятию, которое становится основой для сопоставления разных текстов. Таким образом, основой лингвистического ресурса должны стать понятия, а языковые выражения: слова, термины – становятся лишь текстовыми входами, инициализирующими соответствующее понятие.

Чтобы уметь сопоставлять различные, но близкие по смыслу понятия, между ними должны быть установлены отношения. Традиционно в лингвистических ресурсах для автоматической обработки текстов на естественном языке использовались те или иные наборы семантических отношений, таких как часть, источник, причина и т.п. Однако работая с большими и разнородными текстовыми коллекциями, мы должны понимать, что при нынешнем состоянии технологий текстовой обработки, компьютерная система не сможет сколько-нибудь стабильно обнаруживать эти отношения в тексте, чтобы выполнить те процедуры, которые мы связали с теми или иными отношениями. Поэтому отношения между понятиями должны впервую очередь описывать некие инвариантные свойства, которые не зависят или слабо зависят от темы конкретного текста, в котором упомянуто понятие.

Основная функция этих отношений -- отвечать на следующий вопрос:

если известно, что текст посвящен обсуждению С1, и С2 связан

отношением R с С1, можем ли мы сказать, что тема текста (*)

имеетотношение к С2?

При создании лингвистического ресурса для автоматической обработки важно определить, какие свойства понятий C1 и C2 позволяют устанавливать правильные в смысле (*) отношения между ними.

Так, например, какие бы тексты не были написаны о березах, мы всегда можем сказать, что это тексты о деревьях. Но несмотря на популярность и частое обсуждение отношения дерево как часть леса , очень незначительное число текстов о деревьях является текстами о лесах. Отметим, что проблема не связана с названием отношения. Так просека – это часть леса , и тексты о просеках есть тексты о лесе.

Инвариантность отношений относительно спектра возможных тем текстов предметной области в значительной мере определяется более глубинными свойствами, чем те, которые отражаются названиями отношений, а именно его кванторными и экзистенциальными свойствами . Так кванторные свойства отношений описывают, все ли примеры понятия имеют данное отношение, сохраняется ли данное отношение на протяжении всего жизненного цикла примера. Проблема с использованием отношения дерево лес именно и связана с тем, что не каждое конкретное дерево находится в лесу, зато просека не может быть вне леса.

Пример описания экзистенциальных свойств отношений -- следует ли из существования понятия С1 существование понятия С2 (например, существование понятия ГАРАЖ требует существования понятияАВТОМОБИЛЬ ) или существование примеров С1 зависит от существования примеров С2 (так конкретный ПАВОДОК неотделим от конкретного примера РЕКИ ). Обсуждение в тексте зависимого понятия С2, особенно зависимого от примера, позволяет предположить, что текст имеет отношение и к главному понятию С1.

Рассмотрим отношение между понятиями ЛЕС и ДЕРЕВО более подробно. На самом деле, частью понятия ЛЕС является ДЕРЕВО В ЛЕСУ , в то время как существуют и ОТДЕЛЬНО СТОЯЩЕЕ ДЕРЕВО ,ДЕРЕВО В САДУ и др. В любом случае требуется разорвать отношение подчиненности понятия ДЕРЕВО понятию ЛЕС .

С другой стороны, ЛЕС является видом СОВОКУПНОСТИ ДЕРЕВЬЕВ , не существует без деревьев (так же как и САД ). Таким образом, понятие ЛЕС должно находиться в отношении зависимости от понятия ДЕРЕВО . Начав с анализа потребностей конкретных прикладных задач мы пришли к выводу о важности описания глубинных свойств отношений, которые раньше очень незначительно отражались в лингвистических ресурсах, но которые имеют первостепенное значение для задач автоматической обработки больших текстовых коллекций, и, возможно, для многих других задач.

Сейчас мы моделируем описание кванторных и эксзистенциальных свойств понятий набором традиционных тезаурусных отношений ВЫШЕ‑НИЖЕ (66% всех связей), ЧАСТЬ‑ЦЕЛОЕ (30% связей), АССОЦИАЦИЯ (4%), в сочетании с некоторым набором дополнительных модификаторов (20% отношений помечено). Отметим, что отношения ЧАСТЬ‑ЦЕЛОЕ и АССОЦИАЦИЯ интерпретируются с учетом правила (*). Всего описано около 160 тысяч прямых связей между понятиями, что с учетом транзитивности отношений дает общее количество различных связей более 1350 тысяч связей, то есть в среднем каждое понятие связано с 30 другими.

  1. Тезаурус РуТез: общая структура

Тезаурус РуТез представляет собой иерархическую сеть понятий, соответствующих значениям отдельных слов, текстовых выражений или синонимическим рядам. Таким образом, основными элементами тезауруса являются понятия, языковые выражения, отношения языковое выражение – понятие, отношения между понятиями.

В тезаурусе в единую систему собраны как лингвистические знания – описания лексем, идиом и их связи, традиционно относящиеся к лексическим, семантическим знаниям, так и знания о терминах и взаимосвязях внутри предметных областей, традиционно относящиеся к сфере деятельности терминологов, описываемые в информационно-поисковых тезаурусах. В качестве таких предметных подообластей в тезаурусе описаны такие предметные области как экономика, законодательство, финансы, международные отношения, настолько важные для повседневной жизни человека, что они имеют значительное лексическое представительство и в традиционных толковых словарях. В них лексическое и терминологическое сильно взаимосвязано и сильно взаимодействует друг с другом.

Языковыми выражениями являются отдельные лексемы (существительные, прилагательные и глаголы), именные и глагольные группы. Таким образом, тезаурус не включает сейчас в качестве языковых выражений наречия и служебные слова. В составе многословных групп могут оказаться термины, идиомы, лексические функции (оказать влияни е).

Для каждого языкового выражения описывается:

Его многозначность - связи с одним или более понятием, что означает что данное языковое выражение может служить текстовым выражением этого понятия. Отнесение языкового выражения к разным понятиям также является неявным указанием на его многозначность;

Его морфологический состав (часть речи, число, падеж);

Особенности написания (например, с большой буквы) и т.п.

Каждое понятие тезауруса имеет уникальное название, список языковых выражений, которыми это понятия может быть выражено в тексте, список отношений с другими понятиями.

В качестве уникального названия понятия обычно выбирается одно из его однозначных текстовых выражений. Но название понятия может быть сформировано и парой его неоднозначных текстовых выражений - синонимов, записанных через запятую и однозначно его определяющих (например, понятие ТОЛСТЫЙ, ТУЧНЫЙ ). Неоднозначное текстовое выражение названия понятия может быть также снабжено пометой или укороченным фрагментом толкования, например, понятие ТОЛПА (СКОПЛЕНИЕ ЛЮДЕЙ).

  1. Пример словарной статьи

Мы выбрали в качестве примера словарную статью понятия ЛЕСНОЙ МАССИВ , соответствующего одному из значений слова лес . Эта словарная статья интересна тем, что включает разные типы знаний, традиционно относимых к лексическим (семантическим) знаниям и энциклопедическим знаниям (знаниям о предметной области, терминологии).

Синонимы к понятию ЛЕСНОЙ МАССИВ (всего 13):

лес(M ), лесная зона, лесная среда,

лесной, лесной квартал, лесной ландшафт,

лесной район, лесок, лесопокрытый,

лесосырьевой район, лесочек,

массив лесов.

Нижестоящие понятия с синонимами:

ДЖУНГЛИ (джунглевый );

ЛЕСОПАРК (городской сад, зеленая зона,

зеленый массив, лесопарковый,

лесопарковое хозяйство, лесопарковый

пояс, парк(M ), парковая зона);

ЛЕСООХОТНИЧЬЕ ХОЗЯЙСТВО ;

ЛИСТВЕННЫЙ ЛЕС (мягколиственный лес, твердолиственный

лес);

РОЩА (дубрава );

ХВОЙНЫЙ ЛЕС(хвойный массив, темнохвойный лес)

Понятия-части с синонимами:

БУРЕЛОМ(буреломный, ветровал );

ВЫРУБКА (лесосека);

ЛЕСНАЯ КУЛЬТУРА (лесная порода, лесохозяйственная

культура);

ЛЕСНЫЕ ЗЕМЛИ(земли лесного фонда; земли, покрытые

лесом; лесные угодья, лесная территория;

лесопокрытые земли, лесопокрытые

площади,);

ЛЕСОНАСАЖДЕНИЯ (лесные насаждения, лесопосадки,

лесопосадочный );

ОПУШКА ЛЕСА (опушка, опушечный );

ПОДЛЕСОК(подлесочный );

ПРОСЕКА ;

СУХОСТОЙ (сухостойный ).

Здесь символы (М) отражают пометку о многозначности текстового входа.

Понятие ЛЕСНОЙ МАССИВ имеет также другие отношения, так называемые отношения зависимости (в современной версии называются АСЦ 2 – несимметричная ассоциация): ЛЕСНОЙ ПОЖАР (лесопожарный, пожар в лесу; ЛЕСОПОЛЬЗОВАНИЕ (лесное пользование, пользование участками лесного фонда) ; ЛЕСОВЛАДЕНИЕ; ЛЕСНАЯ НАУКА (наука о лесе ). Как уже отмечалось в пункте 2, понятие ЛЕС зависит от понятия ДЕРЕВО, что в тезаурусе обозначается отношением АСЦ 1 .

Всего понятие ЛЕСНОЙ МАССИВ связано непосредственно с 28 другими понятиями, с учетом транзитивности отношений – с 235 понятиями (суммарно более 650 текстовых входов).

  1. Оценка современное состояния

тезауруса русского языка РуТез

5.1. Лексический состав

В настоящее время в тезаурусную сеть включено более 95 тысяч языковых выражений, из них 61 тысяча однословных.

Такой объем сделанного заставил нас определиться, какие слова и языковые выражения необходимо включать в описания Тезауруса. Естественным желанием было посмотреть, насколько в тезаурусе представлены наиболее частотные слова русского языка. Для этого была использована текстовая коллекция Университетской информационной системы РОССИЯ (400 тысяч документов). Коллекция содержит официальные документы различных органов Российской Федерации (55 тысяч документов с 1992 года), а также материалы прессы с 1999 года (газеты «Известия», «Независимая газета», «Комсомольская правда», «Аргументы и факты», журнал «Эксперт» и другие), материалы научных журналов («Вестник Московского университета», «Социологический журнал»). Сопоставление проводилось между списком лемм, включенных в Тезаурус, и списком наиболее частотных 100000 лемм текстовой коллекции (частотность более 25).

Полексемная разметка списка показала, что среди этих ста тысяч лемм 35 тысяч описаны в РуТез, лишь около 7 тысяч лексем заслуживает включения в Тезаурус, остальные представляют собой лемматические варианты различных имен собственных. Поэтому пополнение перестало быть первоочередной задачей и проводится постепенно, начиная с самых частотных слов. Предполагается, что как только этот список будет в основном исчерпан, будет выполнено очередное сравнение с текстовым массивом информационной системы, будут выбраны новые лексемы с частотностью больше чем 25. Далее порог просмотра предполагается снижать. Наличие в текстовой коллекции обширного количества текстовых примеров позволяет быстро реагировать на «лексические новинки» (например, инсталляция ,блокбастер , бомонд , триллер ) и включать их в соответствующие места иерархической системы Тезауруса.

Постоянная работа с актуальной текстовой коллекцией дает уникальные возможности для проверки значимости и качества лексических описаний, предложенных в словарях. Так, например, была выявлена необычайно высокая частотность использования слова Первопрестольная (более 400 раз). Проверка по массиву показала, что слово действительно часто используется как синоним слова Москва , тогда как толковые словари часто помечают это слово как устарелое. Другим примером часто употребляемого слова (более 300 раз), помеченного в словарях как устарелое, является слово благостный .

5.2 Описание значений слов

Сопоставление с текстовой коллекцией показывает, что многие частотные слова массива хорошо представлены в Тезаурусе хотя бы в одном из своих (обычно основных) значений. Выяснить, в какой степени в Тезаурусе представлен спектр значений многозначных слов русского языка, является нашей первоочередной задачей в настоящее время.

Как известно, часто различные словарные источники дают различный набор значений многозначных слов, выделяют оттенки значений, причем один и тот же тип многозначности может быть по-разному описан для различных слов даже в одном и том же словаре. Поэтому задача последовательного и представительного описания значений лексем является важной задачей для создателей любого словарного ресурса.

Однако если ресурс предназначается для автоматической обработки, то задача сбалансированного описания значений становится значительно более ответственной. Чрезмерное раздувание значений может привести к неспособности компьютерной системы выбирать нужное значение, что в свою очередь приводит к значительному снижению эффективности работы системы автоматической обработки текстов. Так, как один из недостатков ресурса WordNet как ресурса для автоматической обработки текстов является чрезмерное количество значений, описанных для некоторых слов (в WordNet 1.6 : 53 значения для run , 47 для play и т.п.). Эти значения трудно различить даже человеку при семантическом аннотировании текстов. Понятно, что компьютерная система также не может справиться с выбором подходящего значения. Поэтому различные авторы предлагают различные способы объединения значений, чтобы улучшить качество обработки.

Одновременно действует противоположный фактор: если значения действительно различаются по своему набору словарных связей (в нашем случае - тезаурусных связей) – они не могут быть склеены в одну единицу (одно понятие) – это также приведет к ухудшению качества автоматической обработки.

Рассмотрим для примера слова школа и церковь , каждое из которых может рассматриваться как организация и как здание.

Каждая школьная организация имеет здание (чаще всего одно). Все части школьного здания (классы, доски) имеют отношение к школе как к организации. Не имеется отдельных специфических видов школьных зданий. Поэтому описание школы как здания нецелесообразно выделять в отдельное понятие. Однако описание такого совокупного понятия ШКОЛА как организация и как здание должно иметь специально оформленное отношение с понятием ЗДАНИЕ . При описание подобных отношений в Тезаурусе используется пометка на отношениях - модификатор “А” («аспект», при автоматическом анализе для учета этого отношения требуется «подтверждение» другими понятиями).

ШКОЛА

ВЫШЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ

ВЫШЕ А ОБЩЕСТВЕННОЕ ЗДАНИЕ

Соответствующие значения слова церковь не так близки. Церков ь как организация может иметь большое количество церквей-зданий в разных местах, а также имеет множество других зданий. Церковь-здание тесно связано с религией и конфессией, но может менять принадлежность к церкви-организации . Церковь-организация и церковь-здание имеют разные подвиды. Поэтому ЦЕРКОВЬ (ОРГАНИЗАЦИЯ ) иЦЕРКОВЬ (ЗДАНИЕ) представляются в РуТез как различные понятия.

Значительное расхождение в тезаурусных связях интересным образом коррелирует со способностью денотатов, соответствующих значениям, существовать отдельно друг от друга. Так, церковь-здание не перестает существовать и даже называться церковью даже при смене использования в отличие от школы-здания.

Постоянно ведется процесс выверки представленности значений в Тезаурусе, начиная с самых частотных лемм. Для каждой частотной лексемы проверяется, как ее значения описаны в толковых словарях, какие значения используются в коллекции и как они представлены в Тезаурусе. В результате в настоящее время сформирован список из 10000 лексем, многозначность которых еще требует либо дополнительного анализа, либо дополнительного описания. Список получен на основе 30 тысяч наиболее частотных лемм.

Нужно отметить, что в Тезаурусе проблема многозначности частично снимается за счет того, что между различными значениями слова могут быть описаны тезаурусные связи, и поэтому можно по умолчанию выбирать высшее по иерархии понятие. Уж оно‑то точно в тексте обсуждалось. Например, слово фотография имеет три значения: фотография как сфера деятельности, фотография как фотографический снимок, фотография как фотоателье:

ФОТОСЪЕМКА (фотографирование , фотодело , ..., фотография )

ЧАСТЬФОТОГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ

(фото , фотоснимок , фотография )

ЧАСТЬФОТОАТЕЛЬЕ (фотография ).

Таким образом, если не удалось разобраться в каком значении употреблено слово фотография , по умолчанию считается, что речь шла о фотосъемке (процессе, результате или месте), что достаточно для многих приложений автоматической обработки текста.

  1. Применение тезауруса РуТез

для автоматической обработки текстов

С 1995 года общественно-политическая терминология РуТез (общественно-политический тезаурус) активно и успешно применяется для различных приложений автоматической обработки текстов, таких как автоматическое концептуальное индексирование, автоматической рубрицирование с использованием нескольких рубрикаторов, автоматическое аннотирование текстов, в том числе англоязычных . Общественно-политический тезаурус (27 тысяч понятий, 62 тысячи текстовых входов) - базовый поисковый инструмент в поисковой системе УИС РОССИЯ (www.cir.ru).

Вся лексика тезауруса РуТез используется в процедурах автоматической рубрикации текстов по сложным иерархическим рубрикаторам. В существующей технологии каждая рубрика описывается как булевское выражение терминов, после чего производится расширение исходной формулы по иерархии тезауруса. Результирующее булевское выражение может включать уже сотни и тысячи конъюнктов и дизъюнктов.

Приведем для примера фрагмент описания понятиями тезауруса (и языковыми выражениями после расширения формулы) рубрики «Образ женщины» рубрикатора СОФИСТ 2, используемого ВЦИОМ для классификации анкет опросов общественного мнения:

{ЖЕНЩИНА[N]

|| ДЕВУШКА[N]

|| РОДСТВЕННИЦА[L] (бабушка, внучка, двоюродная сестра,

дочь, золовка, мать, мачеха, невестка, падчерица, ...)}

{ЧЕРТА ХАРАКТЕРА[L] (бережливый, бессердечный, забывчивый,

легкомысленный, насмешливый, нетерпимый, общительный, ...)

|| ОБРАЗ[E] (представление, внешний вид, внешность,

наружность, облик, имидж, вид)

|| ПРИЯТНЫЙ[L] (..., интересный, красивый, милый,

привлекательный, симпатичный, располагающий, ...)

|| НЕПРИЯТНЫЙ[L] (антипатичный, грубый, противный, ...)

|| ЦЕНИТЬ[L] (благоговеть, боготворить, обожать,

поклоняться, преклоняться, ...)

|| ПРЕДПОЧЕСТЬ[N]

Символ «E» обозначает полное расширение по иерархии тезауруса, символ «L» - по видовым связям («НИЖЕ»), символ «N» - не расширять.

Производятся исследования по разработке комбинированной технологии автоматической рубрикации текстов, сочетающей знания тезауруса и процедуры машинного обучения.

Исследуются вопросы использования тезауруса для расширения запроса, сформулированного на естественном языке (сейчас для расширения терминологического запроса в информационно-поисковой системе УИС РОССИЯ используется только общественно-политическая часть тезауруса), поиска ответов на вопросы в больших текстовых коллекциях.

7. Заключение

В работе представлены основные принципы разработки лингвистических ресурсов для автоматической обработки больших текстовых коллекций. Создаваемый лингвистический ресурс - Тезаурус русского языка РуТез - предназначен для использования в таких приложенияхавтоматической обработки текстов как концептуальное индексирование документов, автоматическая рубрикация по сложным иерархическим рубрикаторам, автоматическое расширение естественно-языковых запросов.

Данная работа частично поддерживается грантом РГНФ № 00-04-00272а.

Литература

  1. Лукашевич Н.В., Салий А.Д., Представление знаний в системе автоматической обработки текстов //НТИ, Сер.2. 1997. № 3. С. 1‑6.
  2. Журавлев С.В., Юдина Т.Н., Информационная система РОССИЯ //НТИ, Сер.2. 1995. № 3. С. 18‑20.
  3. Winston M., Chaffin R., Herman D., A Taxonomy of Part-Whole Relations // Cognitive Science. 1987. No. 11. P. 417‑444.
  4. Priss U.E., The Formalization of WordNet by Methods of Relational Concept Analysis // WordNet. An Electronic Lexical Database / Ed. by C. Fellbaum. Cambridge, Massachusetts, London, England.: The MIT Press 1998. P. 179‑196.
  5. Guarino N., Welty C., A Formal Ontology of Properties // Proceedings of the ECAI-00 Workshop on Applications of Ontologies and Problem Solving Methods. Berlin: 2000. P. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Some Ontological Principles for Designing Upper Level Lexical Resources // First Int. Conf. on Language Resources and Evaluation. 1998.

  1. ЛукашевичН.В., Добров Б.В., Модификаторы концептуальных отношений в тезаурусе для автоматического индексирования // НТИ, Сер.2. 2000, № 4, С. 21‑28.
  2. Большой толковый словарь русского языка / Под ред. С.А. Кузнецова. Спб.: Норинт, 1998.
  3. Ожегов С.И., Шведова Н.Ю., Толковый словарь русского языка – 3-е издание. М.: Азъ, 1996.
  4. Апресян Ю.Д., Избранные труды, том I. Лексическая семантика: 2-е изд. М.: Школа «Языки русской культуры», Изд. Фирма «Восточная литература» РАН, 1995.
  5. G. Miller, R. Beckwith, C. Fellbaum, D. Gross and K. Miller, Five papers on WordNet, CSL Report 43. Cognitive Science Laboratory, Princeton University, 1990.
  6. Chugur, J. Gonzalo and F. Verdjeo, Sense distinctions in NLP applications // Proceedings of “OntoLex-2000”: Ontologies and Lexical Knowledge Bases. Sofia: OntoTextLab. 2000.
  7. Loukachevitch N., Dobrov B., Thesaurus-Based Structural Thematic Summary in Multilingual Information Systems // Machine Translation Review. 2000. No. 11. P. 10‑20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Thesaurus of russian language for natural language processing

of large text collections

Natalia V. Loukachevitch, Boris V. Dobrov

Keywords: thesaurus, natural language processing, informational retrieval

In our presentation we consider main principles of developing lexical resources for automatic processing of large text collections and describe the structure of Thesaurus of Russian Language, which is developed since 1997 specially as a tool for automatic text processing. Now the Thesaurus is a hierarchical net of 42 thousand concepts. We describe current stage of the Thesaurus developing in comparison with 100 000 the most frequent lemmas of the text collection of University Information System RUSSIA (www.cir.ru), including 400 thousand documents. Also we consider the use of the Thesaurus in different applications of automatic text processing.

, антонимы , паронимы , гипонимы , гиперонимы и т. п.) между лексическими единицами. Тезаурусы являются одним из действенных инструментов для описания отдельных предметных областей.

В прошлом термином тезаурус обозначались по преимуществу словари, с максимальной полнотой представлявшие лексику языка с примерами её употребления в текстах.

Также термин тезаурус употребляется в теории информации для обозначения совокупности всех сведений, которыми обладает субъект.

В психологии тезаурус индивидуума характеризуют восприятие и понимание информации. Теория коммуникации также рассматривает общий тезаурус сложной системы, благодаря которому взаимодействуют её элементы .

История

Одним из первых тезаурусов называют «Словарь синонимов» Филона Библского . Более точное соответствие термину имеет Амара-коша , написанный на санскрите в стихотворной форме в VI веке. Первый современный английский тезаурус был создан Питером Марком Роже (англ.) в 1805 году. Он был опубликован в 1852 году и с тех пор используется без переизданий .

В 1970-е годы тезаурусы стали активно использоваться для информационно-поисковых задач. В таких тезаурусах слова сопоставляются с дескрипторами, через которые устанавливаются семантические связи .

Тезаурусы

См. также

Напишите отзыв о статье "Тезаурус"

Примечания

Отрывок, характеризующий Тезаурус

– Каким ты щеголем нынче! – оглядывая его новый ментик и вальтрап, сказал Несвицкий.
Денисов улыбнулся, достал из ташки платок, распространявший запах духов, и сунул в нос Несвицкому.
– Нельзя, в дело иду! выбг"ился, зубы вычистил и надушился.
Осанистая фигура Несвицкого, сопровождаемая казаком, и решительность Денисова, махавшего саблей и отчаянно кричавшего, подействовали так, что они протискались на ту сторону моста и остановили пехоту. Несвицкий нашел у выезда полковника, которому ему надо было передать приказание, и, исполнив свое поручение, поехал назад.
Расчистив дорогу, Денисов остановился у входа на мост. Небрежно сдерживая рвавшегося к своим и бившего ногой жеребца, он смотрел на двигавшийся ему навстречу эскадрон.
По доскам моста раздались прозрачные звуки копыт, как будто скакало несколько лошадей, и эскадрон, с офицерами впереди по четыре человека в ряд, растянулся по мосту и стал выходить на ту сторону.
Остановленные пехотные солдаты, толпясь в растоптанной у моста грязи, с тем особенным недоброжелательным чувством отчужденности и насмешки, с каким встречаются обыкновенно различные роды войск, смотрели на чистых, щеголеватых гусар, стройно проходивших мимо их.
– Нарядные ребята! Только бы на Подновинское!
– Что от них проку! Только напоказ и водят! – говорил другой.
– Пехота, не пыли! – шутил гусар, под которым лошадь, заиграв, брызнула грязью в пехотинца.
– Прогонял бы тебя с ранцем перехода два, шнурки то бы повытерлись, – обтирая рукавом грязь с лица, говорил пехотинец; – а то не человек, а птица сидит!
– То то бы тебя, Зикин, на коня посадить, ловок бы ты был, – шутил ефрейтор над худым, скрюченным от тяжести ранца солдатиком.
– Дубинку промеж ног возьми, вот тебе и конь буде, – отозвался гусар.

Остальная пехота поспешно проходила по мосту, спираясь воронкой у входа. Наконец повозки все прошли, давка стала меньше, и последний батальон вступил на мост. Одни гусары эскадрона Денисова оставались по ту сторону моста против неприятеля. Неприятель, вдалеке видный с противоположной горы, снизу, от моста, не был еще виден, так как из лощины, по которой текла река, горизонт оканчивался противоположным возвышением не дальше полуверсты. Впереди была пустыня, по которой кое где шевелились кучки наших разъездных казаков. Вдруг на противоположном возвышении дороги показались войска в синих капотах и артиллерия. Это были французы. Разъезд казаков рысью отошел под гору. Все офицеры и люди эскадрона Денисова, хотя и старались говорить о постороннем и смотреть по сторонам, не переставали думать только о том, что было там, на горе, и беспрестанно всё вглядывались в выходившие на горизонт пятна, которые они признавали за неприятельские войска. Погода после полудня опять прояснилась, солнце ярко спускалось над Дунаем и окружающими его темными горами. Было тихо, и с той горы изредка долетали звуки рожков и криков неприятеля. Между эскадроном и неприятелями уже никого не было, кроме мелких разъездов. Пустое пространство, саженей в триста, отделяло их от него. Неприятель перестал стрелять, и тем яснее чувствовалась та строгая, грозная, неприступная и неуловимая черта, которая разделяет два неприятельские войска.
«Один шаг за эту черту, напоминающую черту, отделяющую живых от мертвых, и – неизвестность страдания и смерть. И что там? кто там? там, за этим полем, и деревом, и крышей, освещенной солнцем? Никто не знает, и хочется знать; и страшно перейти эту черту, и хочется перейти ее; и знаешь, что рано или поздно придется перейти ее и узнать, что там, по той стороне черты, как и неизбежно узнать, что там, по ту сторону смерти. А сам силен, здоров, весел и раздражен и окружен такими здоровыми и раздраженно оживленными людьми». Так ежели и не думает, то чувствует всякий человек, находящийся в виду неприятеля, и чувство это придает особенный блеск и радостную резкость впечатлений всему происходящему в эти минуты.
На бугре у неприятеля показался дымок выстрела, и ядро, свистя, пролетело над головами гусарского эскадрона. Офицеры, стоявшие вместе, разъехались по местам. Гусары старательно стали выравнивать лошадей. В эскадроне всё замолкло. Все поглядывали вперед на неприятеля и на эскадронного командира, ожидая команды. Пролетело другое, третье ядро. Очевидно, что стреляли по гусарам; но ядро, равномерно быстро свистя, пролетало над головами гусар и ударялось где то сзади. Гусары не оглядывались, но при каждом звуке пролетающего ядра, будто по команде, весь эскадрон с своими однообразно разнообразными лицами, сдерживая дыханье, пока летело ядро, приподнимался на стременах и снова опускался. Солдаты, не поворачивая головы, косились друг на друга, с любопытством высматривая впечатление товарища. На каждом лице, от Денисова до горниста, показалась около губ и подбородка одна общая черта борьбы, раздраженности и волнения. Вахмистр хмурился, оглядывая солдат, как будто угрожая наказанием. Юнкер Миронов нагибался при каждом пролете ядра. Ростов, стоя на левом фланге на своем тронутом ногами, но видном Грачике, имел счастливый вид ученика, вызванного перед большою публикой к экзамену, в котором он уверен, что отличится. Он ясно и светло оглядывался на всех, как бы прося обратить внимание на то, как он спокойно стоит под ядрами. Но и в его лице та же черта чего то нового и строгого, против его воли, показывалась около рта.
– Кто там кланяется? Юнкег" Миг"онов! Hexoг"oшo, на меня смотг"ите! – закричал Денисов, которому не стоялось на месте и который вертелся на лошади перед эскадроном.
Курносое и черноволосатое лицо Васьки Денисова и вся его маленькая сбитая фигурка с его жилистою (с короткими пальцами, покрытыми волосами) кистью руки, в которой он держал ефес вынутой наголо сабли, было точно такое же, как и всегда, особенно к вечеру, после выпитых двух бутылок. Он был только более обыкновенного красен и, задрав свою мохнатую голову кверху, как птицы, когда они пьют, безжалостно вдавив своими маленькими ногами шпоры в бока доброго Бедуина, он, будто падая назад, поскакал к другому флангу эскадрона и хриплым голосом закричал, чтоб осмотрели пистолеты. Он подъехал к Кирстену. Штаб ротмистр, на широкой и степенной кобыле, шагом ехал навстречу Денисову. Штаб ротмистр, с своими длинными усами, был серьезен, как и всегда, только глаза его блестели больше обыкновенного.
– Да что? – сказал он Денисову, – не дойдет дело до драки. Вот увидишь, назад уйдем.
– Чог"т их знает, что делают – проворчал Денисов. – А! Г"остов! – крикнул он юнкеру, заметив его веселое лицо. – Ну, дождался.
И он улыбнулся одобрительно, видимо радуясь на юнкера.
Ростов почувствовал себя совершенно счастливым. В это время начальник показался на мосту. Денисов поскакал к нему.
– Ваше пг"евосходительство! позвольте атаковать! я их опг"окину.
– Какие тут атаки, – сказал начальник скучливым голосом, морщась, как от докучливой мухи. – И зачем вы тут стоите? Видите, фланкеры отступают. Ведите назад эскадрон.
Эскадрон перешел мост и вышел из под выстрелов, не потеряв ни одного человека. Вслед за ним перешел и второй эскадрон, бывший в цепи, и последние казаки очистили ту сторону.
Два эскадрона павлоградцев, перейдя мост, один за другим, пошли назад на гору. Полковой командир Карл Богданович Шуберт подъехал к эскадрону Денисова и ехал шагом недалеко от Ростова, не обращая на него никакого внимания, несмотря на то, что после бывшего столкновения за Телянина, они виделись теперь в первый раз. Ростов, чувствуя себя во фронте во власти человека, перед которым он теперь считал себя виноватым, не спускал глаз с атлетической спины, белокурого затылка и красной шеи полкового командира. Ростову то казалось, что Богданыч только притворяется невнимательным, и что вся цель его теперь состоит в том, чтоб испытать храбрость юнкера, и он выпрямлялся и весело оглядывался; то ему казалось, что Богданыч нарочно едет близко, чтобы показать Ростову свою храбрость. То ему думалось, что враг его теперь нарочно пошлет эскадрон в отчаянную атаку, чтобы наказать его, Ростова. То думалось, что после атаки он подойдет к нему и великодушно протянет ему, раненому, руку примирения.

3.1. Понятие тезауруса

Тезаурус (от греч. θήσαϋροξ - сокровище, запас) или идеогра­фический словарь (от греч. idea - понятие, представление, идея и grapho - пишу, описываю) - в современной лингвистике: 1) особая разновидность словарей общей или специальной лексики, в которых указаны семантические отношения между лексическими единица­ми; 2) словарь для поиска какого-либо слова по его смысловой связи с другими словами; 3) определенный способ организации (располо­жения) слов в словаре; 4) способ организации лексического состава, который позволяет экономно «моделировать мир».

В первом, исконном, значении - хранилище, сокровище термин тезаурус использовал Л.В. Щерба в статье «Опыт общей лексико­графии» (противоположение третье: thesaurus - обычный (толковый или переводной) словарь). Ученый пишет: «Когда гово­рят thesaurus, то нынче у нас чаще всего имеют при этом в виду «Thesaurus linguae latinae», предприятие пяти немецких академий, начатое еще в 1900 г. и до сих пор доведенное с пропусками лишь до буквы М. Характерная особенность этого типа словарей состоит в том, что в них приводятся все решительно слова, встретившиеся в данном языке хотя бы один раз, и что под каждым словом приво­дятся решительно все цитаты из имеющихся на данном языке тек­стов. В основе вышеуказанного противоположения - thesaurus -обычный (толковый или переводной) словарь - лежит противопо­ложение «языкового материала» и «языковой системы» - понятия, которые я пытался обосновать в своей статье «О трояком аспек­те языковых явлений и об эксперименте в языкознании» .

Второе значение этого термина связано с имеющим широкую известность словарем-тезаурусом «Тезаурус английских слов и вы­ражений» П.М. Роже (Roget"s Thesaurus of English Words and Phrases, 1852) и его продолжением, словарем О.В. Баранова.

В этой трактовке термин тезаурус обозначает определенный способ организации, расположения лексического состава в словаре (см. третье значение термина).

Четвертое значение термина тезаурус связано с всеобщим при­знанием такого способа организации лексического состава, который позволяет экономно «моделировать мир». С этой точки зрения тезау­рус-словарь представляет собой «систематическое упорядочение лексики какой-либо научной или технической области, а в наиболее общем виде - общелитературной лексики, и более того, всей лексики данного языка».

Согласно Ю.Н. Караулову, общеязыковой тезаурус, фиксируя в структуре и взаимоотношениях своих рубрик, разделов, зон, облас­тей широкие возможности невербального соединения идей, обеспе­чивает учет человеческих ценностей .

А.Н. Баранов и Д.О. Добровольский в предисловии «От редак­торов» к своему «Словарю-тезаурусу современной русской идиома­тики» дают тезаурусу следующее определение - особый вид словаря, отличающийся от других (в частности, толкового, двуязычного и др.) способом организации языкового материала. В тезаурусе языко­вые единицы представлены не в алфавитном порядке, как в обычном словаре, а сгруппированы на основании их значения .

Л.П. Крысин называет тезаурус (идеографический словарь) толковым словарем особого рода, словарем «наоборот». «Если в тол­ковом словаре, пишет ученый, «входом» в словарную статью являет­ся слово, а содержанием словарной статьи - толкование смысла это­го слова, то в идеографическом словаре «входом» служит смысл, идея (отсюда и название этого вида словарей - идеографические), а содержанием словарной статьи - перечень слов, выражающий дан­ный смысл. И если толковый словарь - незаменимый инструмент при понимании текста, то идеографический может быть использо­ван при порождении текста: очень часто человек хочет выразить определенную мысль, но не может найти подходящих для этого слов; идеографический словарь облегчает эти поиски. Различают два основных вида тезаурусов:

лингвистический тезаурус - словарь, содержащий перечень слов естественного языка, отобранных в результате содержательного анализа текстов и систематизированных в соответствии с принятой классификационной системой;

статистический тезаурус - информационно-поисковый словарь, содержащий перечень слов, отобранных в результате стати­стического анализа текстов по какой-либо определенной тематике и сгруппированных в словарные статьи на основе частоты совместной встречаемости этих слов в одних и тех же текстах.

Информационно-поисковые тезаурусы (ИПТ) облегчают поиск информации при ее автоматической обработке. ИПТ максимально раскрывают семантические отношения между лексическими едини­цами. Как сказано в ГОСТе по ИПТ, «тезаурус информационно-поисковый одноязычный - контролируемый и изменяющийся сло­варь лексических единиц, основанный на лексике одного естествен­ного языка, отображающий семантические отношения между лекси­ческими единицами и предназначенный для обработки и поиска ин­формации».

Основной единицей ИПТ являются термины-дескрипторы. Алфавитная, лексико-семантическая часть ИПТ представляет собой свод дескрипторных статей.

Дескриптивные словари предназначены для полного описания лекси­ки определенной сферы и фиксации всех имеющихся там употреблений; в них фиксируются все имеющиеся релевантные случаи. Типичным примером дескриптивного словаря является «Толковый словарь живого великорусско­го языка» В.И. Даля (первое издание в четырех томах выходило в 1863- 1866 гг.). Цель его создателя заключалась не в нормировании языка, а в пол­ном описании всего многообразия великорусской речи - в том числе ее диа­лектных форм просторечия.

Каждая дескрипторная словарная статья начинается дескрип­тором, при котором ниже в пределах статьи по ГОСТу приводятся синонимы этого дескриптора, а также другие лексические едини­цы, связанные с основным дескриптором родо-видовыми или ассо­циативными отношениями.

Таким образом, тезаурусы, особенно в электронном формате, являются одним из действенных инструментов для описания от­дельных предметных областей.

В чистом виде тезаурус встречается редко. В реальных тезау­русах происходит упрощение исходной идеи или добавление по­сторонней, но потенциально необходимой пользователю информа­ции. Наиболее известными сегодня являются «Русский семантиче­ский словарь» Ю.Н. Караулова, «Словарь идентичного названия» Н.Ю. Шведовой, «Тематический словарь русского языка» Л.Г. Смеховой и др.

Резюме. Термин тезаурус Л.В. Щерба употребил примени­тельно к словарю, который фиксировал по возможности все кон­тексты, в которых встречается данное слово. Харак­терная особенность тезаурусов состоит в том, что в них приводятся все слова, встретившиеся в данном языке хотя бы один раз, и под каждым словом приводятся все цитаты из имеющихся на данном языке текстов. Содержание словаря-тезауруса составляет языковой материал, а обычного словаря - языковой материал и языковая система (термины Л.В. Щербы).

Данная характеристика дополняется перекрестными связями самого разного рода - чаще парадигматическими (синонимически­ми или антонимическими), которые указывают на общность или противопоставление значений. Кроме того, различного рода ассо­ц. связями (т.е. синтагм. связями).

Таким образом, задача тезауруса (идеографического словаря) - дать представление о смысловой организации некоторого среза языкового материала, показав основные семантические поля, их внутреннюю структуру и внешние связи. Тезаурус является на­глядной демонстрацией системного характера языка, позволяя увидеть множество типов отношений, связывающих отдельные языковые единицы и группы единиц .

3.2. История представления концептуального знания о мире в виде тезауруса

Необходимость в расположении слов по сходству, смежности, аналогии их значений ощущалась на всем протяжении обозримой истории человеческой мысли.

Проследить путь зарождения идеи представления концепту­ального знания о мире в виде тезауруса нам поможет обращение к истории составления тезаурусов (идеографических словарей).

Так, на заре цивилизации, когда люди могли выразить свои мысли на письме лишь при помощи идеограмм и символов, един­ственно возможным словарем был, вероятно, такой, в котором сло­ва располагались по тематическим группам. Лексикографу в то время просто трудно было найти иной критерий для классифика­ции слов, кроме отношений, существующих в самой действитель­ности.

К сожалению, у нас нет свидетельств того, действительно ли народы, пользовавшиеся идеографическим письмом, располагали подобными словарями. Среди наиболее древних из известных нам попыток идеографической классификации называют Attikai Lexeis греческого грамматика, директора Александрийской библиотеки Аристофана Византийского (умер в 180 году до н. э.).

Во II в. н. э. появляется капитальный труд «Ономастикон», составленный на материале греческого языка лексикографом и со­фистом Юлием Поллуксом (настоящее имя Полидевк), уроженцем египетского города Навкратис. Ю. Поллукс написал несколько со­чинений, но до нас дошел лишь «Ономастикон» (Поллукс Ю. Ономастикон. М., 1956).


Ономастикон состоит из 10 книг. Книги по существу являют­ся отдельными трактатами и содержат в себе наиболее важные слова, относящиеся к той или иной теме. Так, в первой книге гово­рится о богах и царях; во второй - о людях, их жизни и физиологи­ческом строении; в третьей - о родстве и гражданских отношениях и т. д. Слова, помещенные в словаре, сопровождаются краткими толкованиями. В новое время словарь был впервые опубликован в 1502 г. в Венеции.

Между II и III вв. н. э. в свет выходит замечательный санск­ритский словарь «Амаракоша» (Амаракоша. Париж, 1839). Его ав­тором является древнеиндийский поэт, грамматик и лексикограф Амара Сина, которого называли «одной из девяти жемчужин, ук­рашающих трон Викрамадитье» . Амаракоша в переводе на русский язык означает сокровищница Амара. Словарь содержит 10 тыс. слов. Для лучшего запоминания толкования значений слов словарные статьи построены в форме стихов. Весь материал слова­ря разбит на 3 книги. Каждая книга включает в себя несколько глав, а глава в свою очередь при необходимости разбивается на ряд секций. Первая книга посвящена небу, богам и всему тому, что имеет к ним непосредственное отношение. Во второй книге приво­дятся слова, относящиеся к земле, поселениям, растениям, живот­ным и человеку (сначала человек рассматривается как живое суще­ство, а затем как существо общественное; перед нашими глазами предстает вся кастовая структура современного автору общества; жрецы как поверенные бога находятся на самом верху, а ниже идут военные и цари, еще ниже - землевладельцы, а в самом низу ре­месленники, жонглеры, слуги и т.п.). Третья книга является собст­венно языковой, что явствует из названий шести ее глав.

Словарь стал известен европейским ученым лишь в конце XVIII в., когда в 1798 г. в Риме была опубликована его первая часть. Полностью он был издан с переводом на английский язык в 1808 г. английским санскритологом Г.Т. Коулбруком (Н.Т. Colebrooke). В 1839 г. появился и его французский перевод, выполненный А.Л. Делоншаном (A.L. Deslongchamps). Дальнейшее развитие идеи смысловой классификации лекси­ки связано с проблемой так называемого всемирного языка.

Резюме. Таков в самых общих чертах первый этап развития традиции идеографической классификации лексики. Этот этап можно назвать предысторией идеографических словарей. Теперь целесообразно обратиться к современной классификации словарей-тезаурусов.

Нетрудно заметить, насколько непохожи описанные труды на алфавитные словари. Если в алфавитных словарях подача слов ре­гулируется таким условным и в высокой степени нейтральным ин­струментом, как алфавит, то при построении идеографического словаря решающее значение приобретает мировоззрение самого лексикографа .

3.3. Принципы классификации словарей-тезаурусов

Как уже было показано выше, проблема составления класси­фикации тезаурусов не нова и в течение нескольких десятков лет привлекала внимание ряда отечественных и зарубежных лингвис­тов (К. Марелло, В.В. Морковкин, Л.П. Ступин, В.В. Дубичинский и др.). Результатом исследований в этой области стало создание альтернативных классификаций указанных лексикографических произведений. В основу одной из последних классификаций поло­жены следующие критерии: а) тип смысловых связей между еди­ницами словника; 2) объем словника; 3) генерализованность слов­ника; 4) разработка значения лексем; 5) грамматико-стилистическая квалификация лексем; 6) демонстрация функцио­нирования лексем; 7) количество представленных языков; 8) тип семиотических средств, используемых для семантизации лексем. Названная классификация основывается на созданных ранее клас­сификациях О.М. Карповой и И. Бурханова (Burchanov I. On the Ideographic Description of Stylistically and Pragmatically Relevant As­pects of Lexical Meanings. London, 1996); терминология, используе­мая в классификации, введена в лексикографический аппарат


В.В. Морковкиным , Ю.Н. Карауловым , К. Марелло . Критерии классификации сформулированы О.М. Карповой . В то же время К. Марелло выделяет три типа тезаурусов:

кумулятивные, представляющие собой группировки слов без определения их значений;

дефинитивные, толкующие каждую лексическую единицу группировки слов;

дву- и многоязычные тезаурусы для путешественников (Marello C. TheThesaurus//W.D.D. 1990. V. 2. P. 1083).

Кумулятивные тезаурусы не только представляют возмож­ность найти более понятное, точное, стилистически верное слово в ситуации нахождения в определенном семантическом поле, но и становятся основой для формирования тематических компьютер­ных банков данных.

Дефинитивные тезаурусы могут включать, наряду с опреде­лением значения, этимологическую информацию и цитаты из ли­тературных произведений, что показывает непосредственную эн­циклопедическую направленность этого вида тезаурусов. Кроме того, словари данного вида вводят пользователя в необходимую систему концептов, разъясняют сущность, сходства и различия по­нятий, их парадигматические и синтагматические связи, иногда дают информацию о произносительных, грамматических, словооб­разовательных и других возможностях лексических единиц, обо­значающих эти понятия.

Дву- и многоязычные тезаурусы для путешественников соз­даются обычно по тематическим разделам: числа, еда, транспорт, гостиница и т.д. с приведением переводных эквивалентов двух и более языков.

Для максимально полного отображения типов существующих словарей-тезаурусов создается многоуровневая классификация. Во-первых, по типу смысловых связей между единицами словника тезаурусы подразделяются на три крупных класса:

1. Ассоциативный тезаурус (терминология Ю.Н. Караулова

2. Аналогический тезаурус (терминология В.В. Морковкина

3. Идеографический (идеологический) тезаурус (терминоло­гия Л.В. Щербы, В.В. Морковкина. Названные три типа те­заурусов отражают следующие виды смысловых связей лексем со­ответственно:

1. Семантико-синтаксические связи, на основании которых
слова объединяются в группы или пары, предопределенные в своем возникновении и существовании двойными связями: смысловыми и синтаксическими. Смысловые связи слов устанавливаются, главным образом, между глаголами и прилагательными, выполняющими предикативную функцию в предложении, и существительными, например:

а) между действием и органом (инструментом), при помощи которого оно совершается: хватать - рука, видеть - глаз, плыть - лодка и т.д.;

б) между глаголами действия, требующими одного субъекта, и субъектом: лаять - собака, ржать - лошадь и т.д.; в) между глаголами и определенным грамматическим дополнением, которого первые требуют: рубить - дерево, есть - еда и т.д.

Отсюда ассоциативный тезаурус - это словарь-тезаурус, ор­ганизующий лексические единицы на основании существующих между ними смысловых и синтаксических связей и располагающий группы в соответствии с графической формой слов-центров.

2. Лексико-семантические связи. Объединение в группы с таким типом связи происходит по основному для слов признаку - лексическому значению. При этом также учитываются лексико- грамматические связи, в форме которых реализуются отдельные значения слов.

Таким образом, аналогический тезаурус - это лексикографи­ческий справочник, основной единицей макроструктуры которого является лексико-семантическая группа; группы систематизирова­ны в порядке алфавитного следования смысловых доминант.

3. Предметные или тематические связи, где объединение слов в одну группу происходит в силу сходства или общности функций обозначаемых словами предметов и процессов: предметы
домашнего обихода, части тела, виды одежды, постройки и т.д.

Таким образом, идеографический тезаурус - это лексикогра­фическое произведение, представляющее лексические единицы в составе предметных (тематических) групп и организующее их в иерархическую структуру, предназначенную для репрезентации концептуализированного знания о мире.

В рамках того же критерия проводим дальнейшее подразде­ление типов. Так, идеографический тезаурус представлен 4-мя сле­дующими типами:


Собственно идеографический тезаурус.

Тематический словарь.

Систематический словарь.

Тематико-систематический словарь


Собственно идеографический тезаурус - это особый тип идеографического словаря, макроструктура которого организуется в соответствии с синоптической картой a priori, наложенной на лексический состав языка. В отличие от других типов идеографи­ческого словаря, собственно идеографический тезаурус характери­зуется логичной и строго упорядоченной классификационной структурой, созданной на основе научной таксономии, даже если лексикографическому описанию подвергается общая лексика (New Webster" Thesaurus. Landoll, 1991).

Тематический словарь - это особый тип идеографического те­зауруса, основной единицей макроструктуры которого является тематическая группа, включающая лексемы, объединенные на ос­нове классификации их денотатов (референтов) и рассматриваемые с точки зрения соответствия определенной теме.

Систематический словарь - это особый тип идеографическо­го тезауруса, классификационная структура которого предназначе­на для представления действительных семантических отношений, существующих между лексическими единицами языка. По своей сути классификационная структура представляет лексико-грамматическую классификацию вокабуляра, иными словами, его парадигматическую структуру, описанную с точки зрения подчи­нения и сочинения .

Тематико-систематический словарь - это особый тип идео­графического словаря, представляющий собой сочетание темати­ческого и систематического словаря .

Резюме. Рассмотренная классификация лингвистических те­заурусов включает в себя следующие виды словарей: аналогиче­ский тезаурус (терминология В.В. Морковкина); идеографиче­ский (идеологический) тезаурус (терминология Л.В. Щербы и В.В. Морковкина); ассоц. тезаурус (терминология Ю.Н. Караулова). Далее будут представлены поп. тезаурусы и раскры­ты их особенности.

3.4. Популярные тезаурусы и их особенности

Наиболее известный из имеющихся словарей-тезаурусов, ко­торому обязан своим существованием и сам этот термин, создан на материале английского языка; это постоянно переиздаваемый те­заурус П.М. Роже Roget"s Thesaurus of English Words and Phrases (1852).

Важно отметить, что автор «Тезауруса английских слов и вы­ражений» в полной мере использовал имеющийся к этому времени опыт. «Принцип, которым я руководствовался, классифицируя слова, - пишет П.М. Роже, - является тем же самым, который ис­пользуется при классификации особей в различных областях есте­ственной истории. Поэтому разделы, выделенные мной, соответст­вуют естественным семьям ботаники и зоологии, а ряды слов сце­ментированы теми же отношениями, которые объединяют естест­венные ряды растений и животных»

П.М. Роже считал, что убедительная классификация слов по их смыслам невозможна до тех пор, пока должным образом не изу­чены и не организованы объекты действительности, называемые этими словами. Поэтому он начинает свою работу с расчленения понятийного поля английского языка на четыре больших класса: абстрактные отношения, пространство, материю и дух (разум, во­ля, чувства). Эти классы разбиваются в дальнейшем на ряд родов, которые в свою очередь распадаются на определенное число видов.

К числу недостатков идеографического словаря П.М. Роже ученые относят следующие: 1) не совсем убедительная номенкла­тура основных понятийных классов; 2) абстрактная логичность превалирует над естественными связями слов; 3) относительное неудобство пользования (в значительной мере данный недостаток исправлен в последующих изданиях).

В современной русской лексикографии имеется несколько словарей, которые должны быть отнесены к разряду словарей-тезаурусов (идеографических словарей). Это, например, созданный под руководством Ю.Н. Караулова «Русский семантический сло­варь» , «Русский семантический словарь» под редакцией Н.Ю. Шведовой , «Тематический словарь русского языка» Л.Г. Саяховой, Д.М. Хасановой и В.В. Морковкина , «Словарь лексико-семантических групп русских глаголов» под ред. Э.В. Кузнецовой , «Идеографический словарь русского языка» О.С. Баранова , «Концептосфера внутреннего мира человека в русском языке» В.И. Убийко , комплексный учебный словарь «Лексическая основа русского языка» под руководством В.В. Мор­ковкина .

Познакомимся с некоторыми из них.

Словарь-тезаурус современной русской идиоматики» под ре­дакцией А.Н. Баранова и Д.О. Добровольского включает четыре ос­новные части: 1) синопсис; 2) легенду; 3) основной корпус Слова­ря-тезауруса; 4) указатели. Цель Синопсиса - дать общее представ­ление о структуре Основного корпуса Тезауруса. В нем указаны все таксоны с подтаксонами и соответствующими парадигматиче­скими отсылками. Основной корпус Словаря-тезауруса представ­ляет собой совокупность словарных статей, объединенных в груп­пы (таксоны) и подгруппы (подтаксоны) в соответствии со значе­нием описываемых в них идиом. Каждая статья содержит идиому и примеры ее употребления в современном русском языке. Синоп­сис, Легенда, Указатели - служебные части вышеназванного Сло­варя-тезауруса, обеспечивающие пользователю возможность быст­ро и эффективно работать. Легенда используется в тех случаях, ко­гда не нужны примеры употребления идиом, т.к. она воспроизво­дит всю информацию, кроме примеров. Фактически, это словник Словаря. Единицами словника являются леммы. Лемма в данном случае представляет собой идиому в исходной (словарной) форме и включает по возможности все ее существенные варианты. Напри­мер, идиома стоять на месте входит в состав леммы топтаться на месте, стоять на месте, буксовать на месте.

Словарь содержит два указателя. В конце книги помещена статья «Теоретическая концепция Словаря-тезауруса современной русской идеоматики», в которой подробно анализируются научные особенности данного проекта.

«Русский семантический словарь», созданный под руково­дством Ю.Н. Караулова включает 10 тыс. русских слов, которые разнесены по 1600 понятийным группам. В основе выделения групп - повторяющиеся элементы толкований слов в толковых словарях: например, «действие», «свойство», «инструмент» и т.п.

«Русский семантический словарь», созданный под руково­дством академика Н.Ю. Шведовой, основывается на несколько иных принципах, характерных для составления как идеографиче­ских, так и толковых словарей. Во-первых, все слова языка разде­лены здесь на четыре класса: 1) единицы указующие (местоиме­ния), 2) именующие (знаменательные слова), 3) собственно свя­зующие (союзы, предлоги, глаголы-связки), 4) классифицирующие (модальные слова, частицы, междометия). Во-вторых, внутри каж­дого класса все слова распределены по частям речи. В-третьих, внутри каждой части речи выделены множества и подмножества на основании тематической близости или, наоборот, противопостав­ленности значений слов.

DUDEN - это книга с картинками (чертежами) на левой сто­роне (по разным ПО) с пронумерованными деталями (до мельчай­ших). На правой стороне этот нумерованный список сопровождает­ся названиями (даже на двух языках). Например, на целой странице нарисованы железнодорожная техника, станции, пути. Справа - на­звания стрелок, семафоров, костылей и т.п.

«Тематический словарь русского языка» Л.Г. Саяховой, Д.М. Хасановой и В.В. Морковкина содержит 25 тыс. лексических единиц, сгруппированных по трем крупным классам: «Человек», «Общество», «Природа», которые ступенчато ветвятся на более мелкие подклассы. Например, в классе «Человек» выделяются под­классы «Тело и организм человека», «Жизнь человека», «Внешний вид, наружность человека», «Эмоциональный вид человека» и др. Каждый из подклассов в свою очередь разбивается на еще более частные: «Эмоциональный мир человека» - «Психические свой­ства человека» - «Темперамент», «Характер» - «Общие черты характера» и т.д. Значение и употребление слов, относящихся к каждому классу, иллюстрируются наиболее употребительными словосочетаниями. Например, слово «смех», находящееся в под­группе «выражение чувств, эмоций» класса «Человек», сопровож­дается указанием таких сочетаний с этим словом, как веселый смех, радостный смех, смех ребенка, заливаться смехом и др.

Резюме. Одним из действенных инструментов описания от­дельных предметных областей, особенно в электронном формате, являются тезаурусы.

Термин тезаурус уже давно широко используется в лингвис­тике для обозначения специального типа словарей, в той или иной степени отражающих «картину мира», «языковую модель мира» (по Ю.Н. Караулову). Тезаурус как «сокровищница» вырос в своем смысловом объеме, получил новое значение. Им стали называть словарь, не просто вбирающий в себя все лексические богатства языка, а упорядочивающий их определенным логико-системным образом. В словаре-тезаурусе слова сводятся в группы, а объеди­нение это происходит на основе способности того или иного слова передавать определенное понятие.

Тезаурус-словарь всегда рассматривался в лингвистике как некоторая универсальная система, обеспечивающая хранение кол­лективного (для того или иного социума) знания о мире в вербаль­ной форме. В отличие от других словарей в тезаурусе-словаре это знание хранится в структурированной форме, отражающей наши представления о «структуре мира».

Наиболее известными и популярными тезаурусами в настоя­щее время являются английский Тезаурус Роже, Идеографический словарь русского языка О.В. Баранова, Русский семантический словарь Ю.Н. Караулова, Русский семантический словарь академи­ка Н.Ю. Шведовой, DUDEN, Тематический словарь русского языка Л.Г. Саяховой, Д.М. Хасановой и В.В. Морковкина.

Понятийная система предметной области Основой любой предметной области служит система понятий этой области. Определение понятия: Понятие – мысль, отражающая в обобщенной форме предметы и явления действительности посредством фиксации их свойств и отношений; последние (свойства и отношения) выступают в понятии как общие и специфические признаки, соотнесенные с классами предметов и явлений (Лингвистический словарь)


Понятия и термины Для выражения понятия предметной области в текстах служат слова или словосочетания, называемые терминами. Совокупность терминов предметной области образуют ее терминологическую систему. Отношение конкретного термина с другими терминами терминосистемы предметной области задается посредством дефиниции


Определения термина? Слово (или сочетание слов), являющееся точным обозначением определенного понятия какой-либо специальной области науки, техники, искусства, общественной жизни и т.п. || Специальное слово или выражение, принятое для обозначения чего-л. в той или иной среде, профессии (Большой толковый словарь русского языка)


Термины – точные названия понятий Обычно каждому понятию области соответствует хотя бы один однозначно понимаемый термин, значением которого является это понятие. - термины, в смысле традиционной теории терминологии Свойства терминов – точных наименований понятий - термин должен относиться непосредственно к понятию, он должен выражать понятие ясно; - значение термина должно быть точным и не должно пересекаться по значению с другими терминами; - значение термина не должно зависеть от контекста. Термины, точно именующие понятие, - предмет исследования теории терминологии, терминологов


Текстовые термины В реальных текстах предметной области для ссылки на понятие помимо основных терминов может использоваться множество разнообразных языковых выражений, которые мы называем текстовыми терминами: - синтактико-словообразовательные варианты: получатель бюджетных средств – бюджетополучатель; - лексические варианты – безакцептное списание, бесспорное списание; - многозначные выражения, в зависимости от контекста служащие отсылкой к разным понятиям области, например, слово валюта в разных контекстах может означать национальная валюта или иностранная валюта.














Дескрипторы с пометами Помета - часть названия дескриптора cranes (lifting equipment) vs cranes (birds) shells (structures) – сопоставление разных тезаурусов Предпочтения словосочетаниям: –Phonograph records vs. records (phonograph) Пометы и множественное число: Wood (material) Woods (forested areas)






Включение дескрипторов на основе многословных выражений Расщепление термина увеличивает многозначность: plant food Смысл выражения зависит от порядка слов: информационная наука - научная информация Одно из слов-компонент находится вне сферы тезауруса или слишком общее: first aid Отношения дескриптора не следуют из его структуры: –Искусственные почки, статус беженца, traffic lights




Ассоциативные отношения Сфера деятельности – действующее лицо –Математика – математик Дисциплина – объект изучения –Неврология – нервная система Действие – агент или инструмент –Охота – охотник Действие – результат действия –Ткачество – ткань Действие – цель –Переплетные работы - книга Причина-следствие –Смерть – похороны Величина – единица измерения –Сила тока - ампер Действие - контрагент –Аллерген – антиаллергический препарат и т.п.


Информационно-поисковые тезаурусы: этапы разработки Первый этап: индексаторы описывают основную тему текста произвольными словами и словосочетаниями Полученные по многим текстам термины сводятся вместе Среди близких по смыслу терминов выбирается наиболее представительный Некоторые из оставшихся становятся условными синонимами, остальные удаляются Конкретные термины обычно не включаются


Информационно-поисковые тезаурусы: искусство разработки Дескрипторы – это термины, которые нужны для выражения основной темы документа Синонимы включаются только самые необходимые (например, начинаются с другой буквы), чтобы не затруднять работу индексатора Близкие термины должны быть сведены к одному термину, чтобы избежать субъективности индексирования Уровни иерархии, включение конкретных терминов ограничиваются


Информационно-поисковый тезаурус: искусство разработки - 2 В сложных случаях дескрипторы снабжаются пометами и комментариями –LIV: bombardment – bombing –Многозначные термины: одно значение в тезаурусе (capital), не помещаются в тезаурус, пометы!!! Традиционный информационно-поисковый Тезаурус – искусственный язык, построенный на базе реальных терминов




Традиционные ИПТ: применение в автоматической обработке Нехватка знаний о реальном языке ПОНехватка знаний о реальном языке ПО Legislative Indexing Vocabulary:Legislative Indexing Vocabulary: –в тексте TROOPS – в тезаурусе MILITARY FORCES –в тексте CAPITAL – столица, в тезаурусе только капитал Предлагается: каждый дескриптор дополнить списками слов и терминов Предлагается: каждый дескриптор дополнить списками слов и терминов Но: многозначность или относящийся к разным дескрипторам. Но: многозначность или относящийся к разным дескрипторам. Разрешение многозначности Разрешение многозначности


Традиционные ИПТ: автоматическое расширение запроса Проблема с ассоциациями Предлагается: вводить веса вводить веса вводить названия отношений: объект, свойство и т.п. вводить названия отношений: объект, свойство и т.п. ВЫВОД: нужно научиться строить лингвистические ресурсы специально для автоматической обработки текстовых коллекций


Тезаурус EUROVOC – многоязычный тезаурус Европейского Сообщества Тезаурус на 9 языках Русская версия EUROVOC –+5 тысяч понятий, отражающих российскую специфику Многоязычный тезаурус –Дескриптор – названия на разных языках –Аскрипторы – для некоторых языков


Автоматическое индексирование по тезаурусу EUROVOC, основанное на правилах (Hlava, Heinebach, 1996) Пример правила: IF (near "Technology" AND with "Development") USE Community programme USE development aid ENDIF 40 тысяч правил. Тестирование: 20 наиболее частотных по тексту дескрипторов, порожденных автоматически – 42% полноты, по сравнению с ручным рубрицированием


Автоматическое индексирование на основе установления весов соответствия между словами и дескрипторами (Steinberger и др., 2000) 1 этап – установление соответствия между словами текста и приписанными дескрипторами на основе статистических мер (chi-square или log-likelihood) дескриптор FISHERY MANAGEMENT - следующие слова (в порядке убывания веса): fishery, fish, stock, fishing, conservation, management, vessel, и т.д. 2этап собственно индексирование – суммирование логарифмов весов или как скалярное произведение векторов


Сочетание свободных запросов и запросов на основе информационно-поискового тезауруса Проиндексированная вручную коллекция – установление корреляций Пользователь задает запрос на естественном языке Запрос расширяется наиболее сильно коррелированными с запросом дескрипторами тезауруса (Petras 2004; Petras 2005). Например, по запросу Insolvent Companies (Неплатежеспособные компании) может быть получен список дескрипторов liquidity, indebtness, enterprise, firm., и выполнено расширение запроса Точность в эксперименте выросла на 13 %.



Одним из новых основных понятий, появившихся в результате разработки машинных методов обработки информации, в частности, при переводе с одного языка на другой, поиска научно-технической информации и создания информационной модели предприятия в автоматизированных системах управления, явилось понятие тезауруса информационной системы. Термин «тезаурус» подразумевает совокупность знаний о внешнем мире - это так называемый тезаурус мира Т. Все понятия внешнего мира, выраженные с помощью естественного языка, составляют тезаурус, из которого можно выделить частные тезаурусы путем иерархического деления с учетом соподчинения отдельных понятий или путем выделения частей общего тезауруса мира. Тезаурус в информационно-поисковых системах играет важную роль в поиске нужного документа по ключевым словам. Поэтому построение тезауруса является сложной и ответственейшей задачей. Но эта задача также может быть автоматизирована.

Классификация в ее наиболее общем определении есть разбиение и упорядочение множеств. Ею называют распределение предметов по классам на основании общего признака, присущего данным явлениям или предметам и отличающего их от предметов и явлений, составляющих другие классы. При необходимости каждый класс может делиться на подклассы. Рубрикатор является особой разновидностью классификации . Поэтому они созданы на основе общих положений:
 научная основа построения классификации;
 отражение современного уровня развития науки;
 наличие системы ссылок и отсылок, а также ссылочно-справочного аппарата (ССА).

Однако рубрикатор является прагматической классификацией, создающейся на основе информационных потоков и потребностей специалистов . В этом его отличие от априорных классификаций, таких как УДК и МПК.

Основными функциями классификаций и, в частности, рубрикатора можно назвать следующие:
 тематическое разграничение информационных подсистем;
 формирование информационных массивов по любым признакам;
 систематизирование информационных материалов и изданий;
 текущий и ретроспективный поиск;
 индексирование документов и запросов;
 связь с другими классификационными схемами;
 нормативные функции.

Они строятся путем деления понятий - объектов классификации на основе установленных связей между признаками этих объектов в соответствии с определенными логическими принципами. Признак, по которому производится классификация, получил название основания деления классификации. В классификациях широко используются методы дедукции и индукции для фиксации групп, классов и выявления связей между ними. Это характерно для иерархических классификаций. Глубина классификации (количество уровней иерархии) может быть различной в зависимости от назначения. Одним из широко используемых рубрикаторов является государственный рубрикатор научно-технической информации (ГРНТИ).

Рубрикатор ГРНТИ разработан так, что возможно его совместное использование с другими классификациями типа УДК и МПК. Универсальная десятичная классификация (УДК) существует более 70 лет, но до сих пор не знает себе равных по широте распространения и используется во многих странах мира. УДК охватывает весь универсум знаний и успешно применяется для систематизации и последующего поиска самых разнообразных источников информации.

Помимо УДК на практике широко используется библиотечно-библиографическая классификация (ББК). ББК построена на принципах логической соподчиненности и представляет классификацию прикладного типа.
В Российской Федерации для классифицирования изобретений и систематизации отечественных фондов описаний изобретений используется международная патентная классификация - достаточно сложная многоаспектная классификация, построенная по функционально-отраслевому принципу. Одни и те же технические понятия могут находиться в МПК или специальных классах (по отраслевой принадлежности) или в функциональных классах (по принципу действия). Отраслевой принцип распределения понятий предполагает классифицирование объектов в зависимости от применения в той или иной исторически сложившейся отрасли техники, технологии.

Сравнительная характеристика рубрикатора ГРНТИ, УДК, ББК и МПК, приведена в таблице 1.

Таблица 1
Характеристика рубрикатора ГРНТИ, УДК, ББК и МПК

Наименование

Структура

Принцип расположения делений

Схема построения разделов

Иерархическая

Отраслевой

От общего к частному

Иерархическая

Тематический

Иерархическая

Функционально-отраслевой

От общего к частному

ББК для научных библиотек

Иерархическая

Отраслевой

От общего к частному, по видовому признаку


Таким образом, можно выделить главные отличительные особенности рубрикаторов и классификаторов:
 им свойственен прикладной характер и отраслевая направленность;
 это открытые системы, зависящие от развития науки и техники, потребностей и запросов специалистов;
 неорганичные системы, так как объекты возникают и развиваются в окружающей среде и из нее поступают в них. Элементы способны существовать самостоятельно вне системы. Эта черта тесно связана со второй особенностью;
 минимальным элементом является понятие, связанное со средой. Понятие представляет систему определений;
 между понятиями возникают связи как по «вертикали» (род-вид, целое-часть), так и по «горизонтали» (вид-вид, часть-часть), что свидетельствует об иерархичности систем.

Следовательно, структура и принципы организации классификаций и рубрикаторов делают возможным автоматизировать процесс построения тезаурусов предметной области, используя метод дедукции. Алгоритм построения тезауруса по методу дедукции приведен на рис. 1.

Основой для формирования тезауруса является поисковый образ документа, задание или заявка на поиск информации, заполняемая оператором. Следовательно, первым шагом становится исследование и анализ заявки. На первом этапе оператор указывает интересующую тему или проблему, возможные ключевые слова и их синонимы. В результате этого получаем поверхностное представление о предметной области.

Рис. 1. Алгоритм построения тезауруса по методу дедукции

Кроме того, формируется тезаурус ключевых слов КС по методу дедукции, для чего необходимы:
 массив КС, который задает сам пользователь, обозначенный на рисунке 1 как MP;
 массив КС, извлеченный из задания на поиск соответственно MZ.

Однако для более полного и глубинного представления о предметной области используем существующие рубрикаторы и классификационные схемы (ГРНТИ, УДК, ББК, МПК). С целью максимального охвата предметной области необходимо просмотреть все, имеющиеся в наличии. Массив рубрикаторов представляет MR. Алгоритм поиска по методу дедукции состоит из двух шагов:
1. Нахождение родовых понятий (рис. 2);
2. Нахождение внутри родовых понятий видовых терминов (рис. 3).


Рис. 2. Обработка родового понятия

Загружаем из массива первый рубрикатор и организуем цикл проверки наличия в рубрикаторах КС, введенных пользователем. Каждое КС ищется в рубрикаторе и сравнивается с родовым понятием или «гнездом», а затем проверяется условие - есть ли ссылка на видовые термины. Если такая ссылка имеется, то КС сравнивается с видовыми терминами. В случае если ссылки не обнаружено, переходим к следующему родовому понятию. Когда ключевые слова КС, введенные оператором, просмотрены, переходим к массиву КС, извлеченных из задания. Процедура проверки аналогична - ищем КС, соответствующие родовым понятиям, а затем их ссылки на видовые термины.


Рис. 3. Обработка видовых терминов

Отметим, внутри каждого родового понятия важно просмотреть все имеющиеся видовые термины с целью получения максимального представления о проблемной области. Результатом этих действий является формирование массива ключевых слов КС, представляющего собой полный тезаурус, соответствующего заданию на поиск информации или поисковому образу документа.

На базе полного набора поисковых образов документов (обозначим) можно создать отраслевые тезаурусы и единый классификатор библиотеки. Очевидно, что полный набор  сам представляет простейший тезаурус.

Однако, используя критерий отбора
, (1)
можем построить отраслевые тезаурусы. При этом множество всех отраслевых тезаурусов образует полный тезаурус
, (2)
разделы которого могут быть иерархически структурированы в соответствии с требованиями ГОСТов по основным классификаторам (ГРНТИ, УДК, ББК, МПК) или по внутреннему единому классификатору.

Автоматизация процесса построения тезауруса и классификации позволяет максимально облегчить труд оператора, работающего с распределенными информационными ресурсами.

Помимо построения тезауруса, на основе поискового образа документа предложенный подход можно использовать при автоматическом реферировании документа и кластеризации текстов.

Реферирование документов является одной из задач, направленных на обеспечение специалистов-экспертов достоверной информацией, необходимой для принятия управленческого решения о ценности полученных из сети Интернет документов. Реферированием называется процесс преобразования документальной информации, завершающийся составлением реферата, а реферат - это семантически адекватное изложение основного содержания первичного документа, отличающееся экономной знаковой оформленностью, постоянством лингвистических и структурных характеристик и предназначенное для выполнения разнообразных информационно-коммуникативных функций в системе научной коммуникации . Алгоритм реферирования документов представлен на рис. 4.


Рис. 4. Алгоритм реферирования документов

В общем случае алгоритм включает следующие основные этапы.
1. Производится выделение предложений из документа, закаченного из сети Интернет и находящегося в хранилище данных, путем выделения знаков препинания и сохраняем его в массиве.
2. Каждое предложение разбивается на слова путем выделения разделителей, и сохраняем их в массив, причем для каждого предложения массив разный.
3. Для каждого предложения, для каждого слова этого предложения считаем количество слов в других предложениях (до и после). Сумма повторов для каждого слова (до и после) и будет весом данного предложения.
4. Заданное число предложений с максимальным весовым коэффициентом и выбираем в реферат в порядке появления в тексте.

Предложенная модель построения тезауруса и тематических каталогов информационной системы представляет собой теоретическую основу для автоматизации смыслового поиска и позволяет специалисту-эксперту не только проводить поисковые работы, но и в автоматизированном режиме, реферировать документы, полученные в результате поиска в распределенных информационных системах сети Интернет.

Литература:
1. Барушкова Р.И. Классификационные схемы научно-технической информации. Учеб. пособие. - М., 1981. - 80с.
2. Барушкова Р.И. Рубрикатор как классификационная схема научно-технической информации. Методическое пособие. - М., 1980. - 38с.
3. Трусов А.В., Бабарыкин Е.П. Оценка границ области тематического информационного запроса в распределенных информационных системах. Материалы Всероссийской (с международным участием) конференции «Информация, инновации, инвестиции», 24-25 ноября 2004 года, г.Пермь /Пермский ЦНТИ. - Пермь, 2004. - С.76-79.
4. Яцко В.А. Логико-лингвистические проблемы анализа и реферирования научного текста. - Абакан: изд-во Хакасского гос. ун-та, 1996. - 128 с.

Последние материалы раздела:

Английский с носителем языка по skype Занятия английским по скайпу с носителем
Английский с носителем языка по skype Занятия английским по скайпу с носителем

Вы могли слышать о таком замечательном сайте для языкового обмена, как SharedTalk. К сожалению, он закрылся, но его создатель возродил проект в...

Исследовательская работа
Исследовательская работа " Кристаллы" Что называется кристаллом

КРИСТАЛЛЫ И КРИСТАЛЛОГРАФИЯ Кристаллом (от греч. krystallos - "прозрачный лед") вначале называли прозрачный кварц (горный хрусталь),...

«Морские» идиомы на английском языке
«Морские» идиомы на английском языке

“Попридержи коней!” – редкий случай, когда английская идиома переводится на русский слово в слово. Английские идиомы – это интересная,...