Do czego służy tezaurus? Znaczenie słowa tezaurus

N. W. Łukaszewicz

[e-mail chroniony]

B. V. Dobrov

Centrum Obliczeniowe Badań Moskiewskiego Uniwersytetu Państwowego M.V. Łomonosow;

Centrum Badań Informacyjnych ANO

[e-mail chroniony]

Słowa kluczowe: tezaurus, wyszukiwanie informacji, automatyczne przetwarzanie tekstu,

Zdecydowana większość technologii pracujących z dużymi zbiorami tekstów opiera się na metodach statystycznych i probabilistycznych. Wynika to z faktu, że zasoby leksykalne, które można by wykorzystać do przetwarzania zbiorów tekstowych metodami lingwistycznymi, powinny mieć objętość kilkudziesięciu tysięcy haseł słownikowych i posiadać szereg istotnych właściwości, które należy szczególnie monitorować podczas opracowywania zasobu. W raporcie rozważamy podstawowe zasady opracowywania zasobów leksykalnych do automatycznego przetwarzania dużych zbiorów tekstów na przykładzie tezaurusu języka rosyjskiego tworzonego od 1997 roku do komputerowego przetwarzania tekstów RuThez, który jest obecnie hierarchiczną siecią ponad 42 tysięcy pojęć . Aktualny stan tezaurusa opisujemy na podstawie porównania jego składu leksykalnego z korpusem tekstowym Uniwersyteckiego Systemu Informacyjnego ROSJA (www.cir.ru) – 400 tys. dokumentów. Omówiono przykłady wykorzystania tezaurusa w różnych aplikacjach do automatycznego przetwarzania tekstu.

  1. Wstęp

Obecnie miliony dokumentów stały się dostępne w formie elektronicznej, powstały tysiące systemów informatycznych i bibliotek elektronicznych. Jednocześnie systemy informacyjne korzystające z zasobów leksykalnych i terminologicznych do wyszukiwania są obliczane w ułamkach procenta. Wynika to z poważnych problemów związanych z tworzeniem takich zasobów językowych do automatycznego przetwarzania współczesnych zbiorów dokumentów elektronicznych.

Po pierwsze, zbiory te są zazwyczaj bardzo duże, zasób musi zawierać opisy tysięcy słów i terminów. Po drugie, zbiory to zbiór dokumentów o różnej strukturze i różnorodnych konstrukcjach syntaktycznych, co utrudnia automatyczne przetwarzanie zdań tekstowych. Ponadto ważne informacje są często rozdzielone pomiędzy różnymi zdaniami tekstu.

Wszystko to ostro nasuwa pytanie, jaki powinien być zasób językowy, który z jednej strony byłby przydatny do automatycznego przetwarzania i wyszukiwania w zbiorach elektronicznych, z drugiej zaś mógłby zostać stworzony w przewidywalnym czasie i utrzymywany przy stosunkowo mały wysiłek.

W artykule rozważymy podstawowe zasady tworzenia zasobów leksykalnych do automatycznego przetwarzania dużych zbiorów tekstowych. Zasady te zostaną rozważone na przykładzie tezaurusu języka rosyjskiego tworzonego od 1997 roku przez Centrum Badań Informacyjnych ANO do komputerowego przetwarzania tekstów RuThez. RuThez to obecnie hierarchiczna sieć ponad 42 tysięcy pojęć, która obejmuje ponad 95 tysięcy rosyjskich słów, wyrażeń i terminów. Obecny stan tezaurusa opiszemy na podstawie porównania jego składu leksykalnego z leksykonem korpusu tekstowego Uniwersyteckiego Systemu Informacyjnego RUSSIA, wspieranego przez Centrum Badawczo-Rozwojowe Moskiewskiego Uniwersytetu Państwowego. M.V. Łomonosow i ANO TsII. UIS RUSSIA (www.cir.ru) zawiera 400 000 dokumentów na tematy społeczno-polityczne (około 3 GB tekstów, 200 milionów użycia słów). W artykule omówione zostaną także przykłady użycia tezaurusu w różnych aplikacjach do edycji tekstu.

  1. Zasady rozwoju zasobu językowego

do zadań związanych z wyszukiwaniem informacji

Aby zapewnić sprawną automatyczną obróbkę dokumentów elektronicznych (automatyczne indeksowanie, kategoryzacja, porównywanie dokumentów) konieczne jest zbudowanie podstawy do ich porównania - listy tego, co zostało wymienione w dokumencie. Aby taki indeks był skuteczniejszy od indeksu wyrazowego, konieczne jest przezwyciężenie różnorodności leksykalnej tekstu: synonimów, polisemii, części mowy, stylu i sprowadzenie tego do niezmiennika – koncepcja, która staje się podstawą porównania różne teksty. Zatem pojęcia powinny stać się podstawą zasobu językowego, a wyrażenia językowe: słowa, terminy - stać się jedynie danymi wejściowymi tekstu, które inicjują odpowiednie pojęcie.

Aby móc porównać różne, ale bliskie znaczeniu, koncepcje, należy ustalić między nimi relacje. Tradycyjnie w zasobach językowych służących do automatycznego przetwarzania tekstów w języku naturalnym wykorzystywano pewne zestawy relacji semantycznych, jak np. część, źródło, przyczyna i tak dalej. Jednak pracując z dużymi i niejednorodnymi zbiorami tekstów, musimy zrozumieć, że przy obecnym stanie technologii przetwarzania tekstu system komputerowy nie będzie w stanie w żaden stabilny sposób wykryć tych relacji w tekście, aby wykonać procedury, które my są powiązane z określonymi relacjami. Dlatego relacje między pojęciami powinny przede wszystkim opisywać pewne właściwości niezmienne, które nie zależą lub są słabo zależne od tematu konkretnego tekstu, w którym jest mowa o danym pojęciu.

Główną funkcją tych relacji jest odpowiedź na pytanie:

jeśli wiadomo, że tekst jest poświęcony omówieniu C1, a C2 jest powiązane

postawaRprzy C1, czy możemy powiedzieć, że jest to temat tekstu(*)

ma coś wspólnego z C2?

Tworząc zasób językowy do automatycznego przetwarzania, ważne jest określenie, które właściwości pojęć C1 i C2 pozwalają na ustalenie prawidłowych (*) relacji między nimi.

Czyli na przykład o czymkolwiek są pisane teksty brzozy, zawsze możemy powiedzieć, że są to teksty o drzewa. Ale pomimo popularności i częstych dyskusji na temat związku drzewo jako część lasy, bardzo niewielką liczbę tekstów o drzewach stanowią teksty o lasach. Należy pamiętać, że problem nie jest związany z nazwą relacji. Więc polana jest częścią lasu, a teksty o polanach to teksty o lesie.

O niezmienności relacji ze względu na spektrum możliwych tematów tekstów z obszaru tematycznego decydują w dużej mierze właściwości głębsze niż te, które odzwierciedlają nazwy relacji, a mianowicie jej kwantyfikator i właściwości egzystencjalne. Zatem kwantyfikatorowe właściwości relacji opisują, czy wszystkie wystąpienia pojęcia mają daną relację, czy dana relacja jest zachowana przez cały cykl życia przykładu. Problem z użyciem relacji drzewolas wiąże się to z tym, że nie każde drzewo jest w lesie, ale polana nie może znajdować się poza lasem.

Przykładem opisu egzystencjalnych właściwości relacji jest to, czy istnienie pojęcia C2 wynika z istnienia pojęcia C1 (np. istnienie pojęcia GARAŻ wymaga koncepcji SAMOCHÓD) lub istnienie przykładów C1 zależy od istnienia przykładów C2 (a więc konkret POWÓDŹ nierozerwalnie związane z konkretnym przykładem RZEKI). Dyskusja w tekście pojęcia zależnego C2, zwłaszcza przykładowego, sugeruje, że tekst ma także związek z pojęciem głównym C1.

Rozważ związek między pojęciami LAS i DREWNO w szczegółach. W rzeczywistości część koncepcji LAS Jest DRZEWO W LESIE, podczas gdy istnieją i STOJĄCE DRZEWO,DRZEWO W OGRODZIE itd. W każdym razie konieczne jest zerwanie relacji podporządkowania pojęcia DRZEWO pojęcie LAS.

Z drugiej strony, LAS jest miły ZESTAW DRZEW, nie istnieje bez drzew (a także OGRÓD). Stąd koncepcja LAS powinno zależeć od koncepcji DRZEWO. Wychodząc od analizy potrzeb konkretnych zastosowanych zadań, doszliśmy do wniosku, że ważne jest opisanie głębokich właściwości relacji, które wcześniej w bardzo niewielkim stopniu znajdowały odzwierciedlenie w zasobach językowych, ale które mają ogromne znaczenie dla zadań automatycznego przetwarzania dużych zbiorów tekstów i ewentualnie do wielu innych zadań.

Teraz modelujemy opis kwantyfikatora i właściwości egzystencjalnych pojęć poprzez zestaw tradycyjnych relacji tezaurusowych POWYŻEJ-DÓŁ (66% wszystkich połączeń), CZĘŚĆ-Cała (30% połączeń), STOWARZYSZENIE (4%), w połączeniu z pewien zestaw dodatkowych modyfikatorów (20% relacji jest oznaczonych jako ). Należy pamiętać, że relacje CZĘŚĆ-CAŁOŚĆ i STOSOWANIE interpretowane są zgodnie z zasadą (*). Ogółem opisano około 160 tysięcy bezpośrednich powiązań między pojęciami, co biorąc pod uwagę przechodniość relacji daje w sumie liczbę różnych powiązań ponad 1350 tysięcy połączeń, czyli średnio każde pojęcie jest powiązane z 30 innymi .

  1. Tezaurus RuThesa: ogólna struktura

Tezaurus RuThes to hierarchiczna sieć pojęć odpowiadających znaczeniom poszczególnych słów, wyrażeń tekstowych lub serii synonimów. Zatem głównymi elementami tezaurusa są pojęcia, wyrażenia językowe, relacje, wyrażenie językowe - pojęcie, relacje między pojęciami.

W tezaurusie zawarta jest zarówno wiedza językowa – opisy leksemów, idiomów i ich powiązań, tradycyjnie związana z wiedzą leksykalną, semantyczną, jak i wiedza o terminach i relacjach w obrębie dziedzin tematycznych, tradycyjnie związanych z obszarem działalności terminologów, opisywana w tezaurusach wyszukiwania informacji , są zebrane w jednym systemie. Jako subdomeny tematyczne, tezaurus opisuje takie obszary tematyczne, jak ekonomia, prawodawstwo, finanse, stosunki międzynarodowe, które są tak ważne w codziennym życiu człowieka, że ​​mają znaczącą reprezentację leksykalną w tradycyjnych słownikach objaśniających. W nich leksykalne i terminologiczne są ze sobą silnie powiązane i silnie na siebie oddziałują.

Wyrażenia językowe stanowią odrębne leksemy (rzeczowniki, przymiotniki i czasowniki), grupy nominalne i werbalne. Dlatego tezaurus nie zawiera obecnie przysłówków i słów pomocniczych jako wyrażeń językowych. Grupy składające się z wielu słów mogą zawierać terminy, idiomy, funkcje leksykalne ( wpływ mi).

Dla każdego wyrażenia językowego opisano co następuje:

Jego wieloznaczność polega na powiązaniu z jednym lub większą liczbą pojęć, co oznacza, że ​​dane wyrażenie językowe może służyć jako tekstowy wyraz tego pojęcia. Przyporządkowanie wyrażenia językowego do różnych pojęć jest także ukrytym wskazaniem jego dwuznaczności;

Jego skład morfologiczny (część mowy, liczba, przypadek);

Funkcje pisania (na przykład wielką literą) itp.

Każde pojęcie tezaurusa ma unikalną nazwę, listę wyrażeń językowych, za pomocą których można wyrazić to pojęcie w tekście, listę powiązań z innymi pojęciami.

Jako unikalną nazwę koncepcji wybiera się zwykle jedno z jej jednoznacznych wyrażeń tekstowych. Ale nazwę pojęcia można również utworzyć za pomocą pary jego niejednoznacznych wyrażeń tekstowych - synonimów zapisanych przecinkiem i jednoznacznie je definiujących (na przykład pojęcie GRUBY GRUBY). Niejednoznacznemu wyrażeniu tekstowemu nazwy pojęcia można także nadać etykietę lub skrócony fragment interpretacji, np. TŁUM (ZGROMADZENIE LUDZI).

  1. Przykład hasła słownikowego

Jako przykład wybraliśmy hasło słownikowe tego pojęcia LAS odpowiadające jednemu ze znaczeń tego słowa las. Hasło słownikowe jest o tyle ciekawe, że obejmuje różne typy wiedzy, tradycyjnie określane mianem wiedzy leksykalnej (semantycznej) i wiedzy encyklopedycznej (wiedza tematyczna, terminologia).

Synonimy dla pojęcia LAS(łącznie 13):

las(M), strefa leśna, środowisko leśne,

las, dzielnica leśna, krajobraz leśny,

obszar leśny, las, zalesiony,

obszar surowca leśnego, las,

szereg lasów.

Następujące terminy z synonimami:

DŻUNGLA(dżungla);

LEŚNY PARK(ogród miejski, teren zielony,

zielony masyw, park leśny,

leśnictwo, leśnictwo

pasek, parkM), strefa parkowa);

Polowanie w lesie;

lasy liściaste(las iglasty, drewno liściaste

las);

GAJ(las dębowy);

LAS Iglasty (masyw iglasty, ciemny bór iglasty)

Pojęcia-części z synonimami:

BORELOM (wiatr, gratka);

WYRĄB(obszar cięcia);

KULTURA LEŚNA(gatunki leśne, leśnictwo

kultura);

GRUNTY LEŚNE (grunty funduszu leśnego; grunty pokryte

las; grunty leśne, obszar leśny;

teren zalesiony, zalesiony

obszar,);

LAS(plantacje leśne, plantacje leśne,

zalesienie);

SKRAJ LASU(obrzeże, obrzeże);

PODROST (podszycie);

PROSEKA;

SUCHY LĄD(suchy).

Tutaj symbole (M) odzwierciedlają znak niejednoznaczności wprowadzonego tekstu.

pojęcie LAS ma także inne relacje, tzw. relacje zależności (we współczesnej wersji nazywane są one ASC 2 – asymetria asocjacyjna): POŻAR LASU(pożar lasu, pożar w lesie; ZARZĄDZANIE LASEM (użytkowanie lasu, użytkowanie działek funduszu leśnego); WŁASNOŚĆ LASÓW; NAUKA LEŚNA (nauki leśne). Jak już wspomniano w paragrafie 2, pojęcie FOREST zależy od pojęcia DRZEWA, które w tezaurusie jest oznaczone relacją ASC 1 .

Cała koncepcja LAS jest bezpośrednio powiązany z 28 innymi pojęciami, biorąc pod uwagę przechodniość relacji - z 235 pojęciami (łącznie ponad 650 wpisów tekstowych).

  1. Ocena stanu techniki

Tezaurus języka rosyjskiego RuThez

5.1. Kompozycja leksykalna

Obecnie w sieci tezaurusów znajduje się ponad 95 tysięcy wyrażeń językowych, z czego 61 tysięcy to wyrazy jednowyrazowe.

Ten nakład pracy skłonił nas do podjęcia decyzji, jakie słowa i wyrażenia językowe powinny znaleźć się w opisach Tezaurusa. Naturalną potrzebą było sprawdzenie, jak w tezaurusie reprezentowane są najczęstsze słowa języka rosyjskiego. Wykorzystano w tym celu zbiór tekstów Uniwersyteckiego Systemu Informacyjnego ROSJA (400 tys. dokumentów). W zbiorze znajdują się dokumenty urzędowe różnych organów Federacji Rosyjskiej (55 tys. dokumentów od 1992 r.), a także materiały prasowe od 1999 r. (gazety „Izwiestia”, „Niezawisimaja Gazieta”, „Komsomolskaja Prawda”, „Argumenty i fakty”, „Ekspert” i inne), materiały naukowe czasopisma (Biuletyn Uniwersytetu Moskiewskiego, Sociological Journal). Dokonano porównania pomiędzy listą lematów zawartą w Tezaurusie a listą 100 000 najczęściej występujących lematów w zbiorze tekstów (częstotliwość powyżej 25).

Leksykalny układ zestawienia pokazał, że spośród tych stu tysięcy lematów, 35 tysięcy jest opisanych w RuThes, jedynie około 7 tysięcy leksemów zasługuje na włączenie do Tezaurusa, reszta to lematyczne warianty różnych nazw własnych. Dlatego uzupełnianie przestało być priorytetem i odbywa się stopniowo, zaczynając od najczęstszych słów. Zakłada się, że gdy tylko ta lista zostanie w zasadzie wyczerpana, zostanie wykonane kolejne porównanie z tablicą tekstową systemu informatycznego, zostaną wybrane nowe tokeny z częstotliwością większą niż 25. Ponadto próg oglądalności ma wynosić zredukowany. Obecność w zbiorze tekstów dużej liczby przykładów tekstowych pozwala szybko reagować na „nowości leksykalne” (np. instalacja,przebój, piękny świat, kryminał) i umieść je w odpowiednich miejscach w układzie hierarchicznym Tezaurusa.

Stała praca z aktualnym zbiorem tekstów daje unikalne możliwości sprawdzenia znaczenia i jakości opisów leksykalnych oferowanych w słownikach. Na przykład niezwykle wysoka częstotliwość użycia tego słowa Matka Zobacz(ponad 400 razy). Sprawdzenie tablicy wykazało, że słowo to rzeczywiście jest często używane jako synonim tego słowa Moskwa, podczas gdy słowniki objaśniające często oznaczają to słowo jako przestarzałe. Innym przykładem często używanego słowa (ponad 300 razy) oznaczonego w słownikach jako przestarzałe jest słowo błogi.

5.2 Opis znaczeń słów

Porównanie ze zbiorem tekstów pokazuje, że wiele słów częstotliwości w tablicy jest dobrze reprezentowanych w tezaurusie co najmniej w jednej z ich (zwykle podstawowych) wartości. Naszym głównym zadaniem jest obecnie ustalenie, w jakim stopniu zakres znaczeń wieloznacznych słów języka rosyjskiego jest reprezentowany w tezaurusie.

Jak wiadomo, różne źródła słownikowe często podają inny zestaw znaczeń słów wieloznacznych, rozróżniają odcienie znaczeń, a ten sam rodzaj polisemii można różnie opisać dla różnych słów, nawet w tym samym słowniku. Dlatego zadanie spójnego i reprezentatywnego opisu znaczeń leksemów jest ważnym zadaniem dla twórców każdego zasobu słownikowego.

Jeśli jednak zasób przeznaczony jest do automatycznego przetwarzania, znacznie ważniejsze staje się zadanie zrównoważonego opisu wartości. Nadmierne zawyżanie wartości może spowodować, że system komputerowy nie będzie w stanie wybrać żądanej wartości, co z kolei prowadzi do znacznego spadku wydajności systemu automatycznego przetwarzania tekstu. Tak więc, jedną z wad zasobu WordNet jako zasobu do automatycznego przetwarzania tekstu jest nadmierna liczba wartości opisanych dla niektórych słów (w WordNet 1.6: 53 wartości dla uruchomić 0,47 za grać i tak dalej.). Znaczenia te są trudne do rozróżnienia nawet dla osoby dokonującej semantycznych adnotacji w tekstach. Wiadomo, że system komputerowy również nie radzi sobie z wyborem odpowiedniej wartości. Dlatego różni autorzy proponują różne sposoby łączenia wartości w celu poprawy jakości przetwarzania.

Jednocześnie działa odwrotny czynnik: jeśli wartości rzeczywiście różnią się zestawem powiązań słownikowych (w naszym przypadku linków tezaurusowych) - nie można ich skleić w jedną całość (jedno pojęcie) - doprowadzi to również do pogorszenie jakości automatycznego przetwarzania.

Rozważmy na przykład słowa szkoła I kościół, z których każdy można uznać za organizację i budynek.

Każda organizacja szkolna posiada budynek (najczęściej jeden). Wszystkie części budynku szkoły (sale lekcyjne, tablice) są ze sobą powiązane szkoła jako organizacja. Nie ma określonego typu budynków szkolnych. Dlatego opis szkoły podobnie jak budynki, niewłaściwe jest wyodrębnianie ich jako osobnej koncepcji. Jednakże opis takiego skumulowanego pojęcia SZKOŁA jako organizacja i jako budynek musi mieć specjalnie zaprojektowaną relację z koncepcją BUDYNEK. Opisując takie relacje w Tezaurusie, stosuje się oznaczenie relacji - modyfikator „A” („aspekt”, w analizie automatycznej, aby uwzględnić tę relację, wymagane jest „potwierdzenie” innymi pojęciami).

SZKOŁA

WYŻSZY INSTYTUCJA EDUKACYJNA

POWYŻEJ BUDYNEK PUBLICZNY

Odpowiednie znaczenia słów kościół nie tak blisko. kościoły W jaki sposób organizacja może mieć dużą liczbę budynków kościelnych w różnych lokalizacjach, a także wiele innych budynków. budowa kościołaściśle związane z religią i wyznaniem, ale mogą zmieniać przynależność kościoły organizacyjne. organizacja kościelna I budowa kościoła mają różne podgatunki. Dlatego KOŚCIÓŁ (ORGANIZACJA) I KOŚCIÓŁ (BUDYNEK) są prezentowane w RuThes jako różne koncepcje.

Znacząca rozbieżność w relacjach tezaurusowych w ciekawy sposób koreluje ze zdolnością denotacji odpowiadających znaczeniom do istnienia odrębnie od siebie. Tym samym budynek sakralny nie przestaje istnieć i nawet w przypadku zmiany sposobu użytkowania nie przestaje być nazywany kościołem, w odróżnieniu od budynku szkolnego.

Proces uzgadniania reprezentacji wartości w Tezaurusie jest stale prowadzony, zaczynając od najczęstszych lematów. Dla każdego tokenu częstotliwości sprawdzane jest, w jaki sposób jego wartości są opisane w słownikach objaśniających, jakie wartości są używane w kolekcji i jak są prezentowane w Tezaurusie. W rezultacie powstała lista 10 000 leksemów, których niejednoznaczność wymaga jeszcze dodatkowej analizy lub dodatkowego opisu. Zestawienie opiera się na 30 tysiącach najczęściej występujących lematów.

Należy zauważyć, że w Tezaurusie problem niejednoznaczności został częściowo wyeliminowany ze względu na fakt, że w tezaurusie można opisać relacje pomiędzy różnymi znaczeniami słowa, dlatego domyślnie można wybrać pojęcie znajdujące się najwyżej w hierarchii. Na pewno było to poruszane w tekście. Na przykład słowo zdjęcie ma trzy znaczenia: fotografia jako dziedzina działania, fotografia jako fotografia, fotografia jako studio fotograficzne:

FOTOGRAFIA(fotografowanie, fotografia, ..., zdjęcie )

CZĘŚĆ OBRAZ FOTOGRAFICZNY

(zdjęcie, fotografia, zdjęcie )

CZĘŚĆ STUDIO FOTOGRAFICZNE (zdjęcie ).

Tak więc, jeśli nie było możliwe, aby dowiedzieć się, jakie znaczenie tego słowa jest użyte zdjęcie, za wartość domyślną uważa się zdjęcie (procesu, wyniku lub lokalizacji), co jest wystarczające dla wielu aplikacji do automatycznego przetwarzania tekstu.

  1. Zastosowanie tezaurusu RuThes

do automatycznego przetwarzania tekstu

Od 1995 roku terminologia społeczno-polityczna RuThes (tezaurus społeczno-polityczny) jest aktywnie i z powodzeniem wykorzystywana do różnych zastosowań automatycznego przetwarzania tekstu, takich jak automatyczne indeksowanie pojęciowe, automatyczna kategoryzacja za pomocą kilku rubryk, automatyczne adnotacje do tekstów, w tym do tekstów angielskich.. Tezaurus społeczno-polityczny (27 000 pojęć, 62 000 wpisów tekstowych) to podstawowe narzędzie wyszukiwania w systemie wyszukiwania UIS RUSSIA (www.cir.ru).

Całe słownictwo tezaurusa RuThesa jest wykorzystywane w procedurach automatycznego rubrykowania tekstów według złożonych nagłówków hierarchicznych. W istniejącej technologii każda rubryka jest opisana jako logiczne wyrażenie terminów, po czym oryginalna formuła jest rozwijana wzdłuż hierarchii tezaurusów. Wynikowe wyrażenie logiczne może już zawierać setki i tysiące koniunkcji i zdań.

Podajmy dla przykładu fragment opisu za pomocą pojęć tezaurusowych (oraz wyrażeń językowych po rozwinięciu wzoru) rubryki „Wizerunek kobiety” rubrykatora SOFIST 2 wykorzystywanego przez VTsIOM do klasyfikacji kwestionariuszy badań opinii publicznej:

(KOBIETA[N]

|| DZIEWCZYNA

|| KREWNY[L] (babcia, wnuczka, kuzynka,

córka, szwagierka, matka, macocha, synowa, pasierbica, ...))

(CECHY CHARAKTERU [L] (oszczędny, bezduszny, zapominalski,

niepoważny, szyderczy, nietolerancyjny, towarzyski, ...)

|| OBRAZ[E] (reprezentacja, wygląd, wygląd,

wygląd, kształt, wizerunek, wygląd)

|| PRZYJEMNY[L] (..., ciekawy, piękny, uroczy,

atrakcyjny, atrakcyjny, ujmujący, ...)

|| NIEPRZYJEMNY[L] (niesympatyczny, niegrzeczny, paskudny, ...)

|| WARTOŚĆ [L] (czcić, ubóstwiać, uwielbiać,

wielbić, wielbić...)

|| PREFERUJ[N]

Symbol „E” oznacza pełne rozwinięcie hierarchii tezaurusa, symbol „L” – zgodnie z pokrewieństwem gatunkowym („PONIŻEJ”), symbol „N” – nie rozszerza.

Prowadzone są badania nad opracowaniem połączonej technologii automatycznej kategoryzacji tekstu, łączącej wiedzę o tezaurusach i procedury uczenia maszynowego.

Zagadnienia wykorzystania tezaurusu do rozszerzenia zapytania sformułowanego w języku naturalnym (obecnie do rozszerzenia zapytania terminologicznego w systemie wyszukiwania informacji UIS RUSSIA wykorzystywana jest jedynie część społeczno-polityczna tezaurusu), wyszukiwanie odpowiedzi na pytania w dużych zbiory tekstów.

7. Wnioski

W artykule przedstawiono podstawowe zasady tworzenia zasobów językowych do automatycznego przetwarzania dużych zbiorów tekstowych. Utworzony zasób językowy - Rosyjski tezaurus RuThes - przeznaczony jest do zastosowań w takich zastosowaniach automatycznego przetwarzania tekstu jak indeksowanie pojęciowe dokumentów, automatyczne rubrykowanie według złożonych nagłówków hierarchicznych, automatyczne rozszerzanie zapytań w języku naturalnym.

Praca ta jest częściowo wspierana przez Rosyjską Fundację Humanistyczną, grant nr 00-04-00272a.

Literatura

  1. Lukashevich N.V., Saliy A.D., Reprezentacja wiedzy w automatycznym przetwarzaniu tekstu //NTI, Ser.2. 1997. Nr 3. S. 1-6.
  2. Zhuravlev S.V., Yudina T.N., System informacyjny ROSJA //NTI, Ser.2. 1995. Nr 3. S. 18-20.
  3. Winston M., Chaffin R., Herman D., Taksonomia relacji część-całość // Kognitywistyka. 1987. nie. 11. s. 417-444.
  4. Priss UE, Formalizacja sieci WordNet metodami analizy pojęć relacyjnych // WordNet. Elektroniczna baza danych leksykalnych / wyd. przez C. Fellbauma. Cambridge, Massachusetts, Londyn, Anglia: The MIT Press 1998. s. 179-196.
  5. Guarino N., Welty C., Formalna ontologia właściwości // Materiały z warsztatów ECAI-00 na temat zastosowań ontologii i metod rozwiązywania problemów. Berlin: 2000. s. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Niektóre zasady ontologiczne projektowania zasobów leksykalnych wyższego poziomu // First Int. Konf. w sprawie zasobów językowych i oceny. 1998.

  1. LukashevichN.V., Dobrov B.V., Modyfikatory relacji pojęciowych w tezaurusie do automatycznego indeksowania // NTI, Ser.2. 2000, nr 4, s. 21-28.
  2. Duży słownik objaśniający języka rosyjskiego / wyd. SA Kuzniecowa. Petersburg: Norint, 1998.
  3. Ozhegov S.I., Shvedova N.Yu., Słownik objaśniający języka rosyjskiego - wydanie 3. M.: Az, 1996.
  4. Apresyan Yu.D., Prace wybrane, tom I. Semantyka leksykalna: wyd. 2. M.: Szkoła „Języki kultury rosyjskiej”, wyd. Firma „Literatura Wschodnia” RAS, 1995.
  5. G. Miller, R. Beckwith, C. Fellbaum, D. Gross i K. Miller, Pięć artykułów w WordNet, CSL Report 43. Cognitive Science Laboratory, Princeton University, 1990.
  6. Chugur, J. Gonzalo i F. Verdjeo, Rozróżnienia zmysłowe w zastosowaniach NLP // Proceedings of „OntoLex-2000”: Ontologie i bazy wiedzy leksykalnej. Sofia: OntoTextLab. 2000.
  7. Loukachevitch N., Dobrov B., Strukturalne podsumowanie tematyczne oparte na tezaurusach w wielojęzycznych systemach informacyjnych // Przegląd tłumaczenia maszynowego. 2000 Nie. 11. s. 10-20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Tezaurus języka rosyjskiego do przetwarzania języka naturalnego

dużych zbiorów tekstów

Natalia W. Łoukaczewicz, Borys W. Dobrow

słowa kluczowe: tezaurus, przetwarzanie języka naturalnego, wyszukiwanie informacji

W naszej prezentacji rozważamy główne zasady rozwoju zasobów leksykalnych do automatycznego przetwarzania dużych zbiorów tekstów i opisujemy strukturę Tezaurusa języka rosyjskiego, który jest rozwijany od 1997 roku specjalnie jako narzędzie do automatycznego przetwarzania tekstu. Tezaurus jest teraz hierarchiczną siecią 42 tysięcy pojęć. Opisujemy obecny etap rozwoju Tezaurusa w porównaniu ze 100 000 najczęstszych lematów ze zbioru tekstów Uniwersyteckiego Systemu Informacyjnego ROSJA (www.cir.ru), w tym 400 tysięcy dokumentów. Rozważamy także zastosowanie tezaurusu w różnych zastosowaniach automatycznego przetwarzania tekstu.

, antonimy, paronimy, hiponimy, hipernimy itp.) pomiędzy jednostkami leksykalnymi. Tezaurusy są jednym z najskuteczniejszych narzędzi opisu poszczególnych obszarów tematycznych.

W przeszłości termin słownik wyrazów bliskoznacznych Wyznaczono głównie słowniki, przedstawiające słownictwo języka z przykładami jego użycia w tekstach z maksymalną kompletnością.

Również termin słownik wyrazów bliskoznacznych używane w teorii informacji w odniesieniu do całości informacji posiadanych przez podmiot.

W psychologii tezaurus jednostki charakteryzuje postrzeganie i rozumienie informacji. Teoria komunikacji uwzględnia także ogólny tezaurus złożonego systemu, poprzez który jego elementy oddziałują na siebie.

Fabuła

Jeden z pierwszych tezaurusów nosi nazwę Słownik synonimów Filona z Biblusa. Bardziej dokładnym odpowiednikiem tego terminu jest Amara-kosha, napisana w sanskrycie w formie wierszy w VI wieku. Pierwszy nowożytny tezaurus angielski został stworzony przez Petera Marka Rogera w 1805 roku. Został opublikowany w 1852 roku i od tego czasu jest w użyciu.

W latach 70. tezaurusy zaczęto aktywnie wykorzystywać do zadań związanych z wyszukiwaniem informacji. W takich tezaurusach słowa porównywane są z deskryptorami, za pomocą których ustalane są powiązania semantyczne.

tezaurusy

Zobacz też

Napisz recenzję artykułu „Tezaurus”

Notatki

Fragment charakteryzujący tezaurus

- Jakim dandysem dzisiaj jesteś! - rozglądając się po swoim nowym ubraniu i czapraku, powiedział Nieswicki.
Denisow uśmiechnął się, wyjął z taszki chusteczkę, która roznosiła zapach perfum, i włożył ją w nos Niewitskiego.
- Nie mogę, idę do pracy! wyszedł, umył zęby i perfumował się.
Imponująca postać Nieswickiego w towarzystwie Kozaka i zdecydowanie Denisowa, który machał szablą i krzyczał rozpaczliwie, sprawiły, że przecisnęli się na drugą stronę mostu i zatrzymali piechotę. Nieswicki znalazł przy wyjściu pułkownika, któremu musiał przekazać rozkaz, i po wykonaniu rozkazu odjechał.
Po oczyszczeniu drogi Denisow zatrzymał się przy wejściu na most. Nieostrożnie powstrzymując ogiera, który pędził ku niemu i kopał, patrzył na zbliżający się ku niemu szwadron.
Na deskach mostu rozległ się przezroczysty dźwięk kopyt, jakby galopowało kilka koni, a szwadron z oficerami na czele, w czterech osobach w rzędzie, przeciągnął się wzdłuż mostu i zaczął wychodzić na drugą stronę.
Zatrzymani żołnierze piechoty, stłoczeni w zdeptanym przez most błocie, patrzyli na czystych, wytwornych huzarów, harmonijnie przechodzących obok nich, z tym szczególnym nieprzyjaznym poczuciem wyobcowania i kpiny, z jakim zwykle spotykają się różne gałęzie wojska.
- Mili ludzie! Choćby do Podnovinskoye!
- Jakie one są dobre! Tylko na pokaz i jazdę! inny powiedział.
– Piechota, nie pył! – zażartował huzar, pod którym bawiąc się koń, obsypywał błotem piechura.
„Na dwie przejściówki wypędziłbym cię z plecakiem, sznurowadła by się zużyły” – powiedział piechota, wycierając rękawem brud z twarzy; - w przeciwnym razie nie jest to osoba, ale siedzi ptak!
„Lepiej byłoby cię wsadzić na konia, Zikin, gdybyś był zręczny” – zażartował kapral z chudego żołnierza, skręconego pod ciężarem plecaka.
„Weź pałkę między nogi, oto koń dla ciebie” – odpowiedział huzar.

Reszta piechoty pobiegła przez most, wirując u wejścia. Wreszcie wszystkie wozy przejechały, tłok się zmniejszył i ostatni batalion wjechał na most. Część husarii ze szwadronu Denisowa pozostała po drugiej stronie mostu naprzeciw nieprzyjacielowi. Wróg widoczny w oddali z przeciwnej góry, z dołu, z mostu, nie był jeszcze widoczny, gdyż z zagłębienia, którym płynęła rzeka, horyzont kończył się przeciwległym wzniesieniem nie dalej niż pół wiorsty. Przed nami była pustynia, po której miejscami poruszały się grupy naszych podróżujących Kozaków. Nagle na przeciwległym wzniesieniu drogi pojawili się żołnierze w niebieskich kapturach i artyleria. To byli Francuzi. Oddział Kozaków kłusem ruszył w dół zbocza. Wszyscy oficerowie i ludzie szwadronu Denisowa, choć próbowali rozmawiać o obcych i rozglądać się, nie przestawali myśleć tylko o tym, co było tam, na górze, i nieustannie wpatrywali się w pojawiające się na horyzoncie plamy, które rozpoznali jako wojska wroga. Po południu pogoda znów się poprawiła, słońce zaszło jasno nad Dunajem i otaczającymi go ciemnymi górami. Było cicho i od czasu do czasu z tej góry dobiegały odgłosy rogów i krzyki wroga. Pomiędzy eskadrą a wrogiem nie było nikogo, z wyjątkiem małych bocznic. Oddzielała ich od niego pusta przestrzeń, trzysta sążni. Wróg przestał strzelać i tym wyraźniej odczuła się ta ścisła, groźna, nie do zdobycia i nieuchwytna cecha, która oddziela dwa oddziały wroga.
„Jeden krok poza tę linię, przypominającą linię oddzielającą żywych od umarłych i - nieznane cierpienie i śmierć. A co tam jest? kto tam? tam, za tym polem i drzewem, i dachem oświetlonym słońcem? Nikt nie wie, a ktoś chce wiedzieć; i strasznie jest przekroczyć tę granicę, a chcę ją przekroczyć; i wiesz, że prędzej czy później będziesz musiał ją przekroczyć i dowiedzieć się, co jest po drugiej stronie linii, tak jak nieuniknione jest odkrycie, co jest po drugiej stronie śmierci. A on sam jest silny, zdrowy, wesoły i drażliwy i otoczony takimi zdrowymi i drażliwie żywymi ludźmi. Jeśli więc nie myśli, czuje to każda osoba, która jest w zasięgu wzroku wroga, a to uczucie nadaje szczególny blask i radosną ostrość wrażeń wszystkiemu, co dzieje się w tych momentach.
Dym wystrzału pojawił się na wzgórzu w pobliżu wroga, a kula ze świstem przeleciała nad głowami szwadronu husarskiego. Funkcjonariusze, którzy stali razem, rozeszli się na swoje miejsca. Huzarzy zaczęli pilnie prostować konie. Wszystko w eskadrze ucichło. Wszyscy patrzyli przed siebie, na wroga i dowódcę eskadry, czekając na rozkaz. Przeleciał kolejny, trzeci rdzeń. Jest oczywiste, że strzelali do husarii; ale kula armatnia, gwiżdżąc równomiernie szybko, przeleciała nad głowami husarii i trafiła gdzieś z tyłu. Husaria nie oglądała się za siebie, ale na każdy dźwięk lecącej kuli armatniej, jak na rozkaz, cała szwadron o jednakowo zróżnicowanych twarzach, wstrzymując oddech podczas lotu kuli armatniej, podnosiła się w strzemionach i znowu opadała. Żołnierze, nie odwracając głowy, mrużyli po sobie oczy, z ciekawością szukając wrażenia towarzysza. Na każdej twarzy, od Denisowa po trębacza, w pobliżu ust i brody, pojawiała się jedna wspólna cecha walki, irytacji i podniecenia. Starszy sierżant zmarszczył brwi, patrząc na żołnierzy, jakby groził karą. Junker Mironow pochylał się przy każdym przejściu rdzenia. Rostow, stojący na lewym skrzydle na swoim dotkniętym, ale widocznym Grachiku, miał radosną minę ucznia wezwanego przed liczną publicznością na egzamin, w którym był pewien, że sobie poradzi. Rozglądał się wyraźnie i jasno po wszystkich, jakby prosząc, aby zwrócili uwagę, jak spokojnie stoi pod kulami armatnimi. Ale i na jego twarzy ten sam rys czegoś nowego i surowego, wbrew jego woli, pojawił się w pobliżu ust.
- Kto się tam kłania? Yunkeg „Mig”! Hexog „Och, spójrz na mnie”! - krzyknął Denisow, który nie mógł ustać w miejscu i wirował na koniu przed szwadronem.
Zadarta, czarnowłosa twarz Waski Denisowa i cała jego drobna, powalona postać z muskularną (o krótkich palcach pokrytych włosami) ręką, w której trzymał rękojeść naciągniętej szabli, była dokładnie taka sama jak zawsze, zwłaszcza wieczorem, po wypiciu dwóch butelek. Był tylko bardziej czerwony niż zwykle i podnosząc swą kudłatą głowę jak ptaki przy piciu, wbijając bezwzględnie ostrogi w boki dobrego Beduina małymi stopami, jakby cofając się, pogalopował na drugi bok eskadry i ochrypłym głosem krzyknął, żeby sprawdzić pistolety. Podjechał do Kirsten. Kapitan sztabu na szerokiej i statecznej klaczy jechał szybkim krokiem w stronę Denisowa. Sztab kapitana, z jego długimi wąsami, był jak zawsze poważny, tylko jego oczy błyszczały bardziej niż zwykle.
- Tak co? – powiedział do Denisowa – do walki nie dojdzie. Zobaczysz, wracamy.
- Chog „nie wie, co robią” – burknął Denisow. „Ach! G” szkielet! - krzyknął do kadeta, zauważając jego pogodną twarz. - Cóż, czekałem.
I uśmiechnął się z aprobatą, najwyraźniej ciesząc się z Junkera.
Rostów poczuł się całkowicie szczęśliwy. W tym momencie na mostku pojawił się wódz. Denisov pogalopował do niego.
- Twoja strona „Elewacja! Pozwól mi zaatakować! Rzucę nimi w nich”.
„Jakie są ataki” – powiedział wódz tępym głosem, krzywiąc się jak od irytującej muchy. – A dlaczego tu stoisz? Widzisz, flankerzy się wycofują. Poprowadź eskadrę z powrotem.
Eskadra przekroczyła most i wydostała się spod strzałów, nie tracąc ani jednej osoby. Za nim przeszedł także drugi szwadron, który był w łańcuchu, a ostatni Kozacy opuścili tę stronę.
Dwa szwadrony mieszkańców Pawłogradu, po przekroczeniu mostu, jeden po drugim, wróciły w góry. Dowódca pułku Karol Bogdanowicz Schubert podjechał do szwadronu Denisowa i jechał tempem niedaleko Rostowa, nie zwracając na niego uwagi, mimo że po dawnym starciu o Telyanin zobaczyli się teraz po raz pierwszy. Rostow, czując się na froncie we władzy człowieka, którego teraz uważał za winnego, nie odrywał wzroku od atletycznych pleców, blond karku i czerwonej szyi dowódcy pułku. Rostowowi zdawało się, że Bogdanich tylko udaje nieuważnego i że teraz jego celem jest wyłącznie sprawdzenie odwagi kadeta, więc wyprostował się i wesoło rozejrzał wokół; potem wydawało mu się, że Bogdanich celowo podjechał blisko, żeby pokazać Rostowowi swoją odwagę. Potem pomyślał, że jego wróg teraz celowo wyśle ​​eskadrę do desperackiego ataku, aby ukarać jego, Rostowa. Sądzono, że po ataku podejdzie do niego i hojnie wyciągnie do niego, rannego, rękę pojednania.

3.1. Koncepcja tezaurusa

Tezaurus (z gr. θήσαϋροξ – skarb, rezerwa) lub słownik ideograficzny (z gr. idea – pojęcie, przedstawienie, idea i grafo – piszę, opisuję) – we współczesnym językoznawstwie: 1) szczególny rodzaj słowników słownictwa ogólnego lub specjalnego, które wskazać relacje semantyczne pomiędzy jednostkami leksykalnymi; 2) słownik umożliwiający wyszukiwanie słowa na podstawie jego semantycznego powiązania z innymi słowami; 3) określony sposób organizowania (układania) słów w słowniku; 4) sposób organizacji kompozycji leksykalnej, który pozwala ekonomicznie „modelować świat”.

W pierwszym, pierwotnym znaczeniu – repozytorium, skarb, terminu tezaurus używał L.V. Szczerby w artykule „Doświadczenie leksykografii ogólnej” (trzecia opozycja: tezaurus jest słownikiem powszechnym (objaśniającym lub tłumaczeniowym). Naukowiec pisze: „Kiedy mówią tezaurus, obecnie mamy najczęściej na myśli «Thesaurus linguae latinae», przedsięwzięcie pięciu niemieckich akademii, rozpoczęte w 1900 roku i dotychczas z pominięciami doprowadzone jedynie do litery M. Cechą charakterystyczną tego typu słowniki polegają na tym, że zawierają one absolutnie wszystkie słowa, które choć raz występują w danym języku, a pod każdym słowem znajdują się absolutnie wszystkie cytaty z tekstów dostępnych w danym języku. Podstawą powyższej opozycji – tezaurus – słownik zwyczajny (objaśniający lub tłumaczeniowy) – jest przeciwstawienie „materiału językowego” i „systemu językowego” – pojęć, które starałem się uzasadnić w artykule „O potrójnym aspekcie zjawisk językowych i o eksperymencie w językoznawstwie”.

Drugie znaczenie tego terminu wiąże się z powszechnie znanym słownikiem tezaurusów „Thesaurus of English słów i wyrażeń” autorstwa P.M. Rogera (Roget's Thesaurus of English Words and Phrases, 1852) i jego kontynuacja, słownik O. V. Baranowa.

W tej interpretacji termin tezaurus oznacza pewien sposób organizowania, porządkowania kompozycji leksykalnej w słowniku (patrz trzecie znaczenie tego terminu).

Czwarte znaczenie terminu tezaurus wiąże się z powszechnym uznaniem takiego sposobu organizacji kompozycji leksykalnej, który pozwala ekonomicznie „modelować świat”. Z tego punktu widzenia tezaurus-słownik to „systematyczne uporządkowanie słownictwa z dowolnej dziedziny naukowej lub technicznej, a w najbardziej ogólnej formie - ogólnego słownictwa literackiego, a ponadto całego słownictwa danego języka”.

Według Yu.N. Karaulov, ogólny tezaurus języka, utrwalający strukturę i relacje między rubrykami, sekcjami, strefami, obszarami, szerokimi możliwościami niewerbalnego łączenia idei, zapewnia uwzględnienie wartości ludzkich.

JAKIŚ. Baranov i D.O. Dobrovolsky we wstępie „Od redaktorów” do swojego „Słownika-tezaurusa współczesnej rosyjskiej idiomatyki” podaje tezaurusowi następującą definicję - specjalny rodzaj słownika, który różni się od innych (w szczególności objaśniających, dwujęzycznych itp.) sposobem materiał językowy jest uporządkowany. W tezaurusie jednostki językowe nie są prezentowane w kolejności alfabetycznej, jak w zwykłym słowniku, ale są pogrupowane na podstawie ich znaczenia.

L.P. Krysin nazywa tezaurus (słownik ideograficzny) słownikiem objaśniającym szczególnego rodzaju, słownikiem „wręcz przeciwnie”. „Jeśli w słowniku objaśniającym – pisze naukowiec – „wejściem” do hasła słownikowego jest słowo, a treścią hasła słownikowego jest interpretacja znaczenia tego słowa, to w słowniku ideograficznym „wejściem” jest znaczeniem, ideą (stąd nazwa tego typu słowników – ideograficzna), a treścią hasła słownikowego jest lista słów wyrażających dane znaczenie. A jeśli słownik objaśniający jest niezbędnym narzędziem do zrozumienia tekstu, to do wygenerowania tekstu można wykorzystać słownik ideograficzny: bardzo często ktoś chce wyrazić jakąś myśl, ale nie może znaleźć do tego odpowiednich słów; słownik ideograficzny ułatwia te poszukiwania. Istnieją dwa główne typy tezaurusów:

Tezaurus językowy – słownik zawierający listę słów języka naturalnego, wybranych w wyniku wnikliwej analizy tekstów i usystematyzowanych zgodnie z przyjętym systemem klasyfikacji;

Tezaurus statystyczny - słownik wyszukiwawczy zawierający listę słów wybranych w wyniku analizy statystycznej tekstów na dany temat i pogrupowanych w hasła słownikowe na podstawie częstotliwości wspólnego występowania tych słów w tych samych tekstach.

Tezaurusy wyszukiwania informacji (IPT) ułatwiają wyszukiwanie informacji w procesie ich automatycznego przetwarzania. IPT maksymalnie ujawnia powiązania semantyczne pomiędzy jednostkami leksykalnymi. Jak stwierdzono w GOST dla IPT, „jednojęzyczny tezaurus wyszukiwania informacji to kontrolowany i zmienny słownik jednostek leksykalnych oparty na słownictwie jednego języka naturalnego, przedstawiający relacje semantyczne między jednostkami leksykalnymi i przeznaczony do przetwarzania i wyszukiwania informacji”.

Podstawową jednostką IPT są terminy deskryptorowe. Alfabetyczną, leksykalno-semantyczną część IPT stanowi zbiór przedimków deskryptorowych.

Słowniki opisowe mają na celu pełny opis słownictwa określonego obszaru i rejestrowanie wszystkich jego zastosowań; rejestrują wszystkie dostępne istotne sprawy. Typowym przykładem słownika opisowego jest V.I. Dahla (pierwsze wydanie w czterech tomach ukazało się w latach 1863-1866). Celem jego twórcy nie była standaryzacja języka, ale pełne opisanie całej różnorodności mowy wielkorosyjskiej - w tym jej dialektalnych form języka ojczystego.

Każdy wpis słownika deskryptorów rozpoczyna się deskryptorem, w którym poniżej, w ramach artykułu GOST, podane są synonimy tego deskryptora, a także inne jednostki leksykalne powiązane z głównym deskryptorem poprzez rodzaj-gatunek lub relacje asocjacyjne.

Tym samym tezaurusy, zwłaszcza w formie elektronicznej, są jednym z najskuteczniejszych narzędzi opisu poszczególnych obszarów tematycznych.

W czystej postaci tezaurus jest rzadki. W prawdziwych tezaurusach oryginalny pomysł jest uproszczony lub obcy, ale użytkownikowi dodawane są potencjalnie niezbędne informacje. Najbardziej znane dziś to „Rosyjski słownik semantyczny” Yu.N. Karaulova, „Słownik o identycznej nazwie” N.Yu. Shvedova, „Słownik tematyczny języka rosyjskiego” L.G. Smekhova i inni.

Streszczenie. Tezaurus terminu L.V. Szczerbę stosowano w odniesieniu do słownika, który rejestrował, jeśli to możliwe, wszystkie konteksty, w jakich dane słowo występuje. Charakterystyczną cechą tezaurusów jest to, że zawierają one przynajmniej raz wszystkie słowa napotkane w danym języku, a pod każdym słowem podane są wszystkie cytaty z tekstów dostępnych w danym języku. Treścią słownika tezaurusów jest materiał językowy, a treścią słownika zwykłego jest materiał językowy i system językowy (terminy L.V. Szczerby).

Cechę tę uzupełniają różnego rodzaju powiązania – częściej paradygmatyczne (synonimiczne lub antonimiczne), które wskazują na wspólność lub przeciwieństwo znaczeń. Ponadto różnego rodzaju stowarzyszenia. połączenia (tj. połączenia syntagmowe).

Zatem zadaniem tezaurusa (słownika ideograficznego) jest dać wyobrażenie o organizacji semantycznej określonego fragmentu materiału językowego, pokazując główne pola semantyczne, ich strukturę wewnętrzną i powiązania zewnętrzne. Tezaurus w czytelny sposób ukazuje systemowość języka, pozwalając dostrzec wiele typów relacji łączących poszczególne jednostki językowe i grupy jednostek.

3.2. Historia reprezentacji pojęciowej wiedzy o świecie w formie tezaurusu

Konieczność porządkowania słów według podobieństwa, przyległości, analogii ich znaczeń była odczuwalna w całej dającej się przewidzieć historii myśli ludzkiej.

Aby prześledzić genezę idei przedstawiania wiedzy pojęciowej o świecie w formie tezaurusu, możemy odwołać się do historii tworzenia tezaurusów (słowników ideograficznych).

Zatem u zarania cywilizacji, kiedy ludzie mogli wyrażać swoje myśli na piśmie jedynie za pomocą ideogramów i symboli, jedynym możliwym słownikiem był prawdopodobnie ten, w którym słowa ułożone były w grupy tematyczne. Po prostu leksykografowi w tamtym czasie trudno było znaleźć inne kryterium klasyfikacji słów, poza relacjami istniejącymi w samej rzeczywistości.

Niestety nie mamy dowodów na to, czy ludy posługujące się pismem ideograficznym rzeczywiście posiadały takie słowniki. Do najstarszych znanych nam prób klasyfikacji ideograficznej należy Attikai Lexeis, greckiego gramatyka, dyrektora Biblioteki Aleksandryjskiej, Arystofanesa z Bizancjum (zm. 180 p.n.e.).

W II wieku. N. mi. pojawia się główne dzieło „Onomasticon”, opracowane na materiale języka greckiego przez leksykografa i sofistę Juliusa Polluxa (prawdziwe nazwisko Polydeuces), pochodzącego z egipskiego miasta Navcratis. Y. Pollux napisał kilka dzieł, ale do nas dotarł jedynie Onomasticon (Pollux Y. Onomasticon. M., 1956).


Onomasticon składa się z 10 ksiąg. Książki są zasadniczo odrębnymi traktatami i zawierają najważniejsze słowa związane z danym tematem. Tak więc pierwsza księga mówi o bogach i królach; w drugim - o ludziach, ich życiu i strukturze fizjologicznej; w trzeciej – o pokrewieństwie, stosunkach cywilnych itp. Do słów umieszczonych w słowniku dołączone są krótkie interpretacje. W czasach nowożytnych słownik został po raz pierwszy opublikowany w 1502 roku w Wenecji.

Między II i III wiekiem. N. mi. ukazuje się wspaniały słownik sanskrycki „Amarakosha” (Amarakosha, Paryż, 1839). Jej autorką jest starożytna indyjska poetka, gramatyk i leksykograf Amara Sina, nazywana „jedną z dziewięciu pereł zdobiących tron ​​Vikramadityi”. Amarakosha w tłumaczeniu na rosyjski oznacza skarbiec Amary. Słownik zawiera 10 tysięcy słów. Aby lepiej zapamiętać interpretację znaczeń słów, wpisy słownikowe są budowane w formie wierszy. Cały materiał słownika jest podzielony na 3 księgi. Każda książka zawiera kilka rozdziałów, a rozdział z kolei, w razie potrzeby, dzieli się na kilka działów. Pierwsza książka poświęcona jest niebu, bogom i wszystkiemu, co jest z nimi bezpośrednio związane. Księga druga zawiera słowa związane z ziemią, osadami, roślinami, zwierzętami i człowiekiem (w pierwszej kolejności człowiek uważany jest za istotę żywą, a następnie za istotę społeczną; wcześniej pojawia się cała struktura kastowa społeczeństwa współczesnego autorowi). naszym oczom; na samej górze są kapłani jako pełnomocnicy Boga, na dole wojsko i królowie, jeszcze niżej właściciele ziemscy, a na samym dole rzemieślnicy, kuglarze, służba itp.). Księga trzecia ma właściwie charakter językowy, co jasno wynika z tytułów jej sześciu rozdziałów.

Słownik stał się znany uczonym europejskim dopiero pod koniec XVIII wieku, kiedy w 1798 roku ukazała się w Rzymie jego pierwsza część. Została opublikowana w całości wraz z tłumaczeniem na język angielski w 1808 roku przez angielskiego badacza sanskrytu G.T. Colebrook (NT Colebrooke). W 1839 roku ukazało się jego tłumaczenie francuskie, dokonane przez A.L. Delonshan (AL Deslongchamps). Dalszy rozwój idei semantycznej klasyfikacji słownictwa wiąże się z problemem tzw. języka światowego.

Streszczenie. Jest to, najogólniej mówiąc, pierwszy etap rozwoju tradycji ideograficznej klasyfikacji słownictwa. Etap ten można nazwać prehistorią słowników ideograficznych. Teraz wskazane jest przejście do współczesnej klasyfikacji słowników tezaurusów.

Łatwo zauważyć, jak bardzo opisywane dzieła różnią się od słowników alfabetycznych. Jeśli w słownikach alfabetycznych prezentację słów reguluje tak warunkowe i wysoce neutralne narzędzie, jak alfabet, to przy budowie słownika ideograficznego decydujący staje się światopogląd samego leksykografa.

3.3. Zasady klasyfikacji słowników tezaurusów

Jak wykazano powyżej, problem zestawienia klasyfikacji tezaurusów nie jest nowy i od kilkudziesięciu lat przyciąga uwagę wielu lingwistów krajowych i zagranicznych (K. Marello, V.V. Morkovkin, L.P. Stupin, V.V. Dubichinskiy i inni. ) . Efektem badań w tym obszarze było stworzenie alternatywnych klasyfikacji tych dzieł leksykograficznych. Jedna z najnowszych klasyfikacji opiera się na następujących kryteriach: a) rodzaj powiązań semantycznych pomiędzy jednostkami słownikowymi; 2) objętość słownika; 3) uogólnienie słownictwa; 4) rozwój znaczenia leksemów; 5) kwalifikacja gramatyczna i stylistyczna leksemów; 6) demonstracja funkcjonowania leksemów; 7) liczba reprezentowanych języków; 8) rodzaj środków semiotycznych stosowanych do semantyzacji leksemów. Nazwana klasyfikacja opiera się na wcześniej stworzonych klasyfikacjach przez O.M. Karpova i I. Burkhanov (Burchanov I. O ideograficznym opisie stylistycznie i pragmatycznie istotnych aspektów znaczeń leksykalnych. Londyn, 1996); terminologia stosowana w klasyfikacji zostaje wprowadzona do aparatu leksykograficznego


V.V. Morkovkin, Yu.N. Karaulov, K. Marello. Kryteria klasyfikacji zostały sformułowane przez O.M. Karpova. Jednocześnie K. Marello wyróżnia trzy typy tezaurusów:

kumulatywne, czyli grupy słów bez określenia ich znaczenia;

ostateczne, interpretujące każdą jednostkę leksykalną grupy słów;

dwujęzyczne i wielojęzyczne tezaurusy dla podróżników (Marello C. TheThesaurus//W.D.D. 1990. V. 2. P. 1083).

Tezaurusy zbiorcze nie tylko dają możliwość znalezienia bardziej zrozumiałego, trafnego, poprawnego stylistycznie słowa w sytuacji znalezienia się w określonym polu semantycznym, ale także stają się podstawą do tworzenia tematycznych komputerowych banków danych.

Tezaurusy ostateczne mogą zawierać, wraz z definicją znaczenia, informacje etymologiczne i cytaty z dzieł literackich, co wskazuje na bezpośrednią encyklopedyczną orientację tego typu tezaurusów. Ponadto słowniki tego typu wprowadzają użytkownika w niezbędny system pojęć, wyjaśniają istotę, podobieństwa i różnice pojęć, ich powiązania paradygmatyczne i syntagmatyczne, czasami dostarczają informacji o wymowie, gramatyce, derywacji i innych możliwościach jednostek leksykalnych oznaczających te koncepcje.

Dwu- i wielojęzyczne tezaurusy dla podróżnych tworzone są zazwyczaj według działów tematycznych: liczby, jedzenie, transport, hotel itp. z odpowiednikami tłumaczeń dwóch lub więcej języków.

W celu jak najpełniejszego przedstawienia typów istniejących słowników tezaurusów tworzona jest klasyfikacja wielopoziomowa. Po pierwsze, w zależności od rodzaju powiązań semantycznych pomiędzy jednostkami słownictwa, tezaurusy dzielą się na trzy duże klasy:

1. Tezaurus skojarzeniowy (terminologia Yu.N. Karaulova

2. Analogiczny tezaurus (terminologia V.V. Morkovkina

3. Tezaurus ideograficzny (ideologiczny) (terminologia L.V. Shcherby, V.V. Morkovkina. Wymienione powyżej trzy typy tezaurusów odzwierciedlają odpowiednio następujące typy powiązań semantycznych leksemów:

1. Relacje semantyczno-syntaktyczne, na ich podstawie
słowa łączą się w grupy lub pary, których pochodzenie i istnienie są z góry określone podwójnymi wiązaniami: semantycznym i syntaktycznym. Powiązania semantyczne słów powstają głównie pomiędzy czasownikami i przymiotnikami pełniącymi w zdaniu funkcję predykatywną a rzeczownikami, na przykład:

a) między czynnością a narządem (instrumentem), za pomocą którego jest wykonywana: chwycić - za rękę, zobaczyć - oko, pływać - łódką itp.;

b) pomiędzy czasownikami czynnościowymi wymagającymi jednego podmiotu i podmiotu: szczekanie - pies, rżenie - koń itp.; c) pomiędzy czasownikami a pewnym dodatkiem gramatycznym, którego te pierwsze wymagają: rąbać - drzewo, jeść - jedzenie itp.

Zatem tezaurus skojarzeniowy jest słownikiem tezaurusów, który organizuje jednostki leksykalne na podstawie istniejących między nimi powiązań semantycznych i składniowych oraz porządkuje grupy zgodnie z graficzną formą centrów słów.

2. Powiązania leksykalno-semantyczne. Łączenie w grupy przy tego rodzaju połączeniu odbywa się zgodnie z główną cechą słów - znaczeniem leksykalnym. Jednocześnie brane są pod uwagę powiązania leksykalno-gramatyczne, w formie których realizowane są indywidualne znaczenia słów.

Zatem analogiczny tezaurus jest podręcznikiem leksykograficznym, którego główną jednostką makrostruktury jest grupa leksyko-semantyczna; grupy są usystematyzowane w kolejności alfabetycznej dominujących semantycznych.

3. Powiązania przedmiotowe lub tematyczne, gdzie połączenie słów w jedną grupę następuje ze względu na podobieństwo lub wspólność funkcji przedmiotów i procesów oznaczanych słowami: przedmioty
artykuły gospodarstwa domowego, części ciała, rodzaje odzieży, budynki itp.

Zatem tezaurus ideograficzny jest dziełem leksykograficznym, które przedstawia jednostki leksykalne jako część grup tematycznych i organizuje je w hierarchiczną strukturę mającą na celu reprezentowanie konceptualnej wiedzy o świecie.

W ramach tego samego kryterium dokonujemy dalszego podziału typów. Zatem tezaurus ideograficzny jest reprezentowany przez następujące 4 typy:


Właściwie tezaurus ideograficzny.

Słownik tematyczny.

Słownik systematyczny.

Słownik tematyczny i systematyczny


Tezaurus ideograficzny właściwy to szczególny rodzaj słownictwa ideograficznego, którego makrostruktura jest zorganizowana zgodnie z aprioryczną mapą synoptyczną nałożoną na skład leksykalny języka. W przeciwieństwie do innych typów słownictwa ideograficznego, sam tezaurus ideograficzny charakteryzuje się logiczną i ściśle uporządkowaną strukturą klasyfikacyjną opartą na taksonomii naukowej, nawet jeśli słownictwo ogólne podlega opisowi leksykograficznemu (New Webster „Thesaurus. Landoll, 1991).

Słownik tematyczny to szczególny rodzaj tezaurusu ideograficznego, którego główną jednostką makrostruktury jest grupa tematyczna, w skład której wchodzą leksemy połączone na podstawie klasyfikacji ich denotacji (referentów) i rozpatrywane pod kątem ich przydatności do konkretnego tematu.

Słownik systematyczny to specjalny rodzaj tezaurusu ideograficznego, którego struktura klasyfikacyjna ma na celu reprezentowanie rzeczywistych relacji semantycznych istniejących między jednostkami leksykalnymi języka. Struktura klasyfikacyjna w swojej istocie reprezentuje klasyfikację leksykono-gramatyczną słownictwa, czyli jego strukturę paradygmatyczną, opisaną z punktu widzenia podporządkowania i kompozycji.

Słownik tematyczno-systematyczny to szczególny rodzaj słownika ideograficznego będący połączeniem słownika tematycznego i systematycznego.

Streszczenie. Rozważana klasyfikacja tezaurusów językowych obejmuje następujące typy słowników: tezaurus analogiczny (terminologia VV Morkovkina); Tezaurus ideograficzny (ideologiczny) (terminologia L.V. Shcherby i V.V. Morkovkina); doc. tezaurus (terminologia Yu.N. Karaulova). Następny będzie pop. tezaurusy i ich funkcje są ujawniane.

3.4. Popularne tezaurusy i ich funkcje

Najsłynniejszy z istniejących słowników tezaurusów, któremu samo to określenie zawdzięcza swoje istnienie, powstał na materiale języka angielskiego; jest to stale wznawiany tezaurus autorstwa P.M. Tezaurus angielskich słów i zwrotów Rogera Rogeta (1852).

Warto podkreślić, że autor Tezaurusa angielskich słów i wyrażeń w pełni wykorzystał dostępne wówczas doświadczenia. „Zasada, która przyświecała mi przy klasyfikacji słów” – pisze P.M. Rogera – jest tym samym, który stosowany jest w klasyfikacji jednostek w różnych obszarach historii naturalnej. Dlatego wyróżnione przeze mnie sekcje odpowiadają naturalnym rodzinom botaniki i zoologii, a rzędy słów cementują te same relacje, które łączą naturalne rzędy roślin i zwierząt.

PO POŁUDNIU. Roger uważał, że przekonująca klasyfikacja słów według ich znaczenia jest niemożliwa, dopóki przedmioty rzeczywistości zwane tymi słowami nie zostaną odpowiednio zbadane i zorganizowane. Dlatego swoją pracę rozpoczyna od podziału pola pojęciowego języka angielskiego na cztery duże klasy: relacje abstrakcyjne, przestrzeń, materia i duch (umysł, wola, uczucia). Klasy te są dalej podzielone na pewną liczbę rodzajów, które z kolei dzielą się na pewną liczbę gatunków.

Wśród mankamentów słownika ideograficznego P.M. Naukowcy Rogera przypisują: 1) nie do końca przekonującą nomenklaturę głównych klas pojęciowych; 2) logika abstrakcyjna przeważa nad naturalnymi powiązaniami słów; 3) względna niedogodność użytkowania (wada ta w dużej mierze została naprawiona w kolejnych edycjach).

We współczesnej leksykografii rosyjskiej istnieje kilka słowników, które należy zaliczyć do słowników tezaurusów (słowników ideograficznych). To na przykład powstało pod przewodnictwem Yu.N. Karaulov „Rosyjski słownik semantyczny”, „Rosyjski słownik semantyczny” pod redakcją N.Yu. Shvedova, „Słownik tematyczny języka rosyjskiego” L.G. Sayakhova, D.M. Khasanova i V.V. Morkovkina, „Słownik grup leksykalno-semantycznych czasowników rosyjskich”, wyd. E.V. Kuznetsova, „Słownik ideograficzny języka rosyjskiego” O.S. Baranova, „Sfera pojęciowa wewnętrznego świata człowieka w języku rosyjskim” V.I. Ubiyko, kompleksowy słownik edukacyjny „Podstawy leksykalne języka rosyjskiego” pod kierunkiem V.V. Morkowkin.

Zapoznajmy się z niektórymi z nich.

Słownik-tezaurus współczesnych idiomów rosyjskich pod redakcją A.N. Baranova i D.O. Dobrovolsky składa się z czterech głównych części: 1) streszczenie; 2) legenda; 3) główna część słownika-tezaurusa; 4) wskazówki. Celem streszczenia jest przedstawienie ogólnego wyobrażenia o strukturze głównego korpusu tezaurusa. Zawiera listę wszystkich taksonów z podtaksonami i odpowiadającymi im odniesieniami paradygmatycznymi. Korpus główny Słownika-Tezaurusa stanowi zbiór haseł słownikowych pogrupowanych w grupy (taksony) i podgrupy (podtaksony) zgodnie ze znaczeniem opisywanych w nich idiomów. Każdy artykuł zawiera idiom i przykłady jego użycia we współczesnym języku rosyjskim. Streszczenie, Legenda, Wskaźniki to części usługowe wspomnianego słownika-tezaurusa, które zapewniają użytkownikowi możliwość szybkiej i wydajnej pracy. Legendę stosuje się w przypadkach, gdy przykłady użycia idiomów nie są potrzebne, ponieważ odtwarza wszystkie informacje z wyjątkiem przykładów. W rzeczywistości jest to słownictwo słownika. Jednostki słownictwa to lematy. Lemat w tym przypadku jest idiomem w jego oryginalnej (słownikowej) formie i obejmuje, jeśli to możliwe, wszystkie jego istotne warianty. Na przykład idiom stojący w miejscu jest częścią lematu o stagnacji, staniu w miejscu, przesuwaniu się w miejscu.

Słownik zawiera dwie wskazówki. Na końcu książki znajduje się artykuł „Teoretyczna koncepcja słownika-tezaurusa współczesnej ideomatyki rosyjskiej”, w którym szczegółowo analizuje się cechy naukowe tego projektu.

„Rosyjski słownik semantyczny”, stworzony pod kierunkiem Yu.N. Karaulov zawiera 10 tysięcy rosyjskich słów, które są podzielone na 1600 grup pojęciowych. Wybór grup opiera się na powtarzających się elementach interpretacji słów w słownikach objaśniających: na przykład „akcja”, „właściwość”, „narzędzie” itp.

„Rosyjski słownik semantyczny”, stworzony pod kierunkiem akademika N.Yu. Szwedowej opiera się na nieco innych zasadach, typowych dla tworzenia słowników ideograficznych i objaśniających. Po pierwsze, wszystkie słowa języka są tutaj podzielone na cztery klasy: 1) jednostki wskazujące (zaimki), 2) nazewnictwo (słowa znaczące), 3) faktycznie łączące (spójniki, przyimki, czasowniki łączące), 4) klasyfikacja (słowa modalne) , cząstki, wykrzykniki). Po drugie, w każdej klasie wszystkie słowa są podzielone na części mowy. Po trzecie, w ramach każdej części mowy wyróżnia się zbiory i podzbiory na podstawie bliskości tematycznej lub odwrotnie, znaczeń słów.

DUDEN to książeczka ze zdjęciami (rysunkami) po lewej stronie (w zależności od oprogramowania) z ponumerowanymi szczegółami (aż do najmniejszych). Po prawej stronie tej numerowanej liście towarzyszą tytuły (nawet w dwóch językach). Na całej stronie narysowane są np. urządzenia kolejowe, stacje, tory. Po prawej - nazwy strzałek, semaforów, kul itp.

„Słownik tematyczny języka rosyjskiego” L.G. Sayakhova, D.M. Khasanova i V.V. Morkovkina zawiera 25 000 jednostek leksykalnych pogrupowanych w trzy duże klasy: „Człowiek”, „Społeczeństwo”, „Przyroda”, które stopniowo rozgałęziają się na mniejsze podklasy. Na przykład w klasie „Człowiek” znajdują się podklasy „Ciało i organizm ludzki”, „Życie ludzkie”, „Wygląd, wygląd osoby”, „Wygląd emocjonalny osoby” itp. Każda z podklas z kolei , dzieli się na jeszcze bardziej prywatne: „Świat emocjonalny osoby” - „Właściwości psychiczne osoby” - „Temperament”, „Charakter” - „Wspólne cechy charakteru” itp. Znaczenie i użycie słów należących do poszczególnych klas ilustrują najczęściej używane zwroty. Na przykład słowu „śmiech”, które znajduje się w podgrupie „ekspresja uczuć, emocji” klasy „Osoba”, towarzyszy wskazanie takich kombinacji z tym słowem, jak wesoły śmiech, radosny śmiech, śmiech dziecka, wybuch do śmiechu itp.

Streszczenie. Jednym ze skutecznych narzędzi opisu poszczególnych obszarów tematycznych, zwłaszcza w formie elektronicznej, są tezaurusy.

Termin tezaurus od dawna jest szeroko stosowany w językoznawstwie na określenie szczególnego rodzaju słowników, w pewnym stopniu odzwierciedlających „obraz świata”, „językowy model świata” (wg Yu.N. Karaulova). Tezaurus jako „skarbiec” powiększył swój zakres semantyczny, nabrał nowego znaczenia. Zaczęto nazywać je słownikiem, który nie tylko pochłania całe bogactwo leksykalne języka, ale porządkuje je w pewien logiczny i systemowy sposób. W słowniku tezaurusa słowa są pogrupowane, a skojarzenie to następuje na podstawie zdolności konkretnego słowa do przekazania określonej koncepcji.

Tezaurus-słownik był zawsze uważany w językoznawstwie za rodzaj uniwersalnego systemu, który zapewnia przechowywanie zbiorowej (dla określonego społeczeństwa) wiedzy o świecie w formie werbalnej. W przeciwieństwie do innych słowników, w tezaurusie-słowniku wiedza ta jest przechowywana w ustrukturyzowanej formie, która odzwierciedla nasze wyobrażenia o „strukturze świata”.

Najbardziej znane i popularne obecnie tezaurusy to angielski tezaurus Roger, ideograficzny słownik języka rosyjskiego O.V. Baranova, Rosyjski słownik semantyczny Yu.N. Karaulova, Rosyjski słownik semantyczny akademika N.Yu. Shvedova, DUDEN, Słownik tematyczny języka rosyjskiego L.G. Sayakhova, D.M. Khasanova i V.V. Morkowkin.

System pojęciowy przedmiotu Podstawą każdego obszaru tematycznego jest system pojęć tego obszaru. Definicja pojęcia: Pojęcie to myśl, która odzwierciedla przedmioty i zjawiska rzeczywistości w uogólnionej formie poprzez ustalenie ich właściwości i relacji; te ostatnie (właściwości i relacje) pojawiają się w pojęciu jako cechy ogólne i specyficzne skorelowane z klasami obiektów i zjawisk (Słownik Lingwistyczny)


Pojęcia i terminy Aby wyrazić koncepcję obszaru tematycznego w tekstach, stosuje się słowa lub wyrażenia zwane terminami. Zbiór terminów danej dziedziny tworzy jej system terminologiczny. Związek określonego terminu z innymi terminami systemu terminologicznego danej dziedziny określa definicja


Definicje terminu? Słowo (lub kombinacja słów), które jest dokładnym określeniem określonej koncepcji dowolnej szczególnej dziedziny nauki, technologii, sztuki, życia społecznego itp. || Specjalne słowo lub wyrażenie używane do oznaczenia czegoś. w określonym środowisku, zawodzie (duży słownik wyjaśniający języka rosyjskiego)


Terminy - dokładne nazwy pojęć Zwykle każdemu pojęciu obszaru odpowiada co najmniej jeden jednoznacznie rozumiany termin, którego znaczeniem jest to pojęcie. - terminy w rozumieniu tradycyjnej teorii terminologii. Właściwości terminów - dokładne nazwy pojęć - termin musi odnosić się bezpośrednio do pojęcia, musi jasno je wyrażać; - znaczenie terminu musi być precyzyjne i nie może pokrywać się znaczeniowo z innymi terminami; - znaczenie terminu nie powinno zależeć od kontekstu. Terminy, które trafnie nazywają pojęcie, są przedmiotem badań teorii terminologii, terminologów


Terminy tekstowe W prawdziwych tekstach z danej dziedziny, oprócz terminów głównych, można zastosować wiele różnych wyrażeń językowych w odniesieniu do pojęcia, które nazywamy terminami tekstowymi: - opcje syntaktyczne i słowotwórcze: odbiorca środków budżetowych - odbiorca budżetu; - warianty leksykalne - odpis bezpośredni, odpis bezsporny; - wyrażenia wielowartościowe, w zależności od kontekstu, służące jako odniesienie do różnych koncepcji regionu, np. słowo waluta w różnych kontekstach może oznaczać walutę krajową lub walutę obcą.














Oznaczone deskryptory Etykiety - część nazwy deskryptora dźwigi (sprzęt dźwigowy) vs żurawie (ptaki) muszle (konstrukcje) - porównanie różnych tezaurusów Preferencje dla fraz: – Płyty gramofonowe vs. płyty (fonograf) Mioty i liczba mnoga: Drewno (materiał) Lasy (obszary leśne)






Włączenie deskryptorów w oparciu o wyrażenia wielowyrazowe. Podział terminu zwiększa niejednoznaczność: pokarm roślinny. Znaczenie wyrażenia zależy od kolejności słów: informacja naukowa - informacja naukowa. Jedno ze słów składowych wykracza poza zakres tezaurusa lub jest zbyt ogólne: po pierwsze pomoc Relacje deskryptorów nie wynikają z jej struktury: –Sztuczne nerki, status uchodźcy, sygnalizacja świetlna




Relacje skojarzeniowe Dziedzina działania - charakter - Matematyka - matematyk Dyscyplina - przedmiot badań - Neurologia - układ nerwowy Akcja - agent lub narzędzie - Polowanie - myśliwy Akcja - wynik działania - Tkanie - tkanina Akcja - cel - Oprawa - książka Przyczyna-skutek - Śmierć - pogrzeb Wartość - jednostka miary - Natężenie prądu - amper Działanie - kontrahent - Alergen - lek przeciwalergiczny itp.


Tezaurusy wyszukiwania informacji: etapy rozwoju Etap pierwszy: osoby indeksujące opisują główny temat tekstu za pomocą dowolnych słów i wyrażeń. Terminy zaczerpnięte z wielu tekstów są łączone. Spośród terminów o bliskim znaczeniu wybierany jest ten najbardziej reprezentatywny. Niektóre z pozostałych stają się warunkowe. synonimy, reszta została usunięta. Określone terminy zwykle nie są uwzględniane


tezaurusy wyszukiwania informacji: sztuka projektowania deskryptory to terminy potrzebne do wyrażenia głównego tematu dokumentu synonimy zawarte są tylko w najbardziej niezbędnych (np. zaczynają się na inną literę), aby nie utrudniać pracy indeksatorowi Podobne terminy należy zredukować do jednego, aby uniknąć subiektywnego indeksowania poziomów hierarchii, włączenie określonych terminów jest ograniczone


Tezaurus wyszukiwania informacji: sztuka rozwoju - 2 W skomplikowanych przypadkach deskryptory są opatrzone etykietami i komentarzami -LIV: bombardowanie - bombardowanie -Terminy niejednoznaczne: jedna wartość w tezaurusie (duża), nie mieszczą się w tezaurusie, etykiety!! ! Tradycyjny tezaurus wyszukiwania informacji - sztuczny język zbudowany w oparciu o rzeczywiste terminy




Tradycyjny IPT: zastosowanie w automatycznym przetwarzaniu Brak znajomości prawdziwego języka oprogramowania Brak znajomości prawdziwego języka oprogramowania Legislacyjny Słownik Indeksujący:Legislatywny Słownik Indeksujący: – w tekście ODDZIAŁY – w tezaurusie SIŁY WOJSKOWE – w tekście WIELKA – wielka litera, w tezaurusie tylko wielka litera. Sugeruje się: uzupełnienie każdego deskryptora listami słów i terminów. Sugeruje: każdy deskryptor powinien zostać uzupełniony listą słów i terminów. Ale: polisemia lub powiązanie z różnymi deskryptorami. Ale: polisemia lub odniesienie do różnych deskryptorów. Rozwiązywanie niejednoznaczności Rozwiązywanie niejednoznaczności


Tradycyjny IPT: automatyczne rozwijanie zapytań Problem z powiązaniami Sugerowane: wprowadź wagi wprowadź wagi wprowadź nazwy relacji: obiekt, właściwość itp. wprowadź nazwy relacji: obiekt, własność itp. WNIOSEK: musisz nauczyć się budować zasoby językowe specjalnie do automatycznego przetwarzania zbiorów tekstów


Tezaurus EUROVOC – wielojęzyczny tezaurus Wspólnoty Europejskiej Thesaurus w 9 językach Rosyjska wersja EUROVOC – +5 tysięcy pojęć odzwierciedlających rosyjską specyfikę Wielojęzyczny tezaurus – Deskryptor – nazwy w różnych językach – Askryptory – dla niektórych języków


Automatyczne indeksowanie oparte na regułach w tezaurusie EUROVOC (Hlava, Heinebach, 1996) Przykład reguły: JEŻELI (w pobliżu „Technologii” ORAZ z „Rozwojem”) USE Program wspólnotowy USE pomoc rozwojowa ENDIF 40 tysięcy reguł. Testowanie: 20 najczęściej występujących deskryptorów w tekście, generowanych automatycznie - kompletność 42% w porównaniu z kategoryzacją ręczną


Automatyczne indeksowanie w oparciu o ustalenie wag korespondencji pomiędzy słowami i deskryptorami (Steinberger et al., 2000) Etap 1 – ustalenie zgodności pomiędzy słowami tekstu a przypisanymi deskryptorami w oparciu o miary statystyczne (chi-kwadrat lub log-wiarygodność) Deskryptor ZARZĄDZANIA RYBOŁÓWSTWEM – następujący słowa (w malejącej kolejności wagi): rybołówstwo, ryby, stado, rybołówstwo, ochrona, zarządzanie, statek itp. Drugi etap indeksowania samego siebie - sumowanie logarytmów wag lub jako iloczyn skalarny wektorów


Połączenie zapytań bezpłatnych i opartych na tezaurusach wyszukiwania informacji Kolekcja ręcznie indeksowana - ustalanie korelacji Zapytanie ustawiane przez użytkownika w języku naturalnym Zapytanie jest rozszerzane o deskryptory tezaurusów najsilniej skorelowane z zapytaniem (Petras 2004; Petras 2005). Np. na zlecenie Firm Niewypłacalnych (Spółek Niewypłacalnych) można uzyskać listę deskryptorów płynność, zadłużenie, przedsiębiorstwo, firma.. i rozszerzyć zapytanie.Dokładność eksperymentu wzrosła o 13%.



Jedna z nowych podstawowych koncepcji, która powstała w wyniku rozwoju maszynowych metod przetwarzania informacji, w szczególności podczas tłumaczenia z jednego języka na inny, wyszukiwania informacji naukowo-technicznych oraz tworzenia modelu informacyjnego przedsiębiorstwa w zautomatyzowanych systemach sterowania , była koncepcja tezaurusa systemu informacyjnego. Termin „tezaurus” oznacza zbiór wiedzy o świecie zewnętrznym – jest to tzw. tezaurus świata T. Wszystkie koncepcje świata zewnętrznego wyrażone językiem naturalnym tworzą tezaurus, z którego można wyodrębnić tezaurusy prywatne. wyróżniać się podziałem hierarchicznym, uwzględniającym podporządkowanie poszczególnych pojęć lub wyróżnianiem części ogólnym tezaurusem świata. Tezaurus w systemach wyszukiwania informacji odgrywa ważną rolę w odnajdywaniu żądanego dokumentu za pomocą słów kluczowych. Dlatego budowa tezaurusa jest zadaniem złożonym i odpowiedzialnym. Ale to zadanie można również zautomatyzować.

Klasyfikacja w jej najbardziej ogólnej definicji to dzielenie i porządkowanie zbiorów. Nazywa się to podziałem obiektów na klasy na podstawie wspólnej cechy właściwej tym zjawiskom lub przedmiotom i odróżnieniu ich od obiektów i zjawisk tworzących inne klasy. W razie potrzeby każdą klasę można podzielić na podklasy. Rubrykator jest szczególnym rodzajem klasyfikacji. Dlatego tworzone są w oparciu o przepisy ogólne:
 podstawy naukowe do budowy klasyfikacji;
 odzwierciedlenie współczesnego poziomu rozwoju nauki;
 dostępność systemu powiązań i odnośników oraz aparatu referencyjnego (RSA).

Rubrykator jest jednak klasyfikacją pragmatyczną, stworzoną na podstawie przepływów informacji i potrzeb specjalistów. Na tym polega różnica w stosunku do klasyfikacji apriorycznych, takich jak UDC i IPC.

Główne funkcje klasyfikacji, a w szczególności rubrykatora, są następujące:
 zróżnicowanie tematyczne podsystemów informacyjnych;
 tworzenie tablic informacyjnych według dowolnych znaków;
 usystematyzowanie materiałów informacyjnych i publikacji;
 poszukiwania bieżące i retrospektywne;
 indeksowanie dokumentów i zapytań;
 powiązanie z innymi schematami klasyfikacji;
- funkcje normatywne.

Buduje się je poprzez podział pojęć – obiektów klasyfikacji na podstawie ustalonych relacji pomiędzy cechami tych obiektów, zgodnie z pewnymi zasadami logicznymi. Atrybut, według którego dokonuje się klasyfikacji, nazywany jest podstawą podziału klasyfikacji. Klasyfikacje szeroko wykorzystują metody dedukcji i indukcji do ustalania grup, klas i identyfikowania zależności między nimi. Jest to typowe dla klasyfikacji hierarchicznych. Głębokość klasyfikacji (liczba poziomów hierarchii) może się różnić w zależności od celu. Jednym z powszechnie stosowanych rubrykatorów jest państwowy rubrykator informacji naukowo-technicznej (SRSTI).

Rubrykator SRSTI został zaprojektowany w taki sposób, że może być używany łącznie z innymi klasyfikacjami, takimi jak UDC i IPC. Uniwersalna Klasyfikacja Dziesiętna (UDC) istnieje od ponad 70 lat, ale nadal nie ma sobie równych pod względem szerokości dystrybucji i jest stosowana w wielu krajach na całym świecie. UKD obejmuje cały wszechświat wiedzy i jest z powodzeniem stosowany do systematyzacji i późniejszego wyszukiwania szerokiej gamy źródeł informacji.

Oprócz UDC, w praktyce szeroko stosowana jest klasyfikacja biblioteczno-bibliograficzna (LBC). LBC opiera się na zasadach logicznego podporządkowania i reprezentuje zastosowaną klasyfikację typów.
W Federacji Rosyjskiej do klasyfikacji wynalazków i usystematyzowania krajowych zbiorów opisów wynalazków stosuje się międzynarodową klasyfikację patentową - dość złożoną, wieloaspektową klasyfikację zbudowaną zgodnie z zasadą funkcjonalno-przemysłową. Te same koncepcje techniczne mogą znajdować się w klasach IPC lub specjalnych (w zależności od branży) lub klasach funkcjonalnych (wg zasady działania). Sektorowa zasada podziału pojęć polega na klasyfikacji obiektów w zależności od zastosowania w określonej historycznej gałęzi techniki lub technologii.

Charakterystykę porównawczą rubrykatorów SRNTI, UDC, LBC i IPC przedstawiono w tabeli 1.

Tabela 1
Charakterystyka rubrykatorów SRNTI, UDC, LBC i IPC

Nazwa

Struktura

Zasada lokalizacji przegród

Schemat partycji

Hierarchiczny

Przemysł

Od ogółu do szczegółu

Hierarchiczny

Tematyczny

Hierarchiczny

Przemysł funkcjonalny

Od ogółu do szczegółu

LBC dla bibliotek naukowych

Hierarchiczny

Przemysł

Od ogółu do szczegółu, według rodzaju


W ten sposób możemy wyróżnić główne cechy wyróżniające rubrykatory i klasyfikatory:
 charakteryzują się praktycznym charakterem i orientacją sektorową;
 są to systemy otwarte, zależne od rozwoju nauki i technologii, potrzeb i wymagań specjalistów;
 układy nieorganiczne, gdyż przedmioty powstają i rozwijają się w środowisku i z niego do niego wchodzą. Elementy mogą istnieć niezależnie poza systemem. Ta cecha jest ściśle powiązana z drugą cechą;
 elementem minimalnym jest koncepcja związana z otoczeniem. Pojęcie reprezentuje system definicji;
 istnieją powiązania pomiędzy pojęciami zarówno w ujęciu „pionowym” (rodzaj-gatunek, całość-część), jak i „poziomym” (widok-gatunek, część-część), co wskazuje na hierarchię systemów.

Dzięki temu struktura i zasady organizacji klasyfikacji i rubrykatorów pozwalają na automatyzację procesu konstruowania tezaurusów obszaru tematycznego metodą dedukcyjną. Algorytm konstruowania tezaurusa metodą dedukcji pokazano na ryc. 1.

Podstawą do utworzenia tezaurusa jest obraz wyszukiwania dokumentu, zadania lub aplikacji do wyszukiwania informacji, wypełniany przez operatora. Dlatego pierwszym krokiem jest zbadanie i analiza aplikacji. W pierwszym etapie operator wskazuje interesujący go temat lub problem, możliwe słowa kluczowe i ich synonimy. W rezultacie otrzymujemy powierzchowne pojęcie o tematyce.

Ryż. 1. Algorytm konstrukcji tezaurusa metodą dedukcyjną

Dodatkowo tezaurus słów kluczowych CS tworzony jest metodą dedukcyjną, która wymaga:
 tablica CS, którą ustawia sam użytkownik, oznaczona na rysunku 1 jako MP;
 Tablica CS wyodrębniona z zadania wyszukiwania odpowiednio MZ.

Jednak w celu pełniejszego i głębszego zrozumienia obszaru tematycznego korzystamy z istniejących rubrykatorów i schematów klasyfikacyjnych (GRNTI, UDC, LBC, IPC). Aby zmaksymalizować pokrycie obszaru tematycznego, konieczne jest przejrzenie wszystkich dostępnych. Tablica rubrykatorów reprezentuje MR. Algorytm wyszukiwania dedukcyjnego składa się z dwóch kroków:
1. Znalezienie pojęć ogólnych (ryc. 2);
2. Znajdowanie terminów szczegółowych w obrębie pojęć rodzajowych (ryc. 3).


Ryż. 2. Przetwarzanie koncepcji ogólnej

Ładujemy pierwszy rubrykator z tablicy i organizujemy cykl sprawdzania obecności w rubrykatorach CS wprowadzonego przez użytkownika. Każdy CS jest przeszukiwany w rubrykatorze i porównywany z koncepcją ogólną lub „zagnieżdżeniem”, a następnie sprawdzany jest warunek – czy istnieje link do konkretnych terminów. Jeżeli istnieje takie odniesienie, CS porównuje się z konkretnymi terminami. Jeśli łącze nie zostanie znalezione, przejdź do następnej ogólnej koncepcji. Po wyświetleniu słów kluczowych CS wprowadzonych przez operatora przechodzimy do tablicy CS wyodrębnionych z zadania. Procedura weryfikacji jest podobna – szukamy CS odpowiadających pojęciom rodzajowym, a następnie ich powiązań z konkretnymi terminami.


Ryż. 3. Przetwarzanie terminów rodzajowych

Należy pamiętać, że w ramach każdej koncepcji ogólnej ważne jest przejrzenie wszystkich dostępnych terminów ogólnych w celu uzyskania maksymalnego zrozumienia obszaru problemowego. Efektem tych działań jest utworzenie tablicy słów kluczowych CS, która stanowi kompletny tezaurus odpowiadający zadaniu wyszukiwania informacji lub obrazowi wyszukiwania dokumentu.

Na podstawie pełnego zestawu obrazów wyszukiwania dokumentów (oznaczmy to) możliwe jest utworzenie tezaurusów branżowych i ujednoliconego klasyfikatora bibliotecznego. Oczywiście kompletny zbiór  sam w sobie stanowi najprostszy tezaurus.

Jednak stosując kryterium wyboru
, (1)
możemy budować tezaurusy branżowe. W tym przypadku zbiór tezaurusów wszystkich branż tworzy kompletny tezaurus
, (2)
których sekcje mogą mieć strukturę hierarchiczną zgodnie z wymaganiami GOST dla głównych klasyfikatorów (GRNTI, UDC, LBC, IPC) lub dla wewnętrznego ujednoliconego klasyfikatora.

Automatyzacja procesu budowy tezaurusów i klasyfikacji pozwala maksymalnie ułatwić pracę operatora pracującego z rozproszonymi zasobami informacji.

Oprócz budowania tezaurusu w oparciu o obraz wyszukiwania dokumentu, zaproponowane podejście można wykorzystać do automatycznego podsumowania dokumentu i grupowania tekstu.

Abstrakcja dokumentów to jedno z zadań mających na celu dostarczenie specjalistom-ekspertom rzetelnych informacji niezbędnych do podjęcia decyzji zarządczej o wartości dokumentów otrzymanych z Internetu. Abstrakcja to proces przekształcania informacji dokumentalnej, którego kulminacją jest zestawienie streszczenia, a streszczenie to semantycznie adekwatne przedstawienie głównej treści dokumentu pierwotnego, wyróżniające się ekonomicznym projektem znaku, stałością cech językowych i strukturalnych i przeznaczone do wykonania różne funkcje informacyjno-komunikacyjne w systemie komunikacji naukowej. Algorytm odwoływania się do dokumentu pokazano na ryc. 4.


Ryż. 4. Algorytm podsumowania dokumentów

Ogólnie algorytm obejmuje następujące główne kroki.
1. Z dokumentu pobranego z Internetu i umieszczonego w hurtowni danych wyodrębnia się zdania poprzez wyodrębnienie znaków interpunkcyjnych i zapisanie ich w tablicy.
2. Każde zdanie dzielimy na słowa wybierając separatory i przechowujemy je w tablicy, która dla każdego zdania jest inna.
3. Dla każdego zdania, dla każdego słowa tego zdania liczymy liczbę słów w innych zdaniach (przed i po). Suma powtórzeń każdego słowa (przed i po) będzie wagą tego zdania.
4. Podaną liczbę zdań o maksymalnym współczynniku wagi i zaznacz w streszczeniu w kolejności występowania w tekście.

Zaproponowany model budowy tezaurusu i katalogów tematycznych systemu informacyjnego stanowi teoretyczną podstawę automatyzacji wyszukiwania semantycznego i pozwala ekspertowi-specjaliście nie tylko na prowadzenie prac poszukiwawczych, ale także w trybie zautomatyzowanym abstrakcyjnych dokumentów uzyskanych w wyniku wyszukiwania w rozproszonych systemach informatycznych Internetu.

Literatura:
1. Barushkova R.I. Schematy klasyfikacji informacji naukowo-technicznej. Proc. dodatek. - M., 1981. - lata 80.
2. Barushkova R.I. Rubrykator jako schemat klasyfikacji informacji naukowych i technicznych. Zestaw narzędzi. - M., 1980. - 38 lat.
3. Trusov A.V., Babarykin E.P. Ocena granic obszaru tematycznego żądania informacji w rozproszonych systemach informatycznych. Materiały z ogólnorosyjskiej (z udziałem międzynarodowym) konferencji „Informacja, innowacje, inwestycje”, 24-25 listopada 2004 r., Perm / Perm CSTI. - Perm, 2004. - S.76-79.
4. Yatsko V.A. Logiczno-językowe problemy analizy i abstrakcji tekstu naukowego. - Abakan: wydawnictwo stanu Khakass. un-ta, 1996. - 128 s.

Najnowsze artykuły w dziale:

Prezentacja dla starszych przedszkolaków
Prezentacja dla starszych przedszkolaków Prezentacja „Historia ozdób choinkowych” na lekcję o otaczającym świecie (grupa przygotowawcza) na ten temat

„Z historii zabawek noworocznych” Wszystko ma swoją historię. Nawet zabawki świąteczne. Nowy Rok zaczęto obchodzić dopiero w 1700 roku dekretem Piotra 1. Dnia...

Prezentacja
Prezentacja „Ryba chrzęstna” Prezentacja na lekcję biologii (klasa 7) na ten temat Prezentacja na temat rekina chrzęstnego

CHRZĄSTKA RYBY Veretennikova Svetlana Valerievna Nauczyciel biologii MBOU szkoła średnia nr 19 Niżny Nowogród Ryby chrzęstne należą do najstarszych wśród ...

Rozwój lekcji: Długość fali
Rozwój lekcji: Długość fali

Podczas lekcji będziesz mógł samodzielnie przestudiować temat „Długość fali. Prędkość propagacji fali. Na tej lekcji poznasz...