Za šta se koristi tezaurus? Značenje riječi tezaurus

N. V. Lukashevich

[email protected]

B. V. Dobrov

Istraživački računarski centar Moskovskog državnog univerziteta. M.V. Lomonosov;

ANO Centar za informacijska istraživanja

[email protected]

Ključne riječi: tezaurus, pronalaženje informacija, automatska obrada teksta,

Velika većina tehnologija koje rade sa velikim zbirkama tekstova zasniva se na statističkim i probabilističkim metodama. To je zbog činjenice da leksički resursi koji se mogu koristiti za obradu zbirki tekstova korištenjem lingvističkih metoda moraju imati volumen od desetine hiljada rječnika i imati niz važnih svojstava koja se moraju posebno pratiti prilikom razvoja izvora. U izvještaju istražujemo osnovne principe razvoja leksičkih resursa za automatsku obradu velikih zbirki tekstova na primjeru tezaurusa ruskog jezika za kompjutersku obradu teksta RuTez, kreiranog 1997. godine, koji trenutno predstavlja hijerarhijsku mrežu od više od 42 hiljade koncepata. . Sadašnje stanje tezaurusa opisujemo na osnovu poređenja njegovog leksičkog sastava i korpusa teksta Univerzitetskog informacionog sistema RUSIJA (www.cir.ru) - 400 hiljada dokumenata. Razmatraju se primjeri upotrebe tezaurusa u raznim aplikacijama za automatsku obradu teksta.

  1. Uvod

Trenutno su milioni dokumenata postali dostupni u elektronskom obliku, stvorene su hiljade informacionih sistema i elektronskih biblioteka. Istovremeno, informacioni sistemi koji koriste leksičke i terminološke resurse za pretraživanje izračunavaju se u delićima procenta. To je zbog ozbiljnih izazova stvaranja ovakvih jezičkih resursa za automatsku obradu savremenih zbirki elektronskih dokumenata.

Prvo, ove zbirke su obično veoma velike; izvor mora uključivati ​​opise hiljada riječi i pojmova. Drugo, kolekcije su skup dokumenata različite strukture sa različitim sintaksičkim strukturama, što otežava automatsku obradu tekstualnih rečenica. Osim toga, važne informacije se često distribuiraju između različitih rečenica teksta.

Sve ovo akutno postavlja pitanje šta bi trebao biti jezički resurs, koji bi, s jedne strane, bio koristan za automatsku obradu i pretraživanje u elektronskim zbirkama, s druge strane, mogao bi se stvoriti u dogledno vrijeme i održavati s relativno malo napor.

U ovom članku ćemo pogledati osnovne principe razvoja leksičkih resursa za automatsku obradu velikih kolekcija teksta. Ovi principi će biti ispitani na primjeru tezaurusa ruskog jezika koji je od 1997. godine kreirao Centar za informatička istraživanja ANO za kompjutersku obradu teksta RuTez. RuTez je trenutno hijerarhijska mreža od više od 42 hiljade pojmova, koja uključuje više od 95 hiljada ruskih riječi, izraza i pojmova. Opisaćemo trenutno stanje tezaurusa na osnovu poređenja njegovog leksičkog sastava i rečnika korpusa teksta Univerzitetskog informacionog sistema RUSIJA, uz podršku Istraživačkog računarskog centra Moskovskog državnog univerziteta. M.V. Lomonosov i ANO TSII. UIS RUSSIA (www.cir.ru) sadrži 400 hiljada dokumenata o društveno-političkim temama (oko 3 GB tekstova, 200 miliona reči). U članku će se također raspravljati o primjerima korištenja tezaurusa u raznim aplikacijama za automatsku obradu teksta.

  1. Principi za razvoj jezičkog izvora

za zadatke pronalaženja informacija

Da bi se osigurala efikasna automatska obrada elektronskih dokumenata (automatsko indeksiranje, kategorizacija, poređenje dokumenata), potrebno je izgraditi osnovu za njihovo poređenje – listu onoga što je navedeno u dokumentu. Da bi takav indeks bio učinkovitiji od indeksa riječ po riječ, potrebno je prevazići leksičku raznolikost teksta: sinonime, polisemiju, dijelove govora, stilistiku i svesti je na invarijantu – pojam koji postaje osnova za poređenje različitih tekstova. Dakle, koncepti treba da postanu osnova jezičkog resursa, a jezički izrazi: riječi, pojmovi - postaju samo tekstualni ulazi koji inicijaliziraju odgovarajući koncept.

Da bi se mogli porediti različiti, ali slični koncepti, moraju se uspostaviti odnosi između njih. Tradicionalno, lingvistički resursi za automatsku obradu tekstova na prirodnom jeziku koristili su određene skupove semantičkih odnosa, kao npr. dio, izvor, razlog i tako dalje. Međutim, kada radimo sa velikim i heterogenim kolekcijama tekstova, moramo shvatiti da sa trenutnim stanjem tehnologije obrade teksta, kompjuterski sistem neće moći pouzdano detektovati ove odnose u tekstu kako bi izvršio procedure koje smo povezali sa ove ili druge veze. Dakle, odnosi između pojmova moraju prije svega opisati određena invarijantna svojstva koja ne zavise ili slabo zavise od teme konkretnog teksta u kojem se pojam spominje.

Glavna funkcija ovog odnosa je da odgovori na sljedeće pitanje:

ako je poznato da je tekst posvećen razmatranju C1, a C2 je povezan

stavRsa C1, možemo li reći da je tema teksta(*)

vezano za C2?

Prilikom kreiranja jezičkog resursa za automatsku obradu, važno je odrediti koja svojstva koncepata C1 i C2 nam omogućavaju da uspostavimo ispravne (*) odnose između njih.

Tako, na primjer, bez obzira o kakvim se tekstovima piše breze, uvek možemo reći da su ovi tekstovi o drveće. Ali uprkos popularnosti i čestim raspravama o vezi drvo kao dio šume, vrlo malo tekstova o drveću su tekstovi o šumama. Imajte na umu da problem nije povezan s imenom veze. Dakle čistina je dio šume, a tekstovi o proplancima su tekstovi o šumama.

Invarijantnost odnosa u odnosu na spektar mogućih tema tekstova u predmetnoj oblasti je u velikoj meri određena dubljim svojstvima od onih koje reflektuju nazivi odnosa, odnosno njegovim kvantifikatorom i egzistencijalnim svojstvima. Dakle, kvantifikatorska svojstva relacija opisuju da li svi primjeri koncepta imaju datu relaciju, da li ta relacija postoji tokom cijelog životnog ciklusa primjera. Problem sa upotrebom relacije drvošuma Upravo zbog činjenice da se ne nalazi svako određeno drvo u šumi, ali čistina ne može biti izvan šume.

Primjer opisa egzistencijalnih svojstava odnosa - da li iz postojanja koncepta C1 proizlazi postojanje koncepta C2 (na primjer, postojanje koncepta GARAŽA zahtijeva postojanje koncepta AUTOMOBILE) ili postojanje primjera C1 ovisi o postojanju primjera C2 (tako specifičnih POPLAVA neodvojivo od konkretnog primjera RIJEKE). Rasprava u tekstu o zavisnom pojmu C2, posebno u zavisnosti od primjera, sugerira da je tekst vezan i za glavni koncept C1.

Razmotrimo odnos između pojmova ŠUMA i DRVO u detaljima. U stvari, dio koncepta FOREST je DRVO U ŠUMI, dok ih ima SLOBODNO STOJEĆE DRVO,DRVO U BAŠTU itd. U svakom slučaju, potrebno je prekinuti odnos subordinacije pojma DRVO koncept FOREST.

Na drugoj strani, FOREST je vrsta ZBIRKE DRVEĆA, ne postoji bez drveća (kao i VRT). Dakle, koncept FOREST mora biti u vezi sa konceptom DRVO. Polazeći od analize potreba konkretnih aplikativnih problema, došli smo do zaključka da je važno opisati dubinska svojstva relacija koja su se ranije vrlo malo odražavala u jezičkim resursima, ali su od najveće važnosti za zadatke automatske obrade. velikih kolekcija teksta i, moguće, za mnoge druge zadatke.

Sada modeliramo opis kvantifikatora i egzistencijalnih svojstava koncepata sa skupom tradicionalnih relacija tezaurusa IZNAD-ISD (66% svih relacija), DIJELO-CELO (30% relacija), ASOCIJACIJA (4%), u kombinaciji sa određeni skup dodatnih modifikatora (označeno je 20% relacija). Imajte na umu da se odnosi DIJELO-CELOTA i ASOCIJACIJA tumače uzimajući u obzir pravilo (*). Ukupno je opisano oko 160 hiljada direktnih veza između pojmova, što, uzimajući u obzir tranzitivnost relacija, daje ukupan broj različitih veza od više od 1350 hiljada veza, odnosno u prosjeku je svaki pojam povezan sa 30 drugih. .

  1. RuTez tezaurus: opća struktura

RuTez tezaurus je hijerarhijska mreža pojmova koji odgovaraju značenjima pojedinih riječi, tekstualnih izraza ili sinonimnih nizova. Dakle, glavni elementi tezaurusa su koncepti, lingvistički izrazi, odnosi između jezičkih izraza i pojmova i odnosi između pojmova.

Tezaurus objedinjuje u jedinstven sistem kako lingvistička znanja – opise leksema, idioma i njihovih veza, tradicionalno vezanih za leksička, semantička znanja, tako i znanja o terminima i odnosima unutar predmetnih oblasti, tradicionalno vezanih za oblast djelovanja terminologa, opisana u tezaurus za pronalaženje informacija . Kao takve predmetne podoblasti, tezaurus opisuje predmetne oblasti kao što su ekonomija, zakonodavstvo, finansije, međunarodni odnosi, koje su toliko važne za svakodnevni ljudski život da imaju značajnu leksičku zastupljenost u tradicionalnim eksplanatornim rečnicima. U njima su leksičko i terminološko snažno međusobno povezane i u snažnoj interakciji jedno s drugim.

Jezički izrazi su pojedinačne lekseme (imenice, pridjevi i glagoli), imenske i glagolske grupe. Dakle, tezaurus trenutno ne uključuje priloge i funkcijske riječi kao jezičke izraze. Grupe više riječi mogu uključivati ​​termine, idiome, leksičke funkcije ( uticaj e).

Za svaki jezički izraz opisano je sljedeće:

Njegova polisemija je veza sa jednim ili više pojmova, što znači da dati jezički izraz može poslužiti kao tekstualni izraz ovog pojma. Pripisivanje jezičkog izraza različitim konceptima također je implicitna indikacija njegove polisemije;

Njegov morfološki sastav (dio govora, broj, padež);

Karakteristike pisanja (na primjer, velikim slovom) itd.

Svaki koncept tezaurusa ima jedinstveno ime, listu jezičkih izraza pomoću kojih se ovaj koncept može izraziti u tekstu i listu odnosa sa drugim pojmovima.

Jedan od njegovih nedvosmislenih tekstualnih izraza obično se bira kao jedinstveno ime za koncept. Ali naziv pojma može biti formiran i od para njegovih dvosmislenih tekstualnih izraza - sinonima, pisanih odvojenih zarezima i nedvosmisleno definisanih (npr. DEBELO). Dvosmisleni tekstualni izraz naziva pojma može biti opremljen i oznakom ili skraćenim fragmentom interpretacije, na primjer, koncept GOMILA (GRUPA LJUDI).

  1. Primjer unosa u rječnik

Kao primjer odabrali smo rječničku stavku za koncept FOREST, što odgovara jednom od značenja riječi šuma. Ovaj rječnik je zanimljiv jer uključuje različite vrste znanja, tradicionalno klasificiranih na leksička (semantička) znanja i enciklopedijska znanja (znanja o predmetnoj oblasti, terminologija).

Sinonimi za koncept FOREST(ukupno 13):

šuma(M), šumska zona, šumsko okruženje,

šuma, šumska četvrt, šumski pejzaž,

šumsko područje, šuma, šumovito područje,

šumsko područje, mala šuma,

niz šuma.

Donji pojmovi sa sinonimima:

JUNGLE(džungla);

PARK ŠUMA(gradska bašta, zelena površina,

zelena površina, park šuma,

gazdovanje šumama, park šuma

pojas, park (M), područje parka);

ŠUMARSTVO;

LEAVED FOREST(mekolisna šuma, tvrdolisna

šuma);

GROVE(hrastov gaj);

ČETINARSKA ŠUMA (četinarska šuma, tamna četinarska šuma)

Pojmovi-dijelovi sa sinonimima:

WINDBREAK(nalet vjetra, vjetropad);

REZANJE(područje rezanja);

KULTURA ŠUMA(šumske vrste, šumarstvo

kultura);

ŠUMSKO ZEMLJIŠTE (šumsko zemljište; pokriveno zemljište

šuma; šumska zemljišta, šumska teritorija;

šumovito zemljište, pošumljeno

područje);

ŠUMSKI NASADI(šumski zasadi, šumski zasadi,

pošumljavanje);

IVA ŠUME(rub, rub);

PODCVIJET (podrast);

PROSEKA;

SUHA DRVA(mrtvo drvo).

Ovdje simboli (M) odražavaju napomenu o dvosmislenosti unosa teksta.

Koncept FOREST Ima i druge odnose, takozvane odnose zavisnosti (u modernoj verziji oni se zovu ASC 2 - asimetrična asocijacija): ŠUMSKI POŽAR(šumski požar, požar u šumi; KORIŠĆENJE ŠUME (korištenje šuma, korištenje površina šumskog fonda); ŠUMARSTVO; FOREST SCIENCE (nauka o šumama). Kao što je već napomenuto u paragrafu 2, koncept ŠUME zavisi od koncepta DRVETA, koje se u tezaurusu označava relacijom ASC 1.

Totalni koncept FOREST je direktno povezan sa 28 drugih koncepata, uzimajući u obzir tranzitivnost odnosa - sa 235 pojmova (ukupno više od 650 unosa teksta).

  1. Procjena trenutnog stanja

Tezaurus ruskog jezika RuTez

5.1. Leksički sastav

Trenutno, mreža tezaurusa obuhvata više od 95 hiljada jezičkih izraza, od kojih je 61 hiljada jednorečnih.

Ovaj obim rada natjerao nas je da odlučimo koje riječi i lingvističke izraze treba uključiti u opise tezaurusa. Prirodna želja je bila da se vidi kako su najčešće reči u ruskom jeziku zastupljene u tezaurusu. U tu svrhu korišćena je zbirka tekstova Univerzitetskog informacionog sistema RUSIJA (400 hiljada dokumenata). Zbirka sadrži zvanične dokumente različitih organa Ruske Federacije (55 hiljada dokumenata od 1992. godine), kao i materijale za štampu od 1999. (novine Izvestia, Nezavisimaya Gazeta, Komsomolskaya Pravda, Argumenty i Fakty, Expert magazine i drugi), materijale iz naučnih časopisi („Bilten Moskovskog univerziteta“, „Sociološki časopis“). Napravljeno je poređenje između liste lema uključenih u Tezaurus i liste od 100.000 najčešćih lema u zbirci tekstova (učestalost veća od 25).

Označavanje poleksema na listi pokazalo je da je od ovih sto hiljada lema 35 hiljada opisano u RuTezu, samo oko 7 hiljada leksema zaslužuje uvrštenje u Tezaurus, ostale su lematske varijante različitih vlastitih imena. Stoga je dopuna prestala biti prioritetni zadatak i provodi se postepeno, počevši od najčešćih riječi. Pretpostavlja se da će se, čim se ova lista uglavnom iscrpi, izvršiti još jedno poređenje sa tekstualnim nizom informacionog sistema, biraće se nove lekseme sa frekvencijom većom od 25. Zatim bi trebalo da se snizi prag gledanosti. . Prisutnost velikog broja tekstualnih primjera u zbirci tekstova omogućava vam da brzo odgovorite na "leksičke inovacije" (npr. instalacija,blockbuster, beau monde, triler) i uvrstite ih na odgovarajuća mjesta u hijerarhijskom sistemu Tezaurusa.

Konstantan rad sa aktuelnom zbirkom tekstova pruža jedinstvene mogućnosti za proveru značaja i kvaliteta leksičkih opisa predloženih u rečnicima. Na primjer, neobično visoka učestalost upotrebe riječi Mother See(više od 400 puta). Provjera niza pokazala je da se riječ zaista često koristi kao sinonim za tu riječ Moskva, dok rječnici s objašnjenjima ovu riječ često označavaju kao zastarjelu. Još jedan primjer često korištene riječi (više od 300 puta) označene kao zastarjele u rječnicima je riječ blažen.

5.2 Opis značenja riječi

Poređenje sa kolekcijom teksta pokazuje da su mnoge riječi frekvencije u nizu dobro predstavljene u Tezaurusu u barem jednom od svojih (obično osnovnih) značenja. Otkrivanje u kojoj je mjeri spektar značenja polisemantičkih riječi u ruskom jeziku zastupljen u Tezaurusu, naš je primarni zadatak u ovom trenutku.

Kao što je poznato, često različiti rječnički izvori daju različit skup značenja za višeznačne riječi, ističu nijanse značenja, a isti tip polisemije može se različito opisati za različite riječi čak i u istom rječniku. Stoga je zadatak dosljednog i reprezentativnog opisivanja značenja leksema važan zadatak za kreatore svakog rječnika.

Međutim, ako je resurs namijenjen za automatsku obradu, tada zadatak uravnoteženog opisa vrijednosti postaje mnogo važniji. Prekomjerna inflacija vrijednosti može rezultirati nemogućnošću kompjuterskog sistema da odabere željenu vrijednost, što zauzvrat rezultira značajnim smanjenjem performansi sistema za automatsku obradu teksta. Dakle, jedan od nedostataka WordNet resursa kao resursa za automatsku obradu teksta je preveliki broj značenja opisanih za neke riječi (u WordNetu 1.6: 53 značenja za trči, 47 for igrati i tako dalje.). Ova značenja je teško razlikovati čak i za ljude kada semantički anotiraju tekstove. Jasno je da kompjuterski sistem takođe ne može da se nosi sa izborom odgovarajuće vrednosti. Stoga različiti autori predlažu različite načine kombiniranja vrijednosti za poboljšanje kvalitete obrade.

Istovremeno, djeluje suprotan faktor: ako se značenja zaista razlikuju u svom skupu rječnika (u našem slučaju veze tezaurusa) - ne mogu se zalijepiti u jednu cjelinu (jedan koncept) - to će također dovesti do pogoršanja kvalitet automatske obrade.

Uzmimo primjer riječi škola I crkva, od kojih se svaki može posmatrati kao organizacija i kao zgrada.

Svaka školska organizacija ima zgradu (najčešće jednu). Svi dijelovi školske zgrade (učionice, table) su u vezi škola kako organizaciji. Ne postoje posebne vrste školskih zgrada. Stoga opis škole Kao zgrade, neprikladno je izdvajati ih u poseban koncept. Međutim, opis takvog kolektivnog koncepta ŠKOLA kao organizacija i kao zgrada moraju imati posebno dizajniran odnos prema konceptu ZGRADA. Prilikom opisivanja takvih odnosa u Tezaurusu koristi se oznaka na odnosu - modifikator „A“ („aspekt“; tokom automatske analize potrebna je „potvrda“ od strane drugih koncepata da se ovaj odnos uzme u obzir).

ŠKOLA

VIŠE OBRAZOVNE USTANOVE

IZNAD A JAVNA ZGRADA

Odgovarajuća značenja riječi crkva ne tako blizu. Crkve Kao organizacija može imati veliki broj crkvenih objekata na različitim mjestima, a ima i mnogo drugih objekata. Izgradnja crkve je usko vezan za religiju i konfesiju, ali može promijeniti pripadnost crkvene organizacije. Crkva-organizacija I crkvenogradnja imaju različite podvrste. Zbog toga CRKVA (ORGANIZACIJA) I CRKVA (ZGRADA) predstavljeni su u RuTezu kao različiti koncepti.

Značajna divergencija u tezaurusnim vezama na zanimljiv način korelira sa sposobnošću denotata koji odgovaraju značenjima da postoje odvojeno jedan od drugog. Dakle, crkva-zgrada ne prestaje postojati, pa se čak i naziva crkvom čak i kada se promijeni njena namjena, za razliku od školske zgrade.

Proces provjere zastupljenosti vrijednosti u Tezaurusu je stalno u toku, počevši od najčešćih lema. Za svaki leksem frekvencije provjerava se kako su njegova značenja opisana u eksplanatornim rječnicima, koja se značenja koriste u zbirci i kako su predstavljena u Tezaurusu. Kao rezultat toga, sada je formirana lista od 10.000 leksema, čija nejasnoća još uvijek zahtijeva dodatnu analizu ili dodatni opis. Lista je dobijena na osnovu 30 hiljada najčešćih lema.

Treba napomenuti da je u Tezaurusu problem polisemije djelimično otklonjen zbog činjenice da se tezaurusne veze mogu opisati između različitih značenja riječi, pa se stoga po defaultu može odabrati najviši pojam u hijerarhiji. O tome je svakako bilo reči u tekstu. Na primjer, riječ fotografija ima tri značenja: fotografija kao polje aktivnosti, fotografija kao fotografska slika, fotografija kao foto studio:

FOTOGRAFIJA(fotografisanje, foto biznis, ..., fotografija )

PART FOTOGRAFSKA SLIKA

(fotografija, fotografija, fotografija )

PART FOTO STUDIO (fotografija ).

Dakle, ako nije bilo moguće odgonetnuti koje značenje je upotrijebljena riječ fotografija, podrazumevano je pretpostaviti da je fotografija snimljena (procesa, rezultata ili lokacije), što je dovoljno za mnoge aplikacije za automatsku obradu teksta.

  1. Primjena RuTez tezaurusa

za automatsku obradu teksta

Od 1995. godine društveno-politička terminologija RuTez (društveno-politički tezaurus) se aktivno i uspješno koristi za različite primjene automatske obrade teksta, kao što su automatsko konceptualno indeksiranje, automatska rubrikacija korištenjem nekoliko rubrikatora, automatsko označavanje tekstova, uključujući i engleski jezik. one. Društveno-politički tezaurus (27 hiljada pojmova, 62 hiljade tekstualnih unosa) je osnovni alat za pretragu u sistemu pretraživanja UIS RUSIJA (www.cir.ru).

Sav vokabular RuTez tezaurusa koristi se u procedurama za automatsku kategorizaciju tekstova korištenjem složenih hijerarhijskih rubrikatora. U postojećoj tehnologiji, svaka kategorija je opisana kao Boolean izraz pojmova, nakon čega se originalna formula proširuje duž hijerarhije tezaurusa. Rezultirajući Boolean izraz možda već uključuje stotine i hiljade konjunkti i disjunkata.

Navedimo, kao primjer, fragment opisa koji koristi koncepte tezaurusa (i lingvističke izraze nakon proširenja formule) rubrike „Imidž žene“ rubrikatora SOFIST 2, koji VTsIOM koristi za klasifikaciju upitnika za ispitivanje javnog mnijenja:

(ŽENA[N]

|| DJEVOJKA[N]

|| ROĐAK [L] (baka, unuka, sestrična,

ćerka, snaja, majka, maćeha, snaha, poćerka, ...))

( OSOBINA KARAKTERA [L] (štedljiv, bezdušan, zaboravan,

neozbiljan, podrugljiv, netolerantan, društven,...)

|| SLIKA [E] (prezentacija, izgled, izgled,

izgled, izgled, slika, izgled)

|| PRIJETNO [L] (..., zanimljivo, lijepo, slatko,

privlačan, sladak, privlačan,...)

|| NEPRIJATNO[L] (nesimpatično, nepristojno, gadno, ...)

|| CIJENI[L] (poštovati, obožavati, obožavati,

obožavati, obožavati,...)

|| PREFERA[N]

Simbol “E” označava punu ekspanziju duž hijerarhije tezaurusa, simbol “L” - prema odnosima vrsta ("ISPOD"), simbol "N" - ne širi se.

Istraživanja se provode kako bi se razvila kombinovana tehnologija za automatsku kategorizaciju teksta, kombinujući znanje tezaurusa i procedure mašinskog učenja.

Istražuju se pitanja upotrebe tezaurusa za proširenje upita formulisanog na prirodnom jeziku (trenutno se samo društveno-politički dio tezaurusa koristi za proširenje terminološkog upita u sistemu za pronalaženje informacija UIS RUSIJA) i traženje odgovori na pitanja u velikim zbirkama tekstova.

7. Zaključak

U radu su prikazani osnovni principi razvoja jezičkih resursa za automatsku obradu velikih zbirki tekstova. Stvoreni lingvistički resurs - Tezaurus ruskog jezika RuTez - namijenjen je za korištenje u takvim aplikacijama za automatsku obradu teksta kao što su konceptualno indeksiranje dokumenata, automatska rubrika prema složenim hijerarhijskim rubrikatorima, automatsko proširenje upita prirodnog jezika.

Ovaj rad je djelimično podržan grantom Ruske humanitarne fondacije br. 00-04-00272a.

Književnost

  1. Lukashevich N.V., Saliy A.D., Reprezentacija znanja u sistemu automatske obrade teksta //NTI, Ser.2. 1997. br. 3. str. 1‑6.
  2. Zhuravlev S.V., Yudina T.N., Informacioni sistem RUSIJA //NTI, Ser.2. 1995. br. 3. str. 18‑20.
  3. Winston M., Chaffin R., Herman D., A Taksonomy of Part-Chole Relations // Cognitive Science. 1987. br. 11. P. 417‑444.
  4. Priss U.E., The Formalization of WordNet by Methods of Relational Concept Analysis // WordNet. Elektronska leksička baza podataka/Ed. od C. Fellbauma. Cambridge, Massachusetts, London, Engleska.: The MIT Press 1998. P. 179‑196.
  5. Guarino N., Welty C., Formalna ontologija svojstava // Proceedings of the ECAI-00 Workshop on Applications of Ontology and Problem Solving Methods. Berlin: 2000. P. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Neki ontološki principi za dizajniranje leksičkih resursa višeg nivoa // First Int. Konf. o jezičkim resursima i evaluaciji. 1998.

  1. Lukaševič N.V., Dobrov B.V., Modifikatori konceptualnih odnosa u tezaurusu za automatsko indeksiranje // NTI, Ser.2. 2000, br. 4, str. 21-28.
  2. Veliki objašnjeni rječnik ruskog jezika / Ed. S.A. Kuznetsova. Sankt Peterburg: Norint, 1998.
  3. Ozhegov S.I., Shvedova N.Yu, Objašnjavajući rečnik ruskog jezika - 3. izdanje. M.: Az, 1996.
  4. Apresyan Yu.D., Izabrana djela, tom I. Leksička semantika: 2. izd. M.: Škola „Jezici ruske kulture“, ur. Firma "Orijentalna književnost" RAS, 1995.
  5. G. Miller, R. Beckwith, C. Fellbaum, D. Gross i K. Miller, Pet radova o WordNetu, CSL izvještaj 43. Laboratorija za kognitivne nauke, Univerzitet Princeton, 1990.
  6. Chugur, J. Gonzalo i F. Verdjeo, Razlike čula u NLP aplikacijama // Proceedings of “OntoLex-2000”: Ontologies and Lexical Knowledge Bases. Sofija: OntoTextLab. 2000.
  7. Loukachevitch N., Dobrov B., Thesaurus-based Structural Thematic Summary in Multilingual Information Systems // Machine Translation Review. 2000. br. 11. P. 10‑20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Tezaurus ruskog jezika za obradu prirodnog jezika

velikih kolekcija tekstova

Natalia V. Loukachevitch, Boris V. Dobrov

Ključne riječi: tezaurus, obrada prirodnog jezika, pronalaženje informacija

U našoj prezentaciji razmatramo glavne principe razvoja leksičkih resursa za automatsku obradu velikih zbirki teksta i opisujemo strukturu Tezaurusa ruskog jezika, koji se od 1997. godine razvija posebno kao alat za automatsku obradu teksta. Sada je Tezaurus hijerarhijska mreža od 42 hiljade pojmova. Opisujemo trenutnu fazu razvoja Tezaurusa u poređenju sa 100.000 najčešćih lema zbirke tekstova Univerzitetskog informacionog sistema RUSIJA (www.cir.ru), uključujući 400 hiljada dokumenata. Takođe razmatramo upotrebu Tezaurusa u različitim aplikacijama automatske obrade teksta.

, antonimi, paronimi, hiponimi, hipernimi itd.) između leksičkih jedinica. Tezauri su jedan od najefikasnijih alata za opisivanje pojedinačnih predmetnih oblasti.

U prošlosti termin tezaurus prvenstveno su označeni rječnici koji maksimalno potpunije predstavljaju vokabular jezika sa primjerima njegove upotrebe u tekstovima.

Takođe termin tezaurus koristi se u teoriji informacija za označavanje ukupnosti svih informacija koje subjekt posjeduje.

U psihologiji, tezaurus pojedinca karakterizira percepcija i razumijevanje informacija. Teorija komunikacije također razmatra opći tezaurus kompleksnog sistema kroz koji njegovi elementi međusobno djeluju.

Priča

Jedan od prvih tezaurusa naziva se “Rječnik sinonima” Filona iz Biblosa. Preciznija korespondencija sa terminom je Amara-kosha, napisana na sanskrtu u poetskom obliku u 6. veku. Prvi moderni engleski tezaurus kreirao je Peter Mark Roger 1805. godine. Objavljena je 1852. godine i od tada se koristi bez pretiska.

U 1970-im, tezaurusi su se počeli aktivno koristiti za zadatke pronalaženja informacija. U takvim tezaurusima, riječi se mapiraju u deskriptore preko kojih se uspostavljaju semantičke veze.

Tezaurusi

vidi takođe

Napišite recenziju o članku "Tezaurus"

Bilješke

Izvod koji karakteriše tezaurus

- Kakav si ti dandy danas! – rekao je Nesvitsky, gledajući svoj novi plašt i jastučić za sedlo.
Denisov se nasmejao, izvadio iz torbe maramicu koja je mirisala na parfem i zabio je Nesvickom u nos.
- Ne mogu, idem na posao! Izašao sam, oprao zube i stavio parfem.
Dostojanstvena figura Nesvickog, u pratnji kozaka, i odlučnost Denisova, koji je mahao sabljom i očajnički vikao, uticali su na to da su se stisnuli na drugu stranu mosta i zaustavili pešadiju. Nesvitsky je na izlazu pronašao pukovnika, kojem je trebao prenijeti naređenje, i, pošto je ispunio njegova uputstva, vratio se nazad.
Oslobodivši put, Denisov se zaustavio na ulazu na most. Ležerno zadržavajući pastuha koji je jurio prema svojima i šutirao, pogledao je eskadrilu koja se kretala prema njemu.
Duž dasaka mosta čuli su se prozirni zvuci kopita, kao da je nekoliko konja galopiralo, a eskadron, sa oficirima ispred, četiri u nizu, ispružio se duž mosta i počeo da izlazi na drugu stranu.
Zaustavljeni pješadijski vojnici, koji su se zbijali u utabanom blatu kraj mosta, gledali su čiste, uglađene husare koji su uredno marširali pored njih s onim posebnim neprijateljskim osjećajem otuđenosti i podsmijeha s kojim se obično susreću razni rodovi vojske.
- Pametni momci! Da je samo na Podnovinskome!
- Šta su oni dobri? Voze samo za predstavu! - rekao je drugi.
- Pešadije, ne brišite prašinu! - našalio se husar, pod kojim je konj, igrajući se, pljuskao pješadije blatom.
„Da sam te provozao kroz dva marša sa tvojim rancem, pertle bi se istrošile“, rekao je pešak, brišući prljavštinu sa lica rukavom; - inače ne sjedi osoba, već ptica!
„Da sam te samo mogao staviti na konja, Žikine, da si okretan“, našalio se kaplar na račun mršavog vojnika, pognutog od težine ranca.
„Uzmi batinu među noge i imaćeš konja“, odgovori husar.

Ostatak pješaštva je požurio preko mosta, formirajući lijevak na ulazu. Konačno su sva kola prošla, gužva je postala manja, a posljednji bataljon je ušao na most. Samo su husari Denisovljeve eskadrile ostali s druge strane mosta protiv neprijatelja. Neprijatelj, vidljiv u daljini sa suprotne planine, odozdo, sa mosta, još nije bio vidljiv, jer se iz udubine kojom je rijeka tekla, horizont završavao na suprotnoj koti udaljenoj ne više od pola milje. Ispred je bila pustinja po kojoj su se tu i tamo kretale grupe naših putujućih kozaka. Odjednom, na suprotnom brdu od puta, pojavile su se trupe u plavim kapuljačama i artiljerija. To su bili Francuzi. Kozačka patrola odjuri nizbrdo. Svi oficiri i ljudi Denisovljeve eskadrile, iako su pokušavali razgovarati o strancima i gledati okolo, nisu prestajali razmišljati samo o onome što se nalazi na planini, i neprestano su zavirivali u mjesta na horizontu, koje su prepoznali kao neprijateljske trupe. Popodne se ponovo razvedrilo, sunce je blistavo zašlo nad Dunav i mračne planine koje ga okružuju. Bilo je tiho, a sa te planine povremeno su se čuli zvuci truba i vriska neprijatelja. Između eskadrile i neprijatelja nije bilo nikoga, osim malih patrola. Od njega ih je dijelio prazan prostor, tri stotine hvati. Neprijatelj je prestao da puca, a jasnije je osetio onu strogu, preteću, neosvojivu i neuhvatljivu liniju koja razdvaja dve neprijateljske trupe.
“Jedan korak iza ove linije, koja podsjeća na liniju koja razdvaja žive od mrtvih, i - nepoznato patnje i smrti. I šta je tamo? ko je tamo? tamo, iza ovog polja, i drvo, i krov obasjan suncem? Niko ne zna, a ja želim da znam; i strašno je preći ovu granicu, a vi želite da je pređete; i znaš da ćeš prije ili kasnije morati da ga pređeš i saznaš šta se nalazi s druge strane linije, kao što je neizbježno saznati šta je s druge strane smrti. A i sam je snažan, zdrav, veseo i iznerviran, i okružen tako zdravim i razdražljivo živahnim ljudima.” Dakle, čak i ako ne razmišlja, to osjeća svaka osoba koja je na vidiku neprijatelja, a taj osjećaj daje poseban sjaj i radosnu oštrinu utisaka svemu što se dešava u ovim minutama.
Dim pucnja pojavio se na neprijateljskom brdu, a topovsko đule, zviždući, preletelo je iznad glava husarskog eskadrila. Policajci koji su stajali zajedno otišli su na svoja mjesta. Husari su pažljivo počeli da ispravljaju svoje konje. Sve je u eskadrili utihnulo. Svi su gledali ispred sebe u neprijatelja i u komandanta eskadrile, čekajući komandu. Proletela je još jedna, treća topovska kugla. Očigledno je da su pucali na husare; ali je topovsko đule, jednako brzo zviždući, preletelo preko glava husara i udarilo negde iza. Husari se nisu osvrtali, ali na svaki zvuk letećeg topovskog đula, kao po komandi, čitava eskadrila sa svojim monotono raznolikim licima, zadržavajući dah dok je topovska kugla letela, digla se u stremenima i ponovo padala. Vojnici su, ne okrećući glave, iskosa pogledali jedni druge, radoznalo tražeći utisak svog druga. Na svakom licu, od Denisova do trubača, u blizini usana i brade pojavila se jedna zajednička crta borbe, razdraženosti i uzbuđenja. Narednik se namrštio, gledajući oko sebe u vojnike, kao da prijeti kaznom. Junker Mironov se saginjao pri svakom dodavanju topovskog đula. Rostov, koji je stajao na lijevom boku na svom nogom dotaknutom, ali vidljivom Gračiku, imao je sretan izgled studenta pozvanog pred brojnu publiku na ispit na kojem je bio uvjeren da će briljirati. Sve je jasno i vedro gledao, kao da traži da obrate pažnju na to kako mirno stoji ispod topovskih đula. Ali i na njegovom licu, ista crta nečeg novog i strogog, protiv njegove volje, pojavila se kraj njegovih usta.
-Ko se tamo klanja? Yunkeg "Mig"ons! Hexog, pogledaj me! - vikao je Denisov, ne mogavši ​​da stoji i vrteći se na konju ispred eskadrona.
Punonosno i crnokoso lice Vaske Denisova i cijela njegova mala, izubijana figura sa žilavom (sa kratkim prstima prekrivenim kosom) rukom, u kojoj je držao dršku isukane sablje, bio je potpuno isti kao i uvijek, posebno uveče, nakon što popijete dve flaše. Bio je samo crveniji nego inače i, podigavši ​​svoju čupavu glavu, kao ptice kad piju, nemilosrdno pritiskajući malim stopalima mamuze u bokove dobrog beduina, on je, kao da pada unatrag, galopirao na drugi bok eskadrila i viknuo promuklim glasom da se pregledaju pištolji. Odvezao se do Kirsten. Štabni kapetan, na širokoj i staloženoj kobili, jahao je brzim korakom prema Denisovu. Štabni kapetan, sa dugim brkovima, bio je ozbiljan, kao i uvek, samo su mu oči blistale više nego inače.
- Šta? - rekao je Denisovu, - neće doći do tuče. Vidjet ćeš, vratit ćemo se.
"Ko zna šta rade", gunđao je Denisov. "Ah! G" kostur! - viknuo je kadetu, primetivši njegovo veselo lice. - Pa, čekao sam.
I s odobravanjem se nasmiješio, očito se radujući kadetu.
Rostov se osjećao potpuno sretnim. U to vrijeme poglavica se pojavio na mostu. Denisov je galopirao prema njemu.
- Vaša Ekselencijo! Pustite me da napadnem! Ubiću ih.
"Kakvi su to napadi", rekao je poglavica dosadnim glasom, trznuvši se kao od dosadne muve. - A zašto stojiš ovde? Vidite, bokovi se povlače. Vodite eskadrilu nazad.
Eskadrila je prešla most i izbjegla pucnjavu bez gubitka ijednog čovjeka. Za njim je prešao drugi eskadron, koji je bio u lancu, a posljednji kozaci su očistili tu stranu.
Dva eskadrila Pavlograđana su, prešavši most, jedan za drugim, vratili se na planinu. Komandant puka Karl Bogdanovič Šubert dovezao se do Denisovljeve eskadrile i jahao brzinom nedaleko od Rostova, ne obraćajući pažnju na njega, uprkos činjenici da su se nakon prethodnog sukoba oko Teljanina sada prvi put vidjeli. Rostov, osjećajući se na frontu u moći čovjeka pred kojim se sada smatrao krivim, nije skidao pogled sa atletskih leđa, plavokosog potiljka i crvenog vrata komandanta puka. Rostovu se učinilo da se Bogdanič samo pretvara da je nepažljiv, i da mu je sada čitav cilj da ispita hrabrost kadeta, pa se uspravio i veselo pogledao oko sebe; tada mu se učinilo da se Bogdanič namjerno približava kako bi Rostovu pokazao svoju hrabrost. Tada je pomislio da će njegov neprijatelj sada namjerno poslati eskadrilu u očajnički napad da kazni njega, Rostov. Vjerovalo se da će nakon napada doći do njega i velikodušno pružiti ruku pomirenja njemu, ranjeniku.

3.1. Koncept tezaurusa

Tezaurus (od grčkog θήσαϋροξ - blago, zaliha) ili ideografski rečnik (od grčkog idea - pojam, predstava, ideja i grapho - pisati, opisati) - u modernoj lingvistici: 1) posebna vrsta rečnika opšteg ili specijalnog rečnika, koji sadrži semantičke odnose između leksičkih jedinica; 2) rečnik za traženje reči na osnovu njene semantičke veze sa drugim rečima; 3) određeni način organizovanja (poređanja) reči u rečniku; 4) način organizovanja leksičkog sastava koji vam omogućava da ekonomski „modelirate svijet“.

U prvom, izvornom značenju - spremište, blago, termin tezaurus koristio je L.V. Shcherba u članku “Iskustvo opće leksikografije” (treća opozicija: tezaurus - obični (objašnjavajući ili prijevodni) rječnik). Naučnik piše: „Kada se kaže tezaurus, danas najčešće mislimo na „Thesaurus linguae latinae“, poduhvat pet nemačkih akademija, započet daleke 1900. godine i do sada doveden uz izostavljanje samo na slovo M. Karakteristična karakteristika Ova vrsta rečnika sastoji se u tome da sadrže apsolutno sve riječi koje se barem jednom pojavljuju u datom jeziku i da se ispod svake riječi navode apsolutno svi citati iz tekstova dostupnih na datom jeziku. Osnova gornje opozicije – tezaurus – običan (objašnjavajući ili prevodni) rečnik – je opozicija „jezičkog materijala“ i „jezičkog sistema“ – pojmova koje sam pokušao da potkrijepim u svom članku „O trostrukom aspektu jezičkih pojava i o eksperimentu u lingvistici.”

Drugo značenje ovog pojma povezuje se sa nadaleko poznatim rječnikom-tezaurusom “Thesaurus of English Words and Expressions” autora P.M. Roger (Rogetov tezaurus engleskih riječi i fraza, 1852) i njegov nastavak, rječnik O.V. Baranova.

U ovom tumačenju termin tezaurus označava određeni način organiziranja i sređivanja leksičkog sastava u rječniku (vidi treće značenje pojma).

Četvrto značenje pojma tezaurus povezano je sa univerzalnim priznanjem ove metode organiziranja leksičkog sastava, koja omogućava ekonomski „modeliranje svijeta“. Sa ove tačke gledišta, rečnik tezaurus je „sistematsko sređivanje rečnika bilo koje naučne ili tehničke oblasti, a u najopštijem obliku - opšteg književnog rečnika, i štaviše, celokupnog rečnika datog jezika.

Prema Yu.N. Karaulova, opšti jezički tezaurus, koji u strukturi i odnosima njegovih naslova, odeljaka, zona, oblasti fiksira široke mogućnosti neverbalnog povezivanja ideja, obezbeđuje prikaz ljudskih vrednosti.

A.N. Baranov i D.O. Dobrovolsky u predgovoru „Od urednika” svom „Rečniku-tezaurusu modernih ruskih idioma” daje tezaurusu sljedeću definiciju - posebnu vrstu rječnika koji se razlikuje od drugih (posebno, objašnjavajući, dvojezični, itd.) na način organizovanja jezičkog materijala. U tezaurusu, jezičke jedinice nisu predstavljene abecednim redom, kao u običnom rječniku, već su grupisane na osnovu njihovog značenja.

L.P. Krysin tezaurus (ideografski rječnik) naziva posebnom vrstom eksplanatornog rječnika, rječnikom „naprotiv“. „Ako je u eksplanatornom rečniku, piše naučnik, „upis“ u rečničku stavku reč, a sadržaj rečničkog unosa je tumačenje značenja ove reči, onda je u ideografskom rečniku „navod“ značenje, ideja (otuda naziv ove vrste rječnika - ideografski) i sadržaj rječničke stavke je lista riječi koje izražavaju dato značenje. A ako je eksplanatorni rečnik nezaobilazno sredstvo za razumevanje teksta, onda se ideografski rečnik može koristiti u generisanju teksta: vrlo često čovek želi da izrazi određenu misao, ali ne može da nađe reči koje su za to prikladne; ideografski rečnik olakšava ova pretraživanja. Postoje dvije glavne vrste tezaurusa:

lingvistički tezaurus - rečnik koji sadrži listu reči prirodnog jezika odabranih kao rezultat smislene analize tekstova i sistematizovanih u skladu sa prihvaćenim sistemom klasifikacije;

statistički tezaurus - rečnik za pronalaženje informacija koji sadrži listu reči odabranih kao rezultat statističke analize tekstova na određenu temu i grupisanih u rečničke stavke na osnovu učestalosti pojavljivanja ovih reči u istim tekstovima.

Tezauri za pronalaženje informacija (IRT) olakšavaju traženje informacija tokom njihove automatske obrade. IPT maksimalno otkriva semantičke odnose između leksičkih jedinica. Kako je navedeno u GOST-u o IPT-u, „jednojezični tezaurus za pronalaženje informacija je kontrolirani i promjenjivi rječnik leksičkih jedinica, zasnovan na vokabularu jednog prirodnog jezika, koji prikazuje semantičke odnose između leksičkih jedinica i namijenjen je za obradu i pronalaženje informacija.”

Osnovna jedinica IPT-a su termini deskriptora. Abecedni, leksičko-semantički dio IPT-a je skup deskriptorskih članaka.

Deskriptivni rječnici imaju za cilj da u potpunosti opišu vokabular određene oblasti i zabilježe svu upotrebu u njemu; evidentiraju sve dostupne relevantne slučajeve. Tipičan primjer deskriptivnog rječnika je "Objašnjavajući rečnik živog velikoruskog jezika" V.I. Dahl (prvo izdanje u četiri toma objavljeno je 1863-1866). Cilj njegovog tvorca nije bio standardizirati jezik, već u potpunosti opisati cjelokupnu raznolikost velikoruskog govora - uključujući i njegove dijalekatske oblike narodnog jezika.

Svaki unos u rječniku deskriptora počinje deskriptorom, u kojem su sinonimi ovog deskriptora, kao i druge leksičke jedinice povezane s glavnim deskriptorom po rod-vrsti ili asocijativnim odnosima, date u nastavku u GOST članku.

Stoga su tezaurusi, posebno u elektronskom formatu, jedan od efikasnih alata za opisivanje pojedinih predmetnih oblasti.

Tezaurus se rijetko nalazi u svom čistom obliku. U stvarnim tezaurusima, originalna ideja je pojednostavljena ili suvišna, ali potencijalno neophodna, informacija se dodaje korisniku. Najpoznatiji danas su „Ruski semantički rečnik“ Yu.N. Karaulova, “Rječnik identičnih imena” N.Yu. Švedova, „Tematski rečnik ruskog jezika“ L.G. Smekhova i drugi.

Sažetak. Pojam u tezaurusu L.V. Ščerba ga je koristio u odnosu na rječnik, koji je, ako je moguće, zabilježio sve kontekste u kojima se data riječ pojavljuje. Karakteristična karakteristika tezaurusa je da oni najmanje jednom navode sve riječi koje se pojavljuju u datom jeziku, a ispod svake riječi su dati svi citati iz tekstova dostupnih na tom jeziku. Sadržaj rečnika tezaurusa je jezička građa, a redovnog rečnika jezička građa i jezički sistem (termini L.V. Shcherba).

Ova karakteristika je dopunjena unakrsnim vezama različitih vrsta – često paradigmatskih (sinonimnih ili antonimskih), koje ukazuju na zajedništvo ili suprotnost značenja. Osim toga, razne vrste udruženja. veze (tj. veze sintagme).

Dakle, zadatak tezaurusa (ideografskog rječnika) je dati ideju o semantičkoj organizaciji određenog presjeka jezičnog materijala, pokazujući glavna semantička polja, njihovu unutarnju strukturu i vanjske veze. Tezaurus je jasna demonstracija sistemske prirode jezika, omogućavajući da se vide mnoge vrste odnosa koji povezuju pojedinačne jezičke jedinice i grupe jedinica.

3.2. Istorija predstavljanja konceptualnog znanja o svijetu u obliku tezaurusa

Potreba da se riječi poređaju prema sličnosti, susjedstvu i analogiji njihovih značenja osjećala se kroz čitavu povijest ljudske misli koja se može promatrati.

Da uđemo u trag podrijetlu ideje predstavljanja konceptualnog znanja o svijetu u obliku tezaurusa, pomoći će nam okretanje povijesti sastavljanja tezaurusa (ideografskih rječnika).

Dakle, u zoru civilizacije, kada su ljudi svoje misli mogli izražavati samo uz pomoć ideograma i simbola, vjerovatno je jedini mogući rječnik bio onaj u kojem su riječi bile raspoređene u tematske grupe. Jednom je leksikografu u to vrijeme jednostavno bilo teško pronaći drugi kriterij za klasifikaciju riječi osim odnosa koji postoje u samoj stvarnosti.

Nažalost, nemamo dokaza da li su narodi koji su koristili ideografsko pisanje zaista imali takve rječnike. Među najstarijim pokušajima ideografske klasifikacije koji su nam poznati je Attikai Lexeis grčkog gramatičara, direktora Aleksandrijske biblioteke, Aristofana iz Bizanta (umro 180. godine prije Krista).

U II veku. n. e. pojavljuje se glavno djelo „Onomastikon“, koje je na materijalu s grčkog jezika sastavio leksikograf i sofist Julije Poluks (pravo ime Polideuk), rodom iz egipatskog grada Naukratisa. Yu.Polux je napisao nekoliko djela, ali je do nas stigao samo “Onomasticon” (Pollux Yu. Onomasticon. M., 1956).


Onomastikon se sastoji od 10 knjiga. Knjige su u suštini odvojene rasprave i sadrže najvažnije riječi vezane za određenu temu. Dakle, prva knjiga govori o bogovima i kraljevima; u drugom - o ljudima, njihovim životima i fiziološkoj strukturi; u trećem - o srodstvu i građanskim odnosima itd. Riječi uključene u rječnik popraćene su kratkim tumačenjima. U moderno doba, rječnik je prvi put objavljen 1502. godine u Veneciji.

Između 2. i 3. veka. n. e. Izašao je divan sanskritski rječnik “Amarakosha” (Amarakosha. Pariz, 1839.). Njegov autor je drevni indijski pjesnik, gramatičar i leksikograf Amara Sina, koji je nazvan „jedan od devet bisera koji krase tron ​​Vikramaditya“. Amarakosha u prevodu na ruski znači riznica Amara. Rječnik sadrži 10 hiljada riječi. Da bi se bolje zapamtilo tumačenje značenja riječi, rječnički unosi su konstruirani u obliku pjesama. Sav rječnički materijal podijeljen je u 3 knjige. Svaka knjiga sadrži nekoliko poglavlja, a poglavlje se, ako je potrebno, dijeli na više odjeljaka. Prva knjiga je posvećena nebu, bogovima i svemu što je direktno povezano s njima. Druga knjiga sadrži riječi koje se odnose na zemlju, naselja, biljke, životinje i ljude (prvo se čovjek posmatra kao živo biće, a zatim kao društveno biće; pred očima nam se pojavljuje cjelokupna kastinska struktura savremenog društva autora; svećenici , kao Božiji poverenici su na samom vrhu, a ispod su vojnici i kraljevi, još niže su zemljoposednici, a na samom dnu su zanatlije, žongleri, sluge itd.). Treća knjiga je strogo lingvistička, što je jasno iz naslova njenih šest poglavlja.

Rečnik je postao poznat evropskim naučnicima tek krajem 18. veka, kada je njegov prvi deo objavljen u Rimu 1798. godine. Objavio ga je u cijelosti s prijevodom na engleski 1808. godine engleski sanskrtolog G.T. Colebrooke (N.T. Colebrooke). Godine 1839. pojavio se njegov francuski prijevod koji je napravio A.L. Delonchamps (A.L. Deslongchamps). Daljnji razvoj ideje semantičke klasifikacije vokabulara povezan je s problemom takozvanog svjetskog jezika.

Sažetak. Ovo je, najopćenitije rečeno, prva faza u razvoju tradicije ideografske klasifikacije vokabulara. Ova faza se može nazvati praistorijom ideografskih rječnika. Sada je preporučljivo da se okrenemo modernoj klasifikaciji rečnika tezaurusa.

Lako je vidjeti koliko se opisana djela razlikuju od alfabetskih rječnika. Ako je u alfabetskim rječnicima predstavljanje riječi regulirano tako konvencionalnim i vrlo neutralnim instrumentom kao što je abeceda, tada pri izradi ideografskog rječnika odlučujući postaje svjetonazor samog leksikografa.

3.3. Principi klasifikacije rječnika-tezaurusa

Kao što je već gore pokazano, problem sastavljanja klasifikacije tezaurusa nije nov i već nekoliko decenija privlači pažnju brojnih domaćih i stranih lingvista (C. Marello, V.V. Morkovkin, L.P. Stupin, V.V. Dubichinski, itd. ). Rezultat istraživanja u ovoj oblasti bilo je stvaranje alternativnih klasifikacija ovih leksikografskih djela. Jedna od najnovijih klasifikacija zasniva se na sljedećim kriterijima: a) vrsti semantičkih veza između jedinica vokabulara; 2) obim vokabulara; 3) generalizacija vokabulara; 4) razvoj značenja leksema; 5) gramatička i stilska kvalifikacija leksema; 6) demonstracija funkcionisanja leksema; 7) broj zastupljenih jezika; 8) vrsta semiotičkih sredstava koja se koriste za semantizaciju leksema. Ova klasifikacija je zasnovana na prethodno kreiranim klasifikacijama O.M. Karpova i I. Burkhanov (Burčanov I. O ideografskom opisu stilski i pragmatički relevantnih aspekata leksičkih značenja. London, 1996); terminologija koja se koristi u klasifikaciji uvodi se u leksikografski aparat


V.V. Morkovkin, Yu.N. Karaulov, K. Marello. Kriterijume za klasifikaciju formulisao je O.M. Karpova. Istovremeno, C. Marello razlikuje tri tipa tezaurusa:

kumulativni, koji su grupe riječi bez definiranja njihovog značenja;

definitivni, tumačenje svake leksičke jedinice grupe riječi;

dvo- i višejezični tezaurus za putnike (Marello C. TheThesaurus//W.D.D. 1990. V. 2. P. 1083).

Kumulativni tezaurusi ne samo da pružaju mogućnost pronalaženja razumljivije, tačnije, stilski ispravnije riječi u situaciji da se nalaze u određenom semantičkom polju, već postaju osnova za formiranje tematskih kompjuterskih baza podataka.

Definitivni tezaurus može uključivati, uz definicije značenja, etimološke informacije i citate iz književnih djela, što pokazuje direktnu enciklopedijsku orijentaciju ovog tipa tezaurusa. Osim toga, rječnici ovog tipa uvode korisnika u potreban sistem pojmova, objašnjavaju suštinu, sličnosti i razlike pojmova, njihove paradigmatske i sintagmatske veze, a ponekad pružaju informacije o izgovoru, gramatici, tvorbi riječi i drugim mogućnostima leksičke jedinice koje označavaju ove pojmove.

Dvojezični i višejezični tezauri za putnike se obično kreiraju prema tematskim dijelovima: brojevi, hrana, prijevoz, hoteli itd. sa prevodnim ekvivalentima za dva ili više jezika.

Kako bi se što potpunije prikazali tipovi postojećih rječnika tezaurusa, kreirana je klasifikacija na više nivoa. Prvo, prema vrsti semantičkih veza između jedinica vokabulara, tezauri se dijele u tri velike klase:

1. Asocijativni tezaurus (terminologija Yu.N. Karaulova

2. Analogni tezaurus (terminologija V.V. Morkovkin

3. Ideografski (ideološki) tezaurus (terminologija L.V. Shcherba, V.V. Morkovkin. Gornja tri tipa tezaurusa odražavaju sljedeće tipove semantičkih veza leksema, redom:

1. Semantičko-sintaktičke veze na osnovu kojih
riječi se spajaju u grupe ili parove, unaprijed određene u svom nastanku i postojanju dvostrukim vezama: semantičkom i sintaksičkom. Semantičke veze između riječi uspostavljaju se uglavnom između glagola i pridjeva koji obavljaju predikativnu funkciju u rečenici i imenica, na primjer:

a) između radnje i organa (instrumenta) kojim se izvodi: uhvatiti - ruku, vidjeti - oko, plivati ​​- čamac i sl.;

b) između glagola radnje koji zahtijevaju jedan subjekat i subjekt: lajati - pas, njuškati - konj itd.; c) između glagola i određenog gramatičkog dodatka, koji prvi zahtijevaju: cijepati - drva, jesti - hranu itd.

Dakle, asocijativni tezaurus je rječnik-tezaurus koji organizira leksičke jedinice na osnovu semantičkih i sintaktičkih veza koje postoje između njih i raspoređuje grupe u skladu sa grafičkim oblikom središnjih riječi.

2. Leksičko-semantičke veze. Grupiranje sa ovom vrstom veze odvija se prema glavnom obilježju riječi - leksičkom značenju. U ovom slučaju se uzimaju u obzir i leksiko-gramatičke veze u obliku kojih se ostvaruju pojedinačna značenja riječi.

Dakle, analogni tezaurus je leksikografska referentna knjiga, čija je glavna jedinica makrostrukture leksičko-semantička grupa; grupe su sistematizovane po abecednom redu semantičkih dominanta.

3. Predmetne ili tematske veze, pri čemu do spajanja riječi u jednu grupu dolazi zbog sličnosti ili zajedništva funkcija objekata i procesa koji se označavaju riječima: objekti
predmeti za domaćinstvo, dijelovi tijela, vrste odjeće, zgrade itd.

Dakle, ideografski tezaurus je leksikografsko djelo koje predstavlja leksičke jedinice kao dio predmetnih (tematskih) grupa i organizira ih u hijerarhijsku strukturu dizajniranu da predstavlja konceptualizirano znanje o svijetu.

U okviru istog kriterija dalje dijelimo tipove. Dakle, ideografski tezaurus je predstavljen sa sljedeća 4 tipa:


Zapravo ideografski tezaurus.

Tematski rječnik.

Sistematski rječnik.

Tematsko-sistematski rečnik


Sam ideografski tezaurus je posebna vrsta ideografskog rječnika, čija je makrostruktura organizirana u skladu s apriornom sinoptičkom mapom koja je superponirana na leksički sastav jezika. Za razliku od drugih tipova ideografskih rječnika, sam ideografski tezaurus karakterizira logična i strogo uređena klasifikacijska struktura stvorena na osnovu naučne taksonomije, čak i ako je opći vokabular podložan leksikografskom opisu (New Webster "Thesaurus. Landoll, 1991).

Tematski rječnik je posebna vrsta ideografskog tezaurusa, čija je glavna jedinica makrostrukture tematska grupa, uključujući lekseme, objedinjene na osnovu klasifikacije njihovih denotata (referenci) i razmatrane sa stanovišta usklađenosti sa konkretnu temu.

Sistematski rečnik je posebna vrsta ideografskog tezaurusa čija je klasifikacijska struktura namenjena da predstavi stvarne semantičke odnose koji postoje između leksičkih jedinica jezika. U svojoj osnovi, klasifikacijska struktura predstavlja leksiko-gramatičku klasifikaciju vokabulara, drugim riječima, njegovu paradigmatsku strukturu, opisanu sa stanovišta subordinacije i sastava.

Tematsko-sistemski rječnik je posebna vrsta ideografskog rječnika, koji predstavlja kombinaciju tematskog i sistematskog rječnika.

Sažetak. Razmatrana klasifikacija lingvističkih tezaurusa uključuje sljedeće vrste rječnika: analogni tezaurus (terminologija V.V. Morkovkin); ideografski (ideološki) tezaurus (terminologija L.V. Shcherba i V.V. Morkovkin); vanr. tezaurus (terminologija Yu.N. Karaulova). Sljedeći će biti predstavljen pop. otkrivaju se tezaurusi i njihove karakteristike.

3.4. Popularni tezauri i njihove karakteristike

Najpoznatiji od dostupnih rječnika-tezaurusa, kojima ovaj termin duguje svoje postojanje, nastao je na materijalu engleskog jezika; ovo je stalno preštampani tezaurus P.M. Tezaurus engleskih riječi i fraza Rogera Rogeta (1852).

Važno je napomenuti da je autor Tezaurusa engleskih riječi i izraza u potpunosti iskoristio iskustvo koje je do tada bilo dostupno. „Princip koji me je vodio prilikom klasifikacije riječi“, piše P.M. Roger, isti je onaj koji se koristi za klasifikaciju pojedinaca u različitim poljima prirodne istorije. Stoga, dijelovi koje sam istaknuo odgovaraju prirodnim porodicama botanike i zoologije, a niz riječi je cementiran istim odnosima koji ujedinjuju prirodne nizove biljaka i životinja."

P.M. Roger je vjerovao da je uvjerljiva klasifikacija riječi prema njihovom značenju nemoguća dok se objekti stvarnosti koji se nazivaju ovim riječima ne prouče i organiziraju na odgovarajući način. Stoga svoj rad započinje podjelom konceptualnog polja engleskog jezika u četiri velike klase: apstraktni odnosi, prostor, materija i duh (um, volja, osjećaji). Ove klase se dalje dijele na određeni broj rodova, koji se pak dijele na određeni broj vrsta.

Među nedostacima ideografskog rječnika P.M. Naučnici Rogeru pripisuju sljedeće: 1) ne sasvim uvjerljivu nomenklaturu glavnih konceptualnih klasa; 2) apstraktna logika prevladava nad prirodnim vezama reči; 3) relativna neugodnost upotrebe (ovaj nedostatak je u velikoj mjeri ispravljen u narednim izdanjima).

U savremenoj ruskoj leksikografiji postoji nekoliko rečnika koje treba svrstati u rečnike-tezauruse (ideografske rečnike). Ovo je, na primjer, stvoreno pod vodstvom Yu.N. Karaulova „Ruski semantički rečnik“, „Ruski semantički rečnik“ urednika N.Yu. Švedova, „Tematski rečnik ruskog jezika“ L.G. Sayakhova, D.M. Khasanova i V.V. Morkovkina, “Rečnik leksičko-semantičkih grupa ruskih glagola”, ur. E.V. Kuznjecova, „Ideografski rečnik ruskog jezika“ O.S. Baranova, „Konceptosfera unutrašnjeg sveta čoveka na ruskom jeziku“ V.I. Ubijko, sveobuhvatni obrazovni rečnik „Leksičke osnove ruskog jezika“ pod rukovodstvom V.V. Morkovkina.

Upoznajmo neke od njih.

Rečnik-tezaurus modernih ruskih idioma” koji je uredio A.N. Baranova i D.O. Dobrovolski obuhvata četiri glavna dela: 1) sinopsis; 2) legenda; 3) glavni dio Rječnika-tezaurusa; 4) pokazivači. Svrha Sinopsisa je dati opću ideju o strukturi glavnog tijela tezaurusa. Navodi sve taksone sa podtaksonima i odgovarajućim paradigmatskim referencama. Glavno tijelo Rječnika tezaurusa je zbirka rječnika, grupisanih u grupe (taksone) i podgrupe (podtakse) u skladu sa značenjem idioma opisanih u njima. Svaki članak sadrži idiom i primjere njegove upotrebe u modernom ruskom jeziku. Sinopsis, Legenda, Indeksi su servisni dijelovi gore pomenutog rječnika-tezaurusa, koji korisniku pružaju mogućnost brzog i efikasnog rada. Legenda se koristi u slučajevima kada primjeri upotrebe idioma nisu potrebni, jer reproducira sve informacije osim primjera. U stvari, ovo je vokabular Rječnika. Jedinice vokabulara su leme. Lema u ovom slučaju predstavlja idiom u njegovom izvornom (rječničkom) obliku i uključuje, ako je moguće, sve njegove značajne varijante. Na primjer, idiom stajati u mjestu dio je leme označiti vrijeme, mirovati, kliziti na mjestu.

Rječnik sadrži dva pokazivača. Na kraju knjige nalazi se članak „Teorijski koncept rječnika-tezaurusa moderne ruske ideomatike“, koji detaljno analizira naučne karakteristike ovog projekta.

„Ruski semantički rečnik“, nastao pod rukovodstvom Yu.N. Karaulova uključuje 10 hiljada ruskih riječi, koje su podijeljene u 1600 konceptualnih grupa. Identifikacija grupa zasniva se na ponovljenim elementima tumačenja riječi u rječnicima s objašnjenjima: na primjer, "akcija", "svojstvo", "alat" itd.

„Ruski semantički rečnik“, nastao pod rukovodstvom akademika N.Yu. Shvedova, zasniva se na nešto drugačijim principima karakterističnim za sastavljanje ideografskih i eksplanatornih rječnika. Prvo, sve riječi jezika ovdje su podijeljene u četiri klase: 1) jedinice za označavanje (zamjenice), 2) imenovanje (pojmovne riječi), 3) stvarni veznici (veznici, prijedlozi, glagoli za povezivanje), 4) klasifikacijske (modalne riječi , čestice, međumeti). Drugo, unutar svakog razreda, sve riječi su raspoređene prema dijelovima govora. Treće, unutar svakog dijela govora, skupovi i podskupovi se identifikuju na osnovu tematske blizine ili, obrnuto, suprotnosti značenja riječi.

DUDEN je knjiga sa slikama (crtežima) na lijevoj strani (prema različitim softverima) sa numeriranim dijelovima (do najmanjih). Na desnoj strani ovu numerisanu listu prate naslovi (čak i na dva jezika). Na primjer, željeznička oprema, stanice i kolosijeci su nacrtani na cijeloj stranici. Na desnoj strani su nazivi strelica, semafora, štaka itd.

„Tematski rečnik ruskog jezika“ L.G. Sayakhova, D.M. Khasanova i V.V. Morkovkina sadrži 25 hiljada leksičkih jedinica, grupisanih u tri velike klase: „Čovek“, „Društvo“, „Priroda“, koje se postupno granaju u manje podklase. Na primjer, u klasi “Ljudsko” postoje podklase “Ljudsko tijelo i organizam”, “Ljudski život”, “Izgled, izgled osobe”, “Emocionalni izgled osobe” itd. Svaka od podklasa je redom podijeljeno na još specifičnije: “Emocionalni svijet osobe” - “Mentalna svojstva osobe” - “Temperament”, “Karakter” – “Opšte osobine karaktera” itd. Značenje i upotreba riječi koje pripadaju svakoj klasi ilustrovane su najčešćim frazama. Na primjer, riječ "smijeh", koja se nalazi u podgrupi "izražavanje osjećaja, emocija" klase "čovjek", praćena je naznakom takvih kombinacija sa ovom riječju kao što su veseo smeh, radostan smeh, dečiji smeh, prasak u smeh itd.

Sažetak. Jedan od efikasnih alata za opisivanje pojedinih predmetnih oblasti, posebno u elektronskom formatu, su tezauri.

Termin tezaurus se dugo koristio u lingvistici za označavanje posebne vrste rječnika, koji u jednoj ili drugoj mjeri odražava „sliku svijeta“, „jezički model svijeta“ (prema Yu.N. Karaulovu). Tezaurus kao „riznica“ je porastao u svom semantičkom opsegu i dobio novo značenje. Počeli su ga nazivati ​​rječnikom koji ne samo da upija sva leksička bogatstva jezika, već ih organizira na određeni logičko-sistemski način. U rječniku tezaurusa riječi se kombinuju u grupe, a ovo ujedinjenje se događa na osnovu sposobnosti određene riječi da prenese određeni koncept.

Rečnik tezaurusa se u lingvistici oduvek smatrao svojevrsnim univerzalnim sistemom koji obezbeđuje skladištenje kolektivnog (za određeno društvo) znanja o svetu u verbalnom obliku. Za razliku od drugih rječnika, u tezaurus-rječniku ovo znanje je pohranjeno u strukturiranom obliku koji odražava naše ideje o „strukturi svijeta“.

Najpoznatiji i najpopularniji tezaurus trenutno je engleski Roger's Thesaurus, O.V. Ideographic Dictionary of the Russian Language. Baranova, ruski semantički rječnik Yu.N. Karaulova, Ruski semantički rječnik akademika N.Yu. Švedova, DUDEN, Tematski rečnik ruskog jezika L.G. Sayakhova, D.M. Khasanova i V.V. Morkovkina.

Konceptualni sistem predmetne oblasti Osnovu svake predmetne oblasti je sistem pojmova ove oblasti. Definicija pojma: Pojam je misao koja u generaliziranom obliku odražava predmete i pojave stvarnosti fiksirajući njihova svojstva i odnose; potonje (svojstva i odnosi) pojavljuju se u pojmu kao opća i specifična obilježja, u korelaciji sa klasama predmeta i pojava (Lingvistički rječnik)


Koncepti i pojmovi Za izražavanje koncepta predmetne oblasti u tekstovima, koriste se riječi ili fraze koje se nazivaju termini. Skup pojmova predmetne oblasti formira njen terminološki sistem. Odnos određenog pojma sa drugim pojmovima pojmovnog sistema predmetne oblasti precizira se definicijom


Definicije pojma? Riječ (ili kombinacija riječi) koja je tačna oznaka određenog pojma bilo koje posebne oblasti nauke, tehnologije, umjetnosti, društvenog života itd. || Posebna riječ ili izraz koji se koristi za označavanje nečega. u jednoj ili drugoj sredini, profesiji (Veliki objašnjavajući rečnik ruskog jezika)


Termini – tačni nazivi pojmova Obično svaki pojam u ovoj oblasti odgovara barem jednom nedvosmisleno shvaćenom pojmu, čije značenje je ovaj koncept. - termini, u smislu tradicionalne teorije terminologije Svojstva pojmova - tačni nazivi pojmova - termin se mora direktno odnositi na pojam, mora jasno izražavati pojam; - značenje pojma mora biti precizno i ​​ne smije se po značenju preklapati sa drugim pojmovima; - značenje pojma ne bi trebalo da zavisi od konteksta. Termini koji tačno imenuju pojam predmet su istraživanja teorije terminologije, terminologa


Tekstualni termini U stvarnim tekstovima predmetne oblasti, za upućivanje na pojam, pored osnovnih pojmova, mogu se koristiti i mnogi različiti jezički izrazi koje nazivamo tekstualnim terminima: - sintaktičke i rečotvorne opcije: primalac budžetskih sredstava - budžet primalac; - leksičke opcije – direktan otpis, neosporan otpis; - polisemantički izrazi, u zavisnosti od konteksta, koji služe kao referenca na različite koncepte oblasti, na primjer, riječ valuta u različitim kontekstima može značiti nacionalnu valutu ili stranu valutu.














Deskriptori sa oznakama Smelo - dio naziva deskriptora dizalice (oprema za dizanje) vs dizalice (ptice) školjke (strukture) – poređenje različitih tezaurusa Preferencije za fraze: – Gramofonske ploče vs. ploče (fonograf) Oznake i množina: Drvo (materijal) Šuma (šumovita područja)






Uključivanje deskriptora zasnovanih na izrazima od više riječi Razdvajanje pojma povećava dvosmislenost: biljna hrana Značenje izraza ovisi o redoslijedu riječi: informatika - naučne informacije Jedna od sastavnih riječi je izvan opsega tezaurusa ili je previše općenito: prvo pomoć Relacije deskriptora ne proizilaze iz njegove strukture: –Veštački bubrezi, status izbeglice, semafori




Asocijativni odnosi Područje djelovanja - glumac - matematika - matematičar Disciplina - predmet proučavanja - neurologija - nervni sistem Djelovanje - agens ili oruđe - Lov - lovac Djelovanje - rezultat djelovanja - tkanje - tkanina Akcija - cilj - uvez knjige - knjiga Uzrok-posledica - Smrt – sahrana Vrijednost – mjerna jedinica – Jačina struje – amper Djelovanje – suprotna strana – Alergen – antialergijski lijek, itd.


Tezaurus za pronalaženje informacija: faze razvoja Prva faza: indeksatori opisuju glavnu temu teksta koristeći proizvoljne riječi i fraze. Termini dobijeni iz mnogih tekstova spajaju se Među pojmovima koji su slični po značenju, odabire se najreprezentativniji. Neki od preostalih postaju uslovni sinonimi, ostali se brišu. Specifični pojmovi obično nisu uključeni


Tezaurus za pronalaženje informacija: umjetnost razvoja Deskriptori su termini koji su potrebni za izražavanje glavne teme dokumenta Sinonimi su uključeni samo najpotrebniji (na primjer, počinju drugim slovom) kako se ne bi komplicirao rad indeksatora. termine treba svesti na jedan termin kako bi se izbjeglo indeksiranje subjektivnosti. Nivoi hijerarhije, uključivanje specifičnih pojmova je ograničeno


Tezaurus za pronalaženje informacija: umjetnost razvoja - 2 U složenim slučajevima deskriptori su snabdjeveni oznakama i komentarima –LIV: bombardiranje – bombardiranje – Polisemantički termini: jedno značenje u tezaurusu (glavni dio), ne uklapaju se u tezaurus, oznake !!! Tradicionalni tezaurus za pronalaženje informacija je veštački jezik izgrađen na osnovu stvarnih termina




Tradicionalni IPT: aplikacija u automatskoj obradi Nedostatak znanja o stvarnom jeziku softvera Nedostatak znanja o pravom jeziku softvera Rečnik indeksiranja zakonodavstva: Rečnik indeksiranja zakonodavstva: – u tekstu TROOPS – u tezaurusu VOJNE SNAGE – u tekstu KAPITAL – veliko, u tezaurusu samo veliko. Predloženo: svaki deskriptor dopuniti listama riječi i pojmova. Predloženo je: svaki deskriptor se dopuniti listama riječi i pojmova Ali: polisemija ili se odnosi na različite deskriptore. Ali: polisemija ili odnos prema različitim deskriptorima. Rezolucija višeznačnosti Rezolucija višeznačne odrednice


Tradicionalni IPT: automatsko proširenje upita Problem s asocijacijama Predloženo: unesite težine unesite težine unesite nazive odnosa: objekt, svojstvo, itd. unesite nazive relacija: objekt, svojstvo, itd. ZAKLJUČAK: morate naučiti kako izgraditi jezičke resurse posebno za automatsku obradu zbirki teksta


Tezaurus EUROVOC – višejezični tezaurus Evropske zajednice Tezaurus na 9 jezika Ruska verzija EUROVOC – +5 hiljada koncepata koji odražavaju ruske specifičnosti Višejezični tezaurus – Deskriptor – imena na različitim jezicima – Akriptori – za neke jezike


Automatsko indeksiranje prema EUROVOC tezaurusu, zasnovano na pravilima (Hlava, Heinebach, 1996.) Primjer pravila: IF (blizu "Tehnologija" I sa "Razvoj") KORISTI Program zajednice USE razvojnu pomoć ENDIF 40 hiljada pravila. Testiranje: 20 najčešćih deskriptora u tekstu, generiranih automatski - 42% potpunosti, u poređenju sa ručnim rubrikiranjem


Automatsko indeksiranje zasnovano na uspostavljanju korespondencije između riječi i deskriptora (Steinberger et al., 2000.) Faza 1 - uspostavljanje korespondencije između tekstualnih riječi i dodijeljenih deskriptora na osnovu statističkih mjera (hi-kvadrat ili log vjerovatnoće) Deskriptor UPRAVLJANJA RIBOROM - sljedeće riječi (po opadajućem redoslijedu po težini): ribolov, riba, stoka, ribolov, očuvanje, upravljanje, plovilo, itd. Faza 2 samo indeksiranje - zbrajanje logaritama težina ili kao skalarni proizvod vektora


Kombinacija besplatnih upita i upita zasnovanih na tezaurusu za pronalaženje informacija. Ručno indeksirana kolekcija – uspostavljanje korelacija. Korisnik postavlja upit na prirodnom jeziku. Upit se proširuje deskriptorima tezaurusa koji su u najjačoj korelaciji s upitom (Petras 2004 ; Petras 2005). Na primjer, na zahtjev Insolventna preduzeća može se dobiti lista deskriptora likvidnost, zaduženost, preduzeće, firma, a upit se može proširiti.Tačnost u eksperimentu povećana je za 13%.



Jedan od novih osnovnih koncepata koji je nastao kao rezultat razvoja mašinskih metoda za obradu informacija, posebno pri prevođenju s jednog jezika na drugi, traženju naučnih i tehničkih informacija i kreiranju informacionog modela preduzeća u automatizovanim sistemima upravljanja , bio je koncept tezaurusa informacionog sistema. Izraz “tezaurus” podrazumijeva skup znanja o vanjskom svijetu – to je takozvani tezaurus svijeta T. Svi koncepti vanjskog svijeta, izraženi prirodnim jezikom, čine tezaurus od kojeg se može razlikovati privatni tezaurus hijerarhijskom podjelom uzimajući u obzir podređenost pojedinačnih koncepata ili izolacijom dijelova opći tezaurus svijeta. Tezaurus u sistemima za pronalaženje informacija igra važnu ulogu u pronalaženju željenog dokumenta pomoću ključnih riječi. Stoga je izgradnja tezaurusa složen i odgovoran zadatak. Ali ovaj zadatak se također može automatizirati.

Klasifikacija u svojoj najopštijoj definiciji je particionisanje i uređivanje skupova. Naziva se distribucija objekata u klase zasnovana na zajedničkoj osobini svojstvenoj ovim pojavama ili objektima i koja ih razlikuje od objekata i fenomena koji čine druge klase. Ako je potrebno, svaka klasa se može podijeliti u podklase. Rubrikator je posebna vrsta klasifikacije. Stoga se stvaraju na osnovu općih odredbi:
 naučne osnove za konstruisanje klasifikacije;
 odraz postojećeg stepena razvoja nauke;
 prisustvo sistema linkova i referala, kao i referentnog i referentnog aparata (CCA).

Međutim, rubrikator je pragmatična klasifikacija stvorena na osnovu tokova informacija i potreba stručnjaka. To je njegova razlika od apriornih klasifikacija, kao što su UDC i IPC.

Glavne funkcije klasifikacija, a posebno rubrikatora su sljedeće:
 tematska diferencijacija informacionih podsistema;
 formiranje informacionih nizova po bilo kom kriterijumu;
 sistematizacija informativnih materijala i publikacija;
 tekuća i retrospektivna pretraga;
 indeksiranje dokumenata i upita;
 povezanost sa drugim klasifikacionim šemama;
- normativne funkcije.

Oni se grade podjelom pojmova - objekata klasifikacije na osnovu uspostavljenih veza između karakteristika ovih objekata u skladu sa određenim logičkim principima. Karakteristika po kojoj se vrši klasifikacija naziva se osnova za podjelu klasifikacije. Klasifikacije naširoko koriste metode dedukcije i indukcije kako bi popravile grupe, klase i identificirale veze između njih. Ovo je tipično za hijerarhijske klasifikacije. Dubina klasifikacije (broj nivoa hijerarhije) može varirati u zavisnosti od svrhe. Jedan od široko korišćenih rubrikatora je Državni rubrikator naučnih i tehničkih informacija (GRNTI).

GRNTI rubrikator je dizajniran na takav način da se može koristiti zajedno sa drugim klasifikacijama kao što su UDC i IPC. Univerzalna decimalna klasifikacija (UDC) postoji više od 70 godina, ali još uvijek nema premca u svojoj širini distribucije i koristi se u mnogim zemljama širom svijeta. UDK pokriva čitav univerzum znanja i uspješno se koristi za sistematizaciju i naknadno traženje širokog spektra izvora informacija.

Pored UDK, u praksi se široko koristi i bibliotečko-bibliografska klasifikacija (LBC). BBK je izgrađen na principima logičke podređenosti i predstavlja klasifikaciju tipa aplikacije.
U Ruskoj Federaciji, za klasifikaciju izuma i sistematizaciju domaćih zbirki opisa pronalazaka, koristi se međunarodna klasifikacija patenata - prilično složena višeaspektna klasifikacija izgrađena na principu funkcionalne industrije. Isti tehnički koncepti se mogu naći u IPC ili posebnim klasama (po industriji) ili u funkcionalnim klasama (po principu rada). Sektorski princip distribucije pojmova podrazumeva klasifikaciju objekata u zavisnosti od njihove primene u određenoj istorijski uspostavljenoj grani opreme i tehnologije.

Uporedne karakteristike rubrikatora SRNTI, UDK, BBK i IPC date su u tabeli 1.

Tabela 1
Karakteristike rubrikatora SRNTI, UDK, BBK i IPC

Ime

Struktura

Princip postavljanja podjela

Šema konstrukcije pregrade

Hijerarhijski

Industrija

Od opšteg do specifičnog

Hijerarhijski

Tematski

Hijerarhijski

Funkcionalno-sektorski

Od opšteg do specifičnog

LBC za naučne biblioteke

Hijerarhijski

Industrija

Od opšteg do specifičnog, po vrstama


Stoga možemo istaknuti glavne karakteristične karakteristike rubrikatora i klasifikatora:
- karakteriše ih primenjena priroda i industrijska orijentacija;
 to su otvoreni sistemi koji zavise od razvoja nauke i tehnologije, potreba i zahtjeva specijalista;
- neorganski sistemi, jer objekti nastaju i razvijaju se u okolini i iz nje ulaze u njih. Elementi mogu samostalno postojati izvan sistema. Ova osobina je usko povezana sa drugom osobinom;
- minimalni element je koncept povezan sa okolinom. Koncept predstavlja sistem definicija;
 veze nastaju između pojmova kako „vertikalno” (rod-tip, cijeli-dio) tako i „horizontalno” (tip-tip, dio-dio), što ukazuje na hijerarhiju sistema.

Shodno tome, struktura i principi organizacije klasifikacija i rubrikatora omogućavaju automatizaciju procesa konstruisanja tezaurusa predmetnih oblasti metodom dedukcije. Algoritam za izradu tezaurusa metodom dedukcije prikazan je na Sl. 1.

Osnova za formiranje tezaurusa je slika pretraživanja dokumenta, zadatka ili aplikacije za pretraživanje informacija koju popunjava operater. Stoga je prvi korak istraživanje i analiza aplikacije. U prvoj fazi operater ukazuje na temu ili problem od interesa, moguće ključne riječi i njihove sinonime. Kao rezultat, dobijamo površno razumijevanje predmetne oblasti.

Rice. 1. Algoritam za izradu tezaurusa metodom dedukcije

Osim toga, tezaurus ključnih riječi KS formira se metodom dedukcije, koja zahtijeva:
 KS niz, koji zadaje sam korisnik, označen na slici 1 kao MP;
 KS niz ekstrahovan iz zadatka pretraživanja, odnosno MZ.

Međutim, za potpunije i dublje razumijevanje predmetne oblasti koristimo postojeće rubrikatore i klasifikacione šeme (GRNTI, UDC, BBK, IPC). Da bi se maksimizirala pokrivenost predmetne oblasti, potrebno je pregledati sve dostupne. Niz rubrikatora predstavlja MR. Algoritam pretraživanja odbitaka sastoji se od dva koraka:
1. Pronalaženje generičkih koncepata (slika 2);
2. Pronalaženje specifičnih pojmova unutar generičkih koncepata (slika 3).


Rice. 2. Obrada generičkog koncepta

Učitavamo prvi rubrikator iz niza i organizujemo ciklus provjere prisutnosti CS-a koje je korisnik unio u rubrikatorima. Svaki KS se pretražuje u rubrikatoru i upoređuje sa generičkim konceptom ili „gnijezdom“, a zatim se provjerava uvjet da se vidi postoji li veza s određenim terminima. Ako je takva veza dostupna, onda se KS upoređuje sa specifičnim uslovima. Ako veza nije pronađena, prijeđite na sljedeći generički koncept. Kada se pregledaju ključne riječi CS-a koje je unio operator, prelazimo na niz CS-a izvučenih iz zadatka. Procedura verifikacije je slična - tražimo KS koji odgovaraju generičkim konceptima, a zatim njihove veze sa specifičnim pojmovima.


Rice. 3. Obrada specifičnih pojmova

Imajte na umu da je u okviru svakog generičkog koncepta važno pregledati sve dostupne specifične termine kako biste dobili maksimalno razumijevanje problematične oblasti. Rezultat ovih radnji je formiranje niza KS ključnih riječi, što je potpuni tezaurus koji odgovara zadatku traženja informacija ili slike pretraživanja dokumenta.

Na osnovu kompletnog skupa slika pretraživanja dokumenata (označimo ih), moguće je kreirati industrijski tezaurus i jedinstveni bibliotečki klasifikator. Očigledno, kompletan skup  sam po sebi predstavlja jednostavan tezaurus.

Međutim, koristeći kriterij odabira
, (1)
možemo izgraditi industrijski tezauri. U ovom slučaju, skup svih industrijskih tezaurusa čini potpuni tezaurus
, (2)
čiji se odjeljci mogu hijerarhijski strukturirati u skladu sa zahtjevima GOST-a prema glavnim klasifikatorima (GRNTI, UDC, BBK, MPK) ili prema internom jedinstvenom klasifikatoru.

Automatizacija procesa konstruisanja tezaurusa i klasifikacije omogućava da se rad operatera koji radi sa distribuiranim informacionim resursima maksimalno olakša.

Pored konstruisanja tezaurusa, na osnovu slike za pretragu dokumenta, predloženi pristup se može koristiti za automatsku apstrakciju dokumenta i grupisanje teksta.

Sažetak dokumenata je jedan od zadataka koji ima za cilj da stručnjacima pruži pouzdane informacije neophodne za donošenje upravljačkih odluka o vrijednosti dokumenata dobijenih sa Interneta. Apstraktovanje je proces transformacije dokumentarne informacije koji kulminira pripremom sažetka, a sažetak je semantički adekvatna prezentacija glavnog sadržaja primarnog dokumenta, koju karakterizira ekonomičan simbolički dizajn, postojanost jezičkih i strukturnih karakteristika i namijenjen za izvođenje. razne informacijske i komunikacijske funkcije u sistemu naučne komunikacije. Algoritam za apstrahovanje dokumenta predstavljen je na Sl. 4.


Rice. 4. Algoritam apstrakcije dokumenta

Općenito, algoritam uključuje sljedeće glavne faze.
1. Rečenice se izdvajaju iz dokumenta preuzetog sa Interneta i nalazi se u skladištu podataka odabirom interpunkcijskih znakova i pohranjivanjem u niz.
2. Svaka rečenica je podijeljena na riječi odabirom separatora, a mi ih spremamo u niz, a niz je različit za svaku rečenicu.
3. Za svaku rečenicu, za svaku riječ ove rečenice, brojimo broj riječi u drugim rečenicama (prije i poslije). Zbir ponavljanja za svaku riječ (prije i poslije) bit će težina ove rečenice.
4. Za apstrakt se bira zadati broj rečenica sa maksimalnim težinskim koeficijentom po redosledu pojavljivanja u tekstu.

Predloženi model za izradu tezaurusa i tematskih kataloga informacionog sistema predstavlja teorijsku osnovu za automatizaciju semantičkog pretraživanja i omogućava stručnjaku ne samo da obavlja posao pretraživanja, već i u automatizovanom režimu, apstraktne dokumente dobijene kao rezultat pretraživanja u distribuirani informacioni sistemi na Internetu.

književnost:
1. Barushkova R.I. Klasifikacione šeme naučnih i tehničkih informacija. Udžbenik dodatak. - M., 1981. - 80 str.
2. Barushkova R.I. Rubrikator kao klasifikaciona šema naučnih i tehničkih informacija. Toolkit. - M., 1980. - 38 str.
3. Trusov A.V., Babarykin E.P. Procjena granica domena tematskog informacijskog zahtjeva u distribuiranim informacionim sistemima. Materijali sveruske (sa međunarodnim učešćem) konferencije „Informacije, inovacije, investicije“, 24-25. novembar 2004, Perm / Perm CSTI. - Perm, 2004. - P.76-79.
4. Yatsko V.A. Logičko-lingvistički problemi analize i sažimanja naučnog teksta. - Abakan: Državna izdavačka kuća Khakass. Univerzitet, 1996. - 128 str.

Najnoviji materijali u sekciji:

Električne šeme besplatno
Električne šeme besplatno

Zamislite šibicu koja, nakon što se udari na kutiju, upali, ali ne upali. Kakva korist od takve utakmice? Biće korisno u pozorišnim...

Kako proizvesti vodonik iz vode Proizvodnja vodonika iz aluminija elektrolizom
Kako proizvesti vodonik iz vode Proizvodnja vodonika iz aluminija elektrolizom

"Vodonik se proizvodi samo kada je potrebno, tako da možete proizvesti samo onoliko koliko vam je potrebno", objasnio je Woodall na univerzitetu...

Umjetna gravitacija u naučnoj fantastici U potrazi za istinom
Umjetna gravitacija u naučnoj fantastici U potrazi za istinom

Problemi sa vestibularnim sistemom nisu jedina posledica dužeg izlaganja mikrogravitaciji. Astronauti koji troše...