Mire szolgál a tezaurusz? A tezaurusz szó jelentése

N. V. Lukasevics

[e-mail védett]

B. V. Dobrov

A Moszkvai Állami Egyetem Számítástechnikai Kutatóközpontja. M. V. Lomonoszov;

ANO Információkutatási Központ

[e-mail védett]

Kulcsszavak: tezaurusz, információkeresés, automatikus szövegfeldolgozás,

A nagy szöveggyűjteményekkel dolgozó technológiák túlnyomó többsége statisztikai és valószínűségi módszereken alapul. Ennek az az oka, hogy a szöveggyűjtemények nyelvi módszerekkel történő feldolgozására használható lexikai erőforrásoknak több tízezer szótári tételt kell tartalmazniuk, és számos olyan fontos tulajdonsággal kell rendelkezniük, amelyeket az erőforrás fejlesztése során kifejezetten figyelni kell. A jelentésben a nagy szöveggyűjtemények automatikus feldolgozására szolgáló lexikai erőforrások fejlesztésének alapelveit vizsgáljuk az 1997-ben létrehozott, számítógépes szövegfeldolgozáshoz szükséges orosz nyelvű tezaurusz, a RuTez példáján keresztül, amely jelenleg több mint 42 ezer fogalomból álló hierarchikus hálózat. . A tezaurusz jelenlegi állapotát lexikális összetételének és az RUSSIA Egyetemi Információs Rendszer (www.cir.ru) - 400 ezer dokumentum - szövegkorpuszának összehasonlítása alapján írjuk le. Példák a tezaurusz használatára különféle automatikus szövegszerkesztő alkalmazásokban.

  1. Bevezetés

Jelenleg több millió dokumentum vált elérhetővé elektronikus formában, több ezer információs rendszer és elektronikus könyvtár jött létre. Ugyanakkor a kereséshez lexikális és terminológiai erőforrásokat használó információs rendszereket a százalék töredékében számolják. Ez annak köszönhető, hogy komoly kihívásokat jelent a modern elektronikus dokumentumgyűjtemények automatikus feldolgozásához szükséges nyelvi erőforrások létrehozása.

Először is, ezek a gyűjtemények általában nagyon nagyok; az erőforrásnak több ezer szó és kifejezés leírását kell tartalmaznia. Másodszor, a gyűjtemények különböző felépítésű dokumentumok halmaza, különböző szintaktikai struktúrákkal, ami megnehezíti a szöveges mondatok automatikus feldolgozását. Ezenkívül a fontos információkat gyakran elosztják a szöveg különböző mondatai között.

Mindez élesen felveti a kérdést, hogy mi legyen az a nyelvi erőforrás, amely egyrészt hasznos lenne az elektronikus gyűjteményekben való automatikus feldolgozáshoz és kereséshez, másrészt belátható időn belül létrehozható és viszonylag kevés ráfordítással karbantartható lenne. erőfeszítés.

Ebben a cikkben megvizsgáljuk a lexikális források fejlesztésének alapelveit a nagy szöveggyűjtemények automatikus feldolgozásához. Ezeket az elveket az ANO Információkutatási Központ által 1997 óta a RuTez számítógépes szövegfeldolgozásra létrehozott orosz nyelvű tezaurusz példáján vizsgáljuk meg. A RuTez jelenleg több mint 42 ezer fogalomból álló hierarchikus hálózat, amely több mint 95 ezer orosz szót, kifejezést és kifejezést tartalmaz. A tezaurusz jelenlegi állapotát a Moszkvai Állami Egyetem Kutatói Számítástechnikai Központja támogatásával lexikális összetételének és az OROSZORSZÁG Egyetemi Információs Rendszer szövegkorpuszának szókincsének összehasonlítása alapján ismertetjük. M.V. Lomonoszov és ANO TSII. Az UIS RUSSIA (www.cir.ru) 400 ezer társadalmi-politikai témájú dokumentumot tartalmaz (körülbelül 3 GB szöveg, 200 millió szó). A cikkben szó lesz a tezaurusz különféle automatikus szövegszerkesztő alkalmazásokban való használatáról is.

  1. A nyelvi erőforrás fejlesztésének alapelvei

információkeresési feladatokhoz

Az elektronikus dokumentumok hatékony automatikus feldolgozásához (automatikus indexelés, kategorizálás, dokumentumok összehasonlítása) össze kell építeni összehasonlításuk alapot - a dokumentumban említettek felsorolását. Ahhoz, hogy egy ilyen index hatékonyabb legyen, mint a szavas index, le kell győzni a szöveg lexikális sokféleségét: szinonimák, poliszémia, beszédrészek, stilisztika, és invariánssá redukálni - egy fogalom, amely a különböző szövegek összehasonlításának alapja. Így a fogalmaknak egy nyelvi forrás alapjává kell válniuk, a nyelvi kifejezések: szavak, kifejezések pedig csak olyan szövegbevitelekké váljanak, amelyek inicializálják a megfelelő fogalmat.

Ahhoz, hogy a különböző, de hasonló fogalmakat össze lehessen hasonlítani, kapcsolatokat kell kialakítani közöttük. Hagyományosan a természetes nyelvű szövegek automatikus feldolgozására szolgáló nyelvi erőforrások bizonyos szemantikai relációkészleteket használtak, mint pl. rész, forrás, ok stb. Ha azonban nagy és heterogén szöveggyűjteményekkel dolgozunk, meg kell értenünk, hogy a szövegszerkesztési technológia jelenlegi állása mellett a számítógépes rendszer nem lesz képes megbízhatóan észlelni ezeket a kapcsolatokat a szövegben, hogy elvégezze az általunk társított eljárásokat. ezeket vagy más kapcsolatokat. Ezért a fogalmak közötti kapcsolatoknak mindenekelőtt bizonyos invariáns tulajdonságokat kell leírniuk, amelyek nem vagy gyengén függnek a fogalom megemlítését tartalmazó szöveg témájától.

Ennek a kapcsolatnak a fő funkciója a következő kérdés megválaszolása:

ha ismert, hogy a szöveg a C1 megvitatására szolgál, és a C2 kapcsolódik

hozzáállásRC1-gyel mondhatjuk-e, hogy a szöveg témája(*)

C2-vel kapcsolatos?

Az automatikus feldolgozáshoz szükséges nyelvi erőforrás létrehozásakor fontos meghatározni, hogy a C1 és C2 fogalmak mely tulajdonságai teszik lehetővé, hogy helyes (*) kapcsolatokat létesítsünk közöttük.

Így például mindegy, hogy milyen szövegekről írnak nyírfák, mindig elmondhatjuk, hogy ezek a dalszövegek kb fák. De a népszerűség és a kapcsolat gyakori vitája ellenére fa részeként erdők, nagyon kevés fákról szóló szöveg az erdőről szóló szöveg. Vegye figyelembe, hogy a probléma nem a kapcsolat nevéhez kapcsolódik. Így a tisztás az erdő része, a tisztásokról szóló szövegek pedig az erdőkről szóló szövegek.

A relációk változatlanságát egy-egy témakörben a szövegek lehetséges témáinak spektrumához képest nagymértékben meghatározzák a relációnevekben tükröződőknél mélyebb tulajdonságok, nevezetesen a kvantor és az egzisztenciális tulajdonságai. A relációk kvantor tulajdonságai tehát azt írják le, hogy egy fogalom minden példájában van-e adott reláció, fennáll-e ez a kapcsolat a példa teljes életciklusa során. Probléma a reláció használatával faerdő Pontosan az az oka, hogy nem minden konkrét fa található az erdőben, de a tisztás nem lehet az erdőn kívül.

Példa a kapcsolatok egzisztenciális tulajdonságainak leírására - következik-e a C1 fogalom létezéséből a C2 fogalom létezése (például a fogalom létezése GARÁZS fogalom meglétét igényli AUTÓ), vagy a C1 példák létezése a C2 példák létezésétől függ (annyira specifikus ÁRVÍZ elválaszthatatlan egy konkrét példától FOLYÓK). A C2 függő fogalom szövegében, különösen a példától függő tárgyalása arra utal, hogy a szöveg a C1 főfogalomhoz is kapcsolódik.

Nézzük a fogalmak közötti kapcsolatot ERDŐ és FA részletekben. Valójában a koncepció része ERDŐ van FA AZ ERDŐBEN, míg vannak SZABADON ÁLLÓ FA,FA A KERTBEN stb.. Mindenesetre meg kell szakítani a fogalom alá-fölérendeltségi viszonyát FA koncepció ERDŐ.

A másik oldalon, ERDŐ egy faj FÁK GYŰJTEMÉNYEI, nem létezik fák nélkül (valamint KERT). Így a koncepció ERDŐ kapcsolatban kell lennie a fogalommal FA. A konkrét alkalmazási problémák szükségleteinek elemzéséből kiindulva arra a következtetésre jutottunk, hogy fontos leírni a relációk azon mély tulajdonságait, amelyek korábban nagyon kevéssé tükröződtek a nyelvi erőforrásokban, de amelyek kiemelkedően fontosak az automatikus feldolgozás feladatai szempontjából. nagy szöveggyűjteményekhez, és esetleg sok más feladathoz.

Most a fogalmak kvantor- és egzisztenciális tulajdonságainak leírását modellezzük hagyományos tezaurusz-relációkkal FEL-ALÁ (az összes reláció 66%-a), RÉSZEGÉSZ (a relációk 30%-a), ASSOCIATION (4%), kombinálva egy bizonyos kiegészítő módosítók (a relációk 20%-a van megjelölve). Megjegyzendő, hogy a RÉSZ-EGÉSZ és ASSOCIATION kapcsolatok értelmezése a (*) szabály figyelembevételével történik. Összességében mintegy 160 ezer fogalmak közötti közvetlen összefüggést írnak le, ami a kapcsolatok tranzitivitását figyelembe véve összesen több mint 1350 ezer összefüggést ad, vagyis átlagosan minden fogalom 30 másikhoz kapcsolódik. .

  1. RuTez tezaurusz: általános szerkezet

A RuTez tezaurusz az egyes szavak, szöveges kifejezések vagy szinonim sorozatok jelentésének megfelelő fogalmak hierarchikus hálózata. Így a tezaurusz fő elemei a fogalmak, a nyelvi kifejezések, a nyelvi kifejezések és fogalmak közötti kapcsolatok, valamint a fogalmak közötti kapcsolatok.

A tezaurusz egyetlen rendszerbe egyesíti a nyelvi ismereteket - a hagyományosan lexikális, szemantikai ismeretekkel kapcsolatos lexémák, idiómák és kapcsolódásaik leírásait, valamint a szakterületeken belüli, hagyományosan a terminológusok tevékenységi területéhez kapcsolódó terminusokról és kapcsolatokról szóló ismereteket. információ-visszakereső tezauruszok. Ilyen tantárgyi részterületként a tezaurusz olyan tantárgyakat ír le, mint a közgazdaságtan, jogalkotás, pénzügy, nemzetközi kapcsolatok, amelyek olyan fontosak a mindennapi emberi élet szempontjából, hogy jelentős lexikális reprezentációval bírnak a hagyományos magyarázó szótárakban. Bennük a lexikális és a terminológia erősen összefügg egymással, és erős kölcsönhatásban állnak egymással.

A nyelvi kifejezések az egyes lexémák (főnevek, melléknevek és igék), névleges és verbális csoportok. Így a tezaurusz jelenleg nem tartalmaz határozókat és funkciószavakat nyelvi kifejezésként. A többszavas csoportok tartalmazhatnak kifejezéseket, idiómákat, lexikális függvényeket ( befolyás e).

Minden egyes nyelvi kifejezésre a következőket írják le:

Poliszémiája egy vagy több fogalommal való kapcsolat, ami azt jelenti, hogy egy adott nyelvi kifejezés ennek a fogalomnak a szöveges kifejezéseként szolgálhat. Egy nyelvi kifejezésnek a különböző fogalmakhoz való hozzárendelése egyben annak poliszémiájának implicit jelzése is;

Morfológiai összetétele (szórész, szám, eset);

Írásjellemzők (például nagybetűvel) stb.

Minden tezaurusz-fogalomnak egyedi neve van, azoknak a nyelvi kifejezéseknek a listája, amelyekkel ez a fogalom a szövegben kifejezhető, valamint a más fogalmakkal való kapcsolatok listája.

Egyik egyértelmű szövegkifejezését általában egy fogalom egyedi elnevezéseként választják. De egy fogalom nevét képezheti annak kétértelmű szöveges kifejezéseinek párja is - szinonimák, amelyeket vesszővel elválasztva írnak el és egyértelműen meghatározzák (például a fogalom VASTAG). A fogalom nevének kétértelmű szöveges kifejezése ellátható jelöléssel vagy rövidített értelmezési töredékkel is, például fogalom TÖMEG (EMBERCSOPORT).

  1. Példa szótárbejegyzésre

Példaként a fogalom szótári bejegyzését választottuk ERDŐ, amely megfelel a szó egyik jelentésének erdő. Ez a szótári szócikk azért érdekes, mert különböző típusú ismereteket tartalmaz, amelyeket hagyományosan a lexikális (szemantikai) és az enciklopédikus ismeretek közé sorolnak (a tárgykörrel kapcsolatos ismeretek, terminológia).

A fogalom szinonimái ERDŐ(összesen 13):

erdő(M), erdőövezet, erdei környezet,

erdő, erdőnegyed, erdei táj,

erdőterület, erdő, erdős terület,

erdőterület, kis erdő,

erdők tömbje.

Az alábbi fogalmak szinonimákkal:

DZSUNGEL(dzsungel);

ERDE PARK(városi kert, zöldövezet,

zöldövezet, erdei park,

erdőgazdálkodás, erdőpark

öv, park(M), park terület);

ERDÉSZET;

ELHAGYTA ERDŐT(puha levelű erdő, kemény levelű

erdő);

LIGET(tölgyes);

TÜVELŐERDŐ (tűlevelű erdő, sötét tűlevelű erdő)

Fogalmak-részek szinonimákkal:

SZÉLBREAK(szélhullás, váratlan);

VÁGÁS(vágási terület);

ERDŐKULTÚRA(erdei fajok, erdőgazdálkodás

kultúra);

ERDŐFÖLD (erdőföldek; fedett területek

erdő; erdőterületek, erdőterület;

erdős föld, erdős

terület);

ERDŐÜLTETÉSEK(erdőültetvények, erdőültetvények,

erdősítés);

AZ ERDŐ SZÉLE(él, él);

ALVIRÁG (aljnövényzet);

PROSEKA;

SZÁRAZ FA(hasznavehetetlen).

Itt a szimbólumok (M) a szövegbevitel kétértelműségére utalnak.

Koncepció ERDŐ Vannak más kapcsolatai is, az úgynevezett függőségi kapcsolatok (a modern változatban ezeket ASC 2 - aszimmetrikus asszociációnak hívják): ERDŐTŰZ(erdőtűz, tűz az erdőben; ERDŐHASZNÁLAT (erdőhasználat, erdőalapterületek felhasználása); ERDÉSZET; ERDŐTUDOMÁNY (erdőtudomány). Ahogy a 2. bekezdésben már megjegyeztük, az ERDŐ fogalma a FA fogalmától függ, amelyet a tezauruszban az ASC 1 reláció jelöl.

Teljes koncepció ERDŐ közvetlenül kapcsolódik 28 másik fogalomhoz, figyelembe véve a kapcsolatok tranzitivitását - 235 fogalommal (összesen több mint 650 szövegbevitellel).

  1. A jelenlegi állapot értékelése

Orosz nyelvű tezaurusz RuTez

5.1. Lexikai kompozíció

Jelenleg a tezaurusz-hálózat több mint 95 ezer nyelvi kifejezést tartalmaz, ebből 61 ezer egyszavas.

Ez a munkakötet arra kényszerített bennünket, hogy eldöntsük, milyen szavakat és nyelvi kifejezéseket kell a tezaurusz-leírásokban szerepeltetni. A természetes vágy az volt, hogy megnézzük, hogyan jelennek meg a tezauruszban az orosz nyelv leggyakoribb szavai. Erre a célra az RUSSIA Egyetemi Információs Rendszer szöveggyűjteményét (400 ezer dokumentum) használták fel. A gyűjtemény az Orosz Föderáció különböző szerveitől származó hivatalos dokumentumokat (1992 óta 55 ezer dokumentum), valamint 1999 óta sajtóanyagokat (Izvesztyija, Nezavisimaya Gazeta, Komsomolskaya Pravda, Argumenty i Fakty, Expert magazin és mások) tartalmaz, tudományos anyagokat. folyóiratok („Bulletin of Moscow University”, „Sociological Journal”). Összehasonlítás történt a tezauruszban szereplő lemmák listája és a szöveggyűjtemény leggyakrabban előforduló 100 000 lemmája között (gyakoriság több mint 25).

A lista polexémajelölése azt mutatta, hogy ebből a százezer lemmából 35 ezret írnak le a RuTezben, mindössze mintegy 7 ezer lexéma érdemel bekerülést a tezauruszba, a többi különböző tulajdonnevek lemmatikus változata. Ezért az utánpótlás megszűnt kiemelt feladatnak lenni, és fokozatosan történik, kezdve a leggyakoribb szavakkal. Feltételezhető, hogy amint ez a lista túlnyomórészt kimerült, újabb összehasonlítást végeznek az információs rendszer szövegtömbjével, új, 25-nél nagyobb gyakoriságú lexémákat választanak ki, majd a nézési küszöböt csökkentik. . A szöveggyűjteményben található nagyszámú szövegpélda lehetővé teszi, hogy gyorsan reagáljon a „lexikális újításokra” (pl. telepítés,kasszasiker, beau monde, krimi), és helyezze el őket a tezaurusz hierarchikus rendszerének megfelelő helyeire.

Az aktuális szöveggyűjtemény melletti folyamatos munka egyedülálló lehetőséget biztosít a szótárban javasolt lexikális leírások jelentőségének és minőségének ellenőrzésére. Például a szó szokatlanul magas használati gyakorisága Anya Lásd(több mint 400 alkalommal). A tömb ellenőrzése megmutatta, hogy a szót valóban gyakran használják a szó szinonimájaként Moszkva, míg a magyarázó szótárak ezt a szót gyakran elavultnak jelölik. Egy másik példa egy gyakran használt szóra (több mint 300-szor), amelyet a szótárak elavultként jelöltek meg, a szó boldog.

5.2 A szó jelentésének leírása

A szöveggyűjteménnyel való összehasonlítás azt mutatja, hogy a tömbben található gyakorisági szavak közül sok jól szerepel a tezauruszban legalább egy (általában alapvető) jelentésében. Jelenlegi fő feladatunk annak kiderítése, hogy az orosz nyelv poliszemantikus szavak jelentésspektruma milyen mértékben van reprezentálva a tezauruszban.

Mint ismeretes, gyakran a különböző szótári források eltérő jelentéskészletet adnak a többszólamú szavaknak, kiemelik a jelentésárnyalatokat, és ugyanaz a típusú poliszémia különböző szavakra másként írható le még ugyanabban a szótárban is. Ezért a lexémák jelentéseinek következetes és reprezentatív leírása bármely szókincs-forrás alkotói számára fontos feladat.

Ha azonban az erőforrást automatikus feldolgozásra szánják, akkor az értékek kiegyensúlyozott leírásának feladata sokkal fontosabbá válik. A túlzott értékinfláció azt eredményezheti, hogy a számítógépes rendszer nem tudja kiválasztani a kívánt értéket, ami viszont az automatikus szövegszerkesztő rendszer teljesítményének jelentős csökkenését eredményezi. Tehát a WordNet erőforrás, mint az automatikus szövegfeldolgozás erőforrásának egyik hátránya, hogy túl sok jelentést írnak le néhány szóhoz (a WordNet 1.6-ban: 53 jelentés fuss, 47 ért játék stb.). Ezeket a jelentéseket még az ember számára is nehéz megkülönböztetni a szövegek szemantikai megjegyzésekor. Nyilvánvaló, hogy a számítógépes rendszer sem képes megbirkózni a megfelelő érték kiválasztásával. Ezért a különböző szerzők különböző módokat javasolnak az értékek kombinálására a feldolgozás minőségének javítása érdekében.

Ugyanakkor az ellentétes tényező működik: ha a jelentések szótári kapcsolatrendszerükben (esetünkben tezaurusz-kapcsolatok) valóban eltérnek - nem ragaszthatók egy egységbe (egy fogalomba) -, az szintén a szótári kapcsolatok romlásához vezet. az automatikus feldolgozás minősége.

Vegyünk egy példát a szavakra iskolaÉs templom, amelyek mindegyike szervezetnek és épületnek is tekinthető.

Minden iskolai szervezetnek van egy épülete (leggyakrabban egy). Az iskola épületének minden része (tantermek, táblák) kapcsolódik iskola hogyan egy szervezethez. Az iskolaépületeknek nincsenek konkrét típusai. Ezért a leírás iskolákÉpületként nem célszerű külön fogalomba különíteni őket. Azonban egy ilyen gyűjtőfogalom leírása ISKOLA mint szervezetnek és mint épületnek speciálisan kialakított kapcsolatban kell lennie a koncepcióval ÉPÜLET. Amikor ilyen kapcsolatokat ír le a tezauruszban, a kapcsolat jelölését használjuk - az „A” módosítót („szempont”; az automatikus elemzés során a kapcsolat figyelembevételéhez más fogalmak „megerősítése” szükséges).

ISKOLA

MAGASABB OKTATÁSI INTÉZMÉNY

A FELÜTT KÖZÉPÜLET

A szó megfelelő jelentései templom nem olyan közel. Templomok Szervezetként nagyszámú gyülekezeti épülete lehet különböző helyeken, és sok más épülete is van. Templomépítés szorosan kapcsolódik a valláshoz és a hitvalláshoz, de megváltoztathatja a hovatartozást egyházi szervezetek. Egyház-szervezésÉs templomépítés különböző alfajai vannak. Ezért EGYHÁZ (SZERVEZET) És TEMPLOM (ÉPÜLET) a RuTez különböző fogalmakként jeleníti meg.

A tezaurusz-kapcsolatok jelentős eltérése érdekes módon korrelál a jelentéseknek megfelelő denotációk egymástól elkülönült létezési képességével. Így egy templomépület nem szűnik meg létezni, sőt még akkor sem nevezhető templomnak, ha a rendeltetése megváltozik, ellentétben az iskolaépülettel.

Az értékek tezauruszban való megjelenítésének ellenőrzése folyamatosan zajlik, kezdve a leggyakoribb lemmákkal. Minden egyes gyakorisági lexéma esetében ellenőrzik, hogy a magyarázó szótárak hogyan írják le a jelentésüket, milyen jelentéseket használnak a gyűjteményben, és hogyan jelennek meg a tezauruszban. Ennek eredményeként mostanra egy 10 000 lexémából álló lista alakult ki, amelynek többértelműsége még vagy további elemzést vagy további leírást igényel. A lista 30 ezer leggyakoribb lemma alapján készült.

Megjegyzendő, hogy a tezauruszban a poliszémia problémája részben megszűnt, mivel a tezaurusz-összefüggések leírhatók egy szó különböző jelentései között, így alapértelmezés szerint a hierarchia legmagasabb fogalma választható ki. A szövegben határozottan szóba került. Például a szó fénykép három jelentése van: fotózás mint tevékenységi terület, fényképezés mint fényképészeti kép, fényképezés mint fotóstúdió:

FÉNYKÉPEZÉS(fényképezés, fotó üzlet, ..., fénykép )

RÉSZ FÉNYKÉPES KÉP

(fénykép, fénykép, fénykép )

RÉSZ FOTÓ STUDIÓ (fénykép ).

Így, ha nem lehetett kitalálni, hogy a szó milyen jelentéssel bír fénykép, az alapértelmezés szerint a fénykép készült (egy folyamatról, eredményről vagy helyről), ami sok automatikus szövegfeldolgozó alkalmazáshoz elegendő.

  1. A RuTez tezaurusz alkalmazása

automatikus szövegfeldolgozáshoz

1995 óta a RuTez (szociális-politikai tezaurusz) társadalmi-politikai terminológiát aktívan és sikeresen használják az automatikus szövegfeldolgozás különféle alkalmazásaihoz, mint például az automatikus fogalmi indexelés, az automatikus rubrikálás több rubrikátor használatával, a szövegek automatikus annotációja, beleértve az angol nyelvet is. azok. A társadalmi-politikai tezaurusz (27 ezer fogalom, 62 ezer szöveges bejegyzés) az UIS RUSSIA keresőrendszer (www.cir.ru) alapvető keresőeszköze.

A RuTez tezaurusz teljes szókincse a szövegek összetett hierarchikus rubrikák segítségével történő automatikus kategorizálására szolgáló eljárásokban használatos. A meglévő technológiában az egyes kategóriákat a kifejezések logikai kifejezéseként írják le, majd az eredeti képletet kibővítik a tezaurusz-hierarchia mentén. Az így kapott logikai kifejezés már több száz és ezer kötő- és diszjunktot tartalmazhat.

Példaként hozzunk egy részletet a tezaurusz-fogalmakat (és a képlet kibővítését követően nyelvi kifejezéseket) használó leírásból a SOFIST 2 rubrika „Egy nő képe” rubrikájából, amelyet a VTsIOM a közvélemény-kutatási kérdőívek osztályozására használ:

(NŐ[N]

|| LÁNY[N]

|| ROKONY [L] (nagymama, unoka, unokatestvér,

lánya, sógornő, anya, mostohaanya, meny, mostohalány, ...))

(JELLEMZŐ [L] (takarékos, szívtelen, feledékeny,

komolytalan, gúnyos, intoleráns, társaságkedvelő, ...)

|| KÉP [E] (megjelenés, megjelenés, megjelenés,

megjelenés, megjelenés, kép, megjelenés)

|| PLEASANT [L] (..., érdekes, szép, aranyos,

vonzó, aranyos, vonzó, ...)

|| KELLEMES[L] (nem szimpatikus, durva, csúnya, ...)

|| BECSÜLJ[L] (tisztelni, imádni, imádni,

imádni, imádni,...)

|| PREFER[N]

Az „E” szimbólum a tezaurusz-hierarchia teljes kiterjedését jelöli, az „L” szimbólum – a faji kapcsolatoknak megfelelően („ALÁT”), az „N” szimbólum nem bővül.

Kutatások zajlanak az automatikus szövegkategorizálás kombinált technológiájának kifejlesztésére, amely egyesíti a tezaurusz-ismereteket és a gépi tanulási eljárásokat.

Feltárás alatt áll a tezaurusz használatával a természetes nyelven megfogalmazott lekérdezés bővítése (jelenleg az UIS RUSSIA információkereső rendszerében terminológiai lekérdezés kibővítésére jelenleg csak a tezaurusz társadalmi-politikai részét használják), és keresnek kérdésekre adott válaszok nagy szöveggyűjteményekben.

7. Következtetés

A cikk bemutatja a nagy szöveggyűjtemények automatikus feldolgozásához szükséges nyelvi erőforrások fejlesztésének alapelveit. A létrehozott nyelvi erőforrás - az orosz nyelvű RuTez tezaurusz - olyan automatikus szövegfeldolgozó alkalmazásokban használható, mint a dokumentumok fogalmi indexelése, az összetett hierarchikus rubrikátorok szerinti automatikus rubrikálás, a természetes nyelvi lekérdezések automatikus bővítése.

Ezt a munkát részben az Orosz Humanitárius Alapítvány 00-04-00272a számú pályázata támogatja.

Irodalom

  1. Lukashevich N.V., Saliy A.D., A tudás ábrázolása az automatikus szövegfeldolgozás rendszerében //NTI, Ser.2. 1997. No. 3. P. 1-6.
  2. Zhuravlev S.V., Yudina T.N., Információs rendszer OROSZORSZÁG //NTI, Ser.2. 1995. No. 3. P. 18-20.
  3. Winston M., Chaffin R., Herman D., A rész-egész kapcsolatok taxonómiája // Kognitív tudomány. 1987. sz. 11. P. 417-444.
  4. Priss U.E., A WordNet formalizálása a relációs fogalomelemzés módszereivel // WordNet. Egy elektronikus lexikai adatbázis / Szerk. C. Fellbaum. Cambridge, Massachusetts, London, Anglia.: The MIT Press 1998. 179-196. o.
  5. Guarino N., Welty C., A Formal Ontology of Properties // Proceedings of the ECAI-00 Workshop on Applications of Ontologies and Problem Solving Methods. Berlin: 2000. P. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Néhány ontológiai alapelv a felső szintű lexikális források tervezéséhez // First Int. Konf. a nyelvi forrásokról és értékelésről. 1998.

  1. Lukashevich N.V., Dobrov B.V., Modifiers of conceptual relations in thesaurus for automatic indexing // NTI, Ser.2. 2000, 4. szám, 21–28.
  2. Az orosz nyelv nagy magyarázó szótára / Szerk. S.A. Kuznyecova. Szentpétervár: Norint, 1998.
  3. Ozhegov S.I., Shvedova N.Yu., Az orosz nyelv magyarázó szótára - 3. kiadás. M.: Az, 1996.
  4. Apresyan Yu.D., Válogatott művek, I. kötet Lexikai szemantika: 2. kiadás. M.: Iskola „Az orosz kultúra nyelvei”, szerk. RAS "Keleti irodalom" cég, 1995.
  5. G. Miller, R. Beckwith, C. Fellbaum, D. Gross és K. Miller, Five papers on WordNet, CSL Report 43. Cognitive Science Laboratory, Princeton University, 1990.
  6. Chugur, J. Gonzalo és F. Verdjeo, Érzéki megkülönböztetések NLP alkalmazásokban // Proceedings of “OntoLex-2000”: Ontologies and Lexical Knowledge Bases. Sofia: OntoTextLab. 2000.
  7. Loukachevitch N., Dobrov B., Tezaurusz-alapú strukturális tematikus összefoglalás többnyelvű információs rendszerekben // Gépi fordítási áttekintés. 2000. Nem. 11. P. 10-20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Orosz nyelv tezaurusz a természetes nyelv feldolgozásához

nagy szöveggyűjteményekből

Natalia V. Loukachevitch, Boris V. Dobrov

Kulcsszavak: tezaurusz, természetes nyelvi feldolgozás, információkeresés

Előadásunkban áttekintjük a nagy szöveggyűjtemények automatikus feldolgozásához szükséges lexikális források fejlesztésének fő elveit, és ismertetjük az orosz nyelv tezauruszának felépítését, amelyet 1997 óta kifejezetten az automatikus szövegfeldolgozás eszközeként fejlesztettek ki. Most a tezaurusz 42 ezer fogalomból álló hierarchikus háló. Leírjuk a Tezaurusz jelenlegi stádiumát, összehasonlítva a RUSSIA Egyetemi Információs Rendszer (www.cir.ru) szöveggyűjteményének 100 000 leggyakoribb lemmájával, beleértve a 400 ezer dokumentumot. Szintén figyelembe vesszük a tezaurusz használatát az automatikus szövegfeldolgozás különböző alkalmazásaiban.

, antonimák, paronimák, hiponimák, hipernimák stb.) lexikai egységek között. A tezauruszok az egyik leghatékonyabb eszköz az egyes témakörök leírására.

A múltban a kifejezés szinonimaszótár elsősorban szótárakat jelöltek ki, amelyek maximális teljességgel reprezentálják a nyelv szókincsét, szöveges felhasználási példákkal.

Term is szinonimaszótár az információelméletben az alany által birtokolt összes információ összességének jelölésére használják.

A pszichológiában az egyén tezauruszát az információ észlelése és megértése jellemzi. A kommunikációelmélet egy összetett rendszer általános tezauruszát is figyelembe veszi, amelyen keresztül elemei kölcsönhatásba lépnek.

Sztori

Az egyik első szinonimaszótárt Philo of Byblos „Szinonimaszótárnak” nevezi. A kifejezés pontosabb megfelelése az Amara-kosha, amelyet szanszkrit nyelven írtak költői formában a 6. században. Az első modern angol tezauruszt Peter Mark Roger készítette 1805-ben. 1852-ben jelent meg, azóta újranyomás nélkül használják.

Az 1970-es években a szinonimaszótárakat aktívan kezdték használni információkeresési feladatokra. Az ilyen tezauruszokban a szavak leírókra vannak leképezve, amelyeken keresztül szemantikai kapcsolatok jönnek létre.

Tezauruszok

Lásd még

Írjon véleményt a "Thesaurus" cikkről

Megjegyzések

A tezauruszt jellemző részlet

- Milyen dög vagy te ma! – mondta Nesvitsky, és az új köpenyére és nyeregpárnájára nézett.
Gyenyiszov elmosolyodott, kivett a táskájából egy parfümtől illatozó zsebkendőt, és Nyeszkij orrába dugta.
- Nem tudok, megyek dolgozni! Kiszálltam, fogat mostam és felvettem a parfümöt.
Nesvitsky méltóságteljes alakja, egy kozák kíséretében, és a szablyáját lengető és kétségbeesetten kiabáló Denisov elszántsága olyan hatással volt, hogy átnyomultak a híd túloldalára, és megállították a gyalogságot. Nesvitsky talált egy ezredest a kijáratnál, akinek át kellett adnia a parancsot, és utasításait teljesítve visszament.
Miután megtisztította az utat, Denisov megállt a híd bejáratánál. A sajátja felé rohanó mént lazán visszatartva és rugdosva a felé haladó századra nézett.
Átlátszó patások hangja hallatszott a híd deszkái mentén, mintha több ló vágtatott volna, és a század tisztekkel elöl, négyen egymás után elnyúlt a hídon, és a túloldalon kezdett előbukkanni.
A híd melletti letaposott sárban tolongó megállított gyalogos katonák azzal a különleges, barátságtalan elidegenedés- és gúnyérzettel nézték a mellettük harmonikusan elvonuló, tiszta, ügyes huszárokat, amellyel a hadsereg különböző ágai általában találkoznak.
- Okos srácok! Bárcsak Podnovinszkoén lenne!
- Mire jók? Csak bemutatóra hajtanak! - mondta egy másik.
- Gyalogság, ne por! - viccelődött a huszár, ami alatt a ló játszva sárral fröcskölte a gyalogost.
- Ha két meneten keresztül hajtalak volna a hátizsákoddal, a fűzők kikoptak volna - mondta a gyalogos, és ujjával letörölte a koszt az arcáról; - különben nem ember, hanem madár ül!
„Ha lóra ültetnélek, Zikin, ha mozgékony lennél” – viccelődött a tizedes a hátizsák súlyától meghajló vékony katonán.
- Vedd a lábaid közé a botot, és lesz lovad - válaszolta a huszár.

A gyalogság többi része átsietett a hídon, tölcsért alkotva a bejáratnál. Végül az összes szekér elhaladt, a zúzás csökkent, és az utolsó zászlóalj belépett a hídba. Csak Denisov századának huszárjai maradtak a híd túloldalán az ellenséggel szemben. A szemközti hegyről, alulról, a hídról távolról látható ellenség még nem volt látható, mivel attól az üregtől, amelyen a folyó folyt, a horizont a szemközti magasságban, legfeljebb fél mérföldnyire ért véget. Előtte egy sivatag terült el, amelyen itt-ott vándorkozákaink csoportjai haladtak. Hirtelen az út szemközti dombján kék csuklyás csapatok és tüzérség jelentek meg. Ezek a franciák voltak. A kozák járőr lefelé ügetett. Denisov osztagának minden tisztje és embere, bár próbáltak kívülállókról beszélni és körülnézni, nem hagyták abba, hogy csak arra gondoljanak, ami ott van a hegyen, és állandóan a láthatáron lévő pontokat nézték, amelyeket ellenséges csapatoknak ismertek fel. Délutánra ismét kitisztult az idő, ragyogóan lement a nap a Duna és az azt körülvevő sötét hegyek fölé. Csend volt, és arról a hegyről időnként kürtök és az ellenség sikoltozása hallatszott. A század és az ellenség között nem volt senki, kivéve a kis járőröket. Háromszáz ölnyi üres tér választotta el őket tőle. Az ellenség abbahagyta a lövöldözést, és az erősebben érezte azt a szigorú, fenyegető, bevehetetlen és megfoghatatlan vonalat, amely elválasztja a két ellenséges csapatot.
„Egy lépéssel túllépve ezt a határvonalat, amely az élőket a holtaktól elválasztó vonalra emlékeztet, és – a szenvedés és a halál ismeretlenére. És mi van ott? ki van ott? ott, ezen a mezőn túl, a fán és a nap által megvilágított tetőn? Senki sem tudja, én pedig tudni akarom; és félelmetes átlépni ezt a határt, és át akarsz lépni rajta; és tudod, hogy előbb-utóbb át kell lépned, és meg kell találnod, mi van a vonal túloldalán, ahogyan az is elkerülhetetlen, hogy megtudd, mi van a halál túloldalán. Ő maga pedig erős, egészséges, vidám és ingerült, és olyan egészséges és ingerlékeny emberek veszik körül.” Tehát, ha nem is gondolkodik, minden ember, aki az ellenség látókörében van, érzi, és ez az érzés különleges fényt és örömteli benyomást kölcsönöz mindennek, ami ezekben a percekben történik.
Lövésfüst jelent meg az ellenség dombján, és az ágyúgolyó fütyülve repült el a huszárszázad feje fölött. Az együtt álló tisztek a helyükre mentek. A huszárok óvatosan elkezdték kiegyenesíteni lovaikat. A században minden elhallgatott. Mindenki előre nézett az ellenségre és a századparancsnokra, parancsra várva. Egy másik, harmadik ágyúgolyó repült el mellette. Nyilvánvaló, hogy a huszárokra lőttek; de az ágyúgolyó egyenletesen gyorsan fütyülve a huszárok feje fölött elrepült, és valahol mögötte ütött. A huszárok nem néztek hátra, hanem egy repülő ágyúgolyó minden hangjára, mintha parancsra, az egész század monoton változatos arccal, lélegzetét visszatartva, miközben az ágyúgolyó repült, felemelkedett kengyelében, és újra leesett. A katonák anélkül, hogy elfordították volna a fejüket, oldalra pillantottak egymásra, és kíváncsian keresték bajtársuk benyomását. Minden arcon, Denisovtól a dögunalomig, az ajkak és az áll közelében a küzdelem, az ingerültség és az izgalom egy közös vonása jelent meg. Az őrmester a homlokát ráncolta, körbenézett a katonákon, mintha büntetéssel fenyegetne. Mironov Junker az ágyúgolyó minden egyes passzánál lehajolt. Rosztov, aki a bal szárnyon állt a lábával megérintett, de jól látható Gracsikon, boldog pillantást vetett egy diákra, akit nagyszámú közönség elé hívtak egy vizsgára, amelyen biztos volt abban, hogy kiváló lesz. Tisztán és világosan nézett mindenkire, mintha arra kérné őket, hogy figyeljenek arra, milyen nyugodtan áll az ágyúgolyók alatt. De az arcán is valami új és szigorú vonása jelent meg a szája közelében, akarata ellenére.
-Ki hajol ott? Yunkeg "Mig"ons! Hexog, nézz rám! - kiáltotta Gyenyiszov, aki képtelen volt egy helyben állni, és megpördült a lován a század előtt.
Vaska Denisov tömzsi orrú és fekete hajú arca és egész kicsi, vert alakja inas (rövid ujjaival, szőrrel borított) kezével, amelyben egy kihúzott szablya markolatát tartotta, pontosan olyan volt, mint mindig. főleg este, két üveg elfogyasztása után. Csak a szokottnál vörösebb volt, és felemelte bozontos fejét, mint a madarak, amikor isznak, kis lábával kíméletlenül sarkantyút nyomott a jó beduin oldalába, és mintha hanyatt esne, átvágtatott a másik oldalára. századot, és rekedtes hangon kiáltotta, hogy vizsgálják meg a pisztolyokat. Kirstenhez hajtott. A főhadiszállás kapitánya egy széles és nyugodt kancán lovagolt gyors ütemben Denisov felé. A hosszú bajuszú vezérkari kapitány, mint mindig, komoly volt, csak a szeme csillogott jobban, mint máskor.
- Mit? - mondta Denisovnak -, ebből nem lesz harc. Meglátod, visszamegyünk.
„Ki tudja, mit csinálnak” – morogta Denisov. „Ah! G” csontváz! - kiáltott a kadétnak, észrevéve vidám arcát. - Nos, vártam.
És elismerően mosolygott, láthatóan örült a kadétnak.
Rosztov teljesen boldognak érezte magát. Ekkor a parancsnok megjelent a hídon. Denisov vágtatott felé.
- Excellenciás uram, hadd támadjak! Megölöm őket.
– Miféle támadások vannak itt – mondta a főnök unott hangon, és összerándult, mintha egy zavaró légytől származna. - És miért állsz itt? Látod, a flankerek visszavonulnak. Vezesd vissza a századot.
A század átkelt a hídon, és megúszta a lövöldözést anélkül, hogy egyetlen embert is elveszített volna. Utána a második század, amely a láncban volt, átkelt, és az utolsó kozákok megtisztították azt az oldalt.
Két század pavlogradi lakos, miután átkeltek a hídon, egymás után visszament a hegyre. Karl Bogdanovics Schubert ezredparancsnok odahajtott Gyenyiszov osztagához, és Rosztovtól nem messze lovagolt, nem figyelt rá, annak ellenére, hogy a Teljanin feletti előző összecsapás után most látták először egymást. Rosztov, aki egy olyan ember hatalmában érezte magát, aki előtt most bűnösnek tartotta magát, nem vette le a tekintetét az ezredparancsnok sportos hátáról, szőke tarkójáról és vörös nyakáról. Rosztovnak úgy tűnt, hogy Bogdanics csak úgy tesz, mintha figyelmetlen lenne, és most már az volt a célja, hogy próbára tegye a kadét bátorságát, felegyenesedett, és vidáman körülnézett; aztán úgy tűnt neki, hogy Bogdanics szándékosan közel lovagolt, hogy megmutassa Rosztovnak bátorságát. Aztán arra gondolt, hogy ellensége most szándékosan küld egy századot kétségbeesett támadásra, hogy megbüntesse őt, Rosztovot. Úgy gondolták, hogy a támadás után odajön hozzá, és nagylelkűen kinyújtja neki, a sebesültnek a megbékélés kezét.

3.1. Tezaurusz koncepció

Tezaurusz (a görög θήσαϋροξ - kincs, készlet) vagy ideográfiai szótár (a görög ötletből - fogalom, ábrázolás, ötlet és grapho - írj, írj le) - a modern nyelvészetben: 1) az általános vagy speciális szókincs speciális szótára, amely a lexikai egységek közötti szemantikai kapcsolatokat tartalmazza; 2) szótár egy szó más szavakkal való szemantikai kapcsolata alapján történő kereséséhez; 3) a szavak rendezésének (elrendezésének) bizonyos módja a szótárban; 4) a lexikális összetétel megszervezésének módja, amely lehetővé teszi a gazdaságos „világmodellezést”.

Az első, eredeti jelentésben - tárház, kincs, a tezaurusz kifejezést L.V. Shcherba az „Általános lexikográfia tapasztalatai” című cikkben (harmadik ellenzék: tezaurusz - közönséges (magyarázó vagy fordítási) szótár). A tudós ezt írja: „Amikor azt mondják, hogy tezaurusz, ma leggyakrabban a „Thesaurus linguae latinae”-re gondolunk, amely öt német akadémia vállalkozása, amely 1900-ban indult, és mostanáig csak az M betűt hozta kihagyásokkal. Jellemző vonás Az ilyen típusú szótár Abból áll, hogy abszolút minden olyan szót tartalmaznak, amely egy adott nyelven legalább egyszer előfordul, és minden szó alatt abszolút minden idézet szerepel az adott nyelven elérhető szövegekből. A fenti oppozíció – tezaurusz – közönséges (magyarázó vagy fordító) szótár – alapja a „nyelvi anyag” és a „nyelvi rendszer” – fogalmak szembeállítása, amelyeket a „Nyelvi jelenségek hármas aspektusáról, ill. a nyelvészeti kísérletről.”

A kifejezés második jelentése P.M. „Thesaurus of English Words and Expressions” című, széles körben ismert szótár-tezauruszhoz kapcsolódik. Roger (Roget angol szavak és kifejezések tezaurusza, 1852) és annak folytatása, O. V. Baranov szótára.

Ebben az értelmezésben a tezaurusz kifejezés a szótár lexikális összetételének egy bizonyos rendszerezési és elrendezési módját jelöli (lásd a kifejezés harmadik jelentését).

A tezaurusz kifejezés negyedik jelentése a lexikális összetétel szervezésének e módszerének egyetemes elismeréséhez kapcsolódik, amely lehetővé teszi a gazdasági „világ modellezését”. Ebből a szempontból a tezaurusz-szótár „bármely tudományos vagy műszaki terület szókincsének szisztematikus rendezése, és a legáltalánosabb formában - az általános irodalmi szókincs, és ráadásul egy adott nyelv teljes szókincse”.

Yu.N. A Karaulova egy általános nyelvi tezaurusz, amely címsorai, szakaszai, zónái, területei szerkezetében és kapcsolataiban rögzíti a gondolatok non-verbális összekapcsolásának széles lehetőségét, biztosítja az emberi értékek számbavételét.

A.N. Baranov és D.O. Dobrovolsky „A szerkesztőktől” a „Modern orosz idiómák szótára-tezaurusza” című előszavában a következő meghatározást adja a tezaurusznak - egy speciális szótártípus, amely különbözik a többitől (különösen magyarázó, kétnyelvű stb.) a nyelvi anyag rendszerezése. A tezauruszban a nyelvi egységek nem ábécé sorrendben jelennek meg, mint a normál szótárban, hanem jelentésük alapján csoportosítják őket.

L.P. Krysin a tezauruszt (ideográfiai szótár) egy speciális magyarázó szótárnak nevezi, szótárnak „ellenkezőleg”. „Ha egy magyarázó szótárban – írja a tudós – a szótári szócikk „bejegyzése” egy szó, és a szótári szócikk tartalma e szó jelentésének értelmezése, akkor az ideográfiai szótárban a „szócikk” a szótári szócikk jelentése, gondolata (innen ered ennek a szótártípusnak a neve - ideográfiai), illetve tartalma egy adott jelentést kifejező szavak listája. Ha pedig a magyarázó szótár nélkülözhetetlen eszköz a szöveg megértéséhez, akkor az ideográfiai szótár használható a szövegalkotás során: nagyon gyakran az ember szeretne kifejezni egy bizonyos gondolatot, de nem találja a megfelelő szavakat; ideográfiai szótár könnyíti meg ezeket a kereséseket. A tezauruszok két fő típusa létezik:

nyelvi tezaurusz - a szövegek értelmes elemzése eredményeként kiválasztott és az elfogadott osztályozási rendszer szerint rendszerezett természetes nyelvi szavak listáját tartalmazó szótár;

statisztikai tezaurusz - információkereső szótár, amely egy adott témájú szövegek statisztikai elemzése eredményeként kiválasztott szavak listáját tartalmazza, és szótári bejegyzésekbe csoportosítva a szavak azonos szövegekben való együttes előfordulásának gyakorisága alapján.

Az információkereső tezauruszok (IRT) megkönnyítik az információkeresést az automatikus feldolgozás során. Az IPT maximálisan feltárja a lexikai egységek közötti szemantikai kapcsolatokat. Ahogy az IPT-ről szóló GOST kimondja, „az egynyelvű információ-visszakereső tezaurusz lexikai egységek ellenőrzött és változó szótára, amely egyetlen természetes nyelv szókincsén alapul, szemantikai kapcsolatokat jelenít meg a lexikai egységek között, és információk feldolgozására és visszakeresésére szolgál.”

Az IPT alapegysége a leíró kifejezések. Az IPT alfabetikus, lexikális-szemantikai része leíró cikkek halmaza.

A leíró szótárak célja egy bizonyos terület szókincsének teljes leírása, és minden felhasználás rögzítése; rögzítik az összes elérhető releváns esetet. A leíró szótár tipikus példája a V. I. „Az élő nagy orosz nyelv magyarázó szótára”. Dahl (az első kiadás négy kötetben 1863-1866-ban jelent meg). Alkotójának nem a nyelv szabványosítása volt a célja, hanem a nagyorosz beszéd teljes sokféleségének – beleértve a népnyelv dialektusformáit – teljes körű leírása.

Minden leíró szótár bejegyzés egy leíróval kezdődik, amelyben a leíró szinonimái, valamint a fő lexikális egységekhez nemzetség-fajok vagy asszociatív viszonyok szerint társított egyéb lexikai egységei a GOST cikkben találhatók.

Így a tezauruszok, különösen elektronikus formátumban, az egyik leghatékonyabb eszköz az egyes témakörök leírására.

A tezaurusz ritkán található tiszta formájában. A valódi szinonimaszótárban az eredeti ötlet leegyszerűsödik vagy idegen, de potenciálisan szükséges információ kerül a felhasználóhoz. A leghíresebb ma az „orosz szemantikai szótár”, Yu.N. Karaulova, „Azonos nevek szótára” N.Yu. Shvedova, „Az orosz nyelv tematikus szótára”, L.G. Smekhova és mások.

Összegzés. Tezaurusz-kifejezés L.V. Shcherba egy szótárral kapcsolatban használta, amely lehetőség szerint rögzítette az összes kontextust, amelyben egy adott szó előfordul. A tezauruszok jellegzetessége, hogy felsorolják az adott nyelven legalább egyszer előforduló összes szót, és minden szó alatt az adott nyelven elérhető szövegekből származó összes idézet szerepel. A tezauruszszótár tartalma nyelvi anyag, a normál szótár pedig nyelvi anyag és nyelvi rendszer (L.V. Shcherba kifejezései).

Ezt a jellemzőt különféle – gyakran paradigmatikus (szinonim vagy antonimikus) – keresztkapcsolatok egészítik ki, amelyek a jelentések közösségét vagy ellentétét jelzik. Ezen kívül különféle egyesületek. kapcsolatok (azaz szintagmakapcsolatok).

Így a tezaurusz (ideográfiai szótár) feladata, hogy képet adjon a nyelvi anyag egy bizonyos keresztmetszetének szemantikai szerveződéséről, bemutatva a fő szemantikai mezőket, azok belső szerkezetét és külső kapcsolatait. A tezaurusz egyértelműen demonstrálja a nyelv rendszerszerűségét, lehetővé téve az egyes nyelvi egységeket és egységcsoportokat összekötő sokféle kapcsolat megtekintését.

3.2. A világról alkotott fogalmi ismeretek tezaurusz formájában történő megjelenítésének története

Az emberi gondolkodás megfigyelhető története során végig érezhető volt, hogy a szavakat hasonlóság, szomszédság és jelentésük analógiája szerint kell rendezni.

A világról alkotott fogalmi ismeretek tezaurusz formájában való megjelenítésének gondolatának felkutatásában segítségünkre lesz a tezauruszok (ideográfiai szótárak) összeállításának történetéhez folyamodva.

Így a civilizáció hajnalán, amikor az emberek csak ideogrammok és szimbólumok segítségével tudták írásban kifejezni gondolataikat, valószínűleg csak az volt a szótár, amelyben a szavakat tematikus csoportokba rendezték. A szótárírónak akkoriban egyszerűen nehéz volt más kritériumot találni a szavak osztályozására, mint a valóságban létező kapcsolatokat.

Sajnos nincs bizonyítékunk arra, hogy az ideográfiai írást használó népeknek valóban volt-e ilyen szótáruk. Az általunk ismert legősibb ideográfiai osztályozási kísérletek közé tartozik a görög grammatikus, az Alexandriai Könyvtár igazgatója, Bizánci Arisztophanész Attikai Lexeis (meghalt Kr. e. 180-ban).

A II században. n. e. megjelenik az „Onomasticon” című főmű, amelyet az egyiptomi Naokratisz város szülötte, Julius Pollux (igazi nevén Polydeuces) szótáríró és szofista állított össze görög nyelvű anyagból. Yu. Pollux számos művet írt, de csak az „Onomasticon” jutott el hozzánk (Pollux Yu. Onomasticon. M., 1956).


A névjegyzék 10 könyvből áll. A könyvek lényegében külön értekezések, és egy adott témához kapcsolódó legfontosabb szavakat tartalmazzák. Így az első könyv istenekről és királyokról beszél; a másodikban - az emberekről, életükről és élettani szerkezetükről; a harmadikban - a rokonságról és a civil kapcsolatokról stb. A szótárban szereplő szavakat rövid értelmezések kísérik. A modern időkben a szótárt először 1502-ben adták ki Velencében.

2. és 3. század között. n. e. Megjelent az „Amarakosha” csodálatos szanszkrit szótár (Amarakosha. Párizs, 1839). Szerzője Amara Sina ősi indiai költő, grammatikus és lexikográfus, akit „egyike annak a kilenc gyöngynek, amely Vikramaditya trónját díszíti”. Az Amarakosha oroszra fordítva Amara kincstárát jelenti. A szótár 10 ezer szót tartalmaz. Hogy jobban megjegyezzük a szavak jelentésének értelmezését, a szótári bejegyzéseket versek formájában állítjuk össze. Az összes szótári anyag 3 könyvre van osztva. Minden könyv több fejezetet tartalmaz, és a fejezetet, ha szükséges, több részre osztják. Az első könyv az égboltnak, az isteneknek és mindennek, ami velük közvetlenül kapcsolatos. A második könyv a földdel, településekkel, növényekkel, állatokkal és emberrel kapcsolatos szavakat tartalmaz (először az embert élőlénynek, majd társas lénynek tekintik; a szerző kortárs társadalmának teljes kasztstruktúrája megjelenik szemünk előtt; papok , mint Isten megbízottjai, a legfelül vannak, alatta pedig a katonaemberek és a királyok, még lejjebb a földbirtokosok, legalul pedig a kézművesek, zsonglőrök, szolgák stb.). A harmadik könyv szigorúan nyelvi jellegű, amint az hat fejezetének címéből is kitűnik.

A szótár csak a 18. század végén vált ismertté az európai tudósok előtt, amikor 1798-ban Rómában megjelent az első része. 1808-ban angol szanszkrit tudós, G.T. teljes egészében kiadta, angolra fordította. Colebrooke (N.T. Colebrooke). 1839-ben jelent meg francia fordítása, amelyet A.L. Delonchamps (A.L. Deslongchamps). A szókincs szemantikai osztályozásának gondolatának további fejlesztése az úgynevezett világnyelv problémájához kapcsolódik.

Összegzés. A legáltalánosabb értelemben ez a szókincs ideográfiai osztályozásának hagyományának fejlődésének első állomása. Ezt a szakaszt nevezhetjük az ideográfiai szótárak előtörténetének. Most tanácsos áttérni a tezaurusz-szótárak modern osztályozására.

Könnyen belátható, hogy a leírt művek mennyire különböznek az alfabetikus szótáraktól. Ha az alfabetikus szótárakban a szavak megjelenítését egy olyan konvencionális és erősen semleges eszköz szabályozza, mint az ábécé, akkor az ideográfiai szótár felépítésénél magának a lexikográfusnak a világképe válik meghatározóvá.

3.3. A szótárak-tezauruszok osztályozásának elvei

Amint azt fentebb már bemutattuk, a tezauruszok osztályozásának összeállításának problémája nem új keletű, és több évtizede felkeltette számos hazai és külföldi nyelvész figyelmét (C. Marello, V. V. Morkovkin, L. P. Stupin, V. V. Dubichinsky stb.). ). Az ezen a területen végzett kutatások eredménye e lexikográfiai munkák alternatív osztályozásának megalkotása volt. Az egyik legújabb osztályozás a következő kritériumokon alapul: a) a szókincs egységek közötti szemantikai kapcsolatok típusa; 2) a szókincs mennyisége; 3) a szókincs általánosítása; 4) a lexémák jelentésének fejlesztése; 5) a lexémák nyelvtani és stilisztikai minősítése; 6) a lexémák működésének bemutatása; 7) a képviselt nyelvek száma; 8) a lexémák szemantizálására használt szemiotikai eszközök típusa. Ez az osztályozás az O.M. által korábban létrehozott osztályozásokon alapul. Karpova és I. Burkhanov (Burchanov I. A Lexical Meanings stilisztikailag és pragmatikailag releváns aspektusainak ideográfiai leírásáról. London, 1996); Az osztályozásnál használt terminológia bekerül a lexikográfiai apparátusba


V.V. Morkovkin, Yu.N. Karaulov, K. Marello. Az osztályozási kritériumokat O.M. Karpova. Ugyanakkor C. Marello háromféle tezauruszt különböztet meg:

kumulatív, amelyek szavak csoportjai jelentésük meghatározása nélkül;

végleges, egy szócsoport egyes lexikai egységeit értelmezi;

két- és többnyelvű tezauruszok utazóknak (Marello C. Thesaurus//W.D.D. 1990. V. 2. P. 1083).

A kumulatív tezauruszok nemcsak egy érthetőbb, pontosabb, stilisztikailag helyes szó megtalálására adnak lehetőséget egy-egy szemantikai mezőben való tartózkodás esetén, hanem a tematikus számítógépes adatbankok kialakításának alapjává is válnak.

A definitív tezauruszok a jelentésdefiníciókkal együtt etimológiai információkat és irodalmi művekből származó idézeteket tartalmazhatnak, amelyek az ilyen típusú tezauruszok közvetlen enciklopédikus irányultságát mutatják. Ezen túlmenően az ilyen típusú szótárak bevezetik a felhasználót a szükséges fogalomrendszerbe, elmagyarázzák a fogalmak lényegét, hasonlóságait és különbségeit, paradigmatikus és szintagmatikai összefüggéseit, és esetenként tájékoztatást adnak a fogalom kiejtéséről, nyelvtani, szóalkotási és egyéb lehetőségeiről. ezeket a fogalmakat jelölő lexikai egységek.

Az utazók számára készült két- és többnyelvű tezauruszok általában tematikus szekciók szerint készülnek: számok, étel, közlekedés, szállodák stb. két vagy több nyelv fordítási megfelelőivel.

A létező tezaurusz-szótárak típusainak minél teljesebb megjelenítése érdekében többszintű osztályozás jön létre. Először is, a szókincs egységek közötti szemantikai kapcsolatok típusa szerint a tezauruszok három nagy osztályra oszthatók:

1. Asszociatív tezaurusz (a terminológiát Yu.N. Karaulov

2. Analóg tezaurusz (terminológiája: V. V. Morkovkin

3. Ideográfiai (ideológiai) tezaurusz (L. V. Shcherba, V. V. Morkovkin terminológiája. A fenti három szinonimaszótártípus a lexémák következő szemantikai kapcsolatait tükrözi, ill.

1. Szemantikai-szintaktikai kapcsolatok, amelyek alapján
A szavakat csoportokba vagy párokba vonják, amelyek előfordulásukat és létezésüket kettős kapcsolatok határozzák meg: szemantikai és szintaktikai. A szavak közötti szemantikai kapcsolatok főként a mondatban predikatív funkciót betöltő igék és melléknevek, valamint a főnevek között jönnek létre, például:

a) egy cselekvés és a végrehajtandó szerv (hangszer) között: megfogni - kezet, látni - szemet, úszni - csónakot stb.;

b) az egy alanyt igénylő és egy alanyt igénylő cselekvési igék között: ugat - kutya, szomszéd - ló stb.; c) az igék és egy bizonyos nyelvtani kiegészítés között, amit az előbbiek megkívánnak: aprít - fa, eszik - étel stb.

Az asszociatív tezaurusz tehát egy szótár-tezaurusz, amely a közöttük fennálló szemantikai és szintaktikai kapcsolatok alapján rendezi a lexikai egységeket, és csoportokat rendez el a középszavak grafikus formájának megfelelően.

2. Lexiko-szemantikai kapcsolatok. Az ilyen típusú kapcsolatokkal való csoportosítás a szavak fő jellemzője - lexikális jelentés - szerint történik. Ebben az esetben a lexiko-grammatikai összefüggéseket is figyelembe veszik, amelyek formájában a szavak egyedi jelentései valósulnak meg.

Így az analóg tezaurusz egy lexikográfiai kézikönyv, amelynek makrostruktúrájának fő egysége a lexikális-szemantikai csoport; a csoportok a szemantikai dominánsok betűrendjében vannak rendszerezve.

3. Tárgyi vagy tematikus kapcsolatok, ahol a szavak egy csoportba való összevonása a következő szavakkal jelölt objektumok és folyamatok funkcióinak hasonlósága vagy közössége miatt következik be: objektumok
háztartási cikkek, testrészek, ruhatípusok, épületek stb.

Az ideográfiai tezaurusz tehát olyan lexikográfiai munka, amely a lexikális egységeket alanyi (tematikus) csoportok részeként jeleníti meg, és hierarchikus struktúrába rendezi, amely a világról alkotott fogalmi ismereteket reprezentálja.

Ugyanezen kritérium keretein belül tovább bontjuk a típusokat. Így az ideográfiai tezauruszt a következő 4 típus képviseli:


Valójában egy ideográfiai tezaurusz.

Tematikus szótár.

Szisztematikus szótár.

Tematikus-rendszertani szótár


Maga az ideográfiai tezaurusz az ideográfiai szótár egy speciális típusa, amelynek makrostruktúrája a nyelv lexikális összetételére ráépülő a priori szinoptikus térkép szerint szerveződik. Az ideográfiai szótárak más típusaitól eltérően magát az ideográfiai tezauruszt a tudományos taxonómia alapján létrehozott logikus és szigorúan rendezett osztályozási struktúra jellemzi, még akkor is, ha az általános szókincs lexikográfiai leírás tárgya (New Webster "Thesaurus. Landoll, 1991).

A tematikus szótár az ideográfiai tezaurusz egy speciális típusa, amelynek makrostruktúrájának fő egysége egy tematikus csoport, beleértve a lexémákat is, amelyek a denotációik (referenciáik) besorolása alapján egyesülnek, és a megfelelőségi szempontok szerint mérlegelnek. konkrét téma.

A szisztematikus szótár az ideográfiai tezaurusz egy speciális típusa, amelynek osztályozási szerkezete a nyelv lexikai egységei között fennálló tényleges szemantikai kapcsolatokat hivatott reprezentálni. Az osztályozási struktúra lényegében a szókincs lexiko-grammatikai osztályozását, vagyis paradigmatikus struktúráját reprezentálja, alá- és összetételi szempontból leírva.

A tematikus-rendszertani szótár az ideográfiai szótár egy speciális típusa, amely a tematikus és a szisztematikus szótár kombinációja.

Összegzés. A nyelvi tezauruszok figyelembe vett osztályozása a következő típusú szótárakat tartalmazza: analóg tezaurusz (V. V. Morkovkin terminológiája); ideográfiai (ideológiai) tezaurusz (L. V. Shcherba és V. V. Morkovkin terminológiája); assz. tezaurusz (a terminológiát Yu.N. Karaulov). Következő bemutatásra kerül a pop. feltárulnak a tezauruszok és vonásaik.

3.4. Népszerű tezauruszok és jellemzőik

A rendelkezésre álló szótárak-tezauruszok közül a leghíresebb, amelynek ez a kifejezés maga is köszönheti létezését, az angol nyelv anyagán jött létre; ez a P.M. folyamatosan újranyomtatott tezaurusza. Roger Roget angol szavak és kifejezések tezaurusza (1852).

Fontos megjegyezni, hogy az angol szavak és kifejezések tezaurusza szerzője teljes mértékben kihasználta az addigi tapasztalatokat. „Az elv, amely vezérelt a szavak osztályozása során” – írja P.M. Roger, ugyanaz, amelyet az egyének osztályozására használnak a természetrajz különböző területein. Ezért az általam kiemelt részek a botanika és az állattan természetes családjainak felelnek meg, és a szavak sorát ugyanazok a kapcsolatok rögzítik, amelyek egyesítik a növények és állatok természetes sorozatát."

DÉLUTÁN. Roger úgy vélte, hogy a szavak jelentésük szerinti meggyőző osztályozása lehetetlen mindaddig, amíg a valóság tárgyait, amelyeket ezeknek a szavaknak neveznek, megfelelően tanulmányozzák és meg nem szervezik. Ezért munkáját azzal kezdi, hogy az angol nyelv fogalmi területét négy nagy osztályra osztja: absztrakt relációk, tér, anyag és szellem (elme, akarat, érzések). Ezek az osztályok további nemzetségekre oszlanak, amelyek viszont bizonyos számú fajra oszlanak.

A P.M. ideográfiai szótárának hiányosságai közé tartozik. A tudósok a következőket tulajdonítják Rogernek: 1) a fő fogalmi osztályok nem teljesen meggyőző nómenklatúrája; 2) az absztrakt logika felülkerekedik a szavak természetes kapcsolatai felett; 3) a használat viszonylagos kényelmetlensége (ezt a hiányosságot a későbbi kiadásokban nagyrészt kijavították).

A modern orosz lexikográfiában számos szótár található, amelyeket szótárak-tezauruszok (ideográfiai szótárak) közé kell sorolni. Ez például Yu.N. vezetésével jött létre. Karaulova „Orosz szemantikai szótár”, „Orosz szemantikai szótár”, szerkesztette N.Yu. Shvedova, „Az orosz nyelv tematikus szótára”, L.G. Sayakhova, D.M. Khasanova és V.V. Morkovkina, „Az orosz igék lexikális-szemantikai csoportjainak szótára”, szerk. E.V. Kuznetsova, „Az orosz nyelv ideográfiai szótára” O.S. Baranova, „Az ember belső világának konceptoszférája az orosz nyelvben”, V. I. Ubiyko, átfogó oktatási szótár „Az orosz nyelv lexikai alapja” V. V. irányítása alatt. Morkovkina.

Ismerjünk meg néhányat közülük.

A modern orosz idiómák szótára-tezaurusza” című kiadványt szerkesztette A.N. Baranova és D.O. Dobrovolsky négy fő részből áll: 1) szinopszis; 2) legenda; 3) a szótár-tezaurusz fő része; 4) mutatók. A Szinopszis célja, hogy általános képet adjon a tezaurusz törzsének felépítéséről. Felsorolja az összes taxont altaxákkal és a megfelelő paradigmatikus hivatkozásokkal. A Tezaurusz-szótár fő része szótári bejegyzések gyűjteménye, amelyek csoportokba (taxák) és alcsoportokba (subtaxa) vannak csoportosítva, a bennük leírt idiómák jelentésének megfelelően. Minden cikk tartalmaz egy idiómát és példákat a modern orosz nyelvben való használatára. Szinopszis, Jelmagyarázat, Indexek a fent említett Szótár-tezaurusz szolgáltatási részei, amelyek lehetővé teszik a felhasználó számára a gyors és hatékony munkavégzést. A jelmagyarázatot olyan esetekben használjuk, amikor nincs szükség idiómahasználati példákra, mert a példák kivételével minden információt reprodukál. Valójában ez a szótár szókincse. A szókincs egységei a lemmák. A lemma ebben az esetben az idiómát az eredeti (szótári) formájában reprezentálja, és lehetőség szerint tartalmazza annak összes jelentős változatát. Például a stand still része a lemma mark time, stand still, skid a helyén.

A szótár két mutatót tartalmaz. A könyv végén található egy cikk „A modern orosz ideomatika szótárának elméleti koncepciója”, amely részletesen elemzi a projekt tudományos jellemzőit.

„Orosz szemantikai szótár”, amelyet Yu.N. vezetése alatt hoztak létre. A Karaulova 10 ezer orosz szót tartalmaz, amelyek 1600 fogalmi csoportra vannak osztva. A csoportok azonosítása a magyarázó szótárakban ismétlődő szóértelmezési elemeken alapul: például „cselekvés”, „tulajdon”, „eszköz” stb.

„Orosz szemantikai szótár”, amelyet N. Yu akadémikus vezetésével hoztak létre. Shvedova, kissé eltérő elveken alapul, amelyek mind az ideográfiai, mind a magyarázó szótárak összeállítására jellemzőek. Először is, a nyelv összes szava négy osztályba van osztva: 1) jelző egységek (névmások), 2) elnevezés (gondolati szavak), 3) tényleges összekötők (kötőszavak, prepozíciók, összekötő igék), 4) osztályozás (modális szavak). , részecskék, közbeszólások). Másodszor, az egyes osztályokon belül minden szó a beszédrészek szerint van elosztva. Harmadszor, az egyes beszédrészeken belül halmazokat és részhalmazokat azonosítanak a tematikus közelség, vagy fordítva, a szójelentések ellentét alapján.

A DUDEN egy könyv képekkel (rajzokkal) a bal oldalon (különböző szoftverek szerint), számozott részekkel (a legkisebbig). A jobb oldalon ezt a számozott listát címek kísérik (akár két nyelven is). Például a vasúti berendezések, állomások és vágányok egy teljes oldalra vannak rajzolva. A jobb oldalon a nyilak, szemaforok, mankók stb. nevei láthatók.

„Az orosz nyelv tematikus szótára” L.G. Sayakhova, D.M. Khasanova és V.V. A Morkovkina 25 ezer lexikai egységet tartalmaz, három nagy osztályba csoportosítva: „Ember”, „Társadalom”, „Természet”, amelyek fokozatosan kisebb alosztályokra ágaznak. Például az „Ember” osztályban vannak „Emberi test és szervezet”, „Emberi élet”, „Külső, személy megjelenése”, „Ember érzelmi megjelenése” stb. alosztályok. Mindegyik alosztály még konkrétabbakra osztva: „ Egy személy érzelmi világa” - „Az ember mentális tulajdonságai” - „Temperamentum”, „Karakter” - „Általános jellemvonások” stb. Az egyes osztályokhoz tartozó szavak jelentését és használatát a leggyakoribb kifejezések illusztrálják. Például a „nevetés” szóhoz, amely a „Férfi” osztály „érzések, érzelmek kifejezése” alcsoportjába tartozik, olyan kombinációk jelzése kíséri ezt a szót, mint vidám nevetés, örömteli nevetés, gyereknevetés, kitörés. nevetésbe stb.

Összegzés. Az egyes tantárgyak leírásának egyik hatékony eszköze, különösen elektronikus formában, a tezauruszok.

A tezaurusz kifejezést régóta széles körben használják a nyelvészetben egy speciális szótártípus megjelölésére, amely bizonyos mértékben tükrözi a „világ képét”, „a világ nyelvi modelljét” (Yu.N. Karaulov szerint). A tezaurusz mint „kincstár” szemantikai hatókörét tekintve nőtt, és új értelmet kapott. Szótárnak kezdték nevezni, amely nemcsak magába szívja a nyelv minden lexikális gazdagságát, hanem bizonyos logikai-rendszertani módon rendszerezi is. A tezauruszszótárban a szavakat csoportokba vonják össze, és ez az egyesülés azon az alapon történik, hogy egy adott szó képes egy bizonyos fogalmat közvetíteni.

A tezauruszszótárt a nyelvészet mindig is egyfajta univerzális rendszernek tekintette, amely biztosítja a világról szóló kollektív (egy adott társadalom számára) tudás verbális formában történő tárolását. Más szótáraktól eltérően a tezaurusz-szótárban ezeket az ismereteket olyan strukturált formában tárolják, amely tükrözi a „világ szerkezetéről” alkotott elképzeléseinket.

Jelenleg a leghíresebb és legnépszerűbb tezauruszok az angol Roger's Thesaurus, O.V. Ideographic Dictionary of the Russian Language. Baranova, orosz szemantikai szótár Yu.N. Karaulova, N. Yu akadémikus orosz szemantikai szótára. Shvedova, DUDEN, Az orosz nyelv tematikus szótára L.G. Sayakhova, D.M. Khasanova és V.V. Morkovkina.

Egy tantárgyi terület fogalmi rendszere Bármely szakterület alapja ennek a területnek a fogalomrendszere. Fogalom definíciója: A fogalom olyan gondolat, amely általánosított formában tükrözi a valóság tárgyait, jelenségeit tulajdonságaik és kapcsolataik rögzítésével; ez utóbbiak (tulajdonságok és kapcsolatok) a fogalomban általános és specifikus jellemzőkként jelennek meg, a tárgyak és jelenségek osztályaival korrelálva (Linguistic Dictionary)


Fogalmak és kifejezések Egy témakör fogalmának szövegben való kifejezésére szavakat vagy kifejezéseket használnak, amelyeket kifejezéseknek nevezünk. Egy tantárgyi terület fogalmi halmaza alkotja terminológiai rendszerét. Egy adott kifejezés kapcsolatát a tárgykör fogalomrendszerének többi kifejezésével egy definíció határozza meg


A fogalom definíciói? Olyan szó (vagy szókombináció), amely a tudomány, a technológia, a művészet, a társadalmi élet stb. bármely speciális területének meghatározott fogalmának pontos megjelölése. || Speciális szó vagy kifejezés, amelyet valami megjelölésére használnak. egyik vagy másik környezetben, szakmában (az orosz nyelv nagy magyarázó szótára)


Kifejezések - fogalmak pontos elnevezése Általában a szakterületen minden fogalom legalább egy egyértelműen értett kifejezésnek felel meg, melynek jelentése ez a fogalom. - terminusok, a hagyományos terminológiaelmélet értelmében A kifejezések tulajdonságai - a fogalmak pontos megnevezése - a kifejezésnek közvetlenül a fogalomhoz kell kapcsolódnia, egyértelműen kell kifejeznie a fogalmat; - a kifejezés jelentésének pontosnak kell lennie, és nem fedheti át jelentését más kifejezésekkel; - a kifejezés jelentése nem függhet a szövegkörnyezettől. A fogalmat pontosan megnevező kifejezések a terminológiaelmélet, a terminológusok kutatásának tárgyát képezik


Szövegkifejezések A tárgykör valós szövegeiben egy fogalomra hivatkozni az alapfogalmakon kívül sokféle nyelvi kifejezés is használható, amelyeket szövegkifejezéseknek nevezünk: - szintaktikai és szóalkotási lehetőségek: költségvetési források címzettje - költségvetés befogadó; - lexikális lehetőségek – közvetlen leírás, vitathatatlan leírás; - kontextustól függően poliszemantikus kifejezések, amelyek a szakterület különböző fogalmaira utalnak, például a valuta szó különböző kontextusokban jelenthet nemzeti valutát vagy devizát.














Jelekkel ellátott leírók Alom - a leíró nevének része daruk (emelőberendezések) vs daruk (madarak) kagylók (szerkezetek) – különböző tezauruszok összehasonlítása Fázispreferenciák: –Fonográf felvételek vs. lemezek (fonográf) Jelek és többes szám: Fa (anyag) Erdő (erdős területek)






Többszavas kifejezéseken alapuló leírók beépítése A kifejezés felosztása növeli a kétértelműséget: növényi táplálék A kifejezés jelentése a szórendtől függ: információtudomány - tudományos információ Az egyik összetevő szó kívül esik a tezaurusz hatókörén, vagy túl általános: először segély A deszkriptor összefüggései nem következnek a szerkezetéből: –Mesterséges vese, menekültstátusz, közlekedési lámpák




Asszociatív viszonyok Tevékenységi terület - színész - Matematika - matematikus Szakág - vizsgálat tárgya - Neurológia - idegrendszer Akció - szer vagy eszköz - Vadászat - vadász Cselekvés - cselekvés eredménye - Szövés - szövet Cselekvés - cél - Könyvkötés - könyv Ok-okozat - Halál – temetés Érték – mértékegység – Áramerősség – amper Cselekvés – partner – Allergén – allergiaellenes gyógyszer stb.


Információlekérő tezauruszok: a fejlődés szakaszai Első szakasz: az indexelők tetszőleges szavakkal és kifejezésekkel írják le a szöveg fő témáját A sok szövegből nyert kifejezéseket összegyűjtik. A jelentésükben hasonló kifejezések közül a legreprezentatívabbat választják ki. feltételes szinonimák, a többit töröljük A konkrét kifejezések általában nem szerepelnek


Információvisszakereső tezauruszok: a fejlesztés művészete A leírók olyan kifejezések, amelyek a dokumentum fő témájának kifejezéséhez szükségesek A szinonimák csak a legszükségesebbek szerepelnek (például más betűvel kezdődően), hogy ne bonyolítsák az indexelő munkáját Kapcsolódó a kifejezéseket egy tagra kell csökkenteni a szubjektivitás indexálásának elkerülése érdekében Hierarchia szintek, konkrét kifejezések szerepeltetése korlátozott


Információkereső tezaurusz: a fejlesztés művészete - 2 Bonyolult esetekben a leírókat jelzésekkel és megjegyzésekkel látják el !!! A hagyományos információkereső tezaurusz egy mesterséges nyelv, amely valós kifejezések alapján épül fel




Hagyományos IPT: alkalmazás az automatikus feldolgozásban A szoftver valódi nyelvének ismeretének hiánya A szoftver valódi nyelvének ismeretének hiánya Jogalkotási indexelő szókincs: Jogalkotási indexelő szókincs: – a TROOPS szövegben – a tezauruszban MILITARY FORCES – a szövegben CAPITAL – nagybetűs, a tezauruszban csak a nagybetűs Javasolt: minden leíró kiegészítése szavak és kifejezések felsorolásával Javasoljuk: minden leíró kiegészítésre kerül szavak és kifejezések listáival De: poliszémia vagy különböző leírókhoz kapcsolódó. De: poliszémia vagy különböző leírókkal kapcsolatos. Egyértelmű jelölés felbontása Egyértelművé tétel felbontása


Hagyományos IPT: automatikus lekérdezésbővítés Probléma asszociációkkal Javasolt: súlyok megadása súlyok megadása relációk nevei megadása: objektum, tulajdonság stb. adja meg a kapcsolatok neveit: objektum, tulajdonság stb. KÖVETKEZTETÉS: meg kell tanulnia, hogyan építsen nyelvi erőforrásokat kifejezetten a szöveggyűjtemények automatikus feldolgozásához


EUROVOC tezaurusz – az Európai Közösség többnyelvű tezaurusza Tezaurusz 9 nyelven EUROVOC orosz változata – +5 ezer fogalom, amely tükrözi az orosz sajátosságokat Többnyelvű tezaurusz – Leíró – nevek különböző nyelveken – Aszkriptorok – egyes nyelvekhez


Automatikus indexelés az EUROVOC tezaurusz szerint, szabályok alapján (Hlava, Heinebach, 1996) Példaszabály: IF ("Technológia" közelében ÉS "Fejlesztéssel") USE Közösségi program USE fejlesztési támogatás ENDIF 40 ezer szabály. Tesztelés: 20 leggyakrabban előforduló leíró a szövegben, automatikusan generálva - 42%-os teljesség, összehasonlítva a kézi rubrikálással


Automatikus indexelés a szavak és a leírók közötti megfelelési súlyok megállapításán alapulóan (Steinberger et al., 2000) 1. szakasz - a szövegszavak és a hozzárendelt leírók közötti megfelelés megállapítása statisztikai mérőszámok alapján (khi-négyzet vagy log-likelihood) HALÁSZATI MENEDZSMENT leíró - a következő szavak (tömeg szerinti csökkenő sorrendben): halászat, hal, állomány, halászat, megőrzés, gazdálkodás, hajó stb. 2. szakasz önmagában az indexelés - a súlyok logaritmusainak összegzése vagy vektorok skaláris szorzata


Ingyenes lekérdezések és információvisszakereső tezauruszon alapuló lekérdezések kombinációja. Manuálisan indexelt gyűjtemény – összefüggések megállapítása A felhasználó természetes nyelven tesz fel egy lekérdezést. A lekérdezés kibővül azokkal a tezaurusz-leírókkal, amelyek a legerősebben korrelálnak a lekérdezéssel (Petras 2004 Petras 2005). Például Fizetésképtelen társaságok kérésére beszerezhető a likviditás, eladósodottság, vállalkozás, cég leíró listája, és bővíthető a lekérdezés A kísérlet pontossága 13%-kal nőtt.



Az egyik új alapkoncepció, amely az információfeldolgozás gépi módszereinek fejlesztése eredményeképpen alakult ki, különösen az egyik nyelvről a másikra történő fordításkor, a tudományos és műszaki információk keresésekor, valamint az automatizált vezérlőrendszerekben egy vállalat információs modelljének létrehozása során. , egy információs rendszer tezaurusz fogalma volt. A „tezaurusz” kifejezés a külvilággal kapcsolatos ismeretek halmazát jelenti – ez az úgynevezett T világ tezaurusza. hierarchikus felosztással, figyelembe véve az egyes fogalmak alárendeltségét, vagy a világ általános tezauruszának részeinek elkülönítésével. Az információkereső rendszerekben található tezaurusz fontos szerepet játszik a kívánt dokumentum kulcsszavak segítségével történő megtalálásában. Ezért a tezaurusz készítése összetett és felelősségteljes feladat. De ez a feladat automatizálható is.

Az osztályozás legáltalánosabb meghatározása szerint a halmazok particionálása és rendezése. Ezt az objektumok osztályokba való felosztásának nevezik, amelyek ezekben a jelenségekben vagy objektumokban rejlő közös jellemzőn alapulnak, és megkülönböztetik őket azoktól az objektumoktól és jelenségektől, amelyek más osztályokat alkotnak. Szükség esetén minden osztály alosztályokra osztható. A rubrikátor az osztályozás egy speciális típusa. Ezért ezeket az általános rendelkezések alapján hozzák létre:
 az osztályozás megalkotásának tudományos alapja;
 a tudomány jelenlegi fejlettségi szintjének tükrözése;
 hivatkozási és hivatkozási rendszer, valamint referencia- és referenciakészülék (CCA) megléte.

A rubrikátor azonban egy pragmatikus osztályozás, amelyet az információáramlás és a szakemberek igényei alapján hoztak létre. Ez a különbség az a priori besorolásoktól, mint például az UDC és az IPC.

Az osztályozások és különösen a rubrikátor fő funkciói a következők:
 az információs alrendszerek tematikus differenciálása;
 információtömbök kialakítása bármilyen jellemző alapján;
 tájékoztató anyagok, kiadványok rendszerezése;
 aktuális és retrospektív keresés;
 dokumentumok és lekérdezések indexelése;
 kapcsolat más osztályozási sémákkal;
- normatív funkciók.

Elválasztó fogalmak révén épülnek fel - osztályozási objektumok az ezen objektumok jellemzői közötti megállapított kapcsolatok alapján, bizonyos logikai elvekkel összhangban. Azt a jellemzőt, amely alapján az osztályozás történik, az osztályozás felosztásának alapjának nevezzük. Az osztályozások széles körben alkalmazzák a dedukciós és indukciós módszereket a csoportok, osztályok rögzítésére és a köztük lévő kapcsolatok azonosítására. Ez jellemző a hierarchikus besorolásokra. Az osztályozás mélysége (a hierarchiaszintek száma) a céltól függően változhat. Az egyik széles körben használt rubrikátor a Tudományos és Műszaki Információk Állami Rubrikátora (GRNTI).

A GRNTI rubrikátort úgy tervezték meg, hogy más besorolásokkal, például UDC és IPC-vel együtt is használható legyen. Az univerzális decimális osztályozás (UDC) több mint 70 éve létezik, de elterjedésének szélességében még mindig nincs párja, és a világ számos országában használják. Az UDC a tudás teljes univerzumát lefedi, és sikeresen alkalmazzák rendszerezésre, majd az információforrások széles skálájának keresésére.

Az UDC mellett a gyakorlatban széles körben használják a könyvtári és bibliográfiai osztályozást (LBC). A BBK a logikai alárendeltség elveire épül, és egy alkalmazás típusú besorolást képvisel.
Az Orosz Föderációban a találmányok osztályozására és a hazai találmányleírás-gyűjtemények rendszerezésére a nemzetközi szabadalmi osztályozást használják - ez egy meglehetősen összetett, több szempontú osztályozás, amely funkcionális iparági elvre épül. Ugyanezek a műszaki fogalmak megtalálhatók az IPC-ben vagy a speciális osztályokban (iparágonként) vagy a funkcionális osztályokban (működési elv szerint). A fogalmak elosztásának ágazati elve magában foglalja az objektumok osztályozását, attól függően, hogy egy adott történelmileg kialakult berendezési és technológiai ágban alkalmazzák őket.

Az SRNTI, UDC, BBK és IPC rubrikátorainak összehasonlító jellemzőit az 1. táblázat tartalmazza.

Asztal 1
Az SRNTI, UDC, BBK és IPC rubrikátorának jellemzői

Név

Szerkezet

Az osztások elhelyezésének elve

Partíció építési séma

Hierarchikus

Ipar

Az általánostól a konkrétig

Hierarchikus

Tematikus

Hierarchikus

Funkcionális-ágazati

Az általánostól a konkrétig

LBC tudományos könyvtárak számára

Hierarchikus

Ipar

Az általánostól a konkrétig, fajonként


Így kiemelhetjük a rubrikátorok és osztályozók fő megkülönböztető jegyeit:
- alkalmazott jelleg és iparági irányultság jellemzi őket;
 nyílt rendszerekről van szó, amelyek a tudomány és a technika fejlődésétől, a szakemberek igényeitől és kérésétől függenek;
- szervetlen rendszerek, mivel a tárgyak a környezetben keletkeznek, fejlődnek és onnan kerülnek beléjük. Az elemek a rendszeren kívül önállóan is létezhetnek. Ez a tulajdonság szorosan összefügg a második tulajdonsággal;
- a minimum elem a környezethez kapcsolódó fogalom. A fogalom definíciók rendszerét képviseli;
 összefüggések keletkeznek a fogalmak között „függőlegesen” (genus-típus, egész-rész) és „vízszintesen” (típus-típus, rész-rész), ami a rendszerek hierarchiáját jelzi.

Következésképpen az osztályozások és a rubrikátorok felépítése és szervezési elvei lehetővé teszik a tématerületi tezauruszok dedukciós módszerrel történő felépítésének folyamatát. A szinonimaszótár dedukciós módszerrel történő felépítésének algoritmusa az ábrán látható. 1.

A tezaurusz kialakításának alapja egy dokumentum, egy feladat vagy egy információkereső alkalmazás keresőképe, amelyet az operátor tölt ki. Ezért az első lépés az alkalmazás kutatása és elemzése. Az első szakaszban az operátor megjelöli az érdeklődésre számot tartó témát vagy problémát, a lehetséges kulcsszavakat és azok szinonimáit. Ennek eredményeként felületesen megértjük a tárgykört.

Rizs. 1. Algoritmus egy tezaurusz készítéséhez dedukciós módszerrel

Ezenkívül a KS kulcsszavak tezaurusza is létrejön a levonási módszerrel, amely megköveteli:
 KS tömb, amelyet maga a felhasználó ad meg, az 1. ábrán MP-ként jelölve;
 A keresési feladatból kivont KS tömb, ill. MZ.

A témakör teljesebb és mélyebb megértése érdekében azonban a meglévő rubrikákat és osztályozási sémákat (GRNTI, UDC, BBK, IPC) használjuk. A témakör maximális lefedettsége érdekében át kell tekinteni az összes elérhetőt. A rubrikátorok tömbje az MR-t képviseli. A levonás keresési algoritmusa két lépésből áll:
1. Általános fogalmak keresése (2. ábra);
2. Konkrét kifejezések keresése az általános fogalmakon belül (3. ábra).


Rizs. 2. Az általános fogalom feldolgozása

Betöltjük az első rubrikátort a tömbből, és megszervezzük a felhasználó által a rubrikátorokba bevitt CS jelenlétének ellenőrzésére szolgáló ciklust. A rendszer minden egyes KS-t megkeres a rubrikátorban, és összehasonlítja egy általános fogalommal vagy „fészekkel”, majd a feltételt ellenőrzi, hogy van-e hivatkozás konkrét kifejezésekre. Ha elérhető ilyen hivatkozás, akkor a KS összehasonlításra kerül a konkrét feltételekkel. Ha nem található hivatkozás, lépjen tovább a következő általános fogalomra. Amikor az operátor által beírt CS kulcsszavait megnézzük, továbblépünk a feladatból kivont CS tömbre. Az ellenőrzési eljárás hasonló - az általános fogalmaknak megfelelő KS-eket keresünk, majd azok hivatkozásait konkrét kifejezésekre.


Rizs. 3. Konkrét kifejezések feldolgozása

Vegye figyelembe, hogy minden általános koncepción belül fontos áttekinteni az összes rendelkezésre álló specifikus kifejezést a problématerület maximális megértése érdekében. Ezeknek a műveleteknek az eredménye a KS kulcsszavak tömbjének kialakítása, amely egy teljes tezaurusz, amely megfelel az információkeresési feladatnak vagy egy dokumentum keresési képének.

A dokumentumok teljes keresési képkészlete (jelöljük őket) alapján lehetséges iparági tezauruszok és egységes könyvtári osztályozó létrehozása. Nyilvánvaló, hogy maga a  teljes halmaza egy egyszerű tezauruszt képvisel.

A kiválasztási kritériumot felhasználva azonban
, (1)
építhetünk ipari tezauruszt. Ebben az esetben az összes iparági tezaurusz egy teljes tezauruszt alkot
, (2)
melynek szakaszai a GOST előírásai szerint hierarchikusan strukturálhatók a fő osztályozók (GRNTI, UDC, BBK, MPK) szerint vagy belső egységes osztályozó szerint.

A tezaurusz- és osztályozási folyamat automatizálása lehetővé teszi az elosztott információforrásokkal dolgozó operátor munkáját a lehető legkönnyebben.

A javasolt megközelítés a dokumentum keresési képén alapuló szinonimaszótár létrehozása mellett használható automatikus dokumentumabsztrakcióra és szövegcsoportosításra is.

Az iratkivonat az egyik olyan feladat, amelynek célja, hogy a szakértő szakemberek megbízható információkhoz jussanak, amelyek szükségesek ahhoz, hogy vezetői döntéseket hozzanak az internetről beszerzett dokumentumok értékéről. Az absztrakció a dokumentuminformáció átalakításának folyamata, amely egy absztrakt elkészítésében csúcsosodik ki, az absztrakt pedig az elsődleges dokumentum fő tartalmának szemantikailag megfelelő bemutatása, amelyet gazdaságos szimbolikus kialakítás, a nyelvi és szerkezeti jellemzők állandósága jellemez, és amelyet teljesíteni kívánnak. sokféle információs és kommunikációs funkció a tudományos kommunikáció rendszerében. A dokumentumabsztrakciós algoritmust az ábra mutatja be. 4.


Rizs. 4. Dokumentum absztrakciós algoritmus

Általában az algoritmus a következő fő szakaszokat tartalmazza.
1. Az Internetről letöltött és egy adattárházban elhelyezett dokumentumból írásjelek kiválasztásával és tömbben való tárolásával a mondatokat kinyerjük.
2. Az egyes mondatokat elválasztók kiválasztásával szavakra bontjuk, és tömbbe mentjük, és a tömb minden mondatnál más és más.
3. Minden mondatnál, ennek a mondatnak minden szavára megszámoljuk a többi mondatban lévő szavak számát (előtte és utána). Az egyes szavak ismétléseinek összege (előtte és utána) lesz a mondat súlya.
4. Adott számú, maximális súlyozási együtthatójú mondatot választunk ki az absztrakthoz a szövegben való megjelenés sorrendjében.

Az információs rendszer tezauruszának és tematikus katalógusainak felépítésére javasolt modell elméleti alapot jelent a szemantikai keresés automatizálásához, és lehetővé teszi a szakértő számára, hogy ne csak keresési munkát végezzen, hanem automatizált módban a keresés eredményeként kapott absztrakt dokumentumokat is. elosztott információs rendszerek az interneten.

Irodalom:
1. Baruskova R.I. A tudományos és műszaki információk osztályozási rendszerei. Tankönyv juttatás. - M., 1981. - 80 p.
2. Baruskova R.I. A rubrikátor, mint a tudományos és műszaki információk osztályozási sémája. Eszközkészlet. - M., 1980. - 38 p.
3. Trusov A.V., Babarykin E.P. Tematikus információigénylés tartományának határainak becslése elosztott információs rendszerekben. Az összoroszországi (nemzetközi részvétellel) „Információ, innováció, befektetés” konferencia anyagai, 2004. november 24-25, Perm / Perm CSTI. - Perm, 2004. - P.76-79.
4. Yatsko V.A. A tudományos szöveg elemzésének és összegzésének logikai-nyelvi problémái. - Abakan: Khakass State Publishing House. Egyetem, 1996. - 128 p.

A rovat legfrissebb anyagai:

Elektromos rajzok ingyen
Elektromos rajzok ingyen

Képzeljünk el egy gyufát, amely egy dobozra ütés után fellángol, de nem gyullad ki. Mire jó egy ilyen meccs? Hasznos lesz a színházi...

Hidrogén előállítása vízből Hidrogén előállítása alumíniumból elektrolízissel
Hidrogén előállítása vízből Hidrogén előállítása alumíniumból elektrolízissel

"Hidrogént csak akkor állítanak elő, amikor szükség van rá, így csak annyit tudsz termelni, amennyire szükséged van" - magyarázta Woodall az egyetemen...

Mesterséges gravitáció a sci-fiben Az igazságot keresve
Mesterséges gravitáció a sci-fiben Az igazságot keresve

A vesztibuláris rendszerrel kapcsolatos problémák nem az egyetlen következménye a mikrogravitációnak való hosszan tartó expozíciónak. Űrhajósok, akik...