Kam izmanto tēzauru? Vārda tēzaurs nozīme

N. V. Lukaševičs

[aizsargāts ar e-pastu]

B. V. Dobrovs

Maskavas Valsts universitātes Pētniecības skaitļošanas centrs. M.V.Lomonosovs;

ANO Informācijas izpētes centrs

[aizsargāts ar e-pastu]

Atslēgvārdi: tēzaurs, informācijas izguve, automātiska teksta apstrāde,

Lielākā daļa tehnoloģiju, kas strādā ar lieliem tekstu krājumiem, balstās uz statistiskām un varbūtības metodēm. Tas ir saistīts ar faktu, ka leksiskajiem resursiem, kurus varētu izmantot tekstu krājumu apstrādei, izmantojot lingvistiskās metodes, ir jābūt desmitiem tūkstošu vārdnīcas ierakstu apjomam, un tiem ir jābūt vairākām svarīgām īpašībām, kas īpaši jāuzrauga, izstrādājot resursu. Pārskatā aplūkojam leksisko resursu izstrādes pamatprincipus lielu tekstu kolekciju automātiskai apstrādei, izmantojot 1997. gadā izveidoto krievu valodas tēzauru datorizētai teksta apstrādei RuTez, kas šobrīd ir hierarhisks tīkls ar vairāk nekā 42 tūkstošiem jēdzienu. . Mēs aprakstām tēzaura pašreizējo stāvokli, pamatojoties uz tā leksiskā sastāva un Universitātes informācijas sistēmas RUSSIA (www.cir.ru) teksta korpusa salīdzinājumu - 400 tūkstoši dokumentu. Tiek apspriesti tēzauru izmantošanas piemēri dažādās automātiskās tekstapstrādes lietojumprogrammās.

  1. Ievads

Šobrīd miljoniem dokumentu ir kļuvuši pieejami elektroniskā formā, ir izveidoti tūkstošiem informācijas sistēmu un elektronisko bibliotēku. Tajā pašā laikā informācijas sistēmas, kas meklēšanai izmanto leksiskos un terminoloģiskos resursus, tiek aprēķinātas procenta daļās. Tas ir saistīts ar nopietnajiem izaicinājumiem, veidojot šādus lingvistiskos resursus mūsdienu elektronisko dokumentu kolekciju automātiskai apstrādei.

Pirmkārt, šīs kolekcijas parasti ir ļoti lielas, resursā jāiekļauj tūkstošiem vārdu un terminu apraksti. Otrkārt, krājumi ir dažādu struktūru dokumentu kopums ar dažādām sintaktiskām struktūrām, kas apgrūtina teksta teikumu automātisku apstrādi. Turklāt svarīga informācija bieži tiek izplatīta starp dažādiem teksta teikumiem.

Tas viss akūti liek uzdot jautājumu par to, kādam ir jābūt lingvistiskajam resursam, kas, no vienas puses, būtu noderīgs automātiskai apstrādei un meklēšanai elektroniskajās kolekcijās, no otras puses, varētu tikt izveidots pārskatāmā laikā un uzturēts, ieguldot salīdzinoši maz līdzekļu. pūles.

Šajā rakstā aplūkosim leksisko resursu izstrādes pamatprincipus lielu tekstu kolekciju automātiskai apstrādei. Šie principi tiks apskatīti, izmantojot krievu valodas tēzaura piemēru, ko ANO Informācijas izpētes centrs kopš 1997. gada veido datortekstu apstrādei RuTez. Pašlaik RuTez ir hierarhisks tīkls, kurā ir vairāk nekā 42 tūkstoši jēdzienu, kas ietver vairāk nekā 95 tūkstošus krievu vārdu, izteicienu un terminu. Mēs aprakstīsim tēzaura pašreizējo stāvokli, pamatojoties uz tā leksiskā sastāva salīdzinājumu ar Universitātes informācijas sistēmas KRIEVIJA teksta korpusa vārdu krājumu, ko atbalsta Maskavas Valsts universitātes Pētniecības skaitļošanas centrs. M.V. Lomonosovs un ANO TSII. UIS RUSSIA (www.cir.ru) satur 400 tūkstošus dokumentu par sociālpolitiskām tēmām (apmēram 3 GB tekstu, 200 miljoni vārdu). Rakstā tiks apskatīti arī tēzaura izmantošanas piemēri dažādās automātiskās tekstapstrādes lietojumprogrammās.

  1. Lingvistiskā resursa izstrādes principi

informācijas izguves uzdevumiem

Lai nodrošinātu efektīvu elektronisko dokumentu automātisko apstrādi (automātiskā indeksēšana, kategorizēšana, dokumentu salīdzināšana), nepieciešams izveidot to salīdzināšanas bāzi - dokumentā minēto sarakstu. Lai šāds rādītājs būtu efektīvāks par indeksu pa vārdam, ir jāpārvar teksta leksiskā daudzveidība: sinonīmi, polisēmija, runas daļas, stilistika un jāreducē līdz invariantam – jēdzienam, kas kļūst pamats dažādu tekstu salīdzināšanai. Tādējādi jēdzieniem jākļūst par lingvistiskā resursa pamatu, bet lingvistiskajiem izteicieniem: vārdiem, terminiem - jākļūst tikai par teksta ievadi, kas inicializē atbilstošo jēdzienu.

Lai varētu salīdzināt dažādus, bet līdzīgus jēdzienus, starp tiem ir jāizveido attiecības. Tradicionāli lingvistiskie resursi automātiskai tekstu apstrādei dabiskajā valodā izmantoja noteiktas semantisko attiecību kopas, piemēram, daļa, avots, iemesls un tā tālāk. Tomēr, strādājot ar lieliem un neviendabīgiem tekstu krājumiem, mums ir jāsaprot, ka pašreizējā tekstapstrādes tehnoloģiju stāvoklī datorsistēma nevarēs droši noteikt šīs attiecības tekstā, lai veiktu procedūras, kuras esam saistījuši ar šīs vai citas attiecības. Tāpēc attiecībām starp jēdzieniem vispirms jāapraksta noteiktas nemainīgas īpašības, kas nav atkarīgas vai vāji atkarīgas no konkrētā teksta tēmas, kurā jēdziens minēts.

Šo attiecību galvenā funkcija ir atbildēt uz šādu jautājumu:

ja ir zināms, ka teksts ir veltīts C1 apspriešanai un C2 ir saistīts

attieksmeRar C1, vai varam teikt, ka teksta tēma(*)

kas saistīti ar C2?

Veidojot lingvistisko resursu automātiskai apstrādei, ir svarīgi noteikt, kuras jēdzienu C1 un C2 īpašības ļauj starp tiem izveidot pareizas (*) attiecības.

Tā, piemēram, vienalga, par kādiem tekstiem raksta bērzi, mēs vienmēr varam teikt, ka šie dziesmu teksti ir par koki. Bet neskatoties uz popularitāti un biežu attiecību diskusiju koks Kā daļa meži, ļoti maz tekstu par kokiem ir teksti par mežiem. Ņemiet vērā, ka problēma nav saistīta ar attiecību nosaukumu. Tātad izcirtums ir daļa no meža, un teksti par izcirtumiem ir teksti par mežiem.

Attiecību nemainību attiecībā pret iespējamo tekstu tēmu spektru kādā tematiskajā jomā lielā mērā nosaka dziļākas īpašības nekā tās, kuras atspoguļo attiecību nosaukumos, proti, tās kvantors un eksistenciālās īpašības. Tādējādi attiecību kvantatora īpašības apraksta, vai visiem jēdziena piemēriem ir noteikta saistība, vai šī sakarība saglabājas visā piemēra dzīves ciklā. Problēma ar attiecības izmantošanu koksmežs Tas ir tieši tāpēc, ka ne katrs konkrētais koks atrodas mežā, bet izcirtums nevar būt ārpus meža.

Attiecību eksistenciālo īpašību apraksta piemērs - vai no jēdziena C1 esamības izriet jēdziena C2 esamība (piemēram, jēdziena esamība GARĀŽA prasa koncepcijas esamību AUTOMOBILS) vai piemēru C1 esamība ir atkarīga no piemēru C2 esamības (tik specifiski PLŪDI nav atdalāms no konkrēta piemēra UPES). Diskusija atkarīgā jēdziena C2 tekstā, īpaši atkarībā no piemēra, liek domāt, ka teksts ir saistīts arī ar galveno jēdzienu C1.

Apskatīsim attiecības starp jēdzieniem MEŽS un KOKS detaļās. Faktiski daļa no koncepcijas MEŽS ir KOKS MEŽĀ, kamēr ir BRĪVI STĀVOTĀS KOKS,KOKS DĀRZĀ uc Jebkurā gadījumā ir nepieciešams lauzt jēdziena subordinācijas attiecības KOKS koncepcija MEŽS.

Citā pusē, MEŽS ir suga KOKU KOLEKCIJAS, neeksistē bez kokiem (kā arī DĀRZS). Tādējādi koncepcija MEŽS jābūt saistībā ar jēdzienu KOKS. Sākot ar konkrētu lietojumprogrammu problēmu vajadzību analīzi, mēs nonācām pie secinājuma, ka ir svarīgi aprakstīt dziļās attiecību īpašības, kas iepriekš bija ļoti maz atspoguļotas lingvistiskajos resursos, bet kurām ir ārkārtīgi liela nozīme automātiskās apstrādes uzdevumos. lielu tekstu krājumiem un, iespējams, daudziem citiem uzdevumiem.

Tagad mēs modelējam jēdzienu kvantoru un eksistenciālo īpašību aprakstu ar tradicionālo tēzaura attiecību kopu ABOVE-BELOW (66% no visām attiecībām), DAĻA-VESELS (30% no attiecībām), ASOCIĀCIJA (4%), kombinācijā ar noteiktu papildu modifikatoru kopu (20% relāciju ir atzīmēti ). Ņemiet vērā, ka attiecības DAĻA-VESELS un ASOCIĀCIJA tiek interpretētas, ņemot vērā noteikumu (*). Kopumā ir aprakstīti aptuveni 160 tūkstoši tiešo sakarību starp jēdzieniem, kas, ņemot vērā attiecību tranzitivitāti, kopā dod dažādu savienojumu skaitu vairāk nekā 1350 tūkstošus savienojumu, tas ir, vidēji katrs jēdziens ir saistīts ar 30 citiem. .

  1. RuTez tēzaurs: vispārējā struktūra

RuTez tēzaurs ir hierarhisks jēdzienu tīkls, kas atbilst atsevišķu vārdu, teksta izteicienu vai sinonīmu sēriju nozīmei. Tādējādi galvenie tēzaura elementi ir jēdzieni, lingvistiskās izteiksmes, attiecības starp valodas izteiksmēm un jēdzieniem, kā arī attiecības starp jēdzieniem.

Tezaurs vienotā sistēmā apvieno gan lingvistiskās zināšanas - leksēmu, idiomu un to saistību aprakstus, kas tradicionāli saistīti ar leksikālajām, semantiskajām zināšanām, gan zināšanas par terminiem un attiecībām mācību priekšmetu jomās, kas tradicionāli saistītas ar terminologu darbības jomu, aprakstītas informācijas izguves tēzauri . Kā šādas priekšmetu apakšnozares tēzaurs apraksta tādas priekšmetu jomas kā ekonomika, likumdošana, finanses, starptautiskās attiecības, kas ir tik svarīgas cilvēka ikdienas dzīvē, ka tām ir ievērojams leksiskais attēlojums tradicionālajās skaidrojošajās vārdnīcās. Tajos leksikas un terminoloģijas ir cieši saistītas un cieši mijiedarbojas viena ar otru.

Lingvistiskās izteiksmes ir atsevišķas leksēmas (lietvārdi, īpašības vārdi un darbības vārdi), nominālās un verbālās grupas. Tādējādi tēzaurs pašlaik neietver apstākļa vārdus un funkciju vārdus kā lingvistiskus izteicienus. Vairāku vārdu grupas var ietvert terminus, idiomas, leksiskās funkcijas ( ietekme e).

Katrai lingvistiskajai izteiksmei ir aprakstīts sekojošais:

Tā polisēmija ir saistība ar vienu vai vairākiem jēdzieniem, kas nozīmē, ka dotā lingvistiskā izteiksme var kalpot kā šī jēdziena tekstuāla izpausme. Lingvistiskas izteiksmes piedēvēšana dažādiem jēdzieniem arī netieši norāda uz tā polisēmiju;

Tā morfoloģiskais sastāvs (runas daļa, numurs, gadījums);

Rakstīšanas pazīmes (piemēram, ar lielo burtu) utt.

Katram tēzaura jēdzienam ir unikāls nosaukums, lingvistisko izteicienu saraksts, ar kurām šo jēdzienu var izteikt tekstā, un attiecību saraksts ar citiem jēdzieniem.

Kā unikāls jēdziena nosaukums parasti tiek izvēlēts viens no tā nepārprotamajiem teksta izteicieniem. Bet jēdziena nosaukumu var veidot arī pāris tā neviennozīmīgie teksta izteicieni - sinonīmi, kas rakstīti atdalot ar komatiem un nepārprotami to definējot (piemēram, jēdziens BIEZS). Neviennozīmīga jēdziena nosaukuma teksta izteiksme var tikt nodrošināta arī ar atzīmi vai saīsinātu interpretācijas fragmentu, piemēram, jēdziens PŪLIS (CILVĒKU GRUPA).

  1. Vārdnīcas ieraksta piemērs

Mēs kā piemēru izvēlējāmies jēdziena ierakstu vārdnīcā MEŽS, kas atbilst vienai no vārda nozīmēm mežs. Šis vārdnīcas ieraksts ir interesants, jo tajā ir ietverti dažāda veida zināšanas, kas tradicionāli tiek klasificētas kā leksiskās (semantiskās) zināšanas un enciklopēdiskās zināšanas (zināšanas par priekšmetu, terminoloģiju).

Sinonīmi jēdzienam MEŽS(kopā 13):

mežs (M), meža zona, meža vide,

mežs, meža kvartāls, meža ainava,

mežs, mežs, mežs,

meža platība, mazs mežs,

mežu masīvs.

Tālāk ir norādīti jēdzieni ar sinonīmiem:

DŽUNGĻI(džungļi);

MEŽA PARKS(pilsētas dārzs, zaļā zona,

zaļā zona, meža parks,

meža apsaimniekošana, mežaparks

josta, parks(M), parka zona);

MEŽSAIMNIECĪBA;

ATSTO MEŽU(mīkstlapu mežs, cietlapu

mežs);

GROVE(ozolu birzs);

SKUJKOKU MEŽS (skujkoku mežs, tumšs skujkoku mežs)

Jēdzieni-daļas ar sinonīmiem:

VĒJSBREAK(vējš, vējš);

GRIEŠANA(griešanas laukums);

MEŽA KULTŪRA(meža sugas, mežsaimniecība

kultūra);

MEŽA ZEME (meža zemes; zemes segtas

mežs; meža zemes, meža teritorija;

meža zeme, mežaina

platība);

MEŽA PLANTĀCIJAS(meža stādījumi, meža stādījumi,

apmežošana);

MEŽA MALA(mala, mala);

PAZEMS (pamežs);

PROSEKA;

SAUSA KOKA(atmirušais koks).

Šeit simboli (M) atspoguļo piezīmi par teksta ievades neskaidrību.

Koncepcija MEŽS Tam ir arī citas attiecības, tā sauktās atkarības attiecības (mūsdienu versijā tās sauc par ASC 2 - asimetriskā asociācija): MEŽA UGUNSGRĒKS(meža ugunsgrēks, ugunsgrēks mežā; MEŽA IZMANTOŠANA (meža izmantošana, meža fonda platību izmantošana); MEŽSAIMNIECĪBA; MEŽA ZINĀTNE (mežzinātne). Kā jau minēts 2. punktā, jēdziens MEŽS ir atkarīgs no jēdziena KOKS, kas tēzaurā apzīmēts ar relāciju ASC 1.

Kopējā koncepcija MEŽS ir tieši saistīts ar 28 citiem jēdzieniem, ņemot vērā attiecību tranzitivitāti - ar 235 jēdzieniem (kopā vairāk nekā 650 teksta ievades).

  1. Pašreizējā stāvokļa novērtējums

Krievu valodas tēzaurs RuTez

5.1. Leksiskā kompozīcija

Pašlaik tēzauru tīklā ir vairāk nekā 95 tūkstoši lingvistisko izteicienu, no kuriem 61 tūkstotis ir vienvārda.

Šis darba apjoms lika mums izlemt, kādi vārdi un lingvistiskie izteicieni jāiekļauj tēzaura aprakstos. Dabiskā vēlme bija redzēt, kā tēzaurā tiek attēloti visbiežāk sastopamie vārdi krievu valodā. Šim nolūkam tika izmantots Universitātes informācijas sistēmas KRIEVIJA tekstu krājums (400 tūkstoši dokumentu). Krājumā ir oficiāli dokumenti no dažādām Krievijas Federācijas struktūrām (55 tūkstoši dokumentu kopš 1992. gada), kā arī preses materiāli kopš 1999. gada (laikraksti Izvestija, Ņezavisimaja gazeta, Komsomoļskaja Pravda, Argumenty i Fakty, žurnāls Expert un citi), materiāli no zinātniskiem materiāliem. žurnāli (“Maskavas Universitātes biļetens”, “Socioloģijas žurnāls”). Tika salīdzināts tēzaurā iekļauto lemmu saraksts un tekstu krājumā biežāk sastopamo 100 000 lemmu saraksts (biežums vairāk nekā 25).

Saraksta poleksēmu marķējums parādīja, ka starp šiem simts tūkstošiem lemmu 35 tūkstoši ir aprakstīti RuTez, tikai aptuveni 7 tūkstoši leksēmu ir pelnījuši iekļaušanu tēzaurā, pārējās ir dažādu īpašvārdu lemmatiski varianti. Tāpēc papildināšana vairs nav prioritārs uzdevums un tiek veikta pakāpeniski, sākot ar biežākajiem vārdiem. Tiek pieņemts, ka, tiklīdz šis saraksts lielākoties būs izsmelts, tiks veikts vēl viens salīdzinājums ar informācijas sistēmas teksta masīvu, tiks atlasītas jaunas leksēmas, kuru biežums ir lielāks par 25. Tālāk paredzēts pazemināt skatīšanās slieksni. . Liela skaita teksta piemēru klātbūtne tekstu kolekcijā ļauj ātri reaģēt uz “leksiskajiem jauninājumiem” (piemēram, uzstādīšana,grāvējs, Beau Monde, trilleris) un iekļaujiet tos atbilstošās tēzaura hierarhiskās sistēmas vietās.

Pastāvīgs darbs ar aktuālo tekstu krājumu sniedz unikālas iespējas pārbaudīt vārdnīcās piedāvāto leksisko aprakstu nozīmi un kvalitāti. Piemēram, neparasti augsts vārda lietošanas biežums Māte Skat(vairāk nekā 400 reizes). Pārbaudot masīvu, atklājās, ka vārds patiešām bieži tiek lietots kā vārda sinonīms Maskava, savukārt skaidrojošās vārdnīcas bieži atzīmē šo vārdu kā novecojušu. Vēl viens bieži lietota vārda piemērs (vairāk nekā 300 reizes), kas vārdnīcās ir atzīmēts kā novecojis, ir vārds svētlaimīgs.

5.2 Vārdu nozīmju apraksts

Salīdzinājums ar tekstu kolekciju parāda, ka daudzi masīva frekvenču vārdi ir labi pārstāvēti tēzaurā vismaz vienā no to (parasti pamata) nozīmēm. Šobrīd mūsu galvenais uzdevums ir noskaidrot, cik lielā mērā tēzaurā ir pārstāvēts krievu valodas polisemantisko vārdu nozīmju spektrs.

Kā zināms, nereti dažādi vārdnīcu avoti daudznozīmīgiem vārdiem dod atšķirīgu nozīmju kopumu, izceļ nozīmes nokrāsas, un viena un tā paša veida polisēmiju var dažādi aprakstīt dažādiem vārdiem pat vienā vārdnīcā. Tāpēc uzdevums konsekventi un reprezentatīvi aprakstīt leksēmu nozīmes ir svarīgs uzdevums jebkura vārdu krājuma resursa veidotājiem.

Tomēr, ja resurss ir paredzēts automātiskai apstrādei, daudz svarīgāks kļūst uzdevums sabalansēt vērtību aprakstu. Pārmērīga vērtību inflācija var izraisīt datorsistēmas nespēju izvēlēties vēlamo vērtību, kas savukārt rada būtisku automātiskās tekstapstrādes sistēmas veiktspējas samazināšanos. Tātad viens no WordNet resursa kā automātiskās teksta apstrādes resursa trūkumiem ir pārmērīgais nozīmju skaits, kas aprakstīts dažiem vārdiem (WordNet 1.6: 53 nozīmes palaist, 47 par spēlēt un tā tālāk.). Šīs nozīmes ir grūti atšķirt pat cilvēkiem, semantiski anotējot tekstus. Skaidrs, ka arī datorsistēma nevar tikt galā ar atbilstošās vērtības izvēli. Tāpēc dažādi autori piedāvā dažādus veidus, kā apvienot vērtības, lai uzlabotu apstrādes kvalitāti.

Tajā pašā laikā darbojas pretējs faktors: ja nozīmes patiešām atšķiras savā vārdnīcu savienojumu komplektā (mūsu gadījumā tēzaura savienojumi) - tos nevar salīmēt vienā vienībā (vienā jēdzienā) - tas arī novedīs pie vārdnīcas pasliktināšanās. automātiskās apstrādes kvalitāte.

Ņemsim vārdu piemēru skola Un baznīca, no kurām katru var uzskatīt par organizāciju un kā ēku.

Katrai skolas organizācijai ir ēka (visbiežāk viena). Visas skolas ēkas daļas (klases, tāfeles) ir saistītas ar skola kā uz organizāciju. Nav konkrētu skolu ēku veidu. Tāpēc apraksts skolas Kā ēkas nav lietderīgi tās nodalīt atsevišķā koncepcijā. Tomēr šāda kolektīvā jēdziena apraksts SKOLA kā organizācijai un kā ēkai jābūt īpaši izstrādātai attiecībām ar koncepciju ĒKA. Aprakstot šādas attiecības tēzaurā, tiek izmantota attiecības atzīme - modifikators “A” (“aspekts”; automātiskās analīzes laikā, lai ņemtu vērā šīs attiecības, ir nepieciešams “apstiprinājums” ar citiem jēdzieniem).

SKOLA

AUGSTĀK IZGLĪTĪBAS IESTĀDE

VIRS A PUBLISKĀ ĒKA

Vārda atbilstošās nozīmes baznīca ne tik tuvu. Baznīcas Kā organizācijai tai var būt liels skaits baznīcas ēku dažādās vietās, un tai ir arī daudzas citas ēkas. Baznīcas celtniecība ir cieši saistīta ar reliģiju un konfesiju, bet var mainīt piederību baznīcas organizācijas. Baznīcas organizācija Un baznīcas celtniecība ir dažādas pasugas. Tāpēc BAZNĪCA (ORGANIZĀCIJA) Un BAZNĪCA (ĒKA) tiek piedāvāti RuTez kā dažādi jēdzieni.

Būtiskā atšķirība tēzauru sakarībās interesantā veidā korelē ar nozīmēm atbilstošo apzīmējumu spēju eksistēt atsevišķi vienam no otra. Tādējādi baznīcas ēka nebeidz pastāvēt un pat saukta par baznīcu arī tad, kad mainās tās lietojums, atšķirībā no skolas ēkas.

Vērtību attēlojuma pārbaudes process tēzaurā notiek nepārtraukti, sākot ar visbiežāk sastopamajām lemmām. Katrai frekvenču leksēmai tiek pārbaudīts, kā tās nozīmes ir aprakstītas skaidrojošajās vārdnīcās, kādas nozīmes lietotas krājumā un kā tās attēlotas tēzaurā. Rezultātā tagad ir izveidots 10 000 leksēmu saraksts, kuru neskaidrība joprojām prasa vai nu papildu analīzi, vai papildu aprakstu. Saraksts iegūts, pamatojoties uz 30 tūkstošiem biežāk sastopamo lemmu.

Jāpiebilst, ka tēzaurā polisēmijas problēma ir daļēji novērsta tādēļ, ka tēzaura savienojumus var aprakstīt starp dažādām vārda nozīmēm, un tāpēc pēc noklusējuma var izvēlēties augstāko jēdzienu hierarhijā. Tas noteikti tika apspriests tekstā. Piemēram, vārds foto ir trīs nozīmes: fotogrāfija kā darbības joma, fotogrāfija kā fotogrāfisks attēls, fotogrāfija kā fotostudija:

FOTOGRĀFIJA(fotografējot, foto bizness, ..., foto )

DAĻA FOTOATTĒLS

(foto, fotogrāfija, foto )

DAĻA FOTO STUDIJA (foto ).

Tādējādi, ja nebija iespējams izdomāt, kāda nozīme vārds tika lietots foto, pēc noklusējuma tiek pieņemts, ka fotoattēls ir uzņemts (no procesa, rezultāta vai vietas), kas ir pietiekami daudzām automātiskās teksta apstrādes lietojumprogrammām.

  1. RuTez tēzaura pielietojums

automātiskai teksta apstrādei

Kopš 1995. gada sociāli politiskā terminoloģija RuTez (sociālpolitiskais tēzaurs) tiek aktīvi un veiksmīgi izmantota dažādiem automātiskās teksta apstrādes lietojumiem, piemēram, automātiskai konceptuālai indeksācijai, automātiskai rubrikācijai, izmantojot vairākus rubrikātus, automātiskai tekstu anotēšanai, tai skaitā angļu valodā. vieni. Sociāli politiskais tēzaurs (27 tūkstoši jēdzienu, 62 tūkstoši teksta ierakstu) ir pamata meklēšanas rīks UIS RUSSIA meklēšanas sistēmā (www.cir.ru).

Visa RuTez tēzaura vārdnīca tiek izmantota tekstu automātiskas kategorizēšanas procedūrās, izmantojot sarežģītus hierarhiskus rubrikatorus. Esošajā tehnoloģijā katra kategorija tiek aprakstīta kā Būla terminu izteiksme, pēc kuras sākotnējā formula tiek izvērsta gar tēzaura hierarhiju. Rezultātā iegūtā Būla izteiksme jau var ietvert simtiem un tūkstošiem konjunktu un disjunktu.

Kā piemēru sniegsim SOFIST 2 rubrikas rubrikas “Sievietes tēls” apraksta fragmentu, izmantojot tēzaura jēdzienus (un lingvistiskos izteicienus pēc formulas paplašināšanas), ko VTsIOM izmanto sabiedriskās domas aptauju anketu klasificēšanai:

(SIEVIETE[N]

|| MEITENE[N]

|| RADINIS [L] (vecmāmiņa, mazmeita, māsīca,

meita, vīramāte, māte, pamāte, vedekla, pameita, ...))

(RAKSTURA ĪPAŠĪBA[L] (taupīgs, bezsirdīgs, aizmāršīgs,

vieglprātīgs, izsmejošs, neiecietīgs, sabiedrisks, ...)

|| IMAGE [E] (prezentācija, izskats, izskats,

izskats, izskats, tēls, izskats)

|| PATĪKAMI [L] (..., interesanti, skaisti, mīļi,

pievilcīgs, gudrs, pievilcīgs, ...)

|| NEPATĪKAMĪGS[L] (nesimpātisks, rupjš, šķebinošs, ...)

|| NOVĒRTĒT[L] (cienīt, dievināt, pielūgt,

pielūgt, dievināt, ...)

|| PRIEKŠROCĪBA[N]

Simbols “E” apzīmē pilnīgu izplešanos pa tēzaura hierarhiju, simbols “L” – atbilstoši sugu attiecībām (“ZEMĀK”), simbols “N” – neizplešas.

Tiek veikti pētījumi, lai izstrādātu kombinētu tehnoloģiju teksta automātiskai kategorizēšanai, apvienojot tēzaura zināšanas un mašīnmācīšanās procedūras.

Tiek pētīti jautājumi par tēzaura izmantošanu dabiskā valodā formulēta vaicājuma paplašināšanai (pašlaik UIS RUSSIA informācijas izguves sistēmā terminoloģiskā vaicājuma paplašināšanai tiek izmantota tikai tēzaura sociāli politiskā daļa), un tiek meklēts atbildes uz jautājumiem lielos tekstu krājumos.

7. Secinājums

Darbā ir izklāstīti lingvistisko resursu izstrādes pamatprincipi lielu tekstu krājumu automātiskai apstrādei. Izveidotais lingvistiskais resurss - Krievu valodas tēzaurs RuTez - paredzēts lietošanai tādās automātiskās teksta apstrādes lietojumprogrammās kā dokumentu konceptuāla indeksācija, automātiska rubrikācija pēc sarežģītiem hierarhiskiem rubrikatoriem, automātiska dabiskās valodas vaicājumu paplašināšana.

Šo darbu daļēji atbalsta Krievijas Humanitārā fonda grants Nr.00-04-00272a.

Literatūra

  1. Lukashevich N.V., Saliy A.D., Zināšanu reprezentācija automātiskās teksta apstrādes sistēmā //NTI, Ser.2. 1997. Nr.3. P. 1-6.
  2. Žuravļevs S.V., Judina T.N., Informācijas sistēma KRIEVIJA //NTI, Ser.2. 1995. Nr.3. 18.-20.lpp.
  3. Vinstons M., Čafins R., Hermans D., Daļējas veseluma attiecību taksonomija // Kognitīvā zinātne. 1987. Nr. 11. lpp. 417-444.
  4. Priss U.E., WordNet formalizācija, izmantojot relāciju jēdzienu analīzes metodes // WordNet. Elektroniskā leksikas datu bāze / Red. autors K. Fellbaums. Kembridža, Masačūsetsa, Londona, Anglija.: The MIT Press 1998. 179.–196. lpp.
  5. Guarino N., Welty C., Formal Ontology of Properties // ECAI-00 semināra par ontoloģiju un problēmu risināšanas metožu pielietojumiem materiāli. Berlīne: 2000. 121.-128.lpp. (http://citeseer.nj.nec.com/guarino00formal.html).

Daži ontoloģiskie principi augstākā līmeņa leksisko resursu izstrādei // First Int. Konf. par valodu resursiem un novērtēšanu. 1998. gads.

  1. Lukaševičs N.V., Dobrovs B.V., Konceptuālo attiecību modifikatori tēzaurā automātiskai indeksēšanai // NTI, Ser.2. 2000, Nr.4, 21.-28.lpp.
  2. Lielā krievu valodas skaidrojošā vārdnīca / Red. S.A. Kuzņecova. Sanktpēterburga: Norint, 1998.
  3. Ozhegov S.I., Shvedova N.Yu., Krievu valodas skaidrojošā vārdnīca - 3. izdevums. M.: Az, 1996. gads.
  4. Apresyan Yu.D., Izvēlētie darbi, I sējums. Leksiskā semantika: 2. izd. M.: Skola “Krievu kultūras valodas”, Red. Firma "Austrumu literatūra" RAS, 1995.g.
  5. G. Millers, R. Beckwith, C. Fellbaum, D. Gross un K. Miller, Five papers on WordNet, CSL Report 43. Cognitive Science Laboratory, Princeton University, 1990.
  6. Chugur, J. Gonzalo un F. Verdjeo, Sajūtu atšķirības NLP lietojumprogrammās // Proceedings of “OntoLex-2000”: Ontology and Lexical Knowledge Bases. Sofija: OntoTextLab. 2000. gads.
  7. Loukačevičs N., Dobrovs B., Uz tēzauriem balstīts strukturālais tematiskais kopsavilkums daudzvalodu informācijas sistēmās // Mašīntulkošanas apskats. 2000. Nē. 11. lpp. 10-20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Krievu valodas tēzaurs dabiskās valodas apstrādei

lielas teksta kolekcijas

Natālija V. Loukačeviča, Boriss V. Dobrovs

Atslēgvārdi: tēzaurs, dabiskās valodas apstrāde, informācijas izguve

Savā prezentācijā mēs aplūkojam galvenos leksisko resursu izstrādes principus lielu tekstu krājumu automātiskai apstrādei un aprakstām Krievu valodas tēzaura struktūru, kas kopš 1997. gada tiek izstrādāts speciāli kā automātiskās teksta apstrādes rīks. Tagad tēzaurs ir 42 tūkstošu jēdzienu hierarhisks tīkls. Mēs aprakstām pašreizējo tēzaura izstrādes posmu, salīdzinot ar 100 000 visbiežāk sastopamajām universitātes informācijas sistēmas RUSSIA (www.cir.ru) tekstu krājuma lemmām, tostarp 400 tūkstošiem dokumentu. Mēs arī apsveram tēzaura izmantošanu dažādās automātiskās teksta apstrādes lietojumprogrammās.

, antonīmi, paronīmi, hiponīmi, hipernīmi utt.) starp leksiskajām vienībām. Tezauri ir viens no efektīvākajiem rīkiem atsevišķu priekšmetu jomu aprakstīšanai.

Agrāk termins tēzaurs Pārsvarā tika izraudzītas vārdnīcas, kas maksimāli pilnībā reprezentē valodas vārdu krājumu ar tās lietojuma piemēriem tekstos.

Arī termiņš tēzaurs izmanto informācijas teorijā, lai apzīmētu visas subjekta rīcībā esošās informācijas kopumu.

Psiholoģijā indivīda tēzauru raksturo informācijas uztvere un izpratne. Komunikācijas teorija ņem vērā arī sarežģītas sistēmas vispārējo tēzauru, caur kuru tās elementi mijiedarbojas.

Stāsts

Vienu no pirmajiem tēzauriem Filons no Byblos sauc par “sinonīmu vārdnīcu”. Precīzāka atbilstība šim terminam ir Amara-kosha, kas sanskritā tika uzrakstīta poētiskā formā 6. gadsimtā. Pirmo mūsdienu angļu tēzauru izveidoja Pīters Marks Rodžers 1805. gadā. Tas tika publicēts 1852. gadā un kopš tā laika tiek izmantots bez atkārtotas izdrukas.

70. gados tēzauri sāka aktīvi izmantot informācijas izguves uzdevumos. Šādos tēzauros vārdi tiek kartēti ar deskriptoriem, caur kuriem tiek izveidoti semantiskie savienojumi.

Tezauri

Skatīt arī

Uzrakstiet atsauksmi par rakstu "Tezaurs"

Piezīmes

Tezauru raksturojošs fragments

- Kāds tu šodien esi dīdīgs! – Ņesvitskis sacīja, skatīdamies uz savu jauno mantiju un seglu paliktni.
Deņisovs pasmaidīja, izņēma no somas kabatlakatiņu, kas smaržoja pēc smaržām, un iebāza to Nesvitskim degunā.
- Es nevaru, es iešu strādāt! Izkāpu ārā, iztīrīju zobus un uzliku smaržas.
Ņesvitska cienīgā figūra kazaka pavadībā un Deņisova apņēmība, vicinot zobenu un izmisīgi kliegdama, atstāja tādu iespaidu, ka viņi iespiedās tilta otrā pusē un apturēja kājniekus. Nesvitskis pie izejas atrada pulkvedi, kuram vajadzēja nodot pavēli, un, izpildījis norādījumus, devās atpakaļ.
Atbrīvojis ceļu, Denisovs apstājās pie ieejas tiltā. Nevērīgi aizturējis ērzeli, kas steidzās pretī un spārdot, viņš paskatījās uz eskadronu, kas virzījās viņam pretī.
Gar tilta dēļiem bija dzirdamas caurspīdīgas nagaiņu skaņas, it kā auļotu vairāki zirgi, un eskadra ar virsniekiem priekšā, četri pēc kārtas, izstiepās gar tiltu un sāka parādīties otrā pusē.
Apstādinātie kājnieku karavīri, drūzmējušies mīdītajos dubļos pie tilta, ar to īpašo nedraudzīgo atsvešinātības un izsmiekla sajūtu, ar kādu parasti saskaras dažādi armijas atzari, skatījās uz tīrajiem, drūmajiem huzāriem, kas kārtīgi soļoja viņiem garām.
- Gudri puiši! Ja tikai tas būtu Podnovinskoje!
- Kas viņiem ir labs? Viņi brauc tikai uz šovu! - teica cits.
- Kājnieki, neputojiet! - pajokoja huzārs, zem kura zirgs spēlējoties apšļāca kājnieku ar dubļiem.
"Ja es būtu tevi izvadījis cauri diviem gājieniem ar tavu mugursomu, mežģīnes būtu nolietotas," sacīja kājnieks, ar piedurkni noslaucīdams netīrumus no sejas; - pretējā gadījumā sēž nevis cilvēks, bet putns!
"Kaut es tevi varētu uzsēdināt zirgā, Zikin, ja tu būtu veikls," kaprālis jokoja par tievo karavīru, kas noliecās no mugursomas smaguma.
"Paņemiet nūju starp kājām, un jums būs zirgs," atbildēja huzārs.

Pārējie kājnieki steidzās pāri tiltam, veidojot piltuvi pie ieejas. Beidzot visi rati pabrauca garām, simpātijas kļuva mazāk, un tiltā iebrauca pēdējais bataljons. Tilta otrā pusē pret ienaidnieku palika tikai Deņisova eskadras husāri. Ienaidnieks, kas bija redzams tālumā no pretējā kalna, no apakšas, no tilta, vēl nebija redzams, jo no ieplakas, pa kuru plūda upe, horizonts beidzās pretējā augstumā ne tālāk kā pusjūdzi tālāk. Priekšā bija tuksnesis, pa kuru šur tur pārvietojās mūsu ceļojošo kazaku grupas. Pēkšņi ceļa pretējā kalnā parādījās karaspēks zilos kapucēs un artilērija. Tie bija franči. Kazaku patruļa rikšoja prom lejup. Visi Deņisova eskadras virsnieki un vīri, kaut arī mēģināja runāt par nepiederošajiem un paskatīties apkārt, nepārstāja domāt tikai par to, kas atrodas kalnā, un pastāvīgi raudzījās uz horizonta vietām, kuras viņi atzina par ienaidnieka karaspēku. Pēcpusdienā laiks atkal skaidrojās, saule spoži norietēja pār Donavu un tumšajiem kalniem, kas to ieskauj. Bija kluss, un no šī kalna ik pa laikam bija dzirdamas taures un ienaidnieka kliedzieni. Starp eskadronu un ienaidniekiem nebija neviena, izņemot nelielas patruļas. Tukša vieta, trīssimt dziļi, tos šķīra no viņa. Ienaidnieks pārstāja šaut, un jo skaidrāk sajuta to stingro, draudīgo, nepārvaramo un netveramo līniju, kas atdala abus ienaidnieka karaspēkus.
“Viens solis aiz šīs līnijas, kas atgādina līniju, kas šķir dzīvos no mirušajiem, un - ciešanu un nāves nezināmo. Un kas tur ir? kas tur ir? tur, aiz šī lauka un koka, un saules apgaismotā jumta? Neviens nezina, un es gribu zināt; un ir biedējoši šķērsot šo līniju, un jūs vēlaties to šķērsot; un tu zini, ka agri vai vēlu tev nāksies to šķērsot un uzzināt, kas ir otrpus līnijai, tāpat kā neizbēgami ir uzzināt, kas tur ir nāves otrā pusē. Un viņš pats ir spēcīgs, vesels, dzīvespriecīgs un aizkaitināts, un viņu ieskauj tik veseli un aizkaitināmi cilvēki. Tātad, pat ja viņš nedomā, katrs cilvēks, kas atrodas ienaidnieka redzeslokā, to jūt, un šī sajūta piešķir īpašu spīdumu un priecīgu iespaidu asumu visam, kas notiek šajās minūtēs.
Uz ienaidnieka kalna parādījās šāviena dūmi, un lielgabala lode, svilpodama, lidoja pār huzāru eskadras galvām. Kopā stāvošie virsnieki devās uz savām vietām. Husāri uzmanīgi sāka taisnot zirgus. Eskadrilā viss apklusa. Visi skatījās uz priekšu uz ienaidnieku un eskadras komandieri, gaidot pavēli. Aizlidoja vēl viena, trešā lielgabala lode. Acīmredzami, ka viņi šāva uz huzāriem; bet lielgabala lode, vienmērīgi ātri svilpot, pārlidoja pāri huzāru galvām un trāpīja kaut kur aiz muguras. Husāri neskatījās atpakaļ, bet pie katras lidojošas lielgabala lodes skaņas, it kā pēc pavēles, visa eskadra ar monotoni daudzveidīgajām sejām, aizturot elpu, kamēr lielgabala lode lidoja, pacēlās kāpslās un atkal nokrita. Karavīri, galvas nepagriezuši, skatījās viens uz otru sānis, ziņkārīgi meklējot iespaidu par savu biedru. Uz katras sejas, sākot no Deņisova līdz blēžiem, pie lūpām un zoda parādījās viena kopīga cīņa, aizkaitinājums un satraukums. Seržants sarauca pieri, lūkodamies apkārt uz karavīriem, it kā draudēdams ar sodu. Junkers Mironovs noliecās ar katru lielgabala lodes piespēli. Rostovam, kurš stāvēja kreisajā flangā uz kājas pieskarties, bet redzams Gračiks, bija tāda priecīga skatiena kā skolēna skatiens, kas tika izsaukts lielas auditorijas priekšā uz eksāmenu, kurā viņš bija pārliecināts, ka viņam izdosies. Viņš skaidri un gaiši paskatījās uz visiem, it kā lūdzot pievērst uzmanību tam, cik mierīgi viņš stāvēja zem lielgabala lodēm. Bet arī viņa sejā pie mutes parādījās kaut kas jauns un bargs, pret paša gribu.
-Kas tur klanās? Yunkeg "Mig"ons! Heksog, paskaties uz mani! - Denisovs kliedza, nespēdams nostāvēt uz vietas un griezdamies zirga mugurā eskadras priekšā.
Vaska Deņisova smailā un melnmatainā seja un visa viņa mazā, piesists figūra ar cīpslaino (ar īsiem pirkstiem, kas pārklāti ar matiem) roku, kurā viņš turēja izvilkta zobena rokturi, bija tieši tāda pati kā vienmēr. īpaši vakarā, izdzerot divas pudeles. Viņš bija tikai sarkanāks nekā parasti un, pacēlis pinkaino galvu uz augšu, kā putni, kad tie dzer, nežēlīgi iespieda labā beduīna sānos ar savām mazajām pēdām, viņš, it kā krītot atmuguriski, auļoja uz otru sānu malu. eskadra un aizsmakušā balsī kliedza, lai tiktu pārbaudītas pistoles. Viņš piebrauca pie Kirstenas. Štāba kapteinis uz platas un mierīgas ķēves devās uz Deņisova pusi. Štāba kapteinis ar savām garajām ūsām bija nopietns, kā vienmēr, tikai acis dzirkstīja vairāk nekā parasti.
- Kas? - viņš teica Denisovam, - tas nenonāks līdz cīņai. Redzēsi, mēs atgriezīsimies.
"Kas zina, ko viņi dara," nomurmināja Deņisovs. "Ah! G" skelets! - viņš uzkliedza kursantam, pamanījis viņa dzīvespriecīgo seju. - Nu, es gaidīju.
Un viņš apstiprinoši pasmaidīja, acīmredzot priecājoties par kursantu.
Rostova jutās pilnīgi laimīga. Šajā laikā uz tilta parādījās priekšnieks. Deņisovs auļoja viņam pretī.
- Jūsu ekselence!Ļaujiet man uzbrukt!Es viņus nogalināšu.
— Kādi tur uzbrukumi, — priekšnieks garlaikotā balsī sacīja, raustīdamies it kā no apnicīgas mušas. - Un kāpēc tu te stāvi? Redziet, flankeri atkāpjas. Vediet eskadru atpakaļ.
Eskadra šķērsoja tiltu un izbēga no apšaudes, nezaudējot nevienu cilvēku. Viņam sekoja otra eskadra, kas bija ķēdē, un pēdējie kazaki atbrīvoja šo pusi.
Divas Pavlogradas iedzīvotāju eskadras, šķērsojušas tiltu, viena pēc otras devās atpakaļ uz kalnu. Pulka komandieris Kārlis Bogdanovičs Šūberts piebrauca pie Deņisova eskadras un devās tempā netālu no Rostovas, nepievēršot viņam nekādu uzmanību, neskatoties uz to, ka pēc iepriekšējās sadursmes pār Teljaņinu viņi tagad redzēja viens otru pirmo reizi. Rostova, sajutusi sevi priekšā vīrieša varā, kura priekšā viņš tagad uzskatīja sevi par vainīgu, nenovērsa skatienu no pulka komandiera atlētiskās muguras, gaišā pakauša un sarkanā kakla. Rostovam šķita, ka Bogdaņičs tikai izliekas neuzmanīgs un ka tagad viņa mērķis ir pārbaudīt kursanta drosmi, viņš iztaisnojās un jautri paskatījās apkārt; tad viņam šķita, ka Bogdaņičs apzināti jāja tuvu, lai parādītu Rostovam savu drosmi. Tad viņš domāja, ka viņa ienaidnieks tagad apzināti nosūtīs eskadronu izmisīgā uzbrukumā, lai sodītu viņu, Rostovu. Tika uzskatīts, ka pēc uzbrukuma viņš nāks pie viņa un dāsni pasniegs viņam, ievainotajam, samierināšanas roku.

3.1. Tezaura koncepcija

Tezaurs (no grieķu θήσαϋροξ - dārgums, krājums) vai ideogrāfiskā vārdnīca (no grieķu ideja - jēdziens, attēlojums, ideja un grapho - rakstīt, aprakstīt) - mūsdienu valodniecībā: 1) īpaša veida vispārīgās vai īpašās vārdnīcas vārdnīca, kas satur semantiskās attiecības starp leksiskajām vienībām; 2) vārdnīca vārda meklēšanai pēc tā semantiskās saiknes ar citiem vārdiem; 3) noteikts vārdu sakārtošanas (sakārtošanas) veids vārdnīcā; 4) leksiskā sastāva organizēšanas veids, kas ļauj ekonomiski “modelēt pasauli”.

Pirmajā, sākotnējā nozīmē - krātuve, dārgums, terminu tēzaurs lietoja L.V. Ščerba rakstā “Vispārējās leksikogrāfijas pieredze” (trešā opozīcija: tēzaurs - parasta (skaidrojošā vai tulkošanas) vārdnīca). Zinātnieks raksta: “Kad viņi saka tēzaurs, šodien mēs visbiežāk domājam “Thesaurus linguae latinae”, piecu Vācijas akadēmiju uzņēmumu, kas aizsākts tālajā 1900. gadā un līdz šim izlaidis tikai burtu M. Raksturīga iezīme Šāda veida vārdnīca sastāv no tā, ka tie satur pilnīgi visus vārdus, kas vismaz vienu reizi parādās attiecīgajā valodā, un ka zem katra vārda ir norādīti pilnīgi visi citāti no attiecīgajā valodā pieejamiem tekstiem. Iepriekš minētās opozīcijas - tēzaura - parastās (skaidrojošās vai tulkošanas) vārdnīcas - pamatā ir "lingvistiskā materiāla" un "lingvistiskās sistēmas" opozīcija - jēdzieni, kurus mēģināju pamatot savā rakstā "Par lingvistisko parādību trīskāršo aspektu un. par eksperimentu valodniecībā.

Šī termina otrā nozīme ir saistīta ar plaši pazīstamo vārdnīcu-tēzauru “Angļu vārdu un izteicienu tēzaurs”, ko veidojis P.M. Rodžers (Rodžeta angļu vārdu un frāžu tēzaurs, 1852) un tā turpinājums, O.V.Baranova vārdnīca.

Šajā interpretācijā termins tēzaurs apzīmē noteiktu leksiskā sastāva sakārtošanas un sakārtošanas veidu vārdnīcā (sk. termina trešo nozīmi).

Termina tēzaurs ceturtā nozīme ir saistīta ar šīs leksiskās kompozīcijas organizēšanas metodes vispārēju atzīšanu, kas ļauj ekonomiski “modelēt pasauli”. No šī viedokļa tēzaura vārdnīca ir "jebkuras zinātnes vai tehnikas jomas vārdu krājuma sistemātiska sakārtošana un visvispārīgākajā formā - vispārīgā literārā vārdnīca, un turklāt visa konkrētās valodas vārdnīca".

Saskaņā ar Yu.N. Vispārējās valodas tēzaurs Karaulova, fiksējot savu virsrakstu, sadaļu, zonu, apgabalu struktūrā un attiecībās plašās neverbālās domu savienošanas iespējas, nodrošina cilvēcisko vērtību uzskaiti.

A.N. Baranovs un D.O. Dobrovoļskis priekšvārdā “No redaktoriem” savam “Mūsdienu krievu idiomu vārdnīca-tēzaurs” sniedz tēzauram šādu definīciju - īpašs vārdnīcas veids, kas atšķiras no citām (jo īpaši skaidrojošām, divvalodīgām utt.). lingvistiskā materiāla organizēšana. Tezaurā valodas vienības netiek uzrādītas alfabētiskā secībā, kā parastajā vārdnīcā, bet tiek grupētas, pamatojoties uz to nozīmi.

L.P. Krisins tēzauru (ideogrāfisko vārdnīcu) sauc par īpašu skaidrojošo vārdnīcu, vārdnīcu, “tieši otrādi”. “Ja skaidrojošā vārdnīcā, kā raksta zinātnieks, vārdnīcas ieraksta “ieraksts” ir vārds, un vārdnīcas ieraksta saturs ir šī vārda nozīmes interpretācija, tad ideogrāfiskajā vārdnīcā “ieraksts” ir vārdnīcas ieraksta nozīme, ideja (tātad šāda veida vārdnīcas nosaukums - ideogrāfisks) un saturs ir vārdu saraksts, kas izsaka doto nozīmi. Un, ja skaidrojošā vārdnīca ir neaizstājams instruments teksta izpratnei, tad ideogrāfisko vārdnīcu var izmantot teksta ģenerēšanā: ļoti bieži cilvēks vēlas izteikt kādu domu, bet nevar atrast tam piemērotus vārdus; ideogrāfiskā vārdnīca atvieglo šos meklējumus. Ir divi galvenie tēzauru veidi:

lingvistiskais tēzaurs - vārdnīca, kurā ir dabiskās valodas vārdu saraksts, kas atlasīti jēgpilnas tekstu analīzes rezultātā un sistematizēti saskaņā ar pieņemto klasifikācijas sistēmu;

statistikas tēzaurs - informācijas izguves vārdnīca, kas satur vārdu sarakstu, kas atlasīti tekstu statistiskās analīzes rezultātā par konkrētu tēmu un sagrupēti vārdnīcas ierakstos, pamatojoties uz šo vārdu līdzāsparādīšanās biežumu tajos pašos tekstos.

Informācijas izguves tēzauri (IRT) atvieglo informācijas meklēšanu tās automātiskās apstrādes laikā. IPT maksimāli atklāj semantiskās attiecības starp leksiskajām vienībām. Kā teikts GOST par IPT, "vienvalodu informācijas izguves tēzaurs ir kontrolēta un mainīga leksisko vienību vārdnīca, kuras pamatā ir vienas dabiskās valodas vārdu krājums un kas parāda semantiskās attiecības starp leksiskajām vienībām un ir paredzēts informācijas apstrādei un izguvei."

IPT pamatvienība ir deskriptora termini. IPT alfabētiskā, leksikāli semantiskā daļa ir deskriptoru rakstu kopums.

Aprakstošās vārdnīcas ir paredzētas, lai pilnībā aprakstītu noteiktas jomas vārdu krājumu un reģistrētu visus tās lietojumus; tie fiksē visus pieejamos attiecīgos gadījumus. Tipisks aprakstošās vārdnīcas piemērs ir V.I. “Dzīvās lielās krievu valodas skaidrojošā vārdnīca”. Dāls (pirmais izdevums četros sējumos tika izdots 1863-1866). Tās veidotāja mērķis nebija standartizēt valodu, bet gan pilnībā aprakstīt visu lielkrievu runas daudzveidību, ieskaitot tās tautas valodas dialektu formas.

Katrs deskriptora vārdnīcas ieraksts sākas ar deskriptoru, kurā tālāk GOST rakstā ir norādīti šī deskriptora sinonīmi, kā arī citas leksiskās vienības, kas saistītas ar galveno deskriptoru pēc ģints sugām vai asociatīvajām attiecībām.

Tādējādi tēzauri, īpaši elektroniskā formātā, ir viens no efektīviem rīkiem atsevišķu priekšmetu jomu aprakstīšanai.

Tezaurs reti sastopams tīrā veidā. Reālos tēzauros sākotnējā ideja ir vienkāršota vai sveša, bet potenciāli nepieciešama informācija tiek pievienota lietotājam. Mūsdienās slavenākā ir Yu.N. “Krievu semantiskā vārdnīca”. Karaulova, “Identisku vārdu vārdnīca” N.Yu. Švedova, “Krievu valodas tematiskā vārdnīca”, L.G. Smekhova un citi.

Kopsavilkums. Tezaura termins L.V. Ščerba to izmantoja saistībā ar vārdnīcu, kurā, ja iespējams, tika ierakstīti visi konteksti, kuros konkrētais vārds notiek. Tezauru raksturīga iezīme ir tā, ka tajos vismaz vienu reizi ir uzskaitīti visi vārdi, kas parādās attiecīgajā valodā, un zem katra vārda ir norādīti visi citāti no šajā valodā pieejamajiem tekstiem. Tezaura vārdnīcas saturs ir valodas materiāls, bet parastā vārdnīca ir valodas materiāls un valodu sistēma (L.V. Ščerbas termini).

Šo raksturlielumu papildina dažāda veida – bieži vien paradigmatiskas (sinonīmiskas vai antonīmiskas) – savstarpējās saiknes, kas norāda uz nozīmju kopību vai pretnostatījumu. Turklāt dažāda veida asociācijas. savienojumi (t.i., sintagmas savienojumi).

Tādējādi tēzaura (ideogrāfiskās vārdnīcas) uzdevums ir sniegt priekšstatu par noteikta lingvistiskā materiāla šķērsgriezuma semantisko organizāciju, parādot galvenos semantiskos laukus, to iekšējo struktūru un ārējos savienojumus. Tezaurs skaidri parāda valodas sistēmisko raksturu, ļaujot redzēt daudzu veidu attiecības, kas savieno atsevišķas lingvistiskās vienības un vienību grupas.

3.2. Konceptuālo zināšanu par pasauli reprezentācijas vēsture tēzaura formā

Nepieciešamība sakārtot vārdus pēc to nozīmes līdzības, blakusesības un analoģijas ir jūtama visā cilvēka domāšanas vēsturē.

Izsekot idejas pirmsākumiem konceptuālo zināšanu par pasauli attēlošanai tēzaura veidā, mums palīdzēs pievēršanās tezauru (ideogrāfisko vārdnīcu) sastādīšanas vēsturei.

Tādējādi civilizācijas rītausmā, kad cilvēki savas domas varēja izteikt rakstveidā tikai ar ideogrammu un simbolu palīdzību, vienīgā iespējamā vārdnīca, iespējams, bija tāda, kurā vārdi tika sakārtoti tematiskās grupās. Vienkārši leksikogrāfam tolaik bija grūti atrast citu vārdu klasifikācijas kritēriju, nevis attiecības, kas pastāv pašā realitātē.

Diemžēl mums nav pierādījumu par to, vai tautām, kuras izmantoja ideogrāfisko rakstību, patiešām bija šādas vārdnīcas. Viens no senākajiem mums zināmajiem ideogrāfiskās klasifikācijas mēģinājumiem ir grieķu gramatiķa Attikai Lexeis, Aleksandrijas bibliotēkas direktors, Bizantijas Aristofāns (miris 180. gadā pirms mūsu ēras).

II gadsimtā. n. e. parādās lielais darbs “Onomasticon”, kuru uz grieķu valodas materiāliem ir sastādījis leksikogrāfs un sofists Jūlijs Polukss (īstajā vārdā Polideikss), Ēģiptes pilsētas Naukrātas dzimtā. Ju.Polukss uzrakstīja vairākus darbus, bet mūs sasniedzis tikai “Onomasticon” (Pollux Yu. Onomasticon. M., 1956).


Onomasticon sastāv no 10 grāmatām. Grāmatas būtībā ir atsevišķi traktāti un satur svarīgākos vārdus, kas saistīti ar konkrētu tēmu. Tādējādi pirmajā grāmatā ir runāts par dieviem un karaļiem; otrajā - par cilvēkiem, viņu dzīvi un fizioloģisko uzbūvi; trešajā - par radniecību un civilajām attiecībām u.c. Vārdnīcā iekļautajiem vārdiem pievienotas īsas interpretācijas. Jaunajos laikos vārdnīca pirmo reizi tika publicēta 1502. gadā Venēcijā.

Starp 2. un 3. gs. n. e. Tika izdota brīnišķīgā sanskrita vārdnīca “Amarakoša” (Amarakosha. Paris, 1839). Tās autore ir senindiešu dzejniece, gramatiķe un leksikogrāfe Amara Sina, kuru sauca par "vienu no deviņām pērlēm, kas rotā Vikramaditjas troni". Amarakosha tulkojumā krievu valodā nozīmē Amaras kase. Vārdnīcā ir 10 tūkstoši vārdu. Lai labāk atcerētos vārdu nozīmju interpretāciju, vārdnīcas ieraksti tiek veidoti dzejoļu veidā. Viss vārdnīcas materiāls ir sadalīts 3 grāmatās. Katrā grāmatā ir vairākas nodaļas, savukārt nodaļa, ja nepieciešams, tiek sadalīta vairākās sadaļās. Pirmā grāmata ir veltīta debesīm, dieviem un visam, kas ar tiem tieši saistīts. Otrajā grāmatā ir vārdi, kas saistīti ar zemi, apdzīvotām vietām, augiem, dzīvniekiem un cilvēkiem (vispirms cilvēks tiek uzskatīts par dzīvu būtni, pēc tam par sociālu būtni; mūsu acu priekšā parādās visa autora mūsdienu sabiedrības kastu struktūra; priesteri , kā Dieva uzticības personas, atrodas pašā augšā, un zemāk ir militārpersonas un karaļi, vēl zemāk ir zemes īpašnieki, bet pašā apakšā ir amatnieki, žonglieri, kalpi utt.). Trešā grāmata ir stingri lingvistiska, kā tas izriet no tās sešu nodaļu nosaukumiem.

Eiropas zinātniekiem vārdnīca kļuva zināma tikai 18. gadsimta beigās, kad 1798. gadā Romā tika publicēta tās pirmā daļa. To pilnībā ar tulkojumu angļu valodā 1808. gadā publicēja angļu sanskrita zinātnieks G.T. Kolebrūks (N.T. Kolebrūks). 1839. gadā parādījās tā tulkojums franču valodā, ko veica A.L. Delonšamps (A.L. Deslongchamps). Vārdu krājuma semantiskās klasifikācijas idejas tālāka attīstība ir saistīta ar tā sauktās pasaules valodas problēmu.

Kopsavilkums. Vispārīgākajā izpratnē šis ir pirmais posms vārdu krājuma ideogrāfiskās klasifikācijas tradīcijas attīstībā. Šo posmu var saukt par ideogrāfisko vārdnīcu aizvēsturi. Tagad ir ieteicams pievērsties mūsdienu tēzauru vārdnīcu klasifikācijai.

Ir viegli redzēt, cik dažādi aprakstītie darbi atšķiras no alfabētiskajām vārdnīcām. Ja alfabētiskajās vārdnīcās vārdu pasniegšanu regulē tāds konvencionāls un izteikti neitrāls instruments kā alfabēts, tad, veidojot ideogrāfisko vārdnīcu, noteicošais kļūst paša leksikogrāfa pasaules uzskats.

3.3. Vārdnīcu-tēzauru klasifikācijas principi

Kā jau tika parādīts iepriekš, tezauru klasifikācijas sastādīšanas problēma nav jauna un jau vairākus gadu desmitus ir piesaistījusi vairāku pašmāju un ārvalstu valodnieku uzmanību (C. Marello, V. V. Morkovkin, L. P. Stupin, V. V. Dubichinsky u.c.). ). Pētījumu rezultāts šajā jomā bija šo leksikogrāfisko darbu alternatīvu klasifikāciju izveide. Viena no jaunākajām klasifikācijām ir balstīta uz šādiem kritērijiem: a) semantisko savienojumu veids starp vārdnīcas vienībām; 2) vārdu krājuma apjoms; 3) vārdu krājuma vispārināšana; 4) leksēmu nozīmes attīstība; 5) leksēmu gramatiskā un stilistiskā kvalifikācija; 6) leksēmu funkcionēšanas demonstrēšana; 7) pārstāvēto valodu skaits; 8) leksēmu semantizēšanai izmantoto semiotisko līdzekļu veids. Šī klasifikācija ir balstīta uz iepriekš izveidotajām O.M. klasifikācijām. Karpova un I. Burhanovs (Burčanovs I. Par leksisko nozīmju stilistiski un pragmatiski būtisku aspektu ideogrāfisko aprakstu. Londona, 1996); leksikogrāfiskajā aparātā tiek ieviesta klasifikācijā lietotā terminoloģija


V.V. Morkovkins, Yu.N. Karaulovs, K. Marello. Klasifikācijas kritērijus formulēja O.M. Karpova. Tajā pašā laikā C. Marello izšķir trīs tēzauru veidus:

kumulatīvie, kas ir vārdu grupējumi, nedefinējot to nozīmi;

definitīvs, interpretējot katru vārdu grupas leksisko vienību;

divvalodu un daudzvalodu tēzauri ceļotājiem (Marello C. Thesaurus//W.D.D. 1990. V. 2. P. 1083).

Kumulatīvie tēzauri ne tikai sniedz iespēju atrast saprotamāku, precīzāku, stilistiski pareizāku vārdu situācijā, atrodoties noteiktā semantiskā laukā, bet arī kļūst par pamatu tematisko datoru datu banku veidošanai.

Galīgie tēzauri kopā ar nozīmes definīcijām var ietvert etimoloģisko informāciju un citātus no literāriem darbiem, kas parāda šāda veida tēzauru tiešu enciklopēdisko orientāciju. Turklāt šāda veida vārdnīcas iepazīstina lietotāju ar nepieciešamo jēdzienu sistēmu, izskaidro jēdzienu būtību, līdzības un atšķirības, to paradigmātiskos un sintagmātiskos savienojumus, kā arī dažkārt sniedz informāciju par jēdzienu izrunu, gramatiku, vārdu veidošanas un citām iespējām. leksiskās vienības, kas apzīmē šos jēdzienus.

Divvalodu un daudzvalodu tēzauri ceļotājiem parasti tiek veidoti atbilstoši tematiskajām sadaļām: numuri, pārtika, transports, viesnīcas utt. ar tulkojumu ekvivalentiem divās vai vairākās valodās.

Lai pēc iespējas pilnīgāk parādītu esošo tēzauru vārdnīcu veidus, tiek izveidota daudzlīmeņu klasifikācija. Pirmkārt, atbilstoši semantisko savienojumu veidam starp vārdu krājuma vienībām tēzauri tiek iedalīti trīs lielās klasēs:

1. Asociatīvais tēzaurs (terminoloģija Yu.N. Karaulov

2. Analogais tēzaurs (V.V. Morkovkina terminoloģija

3. Ideogrāfiskais (ideoloģiskais) tēzaurs (L.V.Ščerbas, V.V.Morkovkina terminoloģija. Iepriekš minētie trīs tēzauru veidi attiecīgi atspoguļo šādus leksēmu semantisko savienojumu veidus):

1. Semantiski-sintaktiskie savienojumi, uz kuru pamata
vārdi tiek apvienoti grupās vai pāros, kuru rašanās un eksistence iepriekš noteikta ar dubultsavienojumiem: semantiskā un sintaktiskā. Semantiskās saiknes starp vārdiem tiek izveidotas galvenokārt starp darbības vārdiem un īpašības vārdiem, kas teikumā veic predikatīvu funkciju, un lietvārdiem, piemēram:

a) starp darbību un orgānu (instrumentu), ar kuru tā tiek veikta: satvert - roku, redzēt - aci, peldēt - laivu utt.;

b) starp darbības vārdiem, kuriem nepieciešams viens subjekts un subjekts: riešana - suns, kaimiņš - zirgs utt.; c) starp darbības vārdiem un noteiktu gramatisko papildinājumu, ko pirmie prasa: sasmalcināt - malku, ēst - ēdienu utt.

Līdz ar to asociatīvais tēzaurs ir vārdnīca-tēzaurs, kas organizē leksiskās vienības, pamatojoties uz semantiskiem un sintaktiskajiem sakariem, kas pastāv starp tām, un sakārto grupas atbilstoši centra vārdu grafiskajai formai.

2. Leksiko-semantiskie savienojumi. Grupēšana ar šāda veida savienojumu notiek saskaņā ar galveno vārdu pazīmi - leksisko nozīmi. Šajā gadījumā tiek ņemtas vērā arī leksiko-gramatiskās sakarības, kuru veidā tiek realizētas vārdu individuālās nozīmes.

Tādējādi analoģiskais tēzaurs ir leksikogrāfiska uzziņu grāmata, kuras galvenā makrostruktūras vienība ir leksikāli semantiskā grupa; grupas ir sistematizētas semantisko dominantu alfabētiskā secībā.

3. Subjektu vai tematiskie savienojumi, kur vārdu apvienošana vienā grupā notiek objektu un procesu līdzības vai funkciju kopības dēļ, kas apzīmēti ar vārdiem: objekti
sadzīves priekšmeti, ķermeņa daļas, apģērbu veidi, ēkas utt.

Tādējādi ideogrāfiskais tēzaurs ir leksikogrāfisks darbs, kas reprezentē leksiskās vienības kā daļu no priekšmetu (tematiskām) grupām un sakārto tās hierarhiskā struktūrā, kas paredzēta, lai attēlotu konceptualizētas zināšanas par pasauli.

Tā paša kritērija ietvaros mēs sīkāk iedalām veidus. Tādējādi ideogrāfisko tēzauru attēlo šādi 4 veidi:


Patiesībā ideogrāfisks tēzaurs.

Tematiskā vārdnīca.

Sistemātiskā vārdnīca.

Tematiski sistemātiskā vārdnīca


Pats ideogrāfiskais tēzaurs ir īpašs ideogrāfiskās vārdnīcas veids, kura makrostruktūra tiek organizēta saskaņā ar a priori sinoptisko karti, kas uzklāta uz valodas leksiskā sastāva. Atšķirībā no citiem ideogrāfisko vārdnīcu veidiem, pašu ideogrāfisko tēzauru raksturo loģiska un stingri sakārtota klasifikācijas struktūra, kas izveidota, pamatojoties uz zinātnisko taksonomiju, pat ja vispārīgā leksika ir pakļauta leksikogrāfiskam aprakstam (New Webster "Thesaurus. Landoll, 1991).

Tematiskā vārdnīca ir īpašs ideogrāfiskā tēzaura veids, kura makrostruktūras galvenā vienība ir tematiska grupa, tai skaitā leksēmas, kas apvienotas, pamatojoties uz to apzīmējumu (atsauces) klasifikāciju un aplūkotas no atbilstības viedokļa. konkrētu tēmu.

Sistemātiskā vārdnīca ir īpašs ideogrāfiskā tēzaura veids, kura klasifikācijas struktūra ir paredzēta, lai attēlotu faktiskās semantiskās attiecības, kas pastāv starp valodas leksiskajām vienībām. Klasifikācijas struktūra savā pamatā atspoguļo vārdu krājuma leksiko-gramatisko klasifikāciju, citiem vārdiem sakot, tās paradigmatisko struktūru, kas aprakstīta no subordinācijas un sastāva viedokļa.

Tematiski sistemātiskā vārdnīca ir īpašs ideogrāfiskās vārdnīcas veids, kas ir tematiskās un sistemātiskās vārdnīcas kombinācija.

Kopsavilkums. Aplūkotajā lingvistisko tezauru klasifikācijā ietilpst šādi vārdnīcu veidi: analogais tēzaurs (V.V. Morkovkina terminoloģija); ideogrāfiskais (ideoloģiskais) tēzaurs (L.V.Ščerbas un V.V.Morkovkina terminoloģija); asoc. tēzaurs (terminoloģija Yu.N. Karaulov). Nākamais tiks prezentēts pop. tiek atklāti tēzauri un to pazīmes.

3.4. Populāri tēzauri un to iezīmes

Slavenākā no pieejamajām vārdnīcām-tēzauriem, kam šis termins ir parādā savu pastāvēšanu, tika izveidota uz angļu valodas materiāla; šis ir P.M. pastāvīgi atkārtoti izdrukāts tēzaurs. Rodžera Rodžeta angļu valodas vārdu un frāžu tēzaurs (1852).

Ir svarīgi atzīmēt, ka angļu valodas vārdu un izteicienu tēzaura autors pilnībā izmantoja līdz tam laikam pieejamo pieredzi. "Princips, kas mani vadīja, klasificējot vārdus," raksta P.M. Rodžers, ir tas pats, ko izmanto, lai klasificētu indivīdus dažādās dabas vēstures jomās. Tāpēc manis izceltās sadaļas atbilst dabiskajām botānikas un zooloģijas saimēm, un vārdu virkni nostiprina tās pašas attiecības, kas apvieno dabiskās augu un dzīvnieku sērijas."

P.M. Rodžers uzskatīja, ka pārliecinoša vārdu klasifikācija pēc to nozīmes nav iespējama, kamēr nav pienācīgi izpētīti un sakārtoti realitātes objekti, ko sauc par šiem vārdiem. Tāpēc viņš sāk savu darbu, sadalot angļu valodas konceptuālo lauku četrās lielās klasēs: abstraktās attiecības, telpa, matērija un gars (prāts, griba, jūtas). Šīs klases tālāk iedala vairākās ģintīs, kuras savukārt iedala noteiktā skaitā sugu.

Starp ideogrāfiskās vārdnīcas trūkumiem P.M. Zinātnieki Rodžeram piedēvē sekojošo: 1) ne visai pārliecinošu galveno konceptuālo klašu nomenklatūru; 2) abstraktā loģika prevalē pār dabiskajām vārdu sakarībām; 3) relatīvas lietošanas neērtības (šis trūkums lielā mērā ir labots turpmākajos izdevumos).

Mūsdienu krievu leksikogrāfijā ir vairākas vārdnīcas, kuras jāklasificē kā vārdnīcas-tēzauri (ideogrāfiskās vārdnīcas). Tas, piemēram, tika izveidots Yu.N. vadībā. Karaulova “Krievu semantiskā vārdnīca”, “Krievu semantiskā vārdnīca”, ko rediģēja N.Yu. Švedova, “Krievu valodas tematiskā vārdnīca”, L.G. Sajahova, D.M. Khasanova un V.V. Morkovkina, “Krievu darbības vārdu leksikas-semantisko grupu vārdnīca”, red. E.V. Kuzņecova, “Krievu valodas ideogrāfiskā vārdnīca” O.S. Baranova, “Cilvēka iekšējās pasaules konceptosfēra krievu valodā”, V.I. Ubiyko, visaptveroša izglītojoša vārdnīca “Krievu valodas leksiskais pamats” V.V. vadībā. Morkovkina.

Iepazīsim dažus no tiem.

Mūsdienu krievu idiomu vārdnīca-tēzaurs”, ko rediģēja A.N. Baranova un D.O. Dobrovolskis ietver četras galvenās daļas: 1) konspekts; 2) leģenda; 3) vārdnīcas-tēzaura pamatteksts; 4) norādes. Kopsavilkuma mērķis ir sniegt vispārēju priekšstatu par tēzaura galvenās daļas struktūru. Tajā ir uzskaitīti visi taksoni ar apakštaksiem un atbilstošām paradigmatiskām atsaucēm. Tezaura vārdnīcas pamatdaļa ir vārdnīcas ierakstu kolekcija, kas sagrupēta grupās (taksos) un apakšgrupās (apakštaksos) atbilstoši tajos aprakstīto idiomu nozīmei. Katrā rakstā ir idioma un piemēri tās lietošanai mūsdienu krievu valodā. Konspekts, Leģenda, Rādītāji ir iepriekš minētās vārdnīcas-tēzaura servisa daļas, kas sniedz lietotājam iespēju strādāt ātri un efektīvi. Leģenda tiek izmantota gadījumos, kad idiomu lietojuma piemēri nav vajadzīgi, jo tā atveido visu informāciju, izņemot piemērus. Patiesībā šī ir vārdnīcas vārdnīca. Vārdnīcas vienības ir lemmas. Lemma šajā gadījumā apzīmē idiomu tās sākotnējā (vārdnīcas) formā un, ja iespējams, ietver visus tās nozīmīgos variantus. Piemēram, idioma stāvēt uz vietas ir daļa no lemmas atzīmes laika, stāvēt uz vietas, slīdēt vietā.

Vārdnīcā ir divas norādes. Grāmatas beigās ir raksts “Mūsdienu krievu ideomātikas vārdnīcas-tēzaura teorētiskā koncepcija”, kurā detalizēti analizētas šī projekta zinātniskās iezīmes.

“Krievu semantiskā vārdnīca”, kas izveidota Yu.N. Karaulova ietver 10 tūkstošus krievu vārdu, kas sadalīti 1600 konceptuālās grupās. Grupu noteikšana balstās uz atkārtotiem vārdu interpretācijas elementiem skaidrojošajās vārdnīcās: piemēram, “darbība”, “īpašums”, “rīks” utt.

“Krievu semantiskā vārdnīca”, kas izveidota akadēmiķa N. Yu vadībā. Švedova, balstās uz nedaudz atšķirīgiem principiem, kas raksturīgi gan ideogrāfisko, gan skaidrojošo vārdnīcu sastādīšanai. Pirmkārt, visi valodas vārdi šeit ir sadalīti četrās klasēs: 1) norādes vienības (vietniekvārdi), 2) nosaukšana (nosacīti vārdi), 3) faktiskie savienotāji (satikļi, prievārdi, saistīšanas vārdi), 4) klasificēšana (modāli vārdi). , daļiņas, starpsaucieni). Otrkārt, katrā klasē visi vārdi tiek sadalīti atbilstoši runas daļām. Treškārt, katrā runas daļā kopas un apakškopas tiek identificētas, pamatojoties uz tematisko tuvumu vai, gluži pretēji, vārdu nozīmju pretestību.

DUDEN ir grāmata ar attēliem (zīmējumiem) kreisajā pusē (pēc dažādām programmām) ar numurētām daļām (līdz mazākajai). Labajā pusē šim numurētajam sarakstam ir pievienoti nosaukumi (pat divās valodās). Piemēram, dzelzceļa aprīkojums, stacijas un sliežu ceļi tiek uzzīmēti uz veselas lapas. Labajā pusē ir bultu, semaforu, kruķu utt. nosaukumi.

“Krievu valodas tematiskā vārdnīca” L.G. Sajahova, D.M. Khasanova un V.V. Morkovkinā ir 25 tūkstoši leksisko vienību, kas sagrupētas trīs lielās klasēs: “Cilvēks”, “Sabiedrība”, “Daba”, kas pakāpeniski sadalās mazākās apakšklasēs. Piemēram, klasē “Cilvēks” ir apakšklases “Cilvēka ķermenis un organisms”, “Cilvēka dzīve”, “Izskats, cilvēka izskats”, “Cilvēka emocionālais izskats” utt. Katra no apakšklasēm pēc kārtas ir sadalīts vēl konkrētākās: “ Cilvēka emocionālā pasaule" - "Cilvēka garīgās īpašības" - "Temperaments", "Raksturs" - "Vispārīgās rakstura īpašības" utt. Katrai klasei piederošo vārdu nozīmi un lietojumu ilustrē visizplatītākās frāzes. Piemēram, vārdam “smiekli”, kas ir “Vīrietis” klases apakšgrupā “jūtu, emociju izpausme”, tiek pievienota norāde uz tādām kombinācijām ar šo vārdu kā jautri smiekli, priecīgi smiekli, bērna smiekli, sprādziens. smieklos utt.

Kopsavilkums. Viens no efektīviem rīkiem atsevišķu priekšmetu jomu aprakstīšanai, īpaši elektroniskā formātā, ir tēzauri.

Termins tēzaurs jau sen ir plaši izmantots valodniecībā, lai apzīmētu īpašu vārdnīcas veidu, kas vienā vai otrā pakāpē atspoguļo "pasaules attēlu", "pasaules lingvistisko modeli" (saskaņā ar Yu.N. Karaulov). Tezaurs kā “kase” ir pieaudzis savā semantiskajā jomā un ieguvis jaunu nozīmi. Viņi to sāka saukt par vārdnīcu, kas ne tikai absorbē visas valodas leksiskās bagātības, bet arī sakārto tās noteiktā loģiski-sistēmiskā veidā. Tezaura vārdnīcā vārdi tiek apvienoti grupās, un šī apvienošana notiek, pamatojoties uz konkrēta vārda spēju nodot noteiktu jēdzienu.

Tezauru vārdnīca valodniecībā vienmēr ir uzskatīta par sava veida universālu sistēmu, kas nodrošina kolektīvo (konkrētai sabiedrībai) zināšanu par pasauli uzglabāšanu verbālā formā. Atšķirībā no citām vārdnīcām tēzaura vārdnīcā šīs zināšanas tiek glabātas strukturētā veidā, kas atspoguļo mūsu priekšstatus par “pasaules struktūru”.

Šobrīd slavenākie un populārākie tēzauri ir angļu Roger's Thesaurus, O.V. Ideogrāfiskā krievu valodas vārdnīca. Baranova, krievu semantiskā vārdnīca Yu.N. Karaulova, akadēmiķa Ņ.Ju krievu semantiskā vārdnīca. Švedova, DUDEN, Krievu valodas tematiskā vārdnīca L.G. Sajahova, D.M. Khasanova un V.V. Morkovkina.

Priekšmeta jomas konceptuālā sistēma Jebkuras mācību jomas pamats ir šīs jomas jēdzienu sistēma. Jēdziena definīcija: Jēdziens ir doma, kas vispārinātā veidā atspoguļo realitātes objektus un parādības, fiksējot to īpašības un attiecības; pēdējās (īpašības un attiecības) jēdzienā parādās kā vispārīgas un specifiskas pazīmes, kas korelē ar objektu un parādību klasēm (Lingvistiskā vārdnīca)


Jēdzieni un termini Lai tekstos izteiktu priekšmeta jomas jēdzienu, tiek izmantoti vārdi vai frāzes, ko sauc par terminiem. Priekšmeta jomas terminu kopums veido tās terminoloģisko sistēmu. Konkrēta termina attiecības ar citiem priekšmeta jomas terminu sistēmas terminiem tiek precizētas ar definīcijas palīdzību


Termina definīcijas? Vārds (vai vārdu kombinācija), kas ir precīzs jebkuras īpašas zinātnes, tehnikas, mākslas, sabiedriskās dzīves u.c. jomas konkrēta jēdziena apzīmējums. || Īpašs vārds vai izteiciens, ko izmanto, lai kaut ko apzīmētu. vienā vai otrā vidē, profesija (Lielā krievu valodas skaidrojošā vārdnīca)


Termini - precīzi jēdzienu nosaukumi Parasti katrs jēdziens jomā atbilst vismaz vienam nepārprotami saprotamam terminam, kura nozīme ir šis jēdziens. - termini, tradicionālās terminoloģijas teorijas izpratnē Terminu īpašības - precīzi jēdzienu nosaukumi - terminam ir tieši jāattiecas uz jēdzienu, tam skaidri jāizsaka jēdziens; - termina nozīmei jābūt precīzai un tā nedrīkst pārklāties ar citiem terminiem; - termina nozīme nedrīkst būt atkarīga no konteksta. Termini, kas precīzi nosauc jēdzienu, ir terminoloģijas teorijas, terminologu pētījumu priekšmets


Teksta termini Mācību jomas reālos tekstos, lai atsauktos uz jēdzienu, papildus pamatterminiem var lietot daudz dažādu valodu izteicienu, ko mēs saucam par teksta terminiem: - sintaktiskās un vārddarināšanas iespējas: budžeta līdzekļu saņēmējs - budžets. saņēmējs; - leksiskās iespējas – tiešā norakstīšana, bezstrīdus norakstīšana; - polisemantiskas izteiksmes atkarībā no konteksta, kas kalpo kā atsauce uz dažādiem jomas jēdzieniem, piemēram, vārds valūta dažādos kontekstos var apzīmēt nacionālo valūtu vai ārvalstu valūtu.














Deskriptori ar atzīmēm Metiens - daļa no deskriptora nosaukuma dzērves (celšanas iekārtas) vs dzērves (putni) gliemežvāki (struktūras) - dažādu tēzauru salīdzinājums Frāžu preferences: –Fonogrāfijas ieraksti vs. ieraksti (fonogrāfs) Zīmes un daudzskaitlis: Koks (materiāls) Mežs (meža platības)






Deskriptoru iekļaušana, pamatojoties uz vairāku vārdu izteicieniem Termina sadalīšana palielina neskaidrību: augu barība Izteikuma nozīme ir atkarīga no vārdu secības: informācijas zinātne - zinātniskā informācija Viens no komponentu vārdiem ir ārpus tēzaura darbības jomas vai ir pārāk vispārīgs: pirmkārt palīdzība Deskriptora attiecības neizriet no tā struktūras: –Mākslīgās nieres, bēgļa statuss, luksofori




Asociatīvās attiecības Darbības joma - aktieris - Matemātika - matemātiķis Disciplīna - pētījuma objekts - Neiroloģija - nervu sistēma Darbība - aģents vai instruments - Medības - mednieks Darbība - darbības rezultāts - Aušana - audums Darbība - mērķis - Grāmatu iesiešana - grāmata Cēlonis - sekas - Nāve – bēres Vērtība – mērvienība – Strāvas stiprums – ampēri Darbība – darījuma partneris – Alergēns – pretalerģiskas zāles utt.


Informācijas izguves tēzauri: izstrādes posmi Pirmais posms: indeksētāji apraksta teksta galveno tēmu, izmantojot patvaļīgus vārdus un frāzes. No daudziem tekstiem iegūtie termini tiek apkopoti Starp terminiem, kuriem ir līdzīga nozīme, tiek atlasīts reprezentatīvākais Daži no atlikušajiem kļūst nosacīti sinonīmi, pārējie tiek dzēsti. Īpaši termini parasti netiek iekļauti


Informācijas izguves tēzauri: izstrādes māksla Deskriptori ir termini, kas nepieciešami dokumenta galvenās tēmas izteikšanai Sinonīmi tiek iekļauti tikai nepieciešamākā (piemēram, sākot ar citu burtu), lai nesarežģītu indeksētāja darbu Saistīts termini jāsamazina līdz vienam terminam, lai izvairītos no subjektivitātes indeksācijas Hierarhijas līmeņi, konkrētu terminu iekļaušana ierobežota


Informācijas izguves tēzaurs: izstrādes māksla - 2 Sarežģītos gadījumos deskriptori tiek apgādāti ar atzīmēm un komentāriem -LIV: bombardēšana - bombardēšana - Polisemantiski termini: viena nozīme tēzaurā (lielais burts), neiederas tēzaurā, atzīmē !!! Tradicionālais informācijas izguves tēzaurs ir mākslīga valoda, kas veidota, pamatojoties uz reāliem terminiem




Tradicionālā IPT: pielietojums automātiskajā apstrādē Zināšanu trūkums par programmatūras reālo valodu Zināšanu trūkums par programmatūras reālo valodu Likumdošanas indeksēšanas vārdnīca: Likumdošanas indeksēšanas vārdnīca: – tekstā TROOPS – tēzaurā MILITARY FORCES – tekstā LIELS – lielais, tēzaurā tikai lielais Ieteikts: katrs deskriptors papildināts ar vārdu un terminu sarakstiem Tiek piedāvāts: katrs deskriptors tiek papildināts ar vārdu un terminu sarakstiem Bet: polisēmija vai saistība ar dažādiem deskriptoriem. Bet: polisēmija vai saistība ar dažādiem deskriptoriem. Noskaidrošanas izšķirtspēja Noskaidrošanas izšķirtspēja


Tradicionālā IPT: automātiska vaicājuma paplašināšana Problēma ar asociācijām Ieteicamais: ievadiet svarus ievadiet svarus ievadiet relāciju nosaukumus: objekts, īpašums utt. ievadiet attiecību nosaukumus: objekts, īpašums utt. SECINĀJUMS: jums jāiemācās izveidot lingvistiskos resursus, kas īpaši paredzēti teksta kolekciju automātiskai apstrādei


Tezaurs EUROVOC – Eiropas Kopienas daudzvalodu tēzaurs Tezaurs 9 valodās EUROVOC krievu versija – +5 tūkstoši jēdzienu, kas atspoguļo krievu specifiku Daudzvalodu tēzaurs – Deskriptors – nosaukumi dažādās valodās – Askriptori – dažām valodām


Automātiska indeksēšana saskaņā ar EUROVOC tēzauru, pamatojoties uz noteikumiem (Hlava, Heinebach, 1996) Noteikuma piemērs: IF (pie "Tehnoloģijas" UN ar "Izstrāde") USE Kopienas programma USE attīstības palīdzība ENDIF 40 tūkstoši likumi. Testēšana: 20 visbiežāk sastopamie deskriptori tekstā, ģenerēti automātiski - 42% pabeigtība, salīdzinot ar manuālo rubrikāciju


Automātiska indeksēšana, pamatojoties uz atbilstības svaru noteikšanu starp vārdiem un deskriptoriem (Steinberger et al., 2000) 1. posms - atbilstības noteikšana starp teksta vārdiem un piešķirtajiem deskriptoriem, pamatojoties uz statistikas mēriem (hī kvadrāts vai loga varbūtība) ZIVSAIMNIECĪBAS VADĪBAS deskriptors - šādi vārdi (dilstošā svara secībā): zveja, zivis, krājumi, zveja, saglabāšana, pārvaldība, kuģis utt. 2. posms pati indeksēšana – svaru logaritmu summēšana vai vektoru skalārais reizinājums


Bezmaksas vaicājumu un vaicājumu kombinācija, kuras pamatā ir informācijas izguves tēzaurs. Manuāli indeksēta kolekcija – korelāciju noteikšana. Lietotājs uzdod vaicājumu dabiskā valodā. Vaicājumu paplašina tēzaura deskriptori, kas ir visspēcīgāk korelēti ar vaicājumu (Petras 2004 Petras 2005). Piemēram, pēc Maksātnespējīgo uzņēmumu pieprasījuma var iegūt sarakstu ar deskriptoriem likviditāte, parādsaistības, uzņēmums, firma., un vaicājumu var paplašināt. Eksperimenta precizitāte pieauga par 13%.



Viens no jaunajiem pamatjēdzieniem, kas radās informācijas apstrādes mašīnmetožu izstrādes rezultātā, jo īpaši, tulkojot no vienas valodas uz otru, meklējot zinātnisku un tehnisku informāciju un veidojot uzņēmuma informācijas modeli automatizētās vadības sistēmās. , bija informācijas sistēmas tēzaura jēdziens. Termins “tēzaurs” nozīmē zināšanu kopumu par ārējo pasauli – tas ir tā sauktais pasaules tēzaurs T. Visi ārējās pasaules jēdzieni, kas izteikti dabiskā valodā, veido tēzauru, no kura var atšķirt privātos tēzaurus. ar hierarhisku iedalījumu, ņemot vērā atsevišķu jēdzienu subordināciju vai izolējot pasaules vispārējā tēzaura daļas. Tezauram informācijas izguves sistēmās ir liela nozīme vēlamā dokumenta atrašanā, izmantojot atslēgas vārdus. Tāpēc tēzaura veidošana ir sarežģīts un atbildīgs uzdevums. Taču šo uzdevumu var arī automatizēt.

Klasifikācija tās vispārīgākajā definīcijā ir kopu sadalīšana un kārtošana. To sauc par objektu sadalījumu klasēs, pamatojoties uz kopīgu pazīmi, kas raksturīga šīm parādībām vai objektiem, un atšķir tos no objektiem un parādībām, kas veido citas klases. Ja nepieciešams, katru klasi var iedalīt apakšklasēs. Rubrikators ir īpašs klasifikācijas veids. Tāpēc tie ir izveidoti, pamatojoties uz vispārīgiem noteikumiem:
 klasifikācijas konstruēšanas zinātniskais pamatojums;
 pašreizējā zinātnes attīstības līmeņa atspoguļojums;
 saišu un novirzīšanas sistēmas, kā arī atsauces un atsauces aparāta (CCA) klātbūtne.

Taču rubrikators ir pragmatiska klasifikācija, kas izveidota, pamatojoties uz informācijas plūsmām un speciālistu vajadzībām. Šī ir tā atšķirība no a priori klasifikācijām, piemēram, UDC un IPC.

Klasifikācijas un jo īpaši rubrika galvenās funkcijas ir šādas:
 informācijas apakšsistēmu tematiskā diferencēšana;
 informācijas masīvu veidošana, pamatojoties uz jebkādiem raksturlielumiem;
 informatīvo materiālu un publikāciju sistematizācija;
 pašreizējā un retrospektīvā meklēšana;
 dokumentu un vaicājumu indeksēšana;
 saistība ar citām klasifikācijas shēmām;
- normatīvās funkcijas.

Tie ir veidoti, sadalot jēdzienus - klasifikācijas objektus, pamatojoties uz izveidotajām saiknēm starp šo objektu īpašībām saskaņā ar noteiktiem loģiskiem principiem. Raksturlielumu, pēc kura tiek veikta klasifikācija, sauc par klasifikācijas dalīšanas pamatu. Klasifikācijās plaši tiek izmantotas dedukcijas un indukcijas metodes, lai noteiktu grupas, klases un noteiktu savienojumus starp tām. Tas ir raksturīgi hierarhiskām klasifikācijām. Klasifikācijas dziļums (hierarhijas līmeņu skaits) var atšķirties atkarībā no mērķa. Viens no plaši izmantotajiem rubrikiem ir Zinātniskās un tehniskās informācijas valsts rubrikators (GRNTI).

GRNTI rubrikators ir izstrādāts tā, lai to varētu izmantot kopā ar citām klasifikācijām, piemēram, UDC un IPC. Universālā decimālā klasifikācija (UDC) pastāv jau vairāk nekā 70 gadus, taču tai joprojām nav līdzvērtīgas izplatības plašumā, un to izmanto daudzās pasaules valstīs. UDK aptver visu zināšanu visumu un tiek veiksmīgi izmantota sistematizēšanai un sekojošai visdažādāko informācijas avotu meklēšanai.

Papildus UDK praksē plaši tiek izmantota bibliotēka un bibliogrāfiskā klasifikācija (LBC). BBK ir veidota uz loģiskās subordinācijas principiem un pārstāv lietojumprogrammas tipa klasifikāciju.
Krievijas Federācijā, lai klasificētu izgudrojumus un sistematizētu vietējās izgudrojumu aprakstu kolekcijas, tiek izmantota starptautiskā patentu klasifikācija - diezgan sarežģīta vairāku aspektu klasifikācija, kas balstīta uz funkcionālās nozares principu. Tās pašas tehniskās koncepcijas var atrast IPC vai speciālajās klasēs (pēc nozares) vai funkcionālajās klasēs (pēc darbības principa). Sektorālais jēdzienu sadales princips ietver objektu klasifikāciju atkarībā no to pielietojuma konkrētā vēsturiski izveidotā iekārtu un tehnoloģiju nozarē.

SRNTI, UDC, BBK un IPC rubriku salīdzinošie raksturlielumi ir doti 1. tabulā.

1. tabula
SRNTI, UDC, BBK un IPC rubrikatora raksturojums

Vārds

Struktūra

Sadalījumu izvietošanas princips

Starpsienu izbūves shēma

Hierarhisks

Rūpniecība

No vispārīga uz konkrētu

Hierarhisks

Tematisks

Hierarhisks

Funkcionāli-nozares

No vispārīga uz konkrētu

LBC zinātniskajām bibliotēkām

Hierarhisks

Rūpniecība

No vispārīgiem līdz specifiskiem, pēc sugām


Tādējādi mēs varam izcelt galvenās rubrikatoru un klasifikatoru atšķirīgās iezīmes:
- tiem ir raksturīgs lietišķs raksturs un orientācija uz nozari;
 tās ir atvērtas sistēmas, kas atkarīgas no zinātnes un tehnikas attīstības, speciālistu vajadzībām un pieprasījumiem;
- neorganiskas sistēmas, jo objekti rodas un attīstās vidē un nokļūst tajās. Elementi spēj pastāvēt neatkarīgi ārpus sistēmas. Šī īpašība ir cieši saistīta ar otro pazīmi;
- minimālais elements ir jēdziens, kas saistīts ar vidi. Jēdziens atspoguļo definīciju sistēmu;
 starp jēdzieniem rodas sakarības gan “vertikāli” (ģints tips, vesela daļa), gan “horizontāli” (tips-tips, daļa-daļa), kas norāda uz sistēmu hierarhiju.

Līdz ar to klasifikāciju un rubrikatoru struktūra un organizēšanas principi ļauj automatizēt priekšmetu jomas tēzauru konstruēšanas procesu, izmantojot dedukcijas metodi. Algoritms tēzaura konstruēšanai, izmantojot dedukcijas metodi, ir parādīts attēlā. 1.

Tezaura veidošanas pamatā ir dokumenta, uzdevuma vai informācijas meklēšanas pieteikuma meklēšanas attēls, ko aizpilda operators. Tāpēc pirmais solis ir lietojumprogrammas izpēte un analīze. Pirmajā posmā operators norāda interesējošo tēmu vai problēmu, iespējamos atslēgvārdus un to sinonīmus. Rezultātā mēs iegūstam virspusēju priekšmeta jomas izpratni.

Rīsi. 1. Algoritms tēzaura konstruēšanai, izmantojot dedukcijas metodi

Turklāt, izmantojot dedukcijas metodi, tiek veidots CS atslēgvārdu tēzaurs, kas prasa:
 KS masīvs, kuru norāda pats lietotājs, 1. attēlā apzīmēts kā MP;
 KS masīvs, kas iegūts no meklēšanas uzdevuma, attiecīgi MZ.

Taču pilnīgākai un padziļinātākai priekšmeta jomas izpratnei izmantojam esošos rubrikātus un klasifikācijas shēmas (GRNTI, UDC, BBK, IPC). Lai maksimāli aptvertu priekšmeta jomu, ir jāpārskata visi pieejamie. Rubrikātu masīvs attēlo MR. Atskaitījumu meklēšanas algoritms sastāv no diviem posmiem:
1. Vispārīgo jēdzienu atrašana (2. att.);
2. Specifisku terminu atrašana vispārīgo jēdzienu ietvaros (3. att.).


Rīsi. 2. Vispārējās koncepcijas apstrāde

Mēs ielādējam pirmo rubrikatoru no masīva un organizējam ciklu, lai pārbaudītu CS klātbūtni, ko lietotājs ievadījis rubrikā. Katrs KS tiek meklēts rubrikā un salīdzināts ar vispārīgu jēdzienu vai “ligzdu”, un pēc tam tiek pārbaudīts nosacījums, lai redzētu, vai ir saite uz konkrētiem terminiem. Ja šāda saite ir pieejama, tad KS tiek salīdzināts ar konkrētajiem noteikumiem. Ja saite netiek atrasta, pārejiet pie nākamās vispārīgās koncepcijas. Kad tiek apskatīti operatora ievadītie CS atslēgvārdi, mēs pārejam uz no uzdevuma iegūto CS masīvu. Pārbaudes procedūra ir līdzīga - mēs meklējam KS, kas atbilst vispārīgiem jēdzieniem, un pēc tam to saites uz konkrētiem terminiem.


Rīsi. 3. Konkrētu terminu apstrāde

Ņemiet vērā, ka katrā vispārīgajā koncepcijā ir svarīgi pārskatīt visus pieejamos īpašos terminus, lai iegūtu maksimālu izpratni par problēmu jomu. Šo darbību rezultātā tiek izveidots KS atslēgvārdu masīvs, kas ir pilnīgs tēzaurs, kas atbilst informācijas meklēšanas uzdevumam vai dokumenta meklēšanas attēlam.

Balstoties uz pilnu dokumentu meklēšanas attēlu komplektu (apzīmēsim tos), iespējams izveidot nozares tēzaurus un vienotu bibliotēkas klasifikatoru. Acīmredzot pats  pilns komplekts ir vienkāršs tēzaurs.

Tomēr, izmantojot atlases kritēriju
, (1)
mēs varam izveidot nozares tēzauru. Šajā gadījumā visu nozares tēzauru kopa veido pilnīgu tēzauru
, (2)
kuru sadaļas var būt hierarhiski strukturētas atbilstoši GOST prasībām pēc galvenajiem klasifikatoriem (GRNTI, UDC, BBK, MPK) vai pēc iekšēja vienota klasifikatora.

Tezaura un klasifikācijas konstruēšanas procesa automatizācija ļauj maksimāli atvieglot darbu operatoram, kas strādā ar izplatītajiem informācijas resursiem.

Papildus tēzaura izveidei, pamatojoties uz dokumenta meklēšanas attēlu, piedāvāto pieeju var izmantot automātiskai dokumentu abstrakcijai un teksta klasterēšanai.

Dokumentu abstrahēšana ir viens no uzdevumiem, kura mērķis ir nodrošināt ekspertus ar uzticamu informāciju, kas nepieciešama vadības lēmumu pieņemšanai par internetā iegūto dokumentu vērtību. Abstrahēšana ir dokumentālās informācijas pārveidošanas process, kas beidzas ar abstrakta sagatavošanu, un abstrakts ir semantiski adekvāts primārā dokumenta galvenā satura izklāsts, ko raksturo ekonomisks simbolisks noformējums, lingvistisko un strukturālo īpašību noturība un paredzēts veikt. dažādas informācijas un komunikācijas funkcijas zinātniskās komunikācijas sistēmā. Dokumentu abstrahēšanas algoritms ir parādīts attēlā. 4.


Rīsi. 4. Dokumentu abstrakcijas algoritms

Kopumā algoritms ietver šādus galvenos posmus.
1. Teikumi tiek izvilkti no dokumenta, kas lejupielādēts no interneta un atrodas datu noliktavā, izceļot pieturzīmes un saglabāti masīvā.
2. Katrs teikums ir sadalīts vārdos, izvēloties atdalītājus, un mēs tos saglabājam masīvā, un masīvs katram teikumam ir atšķirīgs.
3. Katram teikumam, katram šī teikuma vārdam mēs saskaitām vārdu skaitu citos teikumos (pirms un pēc). Katra vārda atkārtojumu summa (pirms un pēc) būs šī teikuma svars.
4. Abstraktam tiek izvēlēts noteikts teikumu skaits ar maksimālo svēruma koeficientu pēc parādīšanās secībā tekstā.

Piedāvātais informācijas sistēmas tēzaura un tematisko katalogu konstruēšanas modelis ir teorētisks pamats semantiskās meklēšanas automatizēšanai un ļauj ekspertam ne tikai veikt meklēšanas darbus, bet arī automatizētā režīmā abstraktus dokumentus, kas iegūti meklēšanas rezultātā. izplatītās informācijas sistēmas internetā.

Literatūra:
1. Baruškova R.I. Zinātniskās un tehniskās informācijas klasifikācijas shēmas. Mācību grāmata pabalstu. - M., 1981. - 80 lpp.
2. Baruškova R.I. Rubrikators kā zinātniskās un tehniskās informācijas klasifikācijas shēma. Rīku komplekts. - M., 1980. - 38 lpp.
3. Trusovs A.V., Babarikins E.P. Tematiskās informācijas pieprasījuma domēna robežu noteikšana izplatītajās informācijas sistēmās. Viskrievijas (ar starptautisku dalību) konferences “Informācija, inovācijas, investīcijas” materiāli, 2004. gada 24.-25. novembris, Perma / Perma CSTI. - Perma, 2004. - P.76-79.
4. Jatsko V.A. Zinātniskā teksta analīzes un apkopošanas loģiski-lingvistiskās problēmas. - Abakan: Khakass State Publishing House. Universitāte, 1996. - 128 lpp.

Jaunākie materiāli sadaļā:

Komēdija Pigmalions.  Bernards Šovs
Komēdija Pigmalions. Bernards Šovs "Pigmalions" Elīza apmeklē profesoru Higinsu

Pigmalions (pilns nosaukums: Pygmalion: A Fantasy Novel in Five Acts, angļu Pygmalion: A Romance in Five Acts) ir luga, kuru sarakstījis Bernārs...

Talleyrand Charles - biogrāfija, fakti no dzīves, fotogrāfijas, fona informācija Lielā franču revolūcija
Talleyrand Charles - biogrāfija, fakti no dzīves, fotogrāfijas, fona informācija Lielā franču revolūcija

Talleyrand Charles (pilnībā Charles Morice Talleyrand-Périgord; Taleyrand-Périgord), franču politiķis un valstsvīrs, diplomāts,...

Praktisks darbs ar kustīgu zvaigžņu karti
Praktisks darbs ar kustīgu zvaigžņu karti