A cosa serve un dizionario dei sinonimi? Il significato della parola thesaurus

N. V. Lukashevich

[e-mail protetta]

B. V. Dobrov

Centro di ricerca informatica dell'Università statale di Mosca. MV Lomonosov;

ANO Centro per la ricerca sull'informazione

[e-mail protetta]

Parole chiave: thesaurus, recupero di informazioni, elaborazione automatica del testo,

La stragrande maggioranza delle tecnologie che lavorano con grandi raccolte di testi si basano su metodi statistici e probabilistici. Ciò è dovuto al fatto che le risorse lessicali che potrebbero essere utilizzate per elaborare raccolte di testi utilizzando metodi linguistici devono avere un volume di decine di migliaia di voci di dizionario e avere una serie di proprietà importanti che devono essere monitorate specificamente durante lo sviluppo della risorsa. Nel rapporto esaminiamo i principi di base dello sviluppo di risorse lessicali per l'elaborazione automatica di grandi raccolte di testi utilizzando l'esempio del thesaurus in lingua russa per l'elaborazione dei testi computerizzati RuTez, creato nel 1997, che attualmente è una rete gerarchica di oltre 42mila concetti . Descriviamo lo stato attuale del thesaurus sulla base di un confronto tra la sua composizione lessicale e il corpus testuale del Sistema Informativo Universitario RUSSIA (www.cir.ru) - 400mila documenti. Vengono discussi esempi di utilizzo del thesaurus in varie applicazioni di elaborazione testi automatica.

  1. introduzione

Attualmente milioni di documenti sono diventati disponibili in formato elettronico, sono stati creati migliaia di sistemi informativi e biblioteche elettroniche. Allo stesso tempo, i sistemi informativi che utilizzano risorse lessicali e terminologiche per la ricerca vengono calcolati in frazioni percentuali. Ciò è dovuto alle gravi sfide legate alla creazione di tali risorse linguistiche per l'elaborazione automatica delle moderne raccolte di documenti elettronici.

Innanzitutto, queste raccolte sono solitamente molto grandi; la risorsa deve includere descrizioni di migliaia di parole e termini. In secondo luogo, le raccolte sono un insieme di documenti di diversa struttura con varie strutture sintattiche, il che rende difficile l'elaborazione automatica delle frasi di testo. Inoltre, le informazioni importanti sono spesso distribuite tra diverse frasi del testo.

Tutto ciò solleva acutamente la questione di cosa dovrebbe essere una risorsa linguistica che, da un lato, sarebbe utile per l’elaborazione e la ricerca automatica nelle collezioni elettroniche, dall’altro potrebbe essere creata in un tempo prevedibile e mantenuta con relativamente poco sforzo.

In questo articolo esamineremo i principi di base dello sviluppo di risorse lessicali per l'elaborazione automatica di grandi raccolte di testi. Questi principi saranno esaminati utilizzando l'esempio del thesaurus in lingua russa creato dal Centro ANO per la ricerca sull'informazione dal 1997 per l'elaborazione dei testi computerizzati RuTez. RuTez è attualmente una rete gerarchica di oltre 42mila concetti, che comprende più di 95mila parole, espressioni e termini russi. Descriveremo lo stato attuale del thesaurus sulla base di un confronto tra la sua composizione lessicale e il vocabolario del corpus testuale del Sistema informativo universitario RUSSIA, supportato dal Centro di calcolo della ricerca dell'Università statale di Mosca. MV Lomonosov e ANO TSII. UIS RUSSIA (www.cir.ru) contiene 400mila documenti su argomenti socio-politici (circa 3 GB di testi, 200 milioni di parole). L'articolo discuterà anche esempi di utilizzo del thesaurus in varie applicazioni di elaborazione testi automatica.

  1. Principi per lo sviluppo di una risorsa linguistica

per compiti di recupero delle informazioni

Per garantire un'efficace elaborazione automatica dei documenti elettronici (indicizzazione automatica, categorizzazione, confronto di documenti), è necessario creare una base per il loro confronto: un elenco di ciò che è menzionato nel documento. Affinché un tale indice sia più efficace di un indice parola per parola, è necessario superare la diversità lessicale del testo: sinonimi, polisemia, parti del discorso, stilistica, e ridurlo a un invariante - concetto che diventa base per confrontare testi diversi. Pertanto, i concetti dovrebbero diventare la base di una risorsa linguistica e le espressioni linguistiche: parole, termini - diventare solo input di testo che inizializzano il concetto corrispondente.

Per poter confrontare concetti diversi ma simili è necessario stabilire delle relazioni tra loro. Tradizionalmente, le risorse linguistiche per l'elaborazione automatica dei testi in linguaggio naturale utilizzavano determinati insiemi di relazioni semantiche, come parte, fonte, motivo e così via. Tuttavia, quando si lavora con raccolte di testi grandi ed eterogenee, dobbiamo capire che con lo stato attuale della tecnologia di elaborazione testi, un sistema informatico non sarà in grado di rilevare in modo affidabile queste relazioni nel testo per eseguire le procedure che abbiamo associato a queste o altre relazioni. Pertanto, le relazioni tra concetti devono innanzitutto descrivere alcune proprietà invarianti che non dipendono o dipendono debolmente dall'argomento del testo specifico in cui il concetto è menzionato.

La funzione principale di questa relazione è rispondere alla seguente domanda:

se è noto che il testo è dedicato alla discussione di C1 e C2 è correlato

atteggiamentoRcon C1, possiamo dire che l'argomento del testo(*)

legato a C2?

Quando si crea una risorsa linguistica per l'elaborazione automatica, è importante determinare quali proprietà dei concetti C1 e C2 ci consentono di stabilire relazioni corrette (*) tra di loro.

Quindi, ad esempio, non importa di quali testi siano scritti betulle, possiamo sempre dire che questi testi riguardano alberi. Ma nonostante la popolarità e le frequenti discussioni sulla relazione albero come una parte foreste, pochissimi testi sugli alberi sono testi sulle foreste. Tieni presente che il problema non è legato al nome della relazione. COSÌ la radura fa parte della foresta, e i testi sulle radure sono testi sulle foreste.

L'invarianza delle relazioni rispetto allo spettro dei possibili argomenti dei testi in un'area tematica è in gran parte determinata da proprietà più profonde di quelle riflesse dai nomi delle relazioni, vale a dire il suo quantificatore e le sue proprietà esistenziali. Pertanto, le proprietà quantificatrici delle relazioni descrivono se tutti gli esempi di un concetto hanno una determinata relazione, se questa relazione persiste durante l'intero ciclo di vita dell'esempio. Problema con l'utilizzo della relazione alberoforesta Ciò è dovuto proprio al fatto che non tutti gli alberi specifici si trovano nella foresta, ma la radura non può trovarsi al di fuori della foresta.

Un esempio di descrizione delle proprietà esistenziali delle relazioni: segue dall'esistenza del concetto C1 l'esistenza del concetto C2 (ad esempio, l'esistenza del concetto BOX AUTO richiede l'esistenza di un concetto AUTOMOBILE) oppure l'esistenza degli esempi C1 dipende dall'esistenza degli esempi C2 (quindi specifici ALLUVIONE inseparabile da un esempio specifico FIUMI). La discussione nel testo del concetto dipendente C2, in particolare dipendente dall'esempio, suggerisce che il testo è correlato anche al concetto principale C1.

Consideriamo la relazione tra i concetti FORESTA e ALBERO nei dettagli. In effetti, parte del concetto FORESTAÈ ALBERO NELLA FORESTA, mentre ci sono ALBERO AUTOPORTANTE,ALBERO NEL GIARDINO ecc. In ogni caso è necessario rompere il rapporto di subordinazione del concetto ALBERO concetto FORESTA.

Dall'altro lato, FORESTAè una specie COLLEZIONI DI ALBERI, non esiste senza alberi (così come GIARDINO). Quindi, il concetto FORESTA deve essere in relazione al concetto ALBERO. Partendo dall'analisi delle esigenze di specifici problemi applicativi, siamo giunti alla conclusione che è importante descrivere le proprietà profonde delle relazioni che prima si riflettevano molto poco nelle risorse linguistiche, ma che sono di fondamentale importanza per i compiti di elaborazione automatica di grandi raccolte di testi e, possibilmente, per molti altri compiti.

Ora modelliamo la descrizione del quantificatore e delle proprietà esistenziali dei concetti con un insieme di relazioni tradizionali del thesaurus SOPRA-SOTTO (66% di tutte le relazioni), PARTE-INTERO (30% delle relazioni), ASSOCIAZIONE (4%), in combinazione con un un certo insieme di modificatori aggiuntivi (il 20% delle relazioni è contrassegnato). Si noti che le relazioni PARTE-INTERO e ASSOCIAZIONE vengono interpretate tenendo conto della regola (*). In totale vengono descritte circa 160mila connessioni dirette tra concetti, il che, tenendo conto della transitività delle relazioni, fornisce un numero totale di connessioni diverse di oltre 1350mila connessioni, ovvero, in media, ogni concetto è collegato con altri 30 .

  1. RuTez Thesaurus: struttura generale

Il thesaurus RuTez è una rete gerarchica di concetti corrispondenti ai significati di singole parole, espressioni testuali o serie di sinonimi. Pertanto, gli elementi principali di un thesaurus sono concetti, espressioni linguistiche, relazioni tra espressioni e concetti linguistici e relazioni tra concetti.

Il thesaurus combina in un unico sistema sia la conoscenza linguistica - descrizioni di lessemi, idiomi e loro connessioni, tradizionalmente legate alla conoscenza lessicale e semantica, sia la conoscenza dei termini e delle relazioni all'interno delle aree tematiche, tradizionalmente legate al campo di attività dei terminologi, descritta in thesauri per il recupero delle informazioni. Come sotto-aree tematiche, il thesaurus descrive aree tematiche come l'economia, la legislazione, la finanza, le relazioni internazionali, che sono così importanti per la vita umana quotidiana da avere una significativa rappresentazione lessicale nei dizionari esplicativi tradizionali. In essi, lessicale e terminologico sono fortemente interconnessi e interagiscono fortemente tra loro.

Le espressioni linguistiche sono lessemi individuali (sostantivi, aggettivi e verbi), gruppi nominali e verbali. Pertanto, il thesaurus attualmente non include avverbi e parole funzionali come espressioni linguistiche. I gruppi composti da più parole possono includere termini, modi di dire, funzioni lessicali ( influenza e).

Per ogni espressione linguistica viene descritto:

La sua polisemia è una connessione con uno o più concetti, il che significa che una determinata espressione linguistica può servire come espressione testuale di questo concetto. Attribuire un'espressione linguistica a concetti diversi è anche un'indicazione implicita della sua polisemia;

La sua composizione morfologica (parte del discorso, numero, caso);

Caratteristiche di scrittura (ad esempio, con una lettera maiuscola), ecc.

Ogni concetto del thesaurus ha un nome univoco, un elenco di espressioni linguistiche con cui questo concetto può essere espresso nel testo e un elenco di relazioni con altri concetti.

Una delle sue espressioni testuali inequivocabili viene solitamente scelta come nome univoco per un concetto. Ma il nome di un concetto può anche essere formato da una coppia delle sue espressioni testuali ambigue - sinonimi, scritti separati da virgole e che lo definiscono in modo inequivocabile (ad esempio, il concetto SPESSO). Un'espressione testuale ambigua del nome di un concetto può anche essere dotata di un segno o di un frammento di interpretazione abbreviato, ad esempio concetto FOLLA (GRUPPO DI PERSONE).

  1. Esempio di voce del dizionario

Abbiamo scelto come esempio la voce del dizionario per il concetto FORESTA, corrispondente a uno dei significati della parola foresta. Questa voce del dizionario è interessante perché comprende diversi tipi di conoscenze, tradizionalmente classificate come conoscenze lessicali (semantiche) e conoscenze enciclopediche (conoscenza disciplinare, terminologia).

Sinonimi per il concetto FORESTA(totale 13):

foresta(M), zona forestale, ambiente forestale,

foresta, quartiere della foresta, paesaggio forestale,

zona forestale, bosco, zona boschiva,

area boschiva, piccolo bosco,

schiera di foreste.

Di seguito i concetti con sinonimi:

GIUNGLA(giungla);

PARCO FORESTALE(giardino cittadino, area verde,

area verde, parco forestale,

gestione forestale, parco forestale

cintura, parco(M), zona parco);

SILVICOLTURA;

FORESTA LASCIATA(foresta dalle foglie tenere, dalle foglie dure

foresta);

BOSCHETTO(boschetto di querce);

FORESTA DI CONIFERE (foresta di conifere, foresta di conifere oscura)

Parti concettuali con sinonimi:

frangivento (frangivento, manna);

TAGLIO(zona di taglio);

CULTURA DELLA FORESTA(specie forestali, selvicoltura

cultura);

TERRENO FORESTALE (terreni boschivi; terreni coperti

foresta; terreni forestali, territorio forestale;

terreno boscoso, boscoso

la zona);

Piantagioni forestali(piantagioni forestali, piantagioni forestali,

rimboschimento);

BORDO DELLA FORESTA(bordo, bordo);

SOTTOFIORE(sottobosco);

PROSEKA;

LEGNO SECCO(legno morto).

Qui i simboli (M) riflettono una nota sull'ambiguità del testo inserito.

Concetto FORESTA Ha anche altre relazioni, le cosiddette relazioni di dipendenza (nella versione moderna sono chiamate ASC 2 - associazione asimmetrica): INCENDIO FORESTALE(incendio boschivo, incendio nella foresta; USO FORESTALE (uso delle foreste, uso delle aree del fondo forestale); SILVICOLTURA; SCIENZE FORESTALI (scienza forestale). Come già osservato nel paragrafo 2, il concetto di FORESTA dipende dal concetto di ALBERO, che nel thesaurus è indicato con la relazione ASC 1.

Concetto totale FORESTAè collegato direttamente con altri 28 concetti, tenendo conto della transitività delle relazioni - con 235 concetti (in totale più di 650 input di testo).

  1. Valutazione dello stato attuale

Dizionario della lingua russa RuTez

5.1. Composizione lessicale

Attualmente la rete dei thesaurus comprende più di 95mila espressioni linguistiche, di cui 61mila composte da una sola parola.

Questo volume di lavoro ci ha costretto a decidere quali parole ed espressioni linguistiche dovevano essere incluse nelle descrizioni del Thesaurus. Il desiderio naturale era quello di vedere come venivano rappresentate nel dizionario dei sinonimi le parole più frequenti della lingua russa. A tale scopo è stata utilizzata la raccolta testuale del Sistema Informativo Universitario RUSSIA (400mila documenti). La collezione contiene documenti ufficiali di vari organi della Federazione Russa (55mila documenti dal 1992), nonché materiali per la stampa dal 1999 (giornali Izvestia, Nezavisimaya Gazeta, Komsomolskaya Pravda, Argumenty i Fakty, rivista Expert e altri), materiali di origine scientifica riviste ("Bollettino dell'Università di Mosca", "Giornale sociologico"). È stato effettuato un confronto tra l'elenco dei lemmi inclusi nel Thesaurus e l'elenco dei 100.000 lemmi più frequenti nella raccolta testuale (frequenza superiore a 25).

La marcatura del polissema dell'elenco ha mostrato che tra questi centomila lemmi, 35mila sono descritti in RuTez, solo circa 7mila lessemi meritano di essere inclusi nel Thesaurus, il resto sono varianti lemmatiche di vari nomi propri. Pertanto, il rifornimento non è più un compito prioritario e viene effettuato gradualmente, a partire dalle parole più frequenti. Si presuppone che non appena questo elenco sarà in gran parte esaurito, verrà effettuato un altro confronto con l'array di testo del sistema informativo, verranno selezionati nuovi lessemi con una frequenza superiore a 25. Successivamente, si suppone che la soglia di visualizzazione venga abbassata . La presenza di un gran numero di esempi di testo nella raccolta di testi consente di rispondere rapidamente alle "innovazioni lessicali" (ad esempio, installazione,successo, bel mondo, romanzo giallo) e includerli nelle posizioni appropriate nel sistema gerarchico del Thesaurus.

Il lavoro costante con una raccolta di testi attuale offre opportunità uniche per verificare il significato e la qualità delle descrizioni lessicali proposte nei dizionari. Ad esempio, una frequenza d'uso insolitamente alta della parola Madre, vedi(più di 400 volte). Il controllo dell'array ha mostrato che la parola è effettivamente spesso usata come sinonimo della parola Mosca, mentre i dizionari esplicativi spesso segnalano questa parola come obsoleta. Un altro esempio di parola usata frequentemente (più di 300 volte) contrassegnata come obsoleta nei dizionari è la parola beato.

5.2 Descrizione dei significati delle parole

Il confronto con la raccolta di testi mostra che molte delle parole di frequenza nell'array sono ben rappresentate nel Thesaurus in almeno uno dei loro significati (solitamente basilari). Scoprire fino a che punto lo spettro dei significati delle parole polisemantiche nella lingua russa è rappresentato nel Thesaurus è il nostro compito principale al momento.

Come è noto, spesso fonti dizionari diverse danno un diverso insieme di significati alle parole polisemiche, evidenziano sfumature di significato e lo stesso tipo di polisemia può essere descritto diversamente per parole diverse anche nello stesso dizionario. Pertanto, il compito di descrivere in modo coerente e rappresentativo i significati dei lessemi è un compito importante per i creatori di qualsiasi risorsa di vocabolario.

Tuttavia, se la risorsa è destinata all'elaborazione automatica, il compito di una descrizione equilibrata dei valori diventa molto più importante. Un'inflazione eccessiva del valore può comportare l'incapacità del sistema informatico di selezionare il valore desiderato, il che a sua volta si traduce in una riduzione significativa delle prestazioni del sistema di elaborazione testi automatico. Quindi, uno degli svantaggi della risorsa WordNet come risorsa per l'elaborazione automatica dei testi è l'eccessivo numero di significati descritti per alcune parole (in WordNet 1.6: 53 significati per correre, 47 per giocare e così via.). Questi significati sono difficili da distinguere anche per gli esseri umani quando annotano semanticamente i testi. È chiaro che anche il sistema informatico non è in grado di gestire la scelta del valore appropriato. Pertanto, diversi autori propongono modi diversi per combinare i valori per migliorare la qualità dell'elaborazione.

Allo stesso tempo, opera il fattore opposto: se i significati differiscono davvero nell'insieme delle connessioni del dizionario (nel nostro caso, le connessioni del thesaurus) - non possono essere incollati in un'unità (un concetto) - ciò porterà anche a un deterioramento la qualità dell'elaborazione automatica.

Facciamo un esempio delle parole scuola E Chiesa, ognuno dei quali può essere considerato come un'organizzazione e come un edificio.

Ogni organizzazione scolastica ha un edificio (il più delle volte uno). Tutte le parti dell'edificio scolastico (aule, lavagne) sono correlate scuola come un'organizzazione. Non esistono tipologie specifiche di edifici scolastici. Quindi la descrizione scuole Trattandosi di edifici, non è opportuno separarli in un concetto separato. Tuttavia, la descrizione di un tale concetto collettivo SCUOLA come organizzazione e come edificio deve avere un rapporto appositamente progettato con il concetto EDIFICIO. Quando si descrivono tali relazioni nel Thesaurus, viene utilizzato un segno sulla relazione: il modificatore "A" ("aspetto"; durante l'analisi automatica, è necessaria la "conferma" da parte di altri concetti per tenere conto di questa relazione).

SCUOLA

PIÙ ALTO ISTITUTO D'ISTRUZIONE

SOPRA A EDIFICIO PUBBLICO

Significati corrispondenti della parola Chiesa non così vicino. Chiese Come organizzazione, può avere un gran numero di edifici ecclesiastici in luoghi diversi e avere anche molti altri edifici. Costruzione di chieseè strettamente correlato alla religione e alla confessione, ma può cambiare appartenenza organizzazioni ecclesiali. Organizzazione della Chiesa E costruzione di chiese hanno sottospecie diverse. Ecco perché CHIESA (ORGANIZZAZIONE) E CHIESA (EDIFICIO) sono presentati in RuTez come concetti diversi.

La significativa divergenza nelle connessioni del thesaurus è correlata in modo interessante con la capacità delle denotazioni corrispondenti ai significati di esistere separatamente le une dalle altre. Pertanto, un edificio-chiesa non cessa di esistere e addirittura di essere chiamato chiesa anche quando cambia la sua destinazione d'uso, a differenza di un edificio scolastico.

Il processo di verifica della rappresentazione dei valori nel Thesaurus è costantemente in corso, a partire dai lemmi più frequenti. Per ogni lessema di frequenza viene verificato come i suoi significati sono descritti nei dizionari esplicativi, quali significati sono utilizzati nella raccolta e come sono presentati nel Thesaurus. Di conseguenza, è stato ora formato un elenco di 10.000 lessemi, la cui ambiguità richiede ancora un'analisi o una descrizione aggiuntiva. L'elenco è stato ottenuto sulla base di 30mila lemmi più frequenti.

Va notato che nel Thesaurus il problema della polisemia è parzialmente rimosso perché le connessioni del thesaurus possono essere descritte tra diversi significati di una parola, e quindi il concetto più alto nella gerarchia può essere selezionato per impostazione predefinita. Se ne è parlato sicuramente nel testo. Ad esempio, la parola foto ha tre significati: la fotografia come campo di attività, la fotografia come immagine fotografica, la fotografia come studio fotografico:

FOTOGRAFIA(fotografare, attività fotografica, ..., foto )

PARTE IMMAGINE FOTOGRAFICA

(foto, fotografia, foto )

PARTE STUDIO FOTOGRAFICO (foto ).

Quindi, se non fosse possibile capire quale significato fosse usata la parola foto, per impostazione predefinita si presuppone che sia stata scattata una foto (di un processo, risultato o luogo), il che è sufficiente per molte applicazioni di elaborazione automatica del testo.

  1. Applicazione del thesaurus RuTez

per l'elaborazione automatica del testo

Dal 1995, la terminologia socio-politica RuTez (thesaurus socio-politico) è stata utilizzata attivamente e con successo per varie applicazioni di elaborazione automatica del testo, come l'indicizzazione concettuale automatica, la rubricazione automatica utilizzando diversi rubricatori, l'annotazione automatica dei testi, compresi quelli in lingua inglese. quelli. Il thesaurus socio-politico (27mila concetti, 62mila voci di testo) è uno strumento di ricerca di base nel sistema di ricerca UIS RUSSIA (www.cir.ru).

Tutto il vocabolario del thesaurus RuTez viene utilizzato nelle procedure per la categorizzazione automatica dei testi utilizzando complessi rubricatori gerarchici. Nella tecnologia esistente, ciascuna categoria viene descritta come un'espressione booleana di termini, dopo di che la formula originale viene espansa lungo la gerarchia del thesaurus. L'espressione booleana risultante potrebbe già includere centinaia e migliaia di congiunti e disgiunti.

Diamo, ad esempio, un frammento di descrizione utilizzando i concetti del thesaurus (e le espressioni linguistiche dopo aver ampliato la formula) della rubrica "Immagine di una donna" del rubricatore SOFIST 2, utilizzata da VTsIOM per classificare i questionari dei sondaggi di opinione pubblica:

(DONNA[N]

|| RAGAZZA[N]

|| PARENTE [L] (nonna, nipote, cugina,

figlia, cognata, madre, matrigna, nuora, figliastra, ...))

(TRATTO DEL CARATTERE[L] (parsimonioso, senza cuore, smemorato,

frivolo, beffardo, intollerante, socievole, ...)

|| IMMAGINE [E] (presentazione, aspetto, aspetto,

aspetto, aspetto, immagine, aspetto)

|| PIACEVOLE [L] (..., interessante, bello, carino,

attraente, carino, attraente, ...)

|| SPIACEVOLE[L] (antipatico, scortese, cattivo, ...)

|| APPREZZARE[L] (venerare, adorare, adorare,

adorare, adorare, ...)

|| PREFERISCI[N]

Il simbolo “E” denota la completa espansione lungo la gerarchia del thesaurus, il simbolo “L” - secondo le relazioni tra le specie (“SOTTO”), il simbolo “N” - non si espande.

È in corso una ricerca per sviluppare una tecnologia combinata per la categorizzazione automatica del testo, combinando la conoscenza del thesaurus e le procedure di apprendimento automatico.

Si stanno esplorando le questioni relative all'utilizzo di un thesaurus per espandere una query formulata in linguaggio naturale (attualmente, solo la parte socio-politica del thesaurus viene utilizzata per espandere una query terminologica nel sistema di recupero delle informazioni dell'UIS RUSSIA), e la ricerca di risposte a domande in grandi raccolte di testi.

7. Conclusione

L'articolo presenta i principi di base dello sviluppo di risorse linguistiche per l'elaborazione automatica di grandi raccolte di testi. La risorsa linguistica creata - Thesaurus della lingua russa RuTez - è destinata all'uso in applicazioni di elaborazione automatica del testo come l'indicizzazione concettuale dei documenti, la rubricazione automatica secondo complessi rubricatori gerarchici, l'espansione automatica delle query in linguaggio naturale.

Questo lavoro è parzialmente sostenuto dalla sovvenzione n. 00-04-00272a della Fondazione umanitaria russa.

Letteratura

  1. Lukashevich N.V., Saliy A.D., Rappresentazione della conoscenza nel sistema di elaborazione automatica del testo //NTI, Ser.2. 1997. N. 3. P. 1‑6.
  2. Zhuravlev S.V., Yudina T.N., Sistema informativo RUSSIA //NTI, Ser.2. 1995. N. 3. P. 18‑20.
  3. Winston M., Chaffin R., Herman D., Una tassonomia delle relazioni parte-tutto // Scienze cognitive. 1987. No. 11. P. 417‑444.
  4. Priss U.E., La formalizzazione di WordNet mediante metodi di analisi dei concetti relazionali // WordNet. Un database lessicale elettronico/Ed. di C. Fellbaum. Cambridge, Massachusetts, Londra, Inghilterra.: The MIT Press 1998. P. 179‑196.
  5. Guarino N., Welty C., A Formal Ontology of Properties // Atti del workshop ECAI-00 su applicazioni di ontologie e metodi di risoluzione dei problemi. Berlino: 2000. P. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Alcuni principi ontologici per la progettazione di risorse lessicali di livello superiore // Primo int. Conf. sulle risorse linguistiche e sulla valutazione. 1998.

  1. Lukashevich N.V., Dobrov B.V., Modificatori delle relazioni concettuali nel thesaurus per l'indicizzazione automatica // NTI, Ser.2. 2000, n. 4, pp. 21‑28.
  2. Ampio dizionario esplicativo della lingua russa / Ed. SA Kuznetsova. San Pietroburgo: Norint, 1998.
  3. Ozhegov S.I., Shvedova N.Yu., Dizionario esplicativo della lingua russa - 3a edizione. M.: Az, 1996.
  4. Apresyan Yu.D., Opere scelte, volume I. Semantica lessicale: 2a ed. M.: Scuola “Lingue della cultura russa”, ed. Azienda "Letteratura Orientale" RAS, 1995.
  5. G. Miller, R. Beckwith, C. Fellbaum, D. Gross e K. Miller, Cinque articoli su WordNet, CSL Report 43. Cognitive Science Laboratory, Princeton University, 1990.
  6. Chugur, J. Gonzalo e F. Verdjeo, Distinzioni di senso nelle applicazioni della PNL // Atti di "OntoLex-2000": Ontologie e basi di conoscenza lessicale. Sofia: OntoTextLab. 2000.
  7. Loukachevitch N., Dobrov B., Sintesi tematica strutturale basata sul thesaurus nei sistemi informativi multilinguistici // Revisione della traduzione automatica. 2000. No. 11. P. 10‑20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Thesaurus della lingua russa per l'elaborazione del linguaggio naturale

di grandi raccolte di testi

Natalia V. Loukachevitch, Boris V. Dobrov

Parole chiave: thesaurus, elaborazione del linguaggio naturale, recupero delle informazioni

Nella nostra presentazione consideriamo i principi fondamentali dello sviluppo delle risorse lessicali per l'elaborazione automatica di grandi raccolte di testi e descriviamo la struttura del Thesaurus della lingua russa, che è stato sviluppato dal 1997 appositamente come strumento per l'elaborazione automatica dei testi. Ora il Thesaurus è una rete gerarchica di 42mila concetti. Descriviamo lo stato attuale del Thesaurus sviluppandolo rispetto ai 100.000 lemmi più frequenti della raccolta di testi del Sistema Informativo Universitario RUSSIA (www.cir.ru), comprendente 400mila documenti. Consideriamo inoltre l'uso del Thesaurus in diverse applicazioni di elaborazione automatica del testo.

, antonimi, paronimi, iponimi, iperonimi, ecc.) tra unità lessicali. I thesauri sono uno degli strumenti più efficaci per descrivere singole aree tematiche.

In passato il termine dizionario dei sinonimi sono stati designati principalmente i dizionari, che rappresentano il vocabolario della lingua con la massima completezza con esempi del suo utilizzo nei testi.

Anche termine dizionario dei sinonimi utilizzato nella teoria dell'informazione per denotare la totalità di tutte le informazioni possedute dal soggetto.

In psicologia, il dizionario dei sinonimi di un individuo è caratterizzato dalla percezione e dalla comprensione delle informazioni. La teoria della comunicazione considera anche il thesaurus generale di un sistema complesso attraverso il quale interagiscono i suoi elementi.

Storia

Uno dei primi thesauri è chiamato il “Dizionario dei sinonimi” di Filone di Biblo. Una corrispondenza più precisa al termine è Amara-kosha, scritto in sanscrito in forma poetica nel VI secolo. Il primo thesaurus inglese moderno fu creato da Peter Mark Roger nel 1805. Fu pubblicato nel 1852 e da allora è stato utilizzato senza ristampe.

Negli anni '70 i thesauri iniziarono ad essere utilizzati attivamente per attività di recupero di informazioni. In tali thesauri, le parole vengono mappate in descrittori attraverso i quali vengono stabilite le connessioni semantiche.

Thesaurus

Guarda anche

Scrivi una recensione sull'articolo "Thesaurus"

Appunti

Estratto che caratterizza il Thesaurus

- Che dandy sei oggi! – disse Nesvitsky, guardando il suo nuovo mantello e sottosella.
Denissov sorrise, tirò fuori dalla borsa un fazzoletto che odorava di profumo e lo infilò nel naso di Nesvickij.
- Non posso, vado a lavorare! Sono sceso, mi sono lavato i denti e mi sono messo il profumo.
La figura dignitosa di Nesvitsky, accompagnato da un cosacco, e la determinazione di Denisov, agitando la sciabola e gridando disperatamente, ebbero un tale effetto che si spremerono dall'altra parte del ponte e fermarono la fanteria. Nesvitsky trovò all'uscita un colonnello, al quale aveva bisogno di trasmettere l'ordine, e, dopo aver adempiuto alle sue istruzioni, tornò indietro.
Dopo aver liberato la strada, Denisov si fermò all'ingresso del ponte. Trattenendo con nonchalance lo stallone che correva verso il suo e scalciava, guardò lo squadrone che si muoveva verso di lui.
Si udirono suoni trasparenti di zoccoli lungo le assi del ponte, come se diversi cavalli galoppassero, e lo squadrone, con gli ufficiali davanti, quattro in fila, si allungò lungo il ponte e cominciò ad emergere dall'altra parte.
I soldati di fanteria fermi, affollati nel fango calpestato vicino al ponte, guardarono gli ussari puliti ed azzimati che marciavano ordinatamente davanti a loro con quello speciale sentimento ostile di alienazione e ridicolo con cui di solito si incontrano vari rami dell'esercito.
- Ragazzi intelligenti! Se solo fosse su Podnovinskoe!
- A cosa servono? Guidano solo per spettacolo! - disse un altro.
- Fanteria, non spolverare! - scherzò l'ussaro, sotto il quale il cavallo, giocando, schizzò fango sul fante.
"Se ti avessi guidato per due marce con il tuo zaino, i lacci si sarebbero consumati", disse il fante, asciugandosi lo sporco dal viso con la manica; - altrimenti non è una persona, ma un uccello seduto!
"Se solo potessi metterti a cavallo, Zikin, se fossi agile", scherzò il caporale riguardo al soldato magro, piegato dal peso del suo zaino.
"Prenditi la mazza tra le gambe e avrai un cavallo", rispose l'ussaro.

Il resto della fanteria si affrettò ad attraversare il ponte, formando un imbuto all'ingresso. Alla fine passarono tutti i carri, la calca diminuì e l'ultimo battaglione entrò nel ponte. Solo gli ussari dello squadrone di Denisov rimasero dall'altra parte del ponte contro il nemico. Il nemico, visibile in lontananza dal monte opposto, dal basso, dal ponte, non era ancora visibile, poiché dall'avvallamento lungo il quale scorreva il fiume, l'orizzonte terminava sull'altura opposta a non più di mezzo miglio di distanza. Davanti a noi c'era un deserto, lungo il quale qua e là si muovevano gruppi dei nostri cosacchi viaggianti. All'improvviso, sulla collina opposta della strada, apparvero truppe con cappucci blu e artiglieria. Questi erano i francesi. La pattuglia cosacca si allontanò al trotto in discesa. Tutti gli ufficiali e gli uomini dello squadrone di Denisov, anche se cercavano di parlare degli estranei e di guardarsi intorno, non smettevano di pensare solo a ciò che c'era sulla montagna e scrutavano costantemente i punti dell'orizzonte in cui riconoscevano come truppe nemiche. Nel pomeriggio il tempo si schiarì nuovamente, il sole tramontò luminoso sul Danubio e sulle montagne scure che lo circondavano. C'era silenzio e da quella montagna si udivano di tanto in tanto i suoni dei corni e le urla dei nemici. Non c'era nessuno tra lo squadrone e i nemici, tranne piccole pattuglie. Uno spazio vuoto, trecento tese, li separava da lui. Il nemico smise di sparare, e sempre più chiaramente si sentiva quella linea stretta, minacciosa, inespugnabile e sfuggente che separa le due truppe nemiche.
“Un passo oltre questa linea, che ricorda la linea che separa i vivi dai morti, e - l'ignoto della sofferenza e della morte. E cosa c'è? chi è là? là, oltre questo campo, e l'albero, e il tetto illuminato dal sole? Nessuno lo sa, e io voglio saperlo; ed è spaventoso oltrepassare questa linea e tu vuoi attraversarla; e sai che prima o poi dovrai attraversarlo e scoprire cosa c'è dall'altra parte della linea, così come è inevitabile scoprire cosa c'è dall'altra parte della morte. E lui stesso è forte, sano, allegro e irritato, ed è circondato da persone così sane e animate in modo irritabile. Quindi, anche se non pensa, ogni persona che è in vista del nemico lo sente, e questa sensazione conferisce una lucentezza speciale e una gioiosa acutezza di impressioni a tutto ciò che accade in questi minuti.
Il fumo di uno sparo apparve sulla collina nemica e la palla di cannone, sibilando, volò sopra le teste dello squadrone degli ussari. Gli ufficiali che stavano insieme andarono ai loro posti. Gli ussari cominciarono con cautela a raddrizzare i cavalli. Tutto nello squadrone tacque. Tutti guardavano avanti, verso il nemico e il comandante dello squadrone, in attesa di un comando. Un'altra, terza palla di cannone volò via. È ovvio che sparavano agli ussari; ma la palla di cannone, sibilando in modo uniforme e veloce, volò sopra le teste degli ussari e colpì da qualche parte dietro. Gli ussari non si voltarono indietro, ma a ogni suono di una palla di cannone volante, come a comando, l'intero squadrone con le sue facce monotonemente diverse, trattenendo il respiro mentre la palla di cannone volava, si alzava sulle staffe e ricadeva. I soldati, senza voltare la testa, si guardarono di traverso, cercando con curiosità l'impressione del loro compagno. Su ogni volto, da Denisov al trombettiere, vicino alle labbra e al mento appariva un tratto comune di lotta, irritazione ed eccitazione. Il sergente aggrottò la fronte, guardando i soldati, come se minacciasse una punizione. Junker Mironov si chinava ad ogni passaggio della palla di cannone. Rostov, in piedi sul fianco sinistro sulla gamba toccata ma visibile di Grachik, aveva l'espressione felice di uno studente convocato davanti a un vasto pubblico per un esame in cui era sicuro che avrebbe eccelso. Guardò tutti in modo chiaro e luminoso, come se chiedesse loro di prestare attenzione alla calma con cui stava sotto le palle di cannone. Ma anche sul suo volto apparve, contro la sua volontà, vicino alla bocca lo stesso tratto di qualcosa di nuovo e di severo.
-Chi si sta inchinando lì? Yunkeg "Mig"on! Hexog, guardami! - gridò Denisov, incapace di stare fermo e girando sul cavallo davanti allo squadrone.
Il viso dal naso camuso e dai capelli neri di Vaska Denisov e tutta la sua piccola figura picchiata con la mano muscolosa (con le dita corte ricoperte di peli), in cui teneva l'elsa di una sciabola sguainata, erano esattamente gli stessi di sempre, soprattutto la sera, dopo aver bevuto due bottiglie. Era solo più rosso del solito e, alzando la testa irsuta, come gli uccelli quando bevono, spingendo senza pietà con i suoi piccoli piedi gli speroni nei fianchi del buon beduino, come se cadesse all'indietro, galoppò verso l'altro fianco del squadrone e gridò con voce rauca di farsi esaminare le pistole. È andato da Kirsten. Il capitano del quartier generale, su una cavalla ampia e tranquilla, cavalcò a passo spedito verso Denissov. Il capitano di stato maggiore, con i suoi lunghi baffi, era serio, come sempre, solo che i suoi occhi brillavano più del solito.
- Che cosa? - disse a Denisov, - non si arriverà a combattere. Vedrai, torneremo indietro.
"Chissà cosa stanno facendo", borbottò Denissov, "Ah! G" scheletro! - gridò al cadetto, notando la sua faccia allegra. - Beh, ho aspettato.
E sorrise con approvazione, apparentemente rallegrandosi del cadetto.
Rostov si sentiva completamente felice. In quel momento il capo apparve sul ponte. Denissov galoppò verso di lui.
- Eccellenza! Lasciatemi attaccare! Li ucciderò.
"Che razza di attacchi ci sono?" disse il capo con voce annoiata, sussultando come se fosse stato colpito da una mosca fastidiosa. - E perché stai qui? Vedi, i fiancheggiatori si stanno ritirando. Guida indietro lo squadrone.
Lo squadrone ha attraversato il ponte ed è sfuggito agli spari senza perdere un solo uomo. Seguendolo, il secondo squadrone, che era in catena, passò e gli ultimi cosacchi sgombrarono quella parte.
Due squadroni di abitanti di Pavlograd, dopo aver attraversato il ponte, uno dopo l'altro, tornarono sulla montagna. Il comandante del reggimento Karl Bogdanovich Schubert si avvicinò allo squadrone di Denisov e cavalcò a passo non lontano da Rostov, senza prestargli alcuna attenzione, nonostante il fatto che dopo il precedente scontro su Telyanin ora si vedessero per la prima volta. Rostov, sentendosi al fronte nelle mani di un uomo davanti al quale ora si considerava colpevole, non distolse lo sguardo dalla schiena atletica, dalla nuca bionda e dal collo rosso del comandante del reggimento. A Rostov sembrò che Bogdanich stesse solo fingendo di essere distratto, e che il suo unico obiettivo ora fosse quello di mettere alla prova il coraggio del cadetto, e si raddrizzò e si guardò intorno allegramente; poi gli sembrò che Bogdanich si avvicinasse deliberatamente per mostrare a Rostov il suo coraggio. Poi pensò che il suo nemico ora avrebbe deliberatamente inviato uno squadrone in un attacco disperato per punire lui, Rostov. Si pensava che dopo l'aggressione si sarebbe avvicinato a lui e avrebbe teso generosamente la mano della riconciliazione a lui, al ferito.

3.1. Concetto di dizionario dei sinonimi

Thesaurus (dal greco θήσαϋροξ - tesoro, magazzino) o dizionario ideografico (dal greco idea - concetto, rappresentazione, idea e grafo - scrivere, descrivere) - nella linguistica moderna: 1) un tipo speciale di dizionario di vocabolario generale o speciale, che contiene relazioni semantiche tra unità lessicali; 2) un dizionario per la ricerca di una parola in base alla sua connessione semantica con altre parole; 3) un certo modo di organizzare (sistemare) le parole nel dizionario; 4) un modo di organizzare la composizione lessicale, che permetta di “modellare economicamente il mondo”.

Nel primo significato originale: deposito, tesoro, il termine thesaurus fu usato da L.V. Shcherba nell'articolo "Esperienza di lessicografia generale" (terza opposizione: thesaurus - un dizionario ordinario (esplicativo o di traduzione)). Scrive lo scienziato: “Quando si dice thesaurus, oggi intendiamo più spesso “Thesaurus linguae latinae”, un'impresa di cinque accademie tedesche, iniziata nel 1900 e fino ad oggi portata con omissioni solo alla lettera M. Caratteristica Questo tipo di dizionario consiste nel fatto che contengono assolutamente tutte le parole che compaiono almeno una volta in una determinata lingua e che sotto ciascuna parola sono riportate assolutamente tutte le citazioni dei testi disponibili in una determinata lingua. La base dell'opposizione di cui sopra - il thesaurus - un dizionario ordinario (esplicativo o di traduzione) - è l'opposizione tra "materiale linguistico" e "sistema linguistico" - concetti che ho cercato di dimostrare nel mio articolo "Sul triplice aspetto dei fenomeni linguistici e sull’esperimento in linguistica.”

Il secondo significato di questo termine è associato al dizionario-thesaurus ampiamente noto "Thesaurus of English Words and Expressions" di P.M. Roger (Thesaurus of English Words and Phrases di Roget, 1852) e la sua continuazione, il dizionario di O.V. Baranov.

In questa interpretazione, il termine thesaurus denota un certo modo di organizzare e disporre la composizione lessicale nel dizionario (vedi il terzo significato del termine).

Il quarto significato del termine thesaurus è associato al riconoscimento universale di questo metodo di organizzazione della composizione lessicale, che consente di “modellare il mondo” economicamente. Da questo punto di vista, un dizionario dei thesaurus è "un ordinamento sistematico del vocabolario di qualsiasi campo scientifico o tecnico e, nella forma più generale, del vocabolario letterario generale e, inoltre, dell'intero vocabolario di una determinata lingua".

Secondo Yu.N. Karaulova, un thesaurus linguistico generale, che fissa nella struttura e nelle relazioni dei suoi titoli, sezioni, zone, aree le ampie possibilità di connessione non verbale delle idee, fornisce un resoconto dei valori umani.

UN. Baranov e D.O. Dobrovolsky nella prefazione "Dagli editori" al suo "Dizionario-thesaurus degli idiomi russi moderni" fornisce al thesaurus la seguente definizione: un tipo speciale di dizionario che differisce dagli altri (in particolare, esplicativo, bilingue, ecc.) nel modo in cui di organizzare il materiale linguistico. In un thesaurus, le unità linguistiche non sono presentate in ordine alfabetico, come in un normale dizionario, ma sono raggruppate in base al loro significato.

L.P. Krysin chiama il thesaurus (dizionario ideografico) un tipo speciale di dizionario esplicativo, un dizionario “al contrario”. “Se in un dizionario esplicativo, scrive lo scienziato, la “voce” di una voce del dizionario è una parola, e il contenuto della voce del dizionario è l’interpretazione del significato di questa parola, allora in un dizionario ideografico la “voce” è il significato, l'idea (da cui il nome di questo tipo di dizionario - ideografico) e il contenuto di una voce del dizionario è un elenco di parole che esprimono un determinato significato. E se un dizionario esplicativo è uno strumento indispensabile per comprendere un testo, allora per generare un testo può essere utilizzato un dizionario ideografico: molto spesso una persona vuole esprimere un certo pensiero, ma non riesce a trovare le parole adatte a questo; un dizionario ideografico facilita queste ricerche. Esistono due tipi principali di thesauri:

thesaurus linguistico - un dizionario contenente un elenco di parole del linguaggio naturale selezionate come risultato di un'analisi significativa dei testi e sistematizzate secondo il sistema di classificazione accettato;

thesaurus statistico - un dizionario di recupero delle informazioni contenente un elenco di parole selezionate come risultato dell'analisi statistica di testi su un argomento specifico e raggruppate in voci del dizionario in base alla frequenza di co-occorrenza di queste parole negli stessi testi.

I thesauri di recupero delle informazioni (IRT) facilitano la ricerca di informazioni durante la sua elaborazione automatica. L'IPT rivela al massimo le relazioni semantiche tra le unità lessicali. Come affermato in GOST sull’IPT, “un thesaurus monolingue per il recupero delle informazioni è un dizionario controllato e mutevole di unità lessicali, basato sul vocabolario di una lingua naturale, che mostra relazioni semantiche tra unità lessicali e destinato all’elaborazione e al recupero delle informazioni”.

L'unità di base dell'IPT sono i termini descrittori. La parte alfabetica, lessicale-semantica dell'IPT è un insieme di articoli descrittori.

I dizionari descrittivi hanno lo scopo di descrivere completamente il vocabolario di un determinato campo e di registrarne tutti gli usi; registrano tutti i casi rilevanti disponibili. Un tipico esempio di dizionario descrittivo è il "Dizionario esplicativo della grande lingua russa vivente" di V.I. Dahl (la prima edizione in quattro volumi fu pubblicata nel 1863-1866). L'obiettivo del suo creatore non era quello di standardizzare la lingua, ma di descrivere pienamente l'intera diversità della lingua magnorussa, comprese le sue forme dialettali vernacolari.

Ogni voce del dizionario descrittore inizia con un descrittore, in cui i sinonimi di questo descrittore, così come altre unità lessicali associate al descrittore principale per genere-specie o relazioni associative, sono riportati di seguito all'interno dell'articolo GOST.

I thesauri, soprattutto in formato elettronico, rappresentano quindi uno degli strumenti più efficaci per descrivere le singole aree tematiche.

Un thesaurus si trova raramente nella sua forma pura. Nei thesauri reali, l'idea originale è semplificata o le informazioni estranee, ma potenzialmente necessarie, vengono aggiunte all'utente. I più famosi oggi sono il “Dizionario semantico russo” di Yu.N. Karaulova, "Dizionario di nomi identici" N.Yu. Shvedova, “Dizionario tematico della lingua russa” di L.G. Smekhova e altri.

Riepilogo. Termine del dizionario dei sinonimi L.V. Shcherba lo usava in relazione a un dizionario, che registrava, se possibile, tutti i contesti in cui ricorre una determinata parola. Una caratteristica dei thesaurus è che elencano tutte le parole che compaiono almeno una volta in una determinata lingua e sotto ciascuna parola vengono riportate tutte le citazioni dei testi disponibili in quella lingua. Il contenuto di un dizionario dei sinonimi è materiale linguistico e un dizionario normale è materiale linguistico e un sistema linguistico (termini di L.V. Shcherba).

Questa caratteristica è completata da connessioni incrociate di vario tipo - spesso paradigmatiche (sinonime o antonimiche), che indicano comunanza o opposizione di significati. Inoltre, vari tipi di associazioni. connessioni (cioè connessioni sintagma).

Pertanto, il compito di un thesaurus (dizionario ideografico) è quello di dare un'idea dell'organizzazione semantica di un determinato spaccato di materiale linguistico, mostrando i principali campi semantici, la loro struttura interna e le connessioni esterne. Un thesaurus è una chiara dimostrazione della natura sistemica di una lingua, permettendo di vedere molti tipi di relazioni che collegano singole unità linguistiche e gruppi di unità.

3.2. La storia della rappresentazione della conoscenza concettuale del mondo sotto forma di thesaurus

La necessità di disporre le parole secondo somiglianza, contiguità e analogia dei loro significati è stata avvertita in tutta la storia osservabile del pensiero umano.

Per risalire alle origini dell'idea di rappresentare la conoscenza concettuale del mondo sotto forma di thesaurus, saremo aiutati ricorrendo alla storia della compilazione dei thesauri (dizionari ideografici).

Così, agli albori della civiltà, quando gli uomini potevano esprimere i propri pensieri per iscritto solo con l'aiuto di ideogrammi e simboli, l'unico dizionario possibile era probabilmente quello in cui le parole erano disposte in gruppi tematici. A quel tempo era semplicemente difficile per un lessicografo trovare un altro criterio per classificare le parole oltre alle relazioni esistenti nella realtà stessa.

Purtroppo non abbiamo prove che i popoli che usavano la scrittura ideografica possedessero effettivamente tali dizionari. Tra i più antichi tentativi di classificazione ideografica a noi noti c'è l'Attikai Lexeis del grammatico greco, direttore della Biblioteca di Alessandria, Aristofane di Bisanzio (morto nel 180 aC).

Nel II secolo. N. e. appare l'opera principale “Onomasticon”, compilata su materiale della lingua greca dal lessicografo e sofista Giulio Polluce (vero nome Polydeuces), originario della città egiziana di Naucratis. Yu Pollux ha scritto diverse opere, ma solo "Onomasticon" ci è pervenuto (Pollux Yu. Onomasticon. M., 1956).


Onomasticon è composto da 10 libri. I libri sono essenzialmente trattati separati e contengono le parole più importanti relative a un particolare argomento. Pertanto, il primo libro parla di dei e re; nel secondo - sulle persone, sulla loro vita e sulla struttura fisiologica; nel terzo - sulla parentela e sui rapporti civili, ecc. Le parole incluse nel dizionario sono accompagnate da brevi interpretazioni. In tempi moderni, il dizionario fu pubblicato per la prima volta nel 1502 a Venezia.

Tra il II e il III secolo. N. e. È stato pubblicato il meraviglioso dizionario sanscrito “Amarakosha” (Amarakosha. Parigi, 1839). Il suo autore è l'antico poeta, grammatico e lessicografo indiano Amara Sina, chiamato "una delle nove perle che adornano il trono di Vikramaditya". Amarakosha tradotto in russo significa il tesoro di Amara. Il dizionario contiene 10mila parole. Per ricordare meglio l'interpretazione dei significati delle parole, le voci del dizionario sono costruite sotto forma di poesie. Tutto il materiale del dizionario è diviso in 3 libri. Ogni libro comprende diversi capitoli e il capitolo a sua volta, se necessario, è diviso in più sezioni. Il primo libro è dedicato al cielo, agli dei e a tutto ciò che è direttamente correlato ad essi. Il secondo libro contiene parole legate alla terra, agli insediamenti, alle piante, agli animali e all'uomo (l'uomo è considerato prima come essere vivente e poi come essere sociale; l'intera struttura castale della società contemporanea dell'autore appare davanti ai nostri occhi; i sacerdoti , in quanto fiduciari di Dio, sono in cima , e sotto ci sono i militari e i re, ancora più in basso ci sono i proprietari terrieri, e in fondo ci sono gli artigiani, i giocolieri, i servi, ecc.). Il terzo libro è strettamente linguistico, come risulta dai titoli dei suoi sei capitoli.

Il dizionario divenne noto agli scienziati europei solo alla fine del XVIII secolo, quando la sua prima parte fu pubblicata a Roma nel 1798. Fu pubblicato integralmente con traduzione in inglese nel 1808 dallo studioso inglese di sanscrito G.T. Colebrooke (NT Colebrooke). Nel 1839 apparve la sua traduzione francese, fatta da A.L. Delonchamps (AL Deslongchamps). L'ulteriore sviluppo dell'idea della classificazione semantica del vocabolario è associato al problema della cosiddetta lingua mondiale.

Riepilogo. Questo, in termini più generali, è il primo stadio nello sviluppo della tradizione della classificazione ideografica del vocabolario. Questa fase può essere definita la preistoria dei dizionari ideografici. Ora è consigliabile passare alla moderna classificazione dei dizionari dei thesaurus.

È facile notare quanto le opere descritte siano diverse dai dizionari alfabetici. Se nei dizionari alfabetici la presentazione delle parole è regolata da uno strumento così convenzionale e altamente neutrale come l'alfabeto, allora quando si costruisce un dizionario ideografico, la visione del mondo dello stesso lessicografo diventa decisiva.

3.3. Principi di classificazione dei dizionari-thesaurus

Come è già stato mostrato sopra, il problema della compilazione di una classificazione dei thesauri non è nuovo e da diversi decenni attira l'attenzione di numerosi linguisti nazionali e stranieri (C. Marello, V.V. Morkovkin, L.P. Stupin, V.V. Dubichinsky, ecc. ). Il risultato della ricerca in quest'area è stata la creazione di classificazioni alternative di queste opere lessicografiche. Una delle ultime classificazioni si basa sui seguenti criteri: a) il tipo di connessioni semantiche tra le unità lessicali; 2) volume del vocabolario; 3) generalizzazione del vocabolario; 4) sviluppo del significato dei lessemi; 5) qualificazione grammaticale e stilistica dei lessemi; 6) dimostrazione del funzionamento dei lessemi; 7) numero di lingue rappresentate; 8) il tipo di mezzi semiotici utilizzati per semantizzare i lessemi. Questa classificazione si basa sulle classificazioni precedentemente create da O.M. Karpova e I. Burkhanov (Burchanov I. Sulla descrizione ideografica degli aspetti stilisticamente e pragmaticamente rilevanti dei significati lessicali. Londra, 1996); viene introdotta nell'apparato lessicografico la terminologia utilizzata nella classificazione


V.V. Morkovkin, Yu.N. Karaulov, K. Marello. I criteri di classificazione sono stati formulati da O.M. Karpova. Allo stesso tempo, C. Marello distingue tre tipologie di thesauri:

cumulativi, che sono raggruppamenti di parole senza definirne il significato;

definitivo, interpretando ciascuna unità lessicale di un gruppo di parole;

thesauri bi- e multilingue per viaggiatori (Marello C. TheThesaurus//W.D.D. 1990. V. 2. P. 1083).

I thesaurus cumulativi non solo offrono l'opportunità di trovare una parola più comprensibile, accurata, stilisticamente corretta nella situazione di trovarsi in un determinato campo semantico, ma diventano anche la base per la formazione di banche dati informatiche tematiche.

I thesauri definitivi possono includere, oltre alle definizioni di significato, informazioni etimologiche e citazioni di opere letterarie, il che dimostra l'orientamento enciclopedico diretto di questo tipo di thesaurus. Inoltre, dizionari di questo tipo introducono l'utente al sistema di concetti necessario, spiegano l'essenza, le somiglianze e le differenze dei concetti, le loro connessioni paradigmatiche e sintagmatiche e talvolta forniscono informazioni sulla pronuncia, sulla grammatica, sulla formazione delle parole e su altre possibilità di unità lessicali che denotano questi concetti.

I thesauri bilingue e multilingue per viaggiatori vengono solitamente creati in base a sezioni tematiche: numeri, cibo, trasporti, hotel, ecc. con equivalenti di traduzione di due o più lingue.

Per visualizzare nel modo più completo possibile le tipologie dei dizionari dei thesaurus esistenti, viene creata una classificazione a più livelli. Innanzitutto, a seconda del tipo di connessioni semantiche tra le unità lessicali, i thesauri si dividono in tre grandi classi:

1. Thesaurus associativo (terminologia di Yu.N. Karaulov

2. Thesaurus analogo (terminologia di V.V. Morkovkin

3. Thesaurus ideografico (ideologico) (terminologia di L.V. Shcherba, V.V. Morkovkin. I tre tipi di thesauri sopra indicati riflettono rispettivamente i seguenti tipi di connessioni semantiche dei lessemi:

1. Connessioni semantico-sintattiche, sulla base delle quali
le parole sono combinate in gruppi o coppie, predeterminate nella loro occorrenza ed esistenza da doppie connessioni: semantica e sintattica. Le connessioni semantiche tra le parole vengono stabilite principalmente tra verbi e aggettivi che svolgono una funzione predicativa in una frase e sostantivi, ad esempio:

a) tra un'azione e l'organo (strumento) con cui viene eseguita: afferrare - una mano, vedere - un occhio, nuotare - una barca, ecc.;

b) tra verbi d'azione che richiedono un soggetto e un soggetto: abbaiare - un cane, nitrire - un cavallo, ecc.; c) tra i verbi e una certa aggiunta grammaticale, che i primi richiedono: tagliare - legna, mangiare - cibo, ecc.

Un thesaurus associativo è quindi un dizionario-thesaurus che organizza unità lessicali in base alle connessioni semantiche e sintattiche che esistono tra loro e dispone i gruppi secondo la forma grafica delle parole centrali.

2. Connessioni lessico-semantiche. Il raggruppamento con questo tipo di connessione avviene in base alla caratteristica principale delle parole: il significato lessicale. In questo caso vengono prese in considerazione anche le connessioni lessico-grammaticali, nella forma in cui vengono realizzati i significati individuali delle parole.

Pertanto, un thesaurus analogico è un libro di consultazione lessicografico, la cui principale unità di macrostruttura è il gruppo lessicale-semantico; i gruppi sono sistematizzati in ordine alfabetico di dominanti semantiche.

3. Connessioni tematiche o tematiche, in cui la combinazione di parole in un gruppo avviene a causa della somiglianza o comunanza delle funzioni degli oggetti e dei processi indicati dalle parole: oggetti
articoli per la casa, parti del corpo, tipi di abbigliamento, edifici, ecc.

Pertanto, un thesaurus ideografico è un'opera lessicografica che rappresenta le unità lessicali come parte di gruppi tematici (tematici) e le organizza in una struttura gerarchica progettata per rappresentare la conoscenza concettualizzata del mondo.

Nell'ambito dello stesso criterio suddividiamo ulteriormente le tipologie. Pertanto, il thesaurus ideografico è rappresentato dai seguenti 4 tipi:


In realtà un thesaurus ideografico.

Dizionario tematico.

Dizionario sistematico.

Dizionario tematico-sistematico


Lo stesso thesaurus ideografico è un tipo speciale di dizionario ideografico, la cui macrostruttura è organizzata secondo una mappa sinottica a priori sovrapposta alla composizione lessicale della lingua. A differenza di altri tipi di dizionario ideografico, il thesaurus ideografico stesso è caratterizzato da una struttura di classificazione logica e rigorosamente ordinata creata sulla base della tassonomia scientifica, anche se il vocabolario generale è soggetto a descrizione lessicografica (New Webster "Thesaurus. Landoll, 1991).

Un dizionario tematico è un tipo speciale di thesaurus ideografico, la cui principale unità di macrostruttura è un gruppo tematico, comprendente lessemi, uniti sulla base della classificazione delle loro denotazioni (referenti) e considerati dal punto di vista del rispetto di un argomento specifico.

Un dizionario sistematico è un tipo speciale di thesaurus ideografico la cui struttura di classificazione ha lo scopo di rappresentare le effettive relazioni semantiche che esistono tra le unità lessicali di una lingua. Fondamentalmente, la struttura di classificazione rappresenta la classificazione lessico-grammaticale del vocabolario, in altre parole, la sua struttura paradigmatica, descritta dal punto di vista della subordinazione e della composizione.

Un dizionario tematico-sistematico è un tipo speciale di dizionario ideografico, che è una combinazione di dizionario tematico e sistematico.

Riepilogo. La classificazione considerata dei thesauri linguistici comprende i seguenti tipi di dizionari: thesaurus analogico (terminologia di V.V. Morkovkin); thesaurus ideografico (ideologico) (terminologia di L.V. Shcherba e V.V. Morkovkin); ass. thesaurus (terminologia di Yu.N. Karaulov). Successivamente verrà presentato il pop. vengono rivelati i thesauri e le loro caratteristiche.

3.4. Thesauri popolari e loro caratteristiche

Il più famoso dei dizionari-thesaurus disponibili, a cui questo stesso termine deve la sua esistenza, è stato creato sul materiale della lingua inglese; questo è un dizionario dei sinonimi costantemente ristampato da P.M. Thesaurus di parole e frasi inglesi di Roger Roget (1852).

È importante notare che l'autore del Thesaurus of English Words and Expressions ha sfruttato appieno l'esperienza disponibile a quel tempo. "Il principio che mi ha guidato nella classificazione delle parole", scrive P.M. Roger, è lo stesso utilizzato per classificare gli individui in vari campi della storia naturale. Pertanto le sezioni che ho evidenziato corrispondono alle famiglie naturali della botanica e della zoologia, e le serie delle parole sono cementate dagli stessi rapporti che uniscono le serie naturali delle piante e degli animali."

PM Roger credeva che una classificazione convincente delle parole in base al loro significato fosse impossibile finché gli oggetti della realtà chiamati queste parole non fossero adeguatamente studiati e organizzati. Pertanto, inizia il suo lavoro dividendo il campo concettuale della lingua inglese in quattro grandi classi: relazioni astratte, spazio, materia e spirito (mente, volontà, sentimenti). Queste classi sono ulteriormente suddivise in un certo numero di generi, che a loro volta sono suddivisi in un certo numero di specie.

Tra le carenze del dizionario ideografico di P.M. Gli scienziati attribuiscono a Roger: 1) una nomenclatura non del tutto convincente delle principali classi concettuali; 2) la logica astratta prevale sulle connessioni naturali delle parole; 3) relativo inconveniente di utilizzo (tale carenza è stata in gran parte corretta nelle edizioni successive).

Nella lessicografia russa moderna ci sono diversi dizionari che dovrebbero essere classificati come dizionari-thesaurus (dizionari ideografici). Questo, ad esempio, è stato creato sotto la guida di Yu.N. Karaulova “Dizionario semantico russo”, “Dizionario semantico russo” a cura di N.Yu. Shvedova, “Dizionario tematico della lingua russa” di L.G. Sayakhova, D.M. Khasanova e V.V. Morkovkina, “Dizionario dei gruppi lessico-semantici dei verbi russi”, ed. E.V. Kuznetsova, “Dizionario ideografico della lingua russa” O.S. Baranova, “La concettosfera del mondo interiore dell'uomo nella lingua russa” di V.I. Ubiyko, un dizionario educativo completo “Basi lessicali della lingua russa” sotto la guida di V.V. Morkovkina.

Conosciamone alcuni.

Dizionario-thesaurus degli idiomi russi moderni” a cura di A.N. Baranova e D.O. Dobrovolsky comprende quattro parti principali: 1) sinossi; 2) legenda; 3) il corpo principale del Dizionario-Thesaurus; 4) puntatori. Lo scopo della Sinossi è quello di dare un'idea generale della struttura del corpo principale del Thesaurus. Elenca tutti i taxa con i sottotaxa e i corrispondenti riferimenti paradigmatici. Il corpo principale del Dizionario dei Thesaurus è una raccolta di voci del dizionario, raggruppate in gruppi (taxa) e sottogruppi (subtaxa) secondo il significato degli idiomi in essi descritti. Ogni articolo contiene un idioma ed esempi del suo utilizzo nel russo moderno. Sinossi, Legenda, Indici sono parti di servizio del dizionario-thesaurus sopra menzionato, offrendo all'utente l'opportunità di lavorare in modo rapido ed efficiente. La legenda viene utilizzata nei casi in cui non sono necessari esempi dell'uso degli idiomi, perché riproduce tutte le informazioni tranne gli esempi. In effetti, questo è il vocabolario del Dizionario. Le unità del vocabolario sono i lemmi. Il lemma in questo caso rappresenta l'idioma nella sua forma originale (dizionario) e comprende, se possibile, tutte le sue varianti significative. Ad esempio, l'espressione stare fermo fa parte del lemma segnare il tempo, stare fermo, scivolare sul posto.

Il dizionario contiene due puntatori. Alla fine del libro c'è un articolo "Concetto teorico del dizionario-thesaurus dell'ideomatica russa moderna", che analizza in dettaglio le caratteristiche scientifiche di questo progetto.

"Dizionario semantico russo", creato sotto la guida di Yu.N. Karaulova comprende 10mila parole russe, divise in 1600 gruppi concettuali. L'identificazione dei gruppi si basa su elementi ripetuti di interpretazione delle parole nei dizionari esplicativi: ad esempio "azione", "proprietà", "strumento", ecc.

"Dizionario semantico russo", creato sotto la guida dell'accademico N.Yu. Shvedova, si basa su principi leggermente diversi caratteristici della compilazione di dizionari sia ideografici che esplicativi. In primo luogo, tutte le parole della lingua sono qui divise in quattro classi: 1) unità indicatrici (pronomi), 2) denominazione (parole fittizie), 3) connettori effettivi (congiunzioni, preposizioni, verbi concatenanti), 4) classificazione (parole modali , particelle, interiezioni). In secondo luogo, all'interno di ciascuna classe, tutte le parole sono distribuite secondo le parti del discorso. In terzo luogo, all'interno di ciascuna parte del discorso, insiemi e sottoinsiemi vengono identificati in base alla vicinanza tematica o, al contrario, all'opposizione dei significati delle parole.

DUDEN è un libro con immagini (disegni) sul lato sinistro (a seconda dei diversi software) con parti numerate (fino alla più piccola). Sul lato destro, questo elenco numerato è accompagnato dai titoli (anche in due lingue). Ad esempio, le attrezzature ferroviarie, le stazioni e i binari vengono disegnati su un'intera pagina. A destra ci sono i nomi di frecce, semafori, stampelle, ecc.

"Dizionario tematico della lingua russa" L.G. Sayakhova, D.M. Khasanova e V.V. La Morkovkina contiene 25mila unità lessicali, raggruppate in tre grandi classi: “Uomo”, “Società”, “Natura”, che si ramificano gradualmente in sottoclassi più piccole. Ad esempio, nella classe "Umano" ci sono le sottoclassi "Corpo umano e organismo", "Vita umana", "Aspetto, aspetto di una persona", "Aspetto emotivo di una persona", ecc. Ciascuna delle sottoclassi a sua volta è suddiviso in ancora più specifici: " Mondo emotivo di una persona" - "Proprietà mentali di una persona" - "Temperamento", "Carattere" - "Tratti caratteriali generali", ecc. Il significato e l'uso delle parole appartenenti a ciascuna classe sono illustrati dalle frasi più comuni. Ad esempio, la parola "risata", che si trova nel sottogruppo "espressione di sentimenti, emozioni" della classe "Uomo", è accompagnata dall'indicazione di combinazioni con questa parola come risate allegre, risate gioiose, risate di bambini, scoppio nel ridere, ecc.

Riepilogo. Uno degli strumenti efficaci per descrivere singole aree tematiche, soprattutto in formato elettronico, sono i thesauri.

Il termine thesaurus è stato a lungo ampiamente utilizzato in linguistica per designare un tipo speciale di dizionario, che in un modo o nell'altro riflette la "immagine del mondo", il "modello linguistico del mondo" (secondo Yu.N. Karaulov). Il thesaurus come “tesoro” è cresciuto nella sua portata semantica e ha ricevuto un nuovo significato. Cominciarono a chiamarlo dizionario che non solo assorbe tutta la ricchezza lessicale di una lingua, ma la organizza in un certo modo logico-sistemico. In un dizionario dei sinonimi, le parole vengono combinate in gruppi e questa unificazione avviene sulla base della capacità di una particolare parola di trasmettere un determinato concetto.

Il dizionario dei thesaurus è sempre stato considerato in linguistica come una sorta di sistema universale che garantisce l'archiviazione della conoscenza collettiva (per una particolare società) sul mondo in forma verbale. A differenza di altri dizionari, in un dizionario di thesaurus questa conoscenza è immagazzinata in una forma strutturata che riflette le nostre idee sulla “struttura del mondo”.

I thesauri più famosi e popolari attualmente sono il Thesaurus inglese di Roger, il Dizionario ideografico della lingua russa di O.V. Baranova, dizionario semantico russo Yu.N. Karaulova, dizionario semantico russo dell'accademico N.Yu. Shvedova, DUDEN, Dizionario tematico della lingua russa L.G. Sayakhova, D.M. Khasanova e V.V. Morkovkina.

Sistema concettuale di un'area tematica La base di qualsiasi area tematica è il sistema di concetti di quest'area. Definizione di concetto: Un concetto è un pensiero che riflette in forma generalizzata oggetti e fenomeni della realtà fissandone proprietà e relazioni; queste ultime (proprietà e relazioni) compaiono nel concetto come caratteristiche generali e specifiche, correlate a classi di oggetti e fenomeni (Dizionario linguistico)


Concetti e termini Per esprimere il concetto di un ambito disciplinare nei testi si utilizzano parole o frasi chiamate termini. L'insieme dei termini di un'area disciplinare costituisce il suo sistema terminologico. La relazione di un termine concreto con altri termini del sistema terminologico dell'ambito disciplinare viene specificata mediante una definizione


Definizioni del termine? Una parola (o una combinazione di parole) che designa esattamente un concetto specifico di qualsiasi campo speciale della scienza, della tecnologia, dell'arte, della vita sociale, ecc. || Una parola o espressione speciale usata per designare qualcosa. in un ambiente o nell'altro, professione (Grande Dizionario esplicativo della lingua russa)


Termini: nomi esatti dei concetti Di solito, ogni concetto nel campo corrisponde ad almeno un termine compreso in modo inequivocabile, il cui significato è questo concetto. - termini, nel senso della teoria terminologica tradizionale. Proprietà dei termini - nomi esatti dei concetti - il termine deve riferirsi direttamente al concetto, deve esprimere chiaramente il concetto; - il significato del termine deve essere preciso e non deve sovrapporsi nel significato ad altri termini; - il significato del termine non dovrebbe dipendere dal contesto. I termini che denominano accuratamente un concetto sono oggetto di ricerca da parte della teoria della terminologia, dei terminologi


Termini testuali Nei testi reali dell'area disciplinare, per riferirsi ad un concetto, oltre ai termini di base, possono essere utilizzate molte espressioni linguistiche diverse, che chiamiamo termini testuali: - opzioni sintattiche e di formazione delle parole: destinatario dei fondi di bilancio - budget destinatario; - opzioni lessicali – cancellazione diretta, cancellazione indiscussa; - Espressioni polisemantiche, a seconda del contesto, che servono come riferimento a diversi concetti del campo, ad esempio, la parola valuta in diversi contesti può significare valuta nazionale o valuta estera.














Descrittori con segni Rifiuti - parte del nome del descrittore gru (attrezzatura di sollevamento) vs gru (uccelli) conchiglie (strutture) – confronto di diversi thesaurus Preferenze per le frasi: –Dischi fonografici vs. dischi (fonografo) Marchi e plurale: Legno (materiale) Boschi (aree boschive)






Includere descrittori basati su espressioni composte da più parole La suddivisione di un termine aumenta l'ambiguità: cibo vegetale Il significato dell'espressione dipende dall'ordine delle parole: scienza dell'informazione - informazione scientifica Una delle parole componenti non rientra nell'ambito del thesaurus o è troppo generale: primo aiuto Le relazioni del descrittore non seguono dalla sua struttura: –Reni artificiali, status di rifugiato, semafori




Relazioni associative Campo di attività - attore - Matematica - matematico Disciplina - oggetto di studio - Neurologia - sistema nervoso Azione - agente o strumento - Caccia - cacciatore Azione - risultato dell'azione - Tessitura - tessuto Azione - scopo - Rilegatura - libro Causa-effetto - Morte – Valore funebre – unità di misura – Corrente – ampere Azione – controparte – Allergene – farmaco antiallergico, ecc.


Thesauri per il recupero delle informazioni: fasi di sviluppo Prima fase: gli indicizzatori descrivono l'argomento principale del testo utilizzando parole e frasi arbitrarie I termini ottenuti da più testi vengono riuniti Tra i termini che hanno un significato simile, viene selezionato quello più rappresentativo Alcuni dei rimanenti diventano sinonimi condizionali, il resto viene cancellato I termini specifici solitamente non sono inclusi


Thesauri per il recupero delle informazioni: l'arte dello sviluppo I descrittori sono termini necessari per esprimere l'argomento principale del documento I sinonimi sono inclusi solo quelli più necessari (ad esempio, iniziare con una lettera diversa) per non complicare il lavoro dell'indicizzatore i termini dovrebbero essere ridotti a un solo termine per evitare l'indicizzazione della soggettività Livelli gerarchici, l'inclusione di termini specifici è limitata


Thesaurus di recupero delle informazioni: l'arte dello sviluppo - 2 Nei casi complessi, i descrittori sono forniti con segni e commenti –LIV: bombardamento – bombardamento – Termini polisemantici: un significato nel thesaurus (maiuscolo), non rientrano nel thesaurus, segni !!! Il thesaurus tradizionale per il recupero delle informazioni è un linguaggio artificiale costruito sulla base di termini reali




IPT tradizionale: applicazione in elaborazione automatica Mancanza di conoscenza del linguaggio reale del software Mancanza di conoscenza del linguaggio reale del software Vocabolario di indicizzazione legislativa: Vocabolario di indicizzazione legislativa: – nel testo TRUPPE – nel thesaurus FORZE MILITARI – nel testo MAIUSCOLO – maiuscolo, nel thesaurus solo maiuscolo Consigliato: ogni descrittore integrato con elenchi di parole e termini Si propone: ogni descrittore è integrato con elenchi di parole e termini Ma: polisemia o relativo a descrittori diversi. Ma: polisemia o attinenza a descrittori diversi. Risoluzione della disambiguazione Risoluzione della disambiguazione


IPT tradizionale: espansione automatica delle query Problema con le associazioni Consigliato: inserire i pesi inserire i pesi inserire i nomi delle relazioni: oggetto, proprietà, ecc. inserisci i nomi delle relazioni: oggetto, proprietà, ecc. CONCLUSIONE: è necessario imparare come costruire risorse linguistiche specifiche per l'elaborazione automatica delle raccolte di testi


Thesaurus EUROVOC – thesaurus multilingue della Comunità europea Thesaurus in 9 lingue Versione russa di EUROVOC – +5mila concetti che riflettono le specificità russe Thesaurus multilingue – Descrittore – nomi in diverse lingue – Ascrittori – per alcune lingue


Indicizzazione automatica secondo il thesaurus EUROVOC, basata su regole (Hlava, Heinebach, 1996) Esempio di regola: IF (vicino a "Tecnologia" AND con "Sviluppo") USE Programma comunitario USE aiuto allo sviluppo ENDIF 40mila regole. Test: 20 descrittori più frequenti nel testo, generati automaticamente - 42% di completezza, rispetto alla rubricazione manuale


Indicizzazione automatica basata sulla determinazione dei pesi di corrispondenza tra parole e descrittori (Steinberger et al., 2000) Fase 1: definizione della corrispondenza tra le parole del testo e i descrittori assegnati sulla base di misure statistiche (chi quadrato o log-verosimiglianza) Descrittore della GESTIONE DELLA PESCA: le seguenti parole (in ordine decrescente di peso): pesca, pesce, stock, pesca, conservazione, gestione, nave, ecc. Fase 2 indicizzazione stessa: somma dei logaritmi dei pesi o come prodotto scalare di vettori


Una combinazione di query libere e query basate su un thesaurus di recupero delle informazioni Una raccolta indicizzata manualmente – che stabilisce correlazioni Un utente pone una query in linguaggio naturale La query viene espansa dai descrittori del thesaurus che sono più fortemente correlati con la query (Petras 2004 ; Petras 2005). Ad esempio, su richiesta di Imprese insolventi è possibile ottenere un elenco dei descrittori liquidità, indebitamento, impresa, impresa e ampliare la query. La precisione dell'esperimento è aumentata del 13%.



Uno dei nuovi concetti di base emersi a seguito dello sviluppo di metodi meccanici per l'elaborazione delle informazioni, in particolare, durante la traduzione da una lingua all'altra, la ricerca di informazioni scientifiche e tecniche e la creazione di un modello informativo di un'impresa in sistemi di controllo automatizzati , era il concetto di thesaurus del sistema informativo. Il termine "thesaurus" implica un insieme di conoscenze sul mondo esterno - questo è il cosiddetto thesaurus del mondo T. Tutti i concetti del mondo esterno, espressi utilizzando il linguaggio naturale, costituiscono un thesaurus, dal quale si possono distinguere i thesaurus privati mediante divisione gerarchica che tenga conto della subordinazione dei singoli concetti o isolando parti del thesaurus generale del mondo. Il thesaurus nei sistemi di recupero delle informazioni svolge un ruolo importante nel trovare il documento desiderato utilizzando parole chiave. Pertanto, costruire un thesaurus è un compito complesso e responsabile. Ma questo compito può anche essere automatizzato.

La classificazione nella sua definizione più generale è il partizionamento e l'ordinamento degli insiemi. Si chiama distribuzione degli oggetti in classi in base a una caratteristica comune inerente a questi fenomeni o oggetti e distinguendoli da oggetti e fenomeni che compongono altre classi. Se necessario, ogni classe può essere divisa in sottoclassi. Un rubricatore è un tipo speciale di classificazione. Pertanto, vengono creati sulla base di disposizioni generali:
 basi scientifiche per la costruzione della classificazione;
 riflesso dell'attuale livello di sviluppo della scienza;
 la presenza di un sistema di collegamenti e rinvii, nonché di un apparato di riferimento e riferimento (CCA).

Tuttavia, il rubricatore è una classificazione pragmatica creata sulla base dei flussi di informazioni e delle esigenze degli specialisti. Questa è la differenza rispetto alle classificazioni a priori, come UDC e IPC.

Le principali funzioni delle classificazioni e, in particolare, della rubricatrice sono le seguenti:
 differenziazione tematica dei sottosistemi informativi;
 formazione di array di informazioni in base a qualsiasi caratteristica;
 sistematizzazione dei materiali informativi e delle pubblicazioni;
 ricerca attuale e retrospettiva;
 indicizzazione di documenti e quesiti;
 collegamento con altri schemi di classificazione;
- funzioni normative.

Sono costruiti dividendo concetti - oggetti di classificazione sulla base di connessioni stabilite tra le caratteristiche di questi oggetti secondo determinati principi logici. La caratteristica in base alla quale viene effettuata la classificazione è chiamata base per dividere la classificazione. Le classificazioni utilizzano ampiamente metodi di deduzione e induzione per fissare gruppi, classi e identificare connessioni tra loro. Questo è tipico delle classificazioni gerarchiche. La profondità della classificazione (il numero di livelli gerarchici) può variare a seconda dello scopo. Uno dei rubricatori ampiamente utilizzati è il Rubricatore statale di informazione scientifica e tecnica (GRNTI).

Il rubricatore GRNTI è progettato in modo tale da poter essere utilizzato insieme ad altre classificazioni come UDC e IPC. La Classificazione Decimale Universale (UDC) esiste da più di 70 anni, ma non ha ancora eguali nella sua ampiezza di distribuzione ed è utilizzata in molti paesi del mondo. L'UDC copre l'intero universo della conoscenza e viene utilizzato con successo per la sistematizzazione e la successiva ricerca di un'ampia varietà di fonti di informazione.

Oltre all'UDC, nella pratica è ampiamente utilizzata la classificazione bibliotecaria e bibliografica (LBC). BBK si basa sui principi della subordinazione logica e rappresenta una classificazione del tipo di applicazione.
Nella Federazione Russa, per classificare le invenzioni e sistematizzare le raccolte nazionali di descrizioni di invenzioni, viene utilizzata la classificazione internazionale dei brevetti, una classificazione multi-aspetto piuttosto complessa costruita sul principio funzionale-industriale. Gli stessi concetti tecnici si possono ritrovare negli IPC o classi speciali (per settore) o nelle classi funzionali (per principio di funzionamento). Il principio settoriale di distribuzione dei concetti comporta la classificazione degli oggetti in base alla loro applicazione in un particolare ramo di attrezzature e tecnologia storicamente stabilito.

Le caratteristiche comparative dei rubricatori di SRNTI, UDC, BBK e IPC sono riportate nella Tabella 1.

Tabella 1
Caratteristiche del rubricatore di SRNTI, UDC, BBK e IPC

Nome

Struttura

Il principio del posizionamento delle divisioni

Schema di costruzione della partizione

Gerarchico

Industria

Dal generale allo specifico

Gerarchico

Tematico

Gerarchico

Funzionale-settoriale

Dal generale allo specifico

LBC per le biblioteche scientifiche

Gerarchico

Industria

Dal generale allo specifico, per specie


Possiamo quindi evidenziare le principali caratteristiche distintive dei rubricatori e dei classificatori:
- sono caratterizzati da carattere applicativo e orientamento settoriale;
 si tratta di sistemi aperti che dipendono dallo sviluppo della scienza e della tecnologia, dai bisogni e dalle richieste degli specialisti;
- sistemi inorganici, poiché gli oggetti nascono e si sviluppano nell'ambiente e da esso entrano. Gli elementi sono in grado di esistere indipendentemente al di fuori del sistema. Questo tratto è strettamente correlato al secondo tratto;
- l'elemento minimo è il concetto associato all'ambiente. Un concetto rappresenta un sistema di definizioni;
 sorgono connessioni tra i concetti sia “verticalmente” (genere-tipo, intero-parte) che “orizzontalmente” (tipotipo, parte-parte), che indica la gerarchia dei sistemi.

Di conseguenza, la struttura e i principi di organizzazione delle classificazioni e dei rubricatori consentono di automatizzare il processo di costruzione dei thesauri per aree tematiche utilizzando il metodo della deduzione. L'algoritmo per costruire un thesaurus utilizzando il metodo della deduzione è mostrato in Fig. 1.

La base per la formazione di un thesaurus è un'immagine di ricerca di un documento, un'attività o un'applicazione per la ricerca di informazioni, compilata dall'operatore. Pertanto, il primo passo è ricercare e analizzare l'applicazione. Nella prima fase l'operatore indica l'argomento o il problema di interesse, le possibili parole chiave ed i loro sinonimi. Di conseguenza, otteniamo una comprensione superficiale dell'argomento.

Riso. 1. Algoritmo per la costruzione di un thesaurus utilizzando il metodo della deduzione

Inoltre, viene formato un thesaurus delle parole chiave KS utilizzando il metodo di detrazione, che richiede:
 array KS, specificato dall'utente stesso, indicato in Figura 1 come MP;
 Array KS estratto dall'attività di ricerca, rispettivamente MZ.

Tuttavia, per una comprensione più completa e approfondita della materia, utilizziamo rubricatori e schemi di classificazione esistenti (GRNTI, UDC, BBK, IPC). Per massimizzare la copertura dell'area tematica, è necessario rivedere tutti quelli disponibili. La serie di rubricatori rappresenta MR. L'algoritmo di ricerca della detrazione consiste di due passaggi:
1. Trovare concetti generici (Fig. 2);
2. Trovare termini specifici all'interno di concetti generici (Fig. 3).


Riso. 2. Elaborazione del concetto generico

Carichiamo il primo rubricatore dall'array e organizziamo un ciclo di verifica della presenza dei CS inseriti dall'utente nei rubricatori. Ogni KS viene cercato nella rubricatrice e confrontato con un concetto generico o “nido”, quindi viene controllata la condizione per vedere se esiste un collegamento a termini specifici. Se tale collegamento è disponibile, il KS viene confrontato con i termini specifici. Se non viene trovato alcun collegamento, passa al concetto generico successivo. Quando vengono visualizzate le parole chiave del SC inserite dall'operatore, si passa all'array di SC estratto dall'attività. La procedura di verifica è simile: cerchiamo i KS corrispondenti a concetti generici e quindi i loro collegamenti a termini specifici.


Riso. 3. Elaborazione di termini specifici

Si noti che all'interno di ciascun concetto generico è importante rivedere tutti i termini specifici disponibili per ottenere la massima comprensione dell'area problematica. Il risultato di queste azioni è la formazione di un array di parole chiave KS, ovvero un thesaurus completo corrispondente al compito di ricerca di informazioni o all'immagine di ricerca di un documento.

Sulla base di un set completo di immagini di ricerca di documenti (denotiamole), è possibile creare thesauri di settore e un classificatore di biblioteca unificato. Ovviamente, l'insieme completo di  rappresenta esso stesso un semplice thesaurus.

Tuttavia, utilizzando il criterio di selezione
, (1)
possiamo costruire thesauri di settore. In questo caso, l'insieme di tutti i thesaurus di settore costituisce un thesaurus completo
, (2)
le cui sezioni possono essere strutturate gerarchicamente in conformità con i requisiti di GOST secondo i principali classificatori (GRNTI, UDC, BBK, MPK) o secondo un classificatore unificato interno.

L'automazione del processo di costruzione di un thesaurus e di classificazione consente di semplificare il più possibile il lavoro di un operatore che lavora con risorse informative distribuite.

Oltre a costruire un thesaurus, basato su un'immagine di ricerca di un documento, l'approccio proposto può essere utilizzato per l'astrazione automatica dei documenti e il clustering del testo.

L'estrazione dei documenti è uno dei compiti volti a fornire agli specialisti esperti informazioni affidabili necessarie per prendere decisioni gestionali sul valore dei documenti ottenuti da Internet. L'astrazione è il processo di trasformazione delle informazioni documentarie, che culmina nella preparazione di un abstract, e un abstract è una presentazione semanticamente adeguata del contenuto principale del documento primario, caratterizzata da un design simbolico economico, costanza delle caratteristiche linguistiche e strutturali e destinata a svolgere una varietà di funzioni informative e comunicative nel sistema della comunicazione scientifica. L'algoritmo di astrazione del documento è presentato in Fig. 4.


Riso. 4. Algoritmo di astrazione del documento

In generale, l’algoritmo prevede le seguenti fasi principali.
1. Le frasi vengono estratte da un documento scaricato da Internet e posizionato nel data warehouse evidenziando i segni di punteggiatura e archiviate in un array.
2. Ogni frase è divisa in parole selezionando i separatori e le salviamo in un array e l'array è diverso per ogni frase.
3. Per ogni frase, per ogni parola di questa frase, contiamo il numero di parole in altre frasi (prima e dopo). La somma delle ripetizioni di ogni parola (prima e dopo) costituirà il peso di questa frase.
4. Per l'abstract viene selezionato un determinato numero di frasi con un coefficiente di ponderazione massimo nell'ordine in cui compaiono nel testo.

Il modello proposto per la costruzione di un thesaurus e di cataloghi tematici di un sistema informativo rappresenta una base teorica per automatizzare la ricerca semantica e consente a un esperto non solo di svolgere lavori di ricerca, ma anche in modalità automatizzata, documenti astratti ottenuti come risultato della ricerca in sistemi informativi distribuiti su Internet.

Letteratura:
1. Barushkova R.I. Schemi di classificazione delle informazioni scientifiche e tecniche. Manuale indennità. - M., 1981. - 80 p.
2. Barushkova R.I. Rubricatore come schema di classificazione delle informazioni scientifiche e tecniche. Kit di strumenti. - M., 1980. - 38 p.
3. Trusov A.V., Babarykin E.P. Stima dei confini del dominio di una richiesta di informazione tematica nei sistemi informativi distribuiti. Materiali della conferenza tutta russa (con partecipazione internazionale) “Informazione, innovazione, investimenti”, 24-25 novembre 2004, Perm / Perm CSTI. - Perm, 2004. - P.76-79.
4. Yatsko V.A. Problemi logico-linguistici di analisi e sintesi di testi scientifici. - Abakan: casa editrice statale di Khakass. Università, 1996. - 128 p.

Ultimi materiali nella sezione:

Squadra edile furiosa.
Squadra edile furiosa. "Le squadre sono persone. Le persone migliori" Squadre di costruzione studentesche dell'URSS

Come la gente chiamava il movimento VSSO (All-Union Student Construction Teams), VSSO è un'abbreviazione che significa All-Union Student...

Qual era il nome dell'astronave di Yuri Gagarin: versioni alternative Navi in ​​onore delle navi
Qual era il nome dell'astronave di Yuri Gagarin: versioni alternative Navi in ​​onore delle navi

I cittadini di tutto il mondo hanno conosciuto il nome dell'uomo che ha aperto lo spazio alle persone, dai titoli sensazionali dei giornali, letti in rapida successione da entusiasti...

Un saggio su:
Saggio sul tema: “La biologia è la mia materia preferita”

Parte 1: Leggi il materiale 1 Cerca di avere un atteggiamento positivo nei confronti della biologia. Certo, l'argomento è difficile, ma è molto interessante...