Para que serve um dicionário de sinônimos? O significado da palavra dicionário de sinônimos

N. V. Lukashevich

BV Dobrov

Centro de Pesquisa em Computação da Universidade Estadual de Moscou. MV Lomonosov;

Centro ANO de Pesquisa de Informação

Palavras-chave: tesauro, recuperação de informações, processamento automático de texto,

A grande maioria das tecnologias que trabalham com grandes coleções de textos baseia-se em métodos estatísticos e probabilísticos. Isso se deve ao fato de que os recursos lexicais que poderiam ser utilizados para processar coleções de textos por meio de métodos linguísticos devem ter um volume de dezenas de milhares de entradas de dicionário e possuir uma série de propriedades importantes que devem ser monitoradas especificamente no desenvolvimento do recurso. No relatório, examinamos os princípios básicos do desenvolvimento de recursos lexicais para processamento automático de grandes coleções de textos usando o exemplo do tesauro da língua russa para processamento de texto computacional RuTez, criado em 1997, que atualmente é uma rede hierárquica de mais de 42 mil conceitos . Descrevemos o estado atual do tesauro com base na comparação de sua composição lexical e do corpus textual do Sistema de Informação Universitária RÚSSIA (www.cir.ru) - 400 mil documentos. São discutidos exemplos de uso de tesauros em vários aplicativos de processamento automático de texto.

Introdução

Atualmente, milhões de documentos foram disponibilizados em formato eletrônico, milhares de sistemas de informação e bibliotecas eletrônicas foram criadas. Ao mesmo tempo, os sistemas de informação que utilizam recursos lexicais e terminológicos para busca são calculados em frações de um percentual. Isto se deve aos sérios desafios de criação de tais recursos linguísticos para processamento automático de coleções modernas de documentos eletrônicos.

Primeiro, essas coleções são geralmente muito grandes; o recurso deve incluir descrições de milhares de palavras e termos. Em segundo lugar, as coleções são um conjunto de documentos de diferentes estruturas com diversas estruturas sintáticas, o que dificulta o processamento automático de frases de texto. Além disso, informações importantes são frequentemente distribuídas entre diferentes frases do texto.

Tudo isto levanta agudamente a questão de saber o que deveria ser um recurso linguístico que, por um lado, seria útil para o processamento automático e a pesquisa em colecções electrónicas, por outro lado, poderia ser criado num tempo previsível e mantido com relativamente pouco esforço.

Neste artigo veremos os princípios básicos do desenvolvimento de recursos lexicais para processamento automático de grandes coleções de texto. Esses princípios serão examinados usando o exemplo do tesauro da língua russa criado pelo Centro ANO de Pesquisa de Informação desde 1997 para processamento de texto computacional RuTez. RuTez é atualmente uma rede hierárquica de mais de 42 mil conceitos, que inclui mais de 95 mil palavras, expressões e termos russos. Descreveremos o estado atual do tesauro com base na comparação de sua composição lexical e do vocabulário do corpus de texto do Sistema de Informação Universitário RÚSSIA, apoiado pelo Centro de Pesquisa em Computação da Universidade Estadual de Moscou. MV Lomonosov e ANO TSII. UIS RUSSIA (www.cir.ru) contém 400 mil documentos sobre temas sócio-políticos (cerca de 3 GB de textos, 200 milhões de palavras). O artigo também discutirá exemplos de uso do tesauro em vários aplicativos de processamento automático de texto.

Princípios para desenvolver um recurso linguístico

para tarefas de recuperação de informações

Para garantir o processamento automático eficaz dos documentos eletrónicos (indexação automática, categorização, comparação de documentos), é necessário construir uma base para a sua comparação - uma lista do que foi mencionado no documento. Para que tal índice seja mais eficaz do que um índice palavra por palavra, é necessário superar a diversidade lexical do texto: sinônimos, polissemia, classes gramaticais, estilística, e reduzi-lo a um invariante - um conceito que se torna a base para comparar diferentes textos. Assim, os conceitos devem tornar-se a base de um recurso linguístico, e as expressões linguísticas: palavras, termos - tornam-se apenas entradas de texto que inicializam o conceito correspondente.

Para poder comparar conceitos diferentes, mas semelhantes, é necessário estabelecer relações entre eles. Tradicionalmente, os recursos linguísticos para processamento automático de textos em linguagem natural utilizavam determinados conjuntos de relações semânticas, como parte, fonte, razão e assim por diante. No entanto, ao trabalhar com coleções de textos grandes e heterogêneas, devemos compreender que, com o estado atual da tecnologia de processamento de texto, um sistema de computador não será capaz de detectar com segurança essas relações no texto, a fim de realizar os procedimentos que associamos. estes ou outros relacionamentos. Portanto, as relações entre conceitos devem, antes de tudo, descrever certas propriedades invariantes que não dependem ou dependem fracamente do tema do texto específico em que o conceito é mencionado.

A principal função desse relacionamento é responder à seguinte questão:

se se sabe que o texto é dedicado a discutir C1, e C2 está relacionado

atitudeRcom C1, podemos dizer que o tema do texto(*)

relacionado a C2?

Ao criar um recurso linguístico para processamento automático, é importante determinar quais propriedades dos conceitos C1 e C2 permitem estabelecer relações corretas (*) entre eles.

Assim, por exemplo, não importa quais textos sejam escritos sobre bétulas, sempre podemos dizer que essas letras são sobre árvores. Mas apesar da popularidade e da discussão frequente sobre o relacionamento árvore como parte florestas, muito poucos textos sobre árvores são textos sobre florestas. Observe que o problema não está relacionado ao nome do relacionamento. Então a clareira faz parte da floresta, e textos sobre clareiras são textos sobre florestas.

A invariância das relações relativamente ao espectro de possíveis tópicos de textos numa área temática é em grande parte determinada por propriedades mais profundas do que aquelas refletidas pelos nomes das relações, nomeadamente o seu quantificador e propriedades existenciais. Assim, as propriedades quantificadoras das relações descrevem se todos os exemplos de um conceito têm uma determinada relação, se esta relação persiste ao longo de todo o ciclo de vida do exemplo. Problema ao usar relação árvore – florestaÉ justamente pelo fato de que nem toda árvore específica está localizada na floresta, mas a clareira não pode ficar fora da floresta.

Um exemplo de descrição das propriedades existenciais das relações - segue-se da existência do conceito C1 a existência do conceito C2 (por exemplo, a existência do conceito GARAGEM requer a existência de um conceito AUTOMÓVEL) ou a existência dos exemplos C1 depende da existência dos exemplos C2 (tão específicos ENCHENTE inseparável de um exemplo específico RIOS). A discussão no texto do conceito dependente C2, especialmente dependente do exemplo, sugere que o texto também está relacionado ao conceito principal C1.

Vamos considerar a relação entre conceitos FLORESTA e ÁRVORE em detalhes. Na verdade, parte do conceito FLORESTAé ÁRVORE NA FLORESTA, embora existam ÁRVORE AUTÔNOMA,ÁRVORE NO JARDIM etc. Em qualquer caso, é necessário romper a relação de subordinação do conceito ÁRVORE conceito FLORESTA.

Por outro lado, FLORESTAé uma espécie COLEÇÕES DE ÁRVORES, não existe sem árvores (assim como JARDIM). Assim, o conceito FLORESTA deve estar em relação ao conceito ÁRVORE. Partindo de uma análise das necessidades de problemas específicos de aplicação, chegamos à conclusão de que é importante descrever as propriedades profundas das relações que antes eram muito pouco refletidas nos recursos linguísticos, mas que são de suma importância para as tarefas de processamento automático. de grandes coleções de texto e, possivelmente, para muitas outras tarefas.

Agora modelamos a descrição do quantificador e das propriedades existenciais dos conceitos com um conjunto de relações tradicionais do tesauro ACIMA-BAIXO (66% de todas as relações), PARTE-TODO (30% das relações), ASSOCIAÇÃO (4%), em combinação com um certo conjunto de modificadores adicionais (20% das relações são marcadas). Observe que as relações PART-TODO e ASSOCIAÇÃO são interpretadas levando em consideração a regra (*). No total, são descritas cerca de 160 mil ligações diretas entre conceitos, o que, tendo em conta a transitividade das relações, dá um número total de ligações diferentes de mais de 1350 mil ligações, ou seja, em média, cada conceito está ligado a 30 outros. .

RuTez Thesaurus: estrutura geral

O tesauro RuTez é uma rede hierárquica de conceitos correspondentes aos significados de palavras individuais, expressões de texto ou séries sinônimas. Assim, os principais elementos de um tesauro são conceitos, expressões linguísticas, relações entre expressões e conceitos linguísticos e relações entre conceitos.

O tesauro combina em um único sistema tanto o conhecimento linguístico - descrições de lexemas, expressões idiomáticas e suas conexões, tradicionalmente relacionadas ao conhecimento lexical, semântico, quanto o conhecimento sobre termos e relações dentro de áreas temáticas, tradicionalmente relacionadas ao campo de atuação dos terminologistas, descrito em tesauros de recuperação de informações. Como subáreas temáticas, o tesauro descreve áreas temáticas como economia, legislação, finanças, relações internacionais, que são tão importantes para a vida humana cotidiana que têm representação lexical significativa em dicionários explicativos tradicionais. Neles, o léxico e o terminológico estão fortemente interligados e interagem fortemente entre si.

As expressões linguísticas são lexemas individuais (substantivos, adjetivos e verbos), grupos nominais e verbais. Assim, o tesauro atualmente não inclui advérbios e palavras funcionais como expressões linguísticas. Grupos multipalavras podem incluir termos, expressões idiomáticas, funções lexicais ( influência e).

Para cada expressão linguística é descrito o seguinte:

Sua polissemia é a ligação com um ou mais conceitos, o que significa que uma determinada expressão linguística pode servir como expressão textual desse conceito. Atribuir uma expressão linguística a diferentes conceitos é também uma indicação implícita da sua polissemia;

Sua composição morfológica (classe gramatical, número, caso);

Recursos de escrita (por exemplo, com letra maiúscula), etc.

Cada conceito do tesauro possui um nome único, uma lista de expressões linguísticas com as quais esse conceito pode ser expresso no texto e uma lista de relações com outros conceitos.

Uma de suas expressões de texto inequívocas é geralmente escolhida como um nome exclusivo para um conceito. Mas o nome de um conceito também pode ser formado por um par de suas expressões de texto ambíguas - sinônimos, escritos separados por vírgulas e definindo-o de forma inequívoca (por exemplo, o conceito ESPESSO). Uma expressão textual ambígua do nome de um conceito também pode ser fornecida com uma marca ou um fragmento abreviado de interpretação, por exemplo, conceito MULTIDÃO (GRUPO DE PESSOAS).

Exemplo de entrada de dicionário

Escolhemos como exemplo o verbete do dicionário para o conceito FLORESTA, correspondendo a um dos significados da palavra floresta. Este verbete do dicionário é interessante porque inclui diferentes tipos de conhecimento, tradicionalmente classificados como conhecimento lexical (semântico) e conhecimento enciclopédico (conhecimento sobre a área temática, terminologia).

Sinônimos para o conceito FLORESTA(total 13):

floresta(M), zona florestal, ambiente florestal,

floresta, bairro florestal, paisagem florestal,

área florestal, bosque, área arborizada,

área florestal, pequena floresta,

conjunto de florestas.

Abaixo conceitos com sinônimos:

SELVA(selva);

PARQUE FLORESTAL(jardim da cidade, área verde,

área verde, parque florestal,

manejo florestal, parque florestal

cinto, parque(M), área do parque);

SILVICULTURA;

FLORESTA DEIXADA(floresta de folhas macias, de folhas duras

floresta);

ARVOREDO(bosque de carvalhos);

FLORESTA DE CONÍFERAS (floresta de coníferas, floresta de coníferas escuras)

Partes-conceitos com sinônimos:

WINDBREAK(ganho inesperado, sorte inesperada);

CORTE(área de corte);

CULTURA FLORESTA(espécies florestais, silvicultura

cultura);

FOREST LAND (terras florestais; terras cobertas

floresta; terras florestais, território florestal;

terra florestada, florestada

área);

PLANTAÇÕES FLORESTAIS(plantações florestais, plantações florestais,

florestação);

BORDA DA FLORESTA(borda, borda);

SUBFLOR(vegetação rasteira);

PROSEKA;

MADEIRA SECA(madeira morta).

Aqui os símbolos (M) refletem uma observação sobre a ambigüidade da entrada de texto.

Conceito FLORESTA Possui também outros relacionamentos, os chamados relacionamentos de dependência (na versão moderna são chamados de ASC 2 - associação assimétrica): QUEIMADA(incêndio florestal, incêndio na floresta; USO DA FLORESTA (uso florestal, uso de áreas do fundo florestal); SILVICULTURA; CIÊNCIA FLORESTAL (ciência florestal). Conforme já observado no parágrafo 2, o conceito de FLORESTA depende do conceito de ÁRVORE, que no tesauro é denotado pela relação ASC 1.

Conceito total FLORESTA está conectado diretamente com outros 28 conceitos, levando em consideração a transitividade das relações - com 235 conceitos (no total, mais de 650 entradas de texto).

Avaliação do estado atual

Tesauro de língua russa RuTez

5.1. Composição lexical

Atualmente, a rede de tesauros inclui mais de 95 mil expressões linguísticas, das quais 61 mil são monopalavras.

Este volume de trabalho obrigou-nos a decidir quais palavras e expressões linguísticas deveriam ser incluídas nas descrições do Thesaurus. O desejo natural era ver como as palavras mais frequentes da língua russa eram representadas no tesauro. Para tanto, foi utilizado o acervo textual do Sistema de Informação Universitária RÚSSIA (400 mil documentos). A coleção contém documentos oficiais de vários órgãos da Federação Russa (55 mil documentos desde 1992), bem como materiais de imprensa desde 1999 (jornais Izvestia, Nezavisimaya Gazeta, Komsomolskaya Pravda, Argumenty i Fakty, revista Expert e outros), materiais científicos periódicos (“Boletim da Universidade de Moscou”, “Jornal Sociológico”). Foi feita uma comparação entre a lista de lemas incluídos no Thesaurus e a lista dos 100.000 lemas mais frequentes na coleção de textos (frequência superior a 25).

A marcação do polexema da lista mostrou que entre esses cem mil lemas, 35 mil são descritos no RuTez, apenas cerca de 7 mil lexemas merecem inclusão no Thesaurus, os demais são variantes lemáticas de vários nomes próprios. Portanto, a reposição deixou de ser uma tarefa prioritária e é feita de forma gradual, começando pelas palavras mais frequentes. Supõe-se que assim que esta lista estiver quase esgotada, outra comparação será feita com a matriz de texto do sistema de informação, serão selecionados novos lexemas com frequência superior a 25. Em seguida, o limite de visualização deverá ser reduzido . A presença de um grande número de exemplos de texto na coleção de textos permite responder rapidamente a “inovações lexicais” (por exemplo, instalação,sucesso de bilheteria, belo mundo, filme de ação) e incluí-los nos locais apropriados no sistema hierárquico do Thesaurus.

O trabalho constante com uma coleção de textos atuais oferece oportunidades únicas para verificar o significado e a qualidade das descrições lexicais propostas nos dicionários. Por exemplo, uma frequência invulgarmente elevada de utilização da palavra Mãe Veja(mais de 400 vezes). A verificação da matriz mostrou que a palavra é de fato usada frequentemente como sinônimo da palavra Moscou, enquanto os dicionários explicativos muitas vezes marcam esta palavra como obsoleta. Outro exemplo de palavra frequentemente usada (mais de 300 vezes) marcada como obsoleta em dicionários é a palavra feliz.

5.2 Descrição dos significados das palavras

A comparação com a coleção de textos mostra que muitas das palavras de frequência na matriz estão bem representadas no Thesaurus em pelo menos um de seus significados (geralmente básicos). Descobrir até que ponto o espectro de significados das palavras polissemânticas na língua russa está representado no Thesaurus é nossa principal tarefa no momento.

Como é sabido, muitas vezes diferentes fontes de dicionário fornecem um conjunto diferente de significados para palavras polissêmicas, destacam nuances de significado, e o mesmo tipo de polissemia pode ser descrito de maneira diferente para palavras diferentes, mesmo no mesmo dicionário. Portanto, a tarefa de descrever de forma consistente e representativa os significados dos lexemas é uma tarefa importante para os criadores de qualquer recurso de vocabulário.

Porém, se o recurso for destinado ao processamento automático, a tarefa de descrição equilibrada de valores torna-se muito mais importante. A inflação excessiva do valor pode resultar na incapacidade do sistema informático de selecionar o valor desejado, o que por sua vez resulta numa redução significativa no desempenho do sistema automático de processamento de texto. Assim, uma das desvantagens do recurso WordNet como recurso de processamento automático de texto é o número excessivo de significados descritos para algumas palavras (no WordNet 1.6: 53 significados para correr, 47 para jogar e assim por diante.). Esses significados são difíceis de distinguir, mesmo para humanos, ao anotar textos semanticamente. É claro que o sistema informático também não consegue escolher o valor apropriado. Portanto, diferentes autores propõem diferentes formas de combinar valores para melhorar a qualidade do processamento.

Ao mesmo tempo, opera o fator oposto: se os significados realmente diferem em seu conjunto de conexões de dicionário (no nosso caso, conexões de tesauro) - eles não podem ser colados em uma unidade (um conceito) - isso também levará a uma deterioração em a qualidade do processamento automático.

Vamos dar um exemplo das palavras escola E igreja, cada um dos quais pode ser considerado como uma organização e como um edifício.

Cada organização escolar possui um prédio (na maioria das vezes um). Todas as partes do edifício escolar (salas de aula, quadros negros) estão relacionadas com escola como fazer uma organização. Não existem tipos específicos de edifícios escolares. Portanto a descrição escolas Como edifícios, não é apropriado separá-los num conceito separado. No entanto, a descrição de tal conceito coletivo ESCOLA como organização e como edifício deve ter uma relação especialmente projetada com o conceito PRÉDIO. Ao descrever tais relações no Thesaurus, é utilizada uma marca na relação - o modificador “A” (“aspecto”; durante a análise automática, é necessária “confirmação” por outros conceitos para levar em conta esta relação).

ESCOLA

MAIS ALTO INSTITUIÇÃO EDUCACIONAL

ACIMA DE UM EDIFÍCIO PÚBLICO

Significados correspondentes da palavra igreja não tão perto. Igrejas Como organização, pode ter um grande número de edifícios de igrejas em diferentes locais, e também muitos outros edifícios. Construção de igrejas está intimamente relacionado à religião e confissão, mas pode mudar de afiliação organizações religiosas. Organização da igreja E construção de igreja possuem subespécies diferentes. É por isso IGREJA (ORGANIZAÇÃO) E IGREJA (EDIFÍCIO) são apresentados no RuTez como conceitos diferentes.

A divergência significativa nas conexões do tesauro correlaciona-se de uma forma interessante com a capacidade das denotações correspondentes aos significados existirem separadamente umas das outras. Assim, um edifício-igreja não deixa de existir e nem mesmo de ser chamado de igreja mesmo quando o seu uso muda, ao contrário de um edifício escolar.

O processo de verificação da representação dos valores no Thesaurus está em constante andamento, começando pelos lemas mais frequentes. Para cada lexema de frequência verifica-se como seus significados são descritos nos dicionários explicativos, quais significados são utilizados na coleção e como são apresentados no Thesaurus. Como resultado, uma lista de 10.000 lexemas foi formada, cuja ambigüidade ainda requer análise adicional ou descrição adicional. A lista foi obtida com base em 30 mil dos lemas mais frequentes.

Deve-se notar que no Thesaurus o problema da polissemia é parcialmente removido devido ao fato de que as conexões do tesauro podem ser descritas entre diferentes significados de uma palavra e, portanto, o conceito mais alto na hierarquia pode ser selecionado por padrão. Definitivamente foi discutido no texto. Por exemplo, a palavra foto tem três significados: fotografia como campo de atividade, fotografia como imagem fotográfica, fotografia como estúdio fotográfico:

FOTOGRAFIA(fotografando, negócio de fotos, ..., foto )

PAPEL IMAGEM FOTOGRÁFICA

(foto, fotografia, foto )

PAPEL ESTÚDIO FOTOGRÁFICO (foto ).

Assim, se não foi possível descobrir qual o significado da palavra usada foto, o padrão é assumir que uma foto foi tirada (de um processo, resultado ou local), o que é suficiente para muitos aplicativos de processamento automático de texto.

Aplicação do tesauro RuTez

para processamento automático de texto

Desde 1995, a terminologia sociopolítica RuTez (thesaurus sociopolítico) tem sido usada ativamente e com sucesso para diversas aplicações de processamento automático de texto, como indexação conceitual automática, rubricação automática usando vários rubricadores, anotação automática de textos, incluindo em inglês. uns. O tesauro sociopolítico (27 mil conceitos, 62 mil entradas de texto) é uma ferramenta básica de pesquisa no sistema de pesquisa UIS RUSSIA (www.cir.ru).

Todo o vocabulário do tesauro RuTez é utilizado em procedimentos de categorização automática de textos por meio de rubricadores hierárquicos complexos. Na tecnologia existente, cada categoria é descrita como uma expressão booleana de termos, após a qual a fórmula original é expandida ao longo da hierarquia do tesauro. A expressão booleana resultante já pode incluir centenas e milhares de orações e disjunções.

Tomemos, como exemplo, um fragmento de uma descrição utilizando conceitos do tesauro (e expressões linguísticas após expansão da fórmula) da rubrica “Imagem de uma Mulher” do rubricador SOFIST 2, utilizada pelo VTsIOM para classificar questionários de pesquisas de opinião pública:

(MULHER[N]

|| MENINA[N]

|| PARENTES [L] (avó, neta, prima,

filha, cunhada, mãe, madrasta, nora, enteada, ...))

(TRAÇO DE PERSONAGEM[L] (econômico, sem coração, esquecido,

frívolo, zombeteiro, intolerante, sociável, ...)

|| IMAGEM [E] (apresentação, aparência, aparência,

aparência, aparência, imagem, aparência)

|| AGRADÁVEL [L] (..., interessante, lindo, fofo,

atraente, fofo, atraente, ...)

|| DESAGRADÁVEL[L] (antipático, rude, desagradável, ...)

|| APRECIAR[L] (reverenciar, adorar, adorar,

adorar, adorar, ...)

|| PREFERIR[N]

O símbolo “E” denota expansão total ao longo da hierarquia do tesauro, o símbolo “L” - de acordo com as relações de espécies (“ABAIXO”), o símbolo “N” - não se expande.

Estão sendo realizadas pesquisas para desenvolver uma tecnologia combinada para categorização automática de texto, combinando conhecimento de tesauro e procedimentos de aprendizado de máquina.

As questões de usar um tesauro para expandir uma consulta formulada em linguagem natural estão sendo exploradas (atualmente, apenas a parte sociopolítica do tesauro é usada para expandir uma consulta terminológica no sistema de recuperação de informação do UIS RÚSSIA), e procurando por respostas a perguntas em grandes coleções de texto.

7. Conclusão

O artigo apresenta os princípios básicos do desenvolvimento de recursos linguísticos para processamento automático de grandes coleções de textos. O recurso linguístico criado - Thesaurus da língua russa RuTez - destina-se ao uso em aplicações de processamento automático de texto como indexação conceitual de documentos, rubricação automática de acordo com rubricadores hierárquicos complexos, expansão automática de consultas em linguagem natural.

Este trabalho é parcialmente apoiado pela bolsa da Fundação Humanitária Russa nº 00-04-00272a.

Literatura

Lukashevich N.V., Saliy A.D., Representação do conhecimento no sistema de processamento automático de texto //NTI, Ser.2. 1997. Nº 3. P. 1-6.
Zhuravlev S.V., Yudina T.N., Sistema de informação RÚSSIA //NTI, Ser.2. 1995. Nº 3. P. 18-20.
Winston M., Chaffin R., Herman D., Uma taxonomia de relações parte-todo // Ciência Cognitiva. 1987. Não. 11. P. 417-444.
Priss U.E., A Formalização do WordNet por Métodos de Análise de Conceito Relacional // WordNet. Um banco de dados lexical eletrônico/Ed. por C. Fellbaum. Cambridge, Massachusetts, Londres, Inglaterra.: The MIT Press 1998. P. 179-196.
Guarino N., Welty C., Uma Ontologia Formal de Propriedades // Anais do Workshop ECAI-00 sobre Aplicações de Ontologias e Métodos de Resolução de Problemas. Berlim: 2000. S. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Alguns princípios ontológicos para projetar recursos lexicais de nível superior // First Int. Conf. sobre recursos linguísticos e avaliação. 1998.

Lukashevich N.V., Dobrov B.V., Modificadores de relações conceituais em tesauro para indexação automática // NTI, Ser.2. 2000, n.º 4, pp.
Grande Dicionário Explicativo da Língua Russa / Ed. S.A. Kuznetsova. São Petersburgo: Norint, 1998.
Ozhegov S.I., Shvedova N.Yu., Dicionário Explicativo da Língua Russa - 3ª edição. M.: Az, 1996.
Apresyan Yu.D., Obras selecionadas, volume I. Semântica lexical: 2ª ed. M.: Escola “Línguas da Cultura Russa”, Ed. Empresa "Literatura Oriental" RAS, 1995.
G. Miller, R. Beckwith, C. Fellbaum, D. Gross e K. Miller, Cinco artigos sobre WordNet, CSL Report 43. Laboratório de Ciência Cognitiva, Universidade de Princeton, 1990.
Chugur, J. Gonzalo e F. Verdjeo, Sense distinções em aplicações de PNL // Proceedings of “OntoLex-2000”: Ontologias e Bases de Conhecimento Lexical. Sofia: OntoTextLab. 2000.
Loukachevitch N., Dobrov B., Resumo temático estrutural baseado em Thesaurus em sistemas de informação multilíngues // Revisão de tradução automática. 2000. Não. 11. P. 10-20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Dicionário de sinônimos do idioma russo para processamento de linguagem natural

de grandes coleções de texto

Natalia V. Loukachevitch, Boris V. Dobrov

Palavras-chave: tesauro, processamento de linguagem natural, recuperação de informação

Em nossa apresentação consideramos os princípios básicos do desenvolvimento de recursos lexicais para processamento automático de grandes coleções de textos e descrevemos a estrutura do Tesauro da Língua Russa, que é desenvolvido desde 1997 especialmente como uma ferramenta para processamento automático de textos. Já o Thesaurus é uma rede hierárquica de 42 mil conceitos. Descrevemos o estágio atual do desenvolvimento do Thesaurus em comparação com 100.000 dos lemas mais frequentes da coleção de textos do Sistema de Informação Universitária RÚSSIA (www.cir.ru), incluindo 400 mil documentos. Também consideramos o uso do Thesaurus em diferentes aplicações de processamento automático de texto.

, antônimos, parônimos, hipônimos, hiperônimos, etc.) entre unidades lexicais. Thesauri são uma das ferramentas mais eficazes para descrever áreas temáticas individuais.

No passado o termo dicionário de sinônimos Principalmente foram designados dicionários que representam o vocabulário da língua com a máxima completude com exemplos de seu uso em textos.

Também termo dicionário de sinônimos usado na teoria da informação para denotar a totalidade de todas as informações possuídas pelo sujeito.

Em psicologia, o tesauro de um indivíduo é caracterizado pela percepção e compreensão da informação. A teoria da comunicação também considera o tesauro geral de um sistema complexo através do qual seus elementos interagem.

História

Um dos primeiros tesauros é chamado de “Dicionário de Sinônimos” de Filo de Biblos. Uma correspondência mais precisa ao termo é Amara-kosha, escrita em sânscrito em forma poética no século VI. O primeiro tesauro inglês moderno foi criado por Peter Mark Roger em 1805. Foi publicado em 1852 e tem sido usado sem reimpressão desde então.

Na década de 1970, os tesauros começaram a ser usados ativamente para tarefas de recuperação de informações. Nesses tesauros, as palavras são mapeadas para descritores por meio dos quais são estabelecidas conexões semânticas.

Tesauros

Veja também

Escreva uma resenha sobre o artigo "Thesaurus"

Notas

Trecho caracterizando o Thesaurus

- Que dândi você está hoje! – disse Nesvitsky, olhando para seu novo manto e sela.
Denisov sorriu, tirou da bolsa um lenço que cheirava a perfume e enfiou-o no nariz de Nesvitsky.
- Não posso, vou trabalhar! Saí, escovei os dentes e passei perfume.
A figura digna de Nesvitsky, acompanhado por um cossaco, e a determinação de Denisov, agitando seu sabre e gritando desesperadamente, tiveram tal efeito que eles se espremeram para o outro lado da ponte e pararam a infantaria. Nesvitsky encontrou na saída um coronel, a quem precisava transmitir a ordem, e, cumpridas as instruções, voltou.
Depois de limpar a estrada, Denisov parou na entrada da ponte. Casualmente segurando o garanhão correndo em direção ao seu e chutando, ele olhou para o esquadrão se movendo em sua direção.
Ouviam-se sons transparentes de cascos ao longo das tábuas da ponte, como se vários cavalos galopassem, e a esquadra, com oficiais à frente, quatro em fila, estendeu-se ao longo da ponte e começou a emergir do outro lado.
Os soldados de infantaria parados, aglomerados na lama pisoteada perto da ponte, olharam para os hussardos limpos e elegantes que marchavam ordeiramente por eles com aquele sentimento especial e hostil de alienação e ridículo que geralmente são encontrados em vários ramos do exército.
- Caras espertos! Se fosse em Podnovinskoye!
- Para que servem? Eles só dirigem para se exibir! - disse outro.
- Infantaria, não espane! - brincou o hussardo, sob o qual o cavalo, brincando, jogou lama no soldado de infantaria.
“Se eu tivesse conduzido você em duas marchas com sua mochila, os cadarços estariam gastos”, disse o soldado de infantaria, limpando a sujeira do rosto com a manga; - caso contrário, não é uma pessoa, mas um pássaro pousado!
“Se ao menos eu pudesse colocá-lo em um cavalo, Zikin, se você fosse ágil”, brincou o cabo sobre o soldado magro, curvado com o peso da mochila.
“Pegue a clava entre as pernas e você terá um cavalo”, respondeu o hussardo.

O resto da infantaria atravessou apressadamente a ponte, formando um funil na entrada. Finalmente, todas as carroças passaram, o esmagamento diminuiu e o último batalhão entrou na ponte. Apenas os hussardos da esquadra de Denisov permaneceram do outro lado da ponte contra o inimigo. O inimigo, visível ao longe da montanha oposta, de baixo, da ponte, ainda não era visível, pois da depressão por onde corria o rio, o horizonte terminava na elevação oposta a não mais de meia milha de distância. À frente havia um deserto, ao longo do qual se moviam aqui e ali grupos de nossos cossacos viajantes. De repente, na colina oposta da estrada, apareceram tropas com capuzes azuis e artilharia. Estes eram os franceses. A patrulha cossaca trotou colina abaixo. Todos os oficiais e homens da esquadra de Denisov, embora tentassem falar sobre os forasteiros e olhar em volta, não paravam de pensar apenas no que havia na montanha, e olhavam constantemente para os pontos no horizonte, que reconheciam como tropas inimigas. O tempo melhorou novamente à tarde, o sol se pôs brilhantemente sobre o Danúbio e as montanhas escuras que o rodeavam. Estava quieto e daquela montanha os sons de buzinas e gritos do inimigo podiam ser ouvidos ocasionalmente. Não havia ninguém entre o esquadrão e os inimigos, exceto pequenas patrulhas. Um espaço vazio de trezentas braças os separava dele. O inimigo parou de atirar e mais claramente se sentiu aquela linha estrita, ameaçadora, inexpugnável e evasiva que separa as duas tropas inimigas.
“Um passo além desta linha, uma reminiscência da linha que separa os vivos dos mortos, e - o desconhecido do sofrimento e da morte. E o que há? Quem está aí? lá, além deste campo, e da árvore, e do telhado iluminado pelo sol? Ninguém sabe e eu quero saber; e é assustador cruzar essa linha, e você quer cruzá-la; e você sabe que mais cedo ou mais tarde terá que atravessá-la e descobrir o que há do outro lado da linha, assim como é inevitável descobrir o que há do outro lado da morte. E ele próprio é forte, saudável, alegre e irritado, e está rodeado de pessoas tão saudáveis e irritadamente animadas.” Assim, mesmo que não pense, toda pessoa que está à vista do inimigo sente isso, e esse sentimento dá um brilho especial e uma nitidez alegre de impressões a tudo o que acontece nestes minutos.
A fumaça de um tiro apareceu na colina inimiga, e a bala de canhão, assobiando, voou sobre as cabeças do esquadrão de hussardos. Os oficiais reunidos foram para seus lugares. Os hussardos começaram a endireitar cuidadosamente os cavalos. Tudo no esquadrão ficou em silêncio. Todos olhavam para o inimigo e para o comandante do esquadrão, esperando por um comando. Outra terceira bala de canhão passou voando. É óbvio que atiraram nos hussardos; mas a bala de canhão, assobiando rapidamente e uniformemente, voou sobre as cabeças dos hussardos e atingiu algum lugar atrás. Os hussardos não olharam para trás, mas a cada som de uma bala de canhão voando, como se estivesse sob comando, todo o esquadrão com seus rostos monotonamente variados, prendendo a respiração enquanto a bala de canhão voava, subia nos estribos e caía novamente. Os soldados, sem virar a cabeça, entreolharam-se, curiosamente procurando a impressão do companheiro. Em todos os rostos, de Denisov ao corneteiro, uma característica comum de luta, irritação e excitação aparecia perto dos lábios e do queixo. O sargento franziu a testa, olhando para os soldados, como se estivesse ameaçando punição. Junker Mironov se curvava a cada passe da bala de canhão. Rostov, de pé no flanco esquerdo sobre seu Grachik tocado na perna, mas visível, tinha o olhar feliz de um estudante convocado diante de um grande público para um exame no qual estava confiante de que se destacaria. Ele olhou para todos com clareza e brilho, como se pedisse que prestassem atenção na calma com que ele permanecia sob as balas de canhão. Mas também em seu rosto o mesmo traço de algo novo e severo, contra sua vontade, apareceu perto de sua boca.
-Quem está se curvando aí? Yunkeg "Mig"on! Hexogue, olhe para mim! - gritou Denisov, incapaz de ficar parado e girando em seu cavalo na frente do esquadrão.
O rosto de nariz arrebitado e cabelos pretos de Vaska Denisov e toda a sua figura pequena e espancada com sua mão musculosa (com dedos curtos cobertos de cabelo), na qual segurava o cabo de um sabre desembainhado, eram exatamente os mesmos de sempre, principalmente à noite, depois de beber duas garrafas. Ele estava apenas mais vermelho do que de costume e, erguendo a cabeça peluda, como os pássaros quando bebem, pressionando impiedosamente as esporas nas laterais do bom beduíno com seus pés pequenos, ele, como se estivesse caindo para trás, galopou para o outro flanco do o esquadrão e gritou com voz rouca para examinar as pistolas. Ele dirigiu até Kirsten. O capitão do quartel-general, montado em uma égua larga e tranquila, cavalgou a passos largos em direção a Denisov. O capitão do estado-maior, com seu bigode comprido, estava sério, como sempre, só que seus olhos brilhavam mais que de costume.
- O que? - disse ele a Denisov, - não vai dar certo. Você verá, nós voltaremos.
"Quem sabe o que eles estão fazendo", resmungou Denisov. "Ah! G" esqueleto! - gritou para o cadete, notando seu rosto alegre. - Bem, eu esperei.
E ele sorriu com aprovação, aparentemente regozijando-se com o cadete.
Rostov sentiu-se completamente feliz. Neste momento o chefe apareceu na ponte. Denisov galopou em sua direção.
- Excelência, deixe-me atacar, vou matá-los.
“Que tipo de ataques existem”, disse o chefe com uma voz entediada, estremecendo como se fosse uma mosca incômoda. - E por que você está parado aqui? Veja, os flanqueadores estão recuando. Lidere o esquadrão de volta.
O esquadrão cruzou a ponte e escapou do tiroteio sem perder um único homem. Seguindo-o, o segundo esquadrão, que estava na cadeia, atravessou e os últimos cossacos passaram por aquele lado.
Dois esquadrões de residentes de Pavlogrado, tendo atravessado a ponte, um após o outro, voltaram para a montanha. O comandante do regimento Karl Bogdanovich Schubert dirigiu-se ao esquadrão de Denisov e cavalgou a passo não muito longe de Rostov, sem prestar atenção nele, apesar do fato de que, após o confronto anterior sobre Telyanin, eles agora se viam pela primeira vez. Rostov, sentindo-se na frente, em poder de um homem diante do qual agora se considerava culpado, não tirava os olhos das costas atléticas, da nuca loira e do pescoço vermelho do comandante do regimento. Pareceu a Rostov que Bogdanich estava apenas fingindo estar desatento e que seu objetivo agora era testar a coragem do cadete, e ele se endireitou e olhou em volta alegremente; então lhe pareceu que Bogdanich estava cavalgando deliberadamente perto para mostrar a Rostov sua coragem. Então ele pensou que seu inimigo iria agora enviar deliberadamente um esquadrão em um ataque desesperado para puni-lo, Rostov. Pensava-se que depois do ataque ele se aproximaria dele e estenderia generosamente a mão da reconciliação a ele, o ferido.

3.1. Conceito de dicionário de sinônimos

Thesaurus (do grego θήσαϋροξ - tesouro, estoque) ou dicionário ideográfico (do grego ideia - conceito, representação, ideia e grafo - escrever, descrever) - na linguística moderna: 1) um tipo especial de dicionário de vocabulário geral ou especial, que contém relações semânticas entre unidades lexicais; 2) um dicionário para busca de uma palavra a partir de sua ligação semântica com outras palavras; 3) uma certa forma de organizar (dispor) as palavras no dicionário; 4) uma forma de organizar a composição lexical, que permite “modelar o mundo” economicamente.

No primeiro significado original - repositório, tesouro, o termo thesaurus foi usado por L.V. Shcherba no artigo “Experiência de lexicografia geral” (terceira oposição: thesaurus - um dicionário comum (explicativo ou de tradução)). O cientista escreve: “Quando dizem tesauro, hoje na maioria das vezes queremos dizer “Thesaurus linguae latinae”, um empreendimento de cinco academias alemãs, iniciado em 1900 e até agora trazido com omissões apenas até a letra M. Característica Este tipo de dicionário consiste no fato de que eles contêm absolutamente todas as palavras que aparecem em um determinado idioma pelo menos uma vez, e que sob cada palavra são fornecidas absolutamente todas as citações de textos disponíveis em um determinado idioma. A base da oposição acima - thesaurus - um dicionário comum (explicativo ou de tradução) - é a oposição entre “material linguístico” e “sistema linguístico” - conceitos que tentei fundamentar em meu artigo “Sobre o triplo aspecto dos fenômenos linguísticos e em experimentos em linguística.

O segundo significado deste termo está associado ao amplamente conhecido dicionário-tesauro “Thesaurus of English Words and Expressions” de P.M. Roger (Roget's Thesaurus of English Words and Phrases, 1852) e sua continuação, o dicionário de O.V. Baranov.

Nesta interpretação, o termo thesaurus denota uma certa forma de organizar e ordenar a composição lexical no dicionário (ver o terceiro significado do termo).

O quarto significado do termo tesauro está associado ao reconhecimento universal deste método de organização da composição lexical, que permite “modelar o mundo” economicamente. Deste ponto de vista, um dicionário de sinônimos é “uma ordenação sistemática do vocabulário de qualquer campo científico ou técnico, e na forma mais geral - vocabulário literário geral e, além disso, todo o vocabulário de uma determinada língua”.

De acordo com Yu.N. Karaulova, um tesauro de linguagem geral, fixando na estrutura e nas relações de seus títulos, seções, zonas, áreas as amplas possibilidades de conexão não verbal de ideias, garante uma contabilização dos valores humanos.

UM. Baranov e D.O. Dobrovolsky, no prefácio “Dos editores” ao seu “Dicionário-tesauro de expressões idiomáticas russas modernas”, dá ao tesauro a seguinte definição - um tipo especial de dicionário que difere de outros (em particular, explicativo, bilíngue, etc.) na forma como de organizar o material linguístico. Num tesauro, as unidades linguísticas não são apresentadas em ordem alfabética, como num dicionário normal, mas são agrupadas com base no seu significado.

L. P. Krysin chama o thesaurus (dicionário ideográfico) de um tipo especial de dicionário explicativo, um dicionário “pelo contrário”. “Se em um dicionário explicativo, escreve o cientista, a “entrada” de uma entrada de dicionário é uma palavra, e o conteúdo da entrada de dicionário é a interpretação do significado dessa palavra, então em um dicionário ideográfico a “entrada” é o significado, a ideia (daí o nome deste tipo de dicionário - ideográfico), e o conteúdo de um verbete de dicionário é uma lista de palavras que expressam um determinado significado. E se um dicionário explicativo é uma ferramenta indispensável para a compreensão de um texto, então um dicionário ideográfico pode ser utilizado na geração de um texto: muitas vezes uma pessoa quer expressar um determinado pensamento, mas não consegue encontrar as palavras adequadas para isso; um dicionário ideográfico facilita essas buscas. Existem dois tipos principais de tesauros:

tesauro linguístico - um dicionário contendo uma lista de palavras da linguagem natural selecionadas como resultado de uma análise significativa de textos e sistematizadas de acordo com o sistema de classificação aceito;

tesauro estatístico - dicionário de recuperação de informação contendo uma lista de palavras selecionadas a partir de análise estatística de textos sobre um tema específico e agrupadas em verbetes de dicionário com base na frequência de coocorrência dessas palavras nos mesmos textos.

Os tesauros de recuperação de informação (TRI) facilitam a busca de informações durante seu processamento automático. O IPT revela ao máximo as relações semânticas entre as unidades lexicais. Conforme declarado no GOST do IPT, “um tesauro de recuperação de informação monolíngue é um dicionário controlado e mutável de unidades lexicais, baseado no vocabulário de uma língua natural, exibindo relações semânticas entre unidades lexicais e destinado ao processamento e recuperação de informações”.

A unidade básica do IPT são os termos descritores. A parte alfabética e léxico-semântica do IPT é um conjunto de artigos descritores.

Os dicionários descritivos destinam-se a descrever completamente o vocabulário de um determinado campo e registrar todos os seus usos; eles registram todos os casos relevantes disponíveis. Um exemplo típico de dicionário descritivo é “Dicionário Explicativo da Grande Língua Russa Viva”, de V.I. Dahl (a primeira edição em quatro volumes foi publicada em 1863-1866). O objetivo de seu criador não era padronizar o idioma, mas descrever completamente toda a diversidade da fala da Grande Rússia - incluindo suas formas dialetais do vernáculo.

Cada entrada do dicionário descritor começa com um descritor, no qual os sinônimos desse descritor, bem como outras unidades lexicais associadas ao descritor principal por gênero-espécie ou relações associativas, são fornecidos abaixo no artigo GOST.

Assim, os tesauros, especialmente em formato eletrônico, são uma das ferramentas eficazes para descrever áreas temáticas individuais.

Um tesauro raramente é encontrado em sua forma pura. Nos tesauros reais, a ideia original é simplificada ou estranha, mas potencialmente necessária, informações são adicionadas ao usuário. Os mais famosos hoje são o “Dicionário Semântico Russo”, de Yu.N. Karaulova, “Dicionário de nomes idênticos” N.Yu. Shvedova, “Dicionário Temático da Língua Russa” de L.G. Smekhova e outros.

Resumo. Termo do dicionário de sinônimos L.V. Shcherba utilizou-o em relação a um dicionário, que registrava, se possível, todos os contextos em que determinada palavra ocorre. Uma característica dos tesauros é que eles listam todas as palavras que aparecem em um determinado idioma pelo menos uma vez, e sob cada palavra são fornecidas todas as citações de textos disponíveis nesse idioma. O conteúdo de um dicionário de sinônimos é material linguístico, e um dicionário regular é material linguístico e um sistema linguístico (termos de L.V. Shcherba).

Essa característica é complementada por conexões cruzadas de vários tipos – muitas vezes paradigmáticas (sinônimas ou antônimas), que indicam semelhança ou oposição de significados. Além disso, vários tipos de associações. conexões (ou seja, conexões de sintagma).

Assim, a tarefa de um tesauro (dicionário ideográfico) é dar uma ideia da organização semântica de um determinado corte transversal do material linguístico, mostrando os principais campos semânticos, sua estrutura interna e conexões externas. Um tesauro é uma demonstração clara da natureza sistêmica de uma língua, permitindo ver muitos tipos de relações conectando unidades linguísticas individuais e grupos de unidades.

3.2. A história da representação do conhecimento conceitual sobre o mundo na forma de um tesauro

A necessidade de organizar as palavras de acordo com a semelhança, a contiguidade e a analogia dos seus significados tem sido sentida ao longo da história observável do pensamento humano.

Para traçar as origens da ideia de representar o conhecimento conceitual sobre o mundo na forma de um tesauro, seremos ajudados por recorrer à história da compilação de tesauros (dicionários ideográficos).

Assim, nos primórdios da civilização, quando as pessoas só podiam expressar os seus pensamentos por escrito com a ajuda de ideogramas e símbolos, o único dicionário possível era provavelmente aquele em que as palavras eram organizadas em grupos temáticos. Era simplesmente difícil para um lexicógrafo daquela época encontrar outro critério para classificar palavras além das relações que existem na própria realidade.

Infelizmente, não temos evidências de que os povos que usaram a escrita ideográfica realmente tivessem tais dicionários. Entre as tentativas mais antigas de classificação ideográfica que conhecemos está o Attikai Lexeis do gramático grego, diretor da Biblioteca de Alexandria, Aristófanes de Bizâncio (falecido em 180 aC).

No século II. n. e. aparece a obra principal “Onomasticon”, compilada com base em material da língua grega pelo lexicógrafo e sofista Júlio Pólux (nome verdadeiro Polideuces), natural da cidade egípcia de Naucratis. Yu. Pollux escreveu várias obras, mas apenas “Onomasticon” chegou até nós (Pollux Yu. Onomasticon. M., 1956).

Onomasticon consiste em 10 livros. Os livros são essencialmente tratados separados e contêm as palavras mais importantes relacionadas a um tópico específico. Assim, o primeiro livro fala de deuses e reis; na segunda - sobre as pessoas, suas vidas e estrutura fisiológica; no terceiro - sobre parentesco e relações civis, etc. As palavras incluídas no dicionário são acompanhadas de breves interpretações. Nos tempos modernos, o dicionário foi publicado pela primeira vez em 1502 em Veneza.

Entre os séculos II e III. n. e. O maravilhoso dicionário sânscrito “Amarakosha” (Amarakosha. Paris, 1839) foi publicado. Seu autor é o antigo poeta, gramático e lexicógrafo indiano Amara Sina, que foi chamado de “uma das nove pérolas que adornam o trono de Vikramaditya”. Amarakosha traduzido para o russo significa o tesouro de Amara. O dicionário contém 10 mil palavras. Para melhor lembrar a interpretação dos significados das palavras, os verbetes do dicionário são construídos na forma de poemas. Todo o material do dicionário está dividido em 3 livros. Cada livro inclui vários capítulos, e o capítulo, por sua vez, é dividido em várias seções, se necessário. O primeiro livro é dedicado ao céu, aos deuses e a tudo que está diretamente relacionado a eles. O segundo livro contém palavras relacionadas à terra, assentamentos, plantas, animais e humanos (primeiro, o homem é considerado como um ser vivo, e depois como um ser social; toda a estrutura de castas da sociedade contemporânea do autor aparece diante de nossos olhos; sacerdotes , como curadores de Deus, estão no topo, e abaixo estão os militares e reis, ainda mais abaixo estão os proprietários de terras, e na parte inferior estão os artesãos, malabaristas, servos, etc.). O terceiro livro é estritamente linguístico, como fica claro pelos títulos de seus seis capítulos.

O dicionário só se tornou conhecido dos cientistas europeus no final do século XVIII, quando a sua primeira parte foi publicada em Roma em 1798. Foi publicado na íntegra com tradução para o inglês em 1808 pelo estudioso inglês de sânscrito G.T. Colebrooke (NT Colebrooke). Em 1839 apareceu sua tradução francesa, feita por A.L. Delonchamps (AL Deslongchamps). O maior desenvolvimento da ideia de classificação semântica do vocabulário está associado ao problema da chamada linguagem mundial.

Resumo. Esta, em termos mais gerais, é a primeira etapa no desenvolvimento da tradição de classificação ideográfica do vocabulário. Esta etapa pode ser chamada de pré-história dos dicionários ideográficos. Agora é aconselhável recorrer à classificação moderna dos dicionários de sinônimos.

É fácil perceber o quão diferentes as obras descritas são dos dicionários alfabéticos. Se nos dicionários alfabéticos a apresentação das palavras é regulada por um instrumento tão convencional e altamente neutro como o alfabeto, então, na construção de um dicionário ideográfico, a visão de mundo do próprio lexicógrafo torna-se decisiva.

3.3. Princípios de classificação de dicionários-tesauros

Como já foi mostrado acima, o problema de compilar uma classificação de tesauros não é novo e durante várias décadas atraiu a atenção de vários linguistas nacionais e estrangeiros (C. Marello, V.V. Morkovkin, L.P. Stupin, V.V. Dubichinsky, etc. ). O resultado das pesquisas nesta área foi a criação de classificações alternativas dessas obras lexicográficas. Uma das últimas classificações baseia-se nos seguintes critérios: a) o tipo de conexões semânticas entre as unidades do vocabulário; 2) volume do vocabulário; 3) generalização do vocabulário; 4) desenvolvimento do significado dos lexemas; 5) qualificação gramatical e estilística dos lexemas; 6) demonstração do funcionamento dos lexemas; 7) número de idiomas representados; 8) o tipo de meio semiótico utilizado para semantizar os lexemas. Esta classificação é baseada nas classificações previamente criadas por O.M. Karpova e I. Burkhanov (Burchanov I. Sobre a descrição ideográfica de aspectos estilisticamente e pragmaticamente relevantes dos significados lexicais. Londres, 1996); a terminologia usada na classificação é introduzida no aparato lexicográfico

V.V. Morkovkin, Yu.N. Karaulov, K. Marello. Os critérios de classificação foram formulados por O.M. Karpova. Ao mesmo tempo, C. Marello distingue três tipos de tesauros:

cumulativos, que são agrupamentos de palavras sem definir seus significados;

definitivo, interpretando cada unidade lexical de um grupo de palavras;

tesauros bilíngues e multilíngues para viajantes (Marello C. TheThesaurus//W.D.D. 1990. V. 2. P. 1083).

Os tesauros cumulativos não só oferecem a oportunidade de encontrar uma palavra mais compreensível, precisa e estilisticamente correta na situação de estar em um determinado campo semântico, mas também se tornam a base para a formação de bancos de dados computacionais temáticos.

Os tesauros definitivos podem incluir, junto com as definições de significado, informações etimológicas e citações de obras literárias, o que mostra a orientação enciclopédica direta desse tipo de tesauro. Além disso, dicionários deste tipo apresentam ao usuário o sistema de conceitos necessário, explicam a essência, semelhanças e diferenças dos conceitos, suas conexões paradigmáticas e sintagmáticas e, às vezes, fornecem informações sobre a pronúncia, gramática, formação de palavras e outras possibilidades de unidades lexicais que denotam esses conceitos.

Os tesauros bilíngues e multilíngues para viajantes geralmente são criados de acordo com seções temáticas: números, alimentação, transporte, hotéis, etc. com equivalentes de tradução de dois ou mais idiomas.

Para exibir os tipos de dicionários de sinônimos existentes da forma mais completa possível, é criada uma classificação de vários níveis. Em primeiro lugar, de acordo com o tipo de conexões semânticas entre unidades de vocabulário, os tesauros são divididos em três grandes classes:

1. Tesauro associativo (terminologia de Yu.N. Karaulov

2. Tesauro análogo (terminologia de V.V. Morkovkin

3. Tesauro ideográfico (ideológico) (terminologia de L.V. Shcherba, V.V. Morkovkin. Os três tipos de tesauros acima refletem os seguintes tipos de conexões semânticas de lexemas, respectivamente:

1. Conexões semântico-sintáticas, com base nas quais
as palavras são combinadas em grupos ou pares, predeterminados em sua ocorrência e existência por duplas conexões: semânticas e sintáticas. As conexões semânticas entre palavras são estabelecidas principalmente entre verbos e adjetivos que desempenham função predicativa em uma frase e substantivos, por exemplo:

a) entre uma ação e o órgão (instrumento) com o qual ela é executada: agarrar - uma mão, ver - um olho, nadar - um barco, etc.;

b) entre verbos de ação que requerem um sujeito e um sujeito: latir - um cachorro, relinchar - um cavalo, etc.; c) entre verbos e um determinado acréscimo gramatical, que os primeiros exigem: picar - lenha, comer - comida, etc.

Assim, um tesauro associativo é um dicionário-tesauro que organiza unidades lexicais com base nas conexões semânticas e sintáticas que existem entre elas e organiza grupos de acordo com a forma gráfica das palavras centrais.

2. Conexões léxico-semânticas. O agrupamento com esse tipo de conexão ocorre de acordo com a característica principal das palavras - o significado lexical. Nesse caso, também são levadas em consideração as conexões léxico-gramaticais, na forma como se realizam os significados individuais das palavras.

Assim, um tesauro analógico é um livro de referência lexicográfico, cuja principal unidade de macroestrutura é o grupo léxico-semântico; os grupos são sistematizados em ordem alfabética de dominantes semânticos.

3. Conexões temáticas ou temáticas, onde a combinação de palavras em um grupo ocorre devido à semelhança ou semelhança de funções dos objetos e processos denotados pelas palavras: objetos
utensílios domésticos, partes do corpo, tipos de roupas, edifícios, etc.

Assim, um tesauro ideográfico é um trabalho lexicográfico que representa unidades lexicais como parte de grupos temáticos (temáticos) e as organiza em uma estrutura hierárquica projetada para representar o conhecimento conceituado sobre o mundo.

Dentro da estrutura do mesmo critério, subdividimos ainda mais os tipos. Assim, o tesauro ideográfico é representado pelos seguintes 4 tipos:

Na verdade, um dicionário de sinônimos ideográfico.

Dicionário temático.

Dicionário sistemático.

Dicionário temático-sistemático

O próprio tesauro ideográfico é um tipo especial de dicionário ideográfico, cuja macroestrutura é organizada de acordo com um mapa sinóptico a priori sobreposto à composição lexical da língua. Ao contrário de outros tipos de dicionário ideográfico, o próprio tesauro ideográfico é caracterizado por uma estrutura de classificação lógica e estritamente ordenada criada com base na taxonomia científica, mesmo que o vocabulário geral esteja sujeito à descrição lexicográfica (New Webster "Thesaurus. Landoll, 1991).

Um dicionário temático é um tipo especial de tesauro ideográfico, cuja principal unidade de macroestrutura é um grupo temático, incluindo lexemas, unidos a partir da classificação de suas denotações (referentes) e considerados do ponto de vista do cumprimento de um Tópico especifico.

Um dicionário sistemático é um tipo especial de tesauro ideográfico cuja estrutura de classificação se destina a representar as relações semânticas reais que existem entre as unidades lexicais de uma língua. Em sua essência, a estrutura classificatória representa a classificação léxico-gramatical do vocabulário, ou seja, sua estrutura paradigmática, descrita do ponto de vista da subordinação e da composição.

Um dicionário temático-sistemático é um tipo especial de dicionário ideográfico, que é uma combinação de dicionário temático e sistemático.

Resumo. A classificação considerada de tesauros linguísticos inclui os seguintes tipos de dicionários: tesauros analógicos (terminologia de V.V. Morkovkin); tesauro ideográfico (ideológico) (terminologia de L.V. Shcherba e V.V. Morkovkin); associado. tesauro (terminologia de Yu.N. Karaulov). A seguir será apresentado pop. thesauri e suas características são reveladas.

3.4. Tesauros populares e suas características

O mais famoso dos dicionários-tesauros disponíveis, ao qual este termo deve a sua existência, foi criado com base na língua inglesa; este é um tesauro constantemente reimpresso por P.M. Thesaurus de palavras e frases em inglês de Roger Roget (1852).

É importante notar que o autor do Thesaurus of English Words and Expressions aproveitou ao máximo a experiência disponível na época. “O princípio que me orientou na classificação das palavras”, escreve P.M. Roger, é o mesmo utilizado na classificação de indivíduos em diversos campos da história natural. Portanto, as seções que destaquei correspondem às famílias naturais da botânica e da zoologia, e as séries de palavras são cimentadas pelas mesmas relações que unem as séries naturais das plantas e dos animais."

PM. Roger acreditava que uma classificação convincente das palavras de acordo com seus significados é impossível até que os objetos da realidade chamados essas palavras sejam devidamente estudados e organizados. Portanto, ele inicia seu trabalho dividindo o campo conceitual da língua inglesa em quatro grandes classes: relações abstratas, espaço, matéria e espírito (mente, vontade, sentimentos). Essas classes são ainda divididas em vários gêneros, que por sua vez são divididos em um certo número de espécies.

Entre as deficiências do dicionário ideográfico de P.M. Os cientistas atribuem a Roger: 1) uma nomenclatura não totalmente convincente das principais classes conceituais; 2) a lógica abstrata prevalece sobre as conexões naturais das palavras; 3) relativa inconveniência de uso (esta deficiência foi amplamente corrigida nas edições subsequentes).

Na lexicografia russa moderna existem vários dicionários que devem ser classificados como dicionários-tesauros (dicionários ideográficos). Este, por exemplo, foi criado sob a liderança de Yu.N. Karaulova “Dicionário semântico russo”, “Dicionário semântico russo” editado por N.Yu. Shvedova, “Dicionário Temático da Língua Russa” de L.G. Sayakhova, D.M. Khasanova e V.V. Morkovkina, “Dicionário de grupos léxico-semânticos de verbos russos”, ed. E.V. Kuznetsova, “Dicionário Ideográfico da Língua Russa” O.S. Baranova, “A Conceptosfera do Mundo Interior do Homem na Língua Russa” por V.I. Ubiyko, dicionário educacional abrangente “Bases lexicais da língua russa” sob a orientação de V.V. Morkovkina.

Vamos conhecer alguns deles.

Dicionário-tesauro de expressões idiomáticas russas modernas” editado por A.N. Baranova e D.O. Dobrovolsky inclui quatro partes principais: 1) sinopse; 2) legenda; 3) o corpo principal do Dicionário-Tesauro; 4) ponteiros. O objetivo da Sinopse é dar uma ideia geral da estrutura do Corpo Principal do Tesauro. Lista todos os táxons com subtaxos e referências paradigmáticas correspondentes. O corpo principal do Dicionário Thesaurus é uma coleção de entradas de dicionário, agrupadas em grupos (taxa) e subgrupos (subtaxa) de acordo com o significado das expressões idiomáticas neles descritas. Cada artigo contém uma expressão idiomática e exemplos de seu uso no russo moderno. Sinopse, Legenda, Índices são partes de serviço do dicionário-tesauro mencionado acima, proporcionando ao usuário a oportunidade de trabalhar com rapidez e eficiência. A legenda é utilizada nos casos em que não são necessários exemplos de uso de expressões idiomáticas, pois reproduz todas as informações, exceto exemplos. Na verdade, este é o vocabulário do Dicionário. As unidades do vocabulário são lemas. O lema, neste caso, representa o idioma em sua forma original (dicionário) e inclui, se possível, todas as suas variantes significativas. Por exemplo, a expressão ficar parado faz parte do lema marcar o tempo, ficar parado, derrapar no lugar.

O dicionário contém dois ponteiros. No final do livro há um artigo “Conceito Teórico do Dicionário-Tesauro da Ideomática Russa Moderna”, que analisa detalhadamente as características científicas deste projeto.

“Dicionário Semântico Russo”, criado sob a liderança de Yu.N. Karaulova inclui 10 mil palavras russas, que são divididas em 1.600 grupos conceituais. A identificação de grupos é baseada em elementos repetidos de interpretação de palavras em dicionários explicativos: por exemplo, “ação”, “propriedade”, “ferramenta”, etc.

“Dicionário semântico russo”, criado sob a liderança do acadêmico N.Yu. Shvedova, baseia-se em princípios ligeiramente diferentes, característicos da compilação de dicionários ideográficos e explicativos. Em primeiro lugar, todas as palavras da língua são aqui divididas em quatro classes: 1) unidades indicativas (pronomes), 2) nomeação (palavras nocionais), 3) conectores reais (conjunções, preposições, verbos de ligação), 4) classificação (palavras modais). , partículas, interjeições). Em segundo lugar, dentro de cada classe, todas as palavras são distribuídas de acordo com classes gramaticais. Em terceiro lugar, dentro de cada classe gramatical, conjuntos e subconjuntos são identificados com base na proximidade temática ou, inversamente, na oposição dos significados das palavras.

DUDEN é um livro com figuras (desenhos) no lado esquerdo (de acordo com software diferente) com partes numeradas (até as menores). No lado direito, esta lista numerada é acompanhada de títulos (mesmo em dois idiomas). Por exemplo, equipamentos ferroviários, estações e trilhos são desenhados em uma página inteira. À direita estão os nomes de flechas, semáforos, muletas, etc.

“Dicionário Temático da Língua Russa” L.G. Sayakhova, D.M. Khasanova e V.V. Morkovkina contém 25 mil unidades lexicais, agrupadas em três grandes classes: “Homem”, “Sociedade”, “Natureza”, que se ramificam gradualmente em subclasses menores. Por exemplo, na classe “Humano” existem subclasses “Corpo e organismo humano”, “Vida humana”, “Aparência, aparência de uma pessoa”, “Aparência emocional de uma pessoa”, etc. dividido em outros ainda mais específicos: “ Mundo emocional de uma pessoa" - "Propriedades mentais de uma pessoa" - "Temperamento", "Caráter" - "Traços gerais de caráter", etc. O significado e o uso das palavras pertencentes a cada classe são ilustrados pelas frases mais comuns. Por exemplo, a palavra “riso”, que está no subgrupo “expressão de sentimentos, emoções” da classe “Homem”, é acompanhada pela indicação de combinações com esta palavra como riso alegre, riso alegre, riso infantil, explosão em risadas, etc.

Resumo. Uma das ferramentas eficazes para descrever áreas temáticas individuais, especialmente em formato eletrônico, são os tesauros.

O termo thesaurus tem sido amplamente utilizado na linguística para designar um tipo especial de dicionário, refletindo de uma forma ou de outra a “imagem do mundo”, “modelo linguístico do mundo” (de acordo com Yu.N. Karaulov). O tesauro como “tesouro” cresceu em seu alcance semântico e recebeu um novo significado. Passaram a chamá-lo de dicionário que não apenas absorve todas as riquezas lexicais de uma língua, mas as organiza de certa forma lógico-sistêmica. Em um dicionário de sinônimos, as palavras são combinadas em grupos, e essa unificação ocorre com base na capacidade de uma determinada palavra transmitir um determinado conceito.

O dicionário tesauro sempre foi considerado na linguística como uma espécie de sistema universal que garante o armazenamento do conhecimento coletivo (para uma determinada sociedade) sobre o mundo na forma verbal. Ao contrário de outros dicionários, num dicionário de sinónimos este conhecimento é armazenado numa forma estruturada que reflecte as nossas ideias sobre a “estrutura do mundo”.

Os tesauros mais famosos e populares atualmente são o Thesaurus de Roger em inglês, O.V. Dicionário Ideográfico da Língua Russa. Baranova, dicionário semântico russo Yu.N. Karaulova, dicionário semântico russo do acadêmico N.Yu. Shvedova, DUDEN, Dicionário Temático da Língua Russa L.G. Sayakhova, D.M. Khasanova e V.V. Morkovkina.

Sistema conceitual de uma área disciplinar A base de qualquer área disciplinar é o sistema de conceitos desta área. Definição de um conceito: Um conceito é um pensamento que reflete de forma generalizada objetos e fenômenos da realidade, fixando suas propriedades e relações; estas últimas (propriedades e relações) aparecem no conceito como características gerais e específicas, correlacionadas com classes de objetos e fenômenos (Dicionário Linguístico)

Conceitos e termos Para expressar o conceito de uma área temática em textos, são utilizadas palavras ou frases denominadas termos. O conjunto de termos de uma área temática forma seu sistema terminológico. A relação de um termo específico com outros termos do sistema de termos da área temática é especificada por meio de uma definição

Definições do termo? Uma palavra (ou combinação de palavras) que é uma designação exata de um conceito específico de qualquer campo especial da ciência, tecnologia, arte, vida social, etc. || Uma palavra ou expressão especial usada para designar algo. em um ambiente ou outro, profissão (Grande Dicionário Explicativo da Língua Russa)

Termos - nomes exatos de conceitos Normalmente, cada conceito na área corresponde a pelo menos um termo compreendido de forma inequívoca, cujo significado é esse conceito. - termos, no sentido da teoria tradicional da terminologia Propriedades dos termos - nomes exatos dos conceitos - o termo deve relacionar-se diretamente com o conceito, deve expressar o conceito claramente; - o significado do termo deve ser preciso e não deve sobrepor-se ao significado de outros termos; - o significado do termo não deve depender do contexto. Termos que nomeiam com precisão um conceito são objeto de pesquisa da teoria da terminologia, terminologistas

Termos de texto Em textos reais da área temática, para se referir a um conceito, além dos termos básicos, podem ser utilizadas diversas expressões linguísticas, que chamamos de termos de texto: - opções sintáticas e de formação de palavras: destinatário de recursos orçamentários - orçamento destinatário; - opções lexicais – baixa direta, baixa indiscutível; - expressões polissemânticas, dependendo do contexto, que servem de referência a diferentes conceitos da área, por exemplo, a palavra moeda em diferentes contextos pode significar moeda nacional ou moeda estrangeira.

Descritores com marcas Lixo - parte do nome do descritor guindastes (equipamento de elevação) vs guindastes (pássaros) conchas (estruturas) – comparação de diferentes tesauros Preferências de frases: –Registros fonográficos vs. discos (fonógrafo) Marcas e plural: Madeira (material) Florestas (áreas florestais)

Incluir descritores baseados em expressões com múltiplas palavras A divisão de um termo aumenta a ambiguidade: alimento vegetal O significado da expressão depende da ordem das palavras: ciência da informação - informação científica Uma das palavras componentes está fora do âmbito do tesauro ou é demasiado geral: primeiro ajuda As relações do descritor não decorrem da sua estrutura: –Rins artificiais, estatuto de refugiado, semáforos

Relações associativas Campo de atividade - ator - Matemática - matemático Disciplina - objeto de estudo - Neurologia - sistema nervoso Ação - agente ou ferramenta - Caça - caçador Ação - resultado da ação - Tecelagem - tecido Ação - objetivo - Encadernação - livro Causa-efeito - Morte – funeral Valor – unidade de medida – Força atual – ampere Ação – contraparte – Alérgeno – medicamento antialérgico, etc.

Tesauros de recuperação de informação: estágios de desenvolvimento Primeiro estágio: os indexadores descrevem o tópico principal do texto usando palavras e frases arbitrárias Termos obtidos de muitos textos são reunidos Entre os termos que têm significado semelhante, o mais representativo é selecionado Alguns dos restantes tornam-se sinônimos condicionais, o restante é excluído. Termos específicos geralmente não são incluídos

Tesauros de recuperação de informação: a arte do desenvolvimento Descritores são termos necessários para expressar o tema principal do documento Os sinônimos incluem apenas o mais necessário (por exemplo, começando com uma letra diferente) para não complicar o trabalho do indexador Relacionado os termos devem ser reduzidos a um termo para evitar indexação de subjetividade. Níveis hierárquicos, a inclusão de termos específicos é limitada

Tesauro de recuperação de informação: a arte do desenvolvimento - 2 Em casos complexos, os descritores são fornecidos com marcas e comentários –LIV: bombardeio – bombardeio – Termos polissemânticos: um significado no tesauro (maiúsculo), não cabe no tesauro, marcas !!! O tesauro tradicional de recuperação de informação é uma linguagem artificial construída com base em termos reais

IPT tradicional: aplicação em processamento automático Desconhecimento da linguagem real do software Desconhecimento da linguagem real do software Vocabulário de Indexação Legislativa: Vocabulário de Indexação Legislativa: – no texto TROPAS – no tesauro FORÇAS MILITARES – no texto MAIÚSCULA – maiúscula, no tesauro apenas maiúscula Sugestão: cada descritor complementado com listas de palavras e termos Propõe-se: cada descritor é complementado com listas de palavras e termos Mas: polissemia ou relativo a descritores diferentes. Mas: polissemia ou relativa a descritores diferentes. Resolução de desambiguação Resolução de desambiguação

IPT tradicional: expansão automática de consultas Problema com associações Sugerido: insira pesos insira pesos insira nomes de relações: objeto, propriedade, etc. insira os nomes dos relacionamentos: objeto, propriedade, etc. CONCLUSÃO: é preciso aprender a construir recursos linguísticos específicos para processamento automático de coleções de textos

Thesaurus EUROVOC – thesaurus multilíngue da Comunidade Europeia Thesaurus em 9 idiomas Versão russa do EUROVOC – +5 mil conceitos que refletem as especificidades russas Thesaurus multilíngue – Descritor – nomes em diferentes idiomas – Descritores – para alguns idiomas

Indexação automática de acordo com o tesauro EUROVOC, com base em regras (Hlava, Heinebach, 1996) Exemplo de regra: IF (perto de "Tecnologia" E com "Desenvolvimento") USE Programa comunitário USE ajuda ao desenvolvimento ENDIF 40 mil regras. Teste: 20 descritores mais frequentes no texto, gerados automaticamente – 42% de completude, comparado à rubrica manual

Indexação automática baseada no estabelecimento de pesos de correspondência entre palavras e descritores (Steinberger et al., 2000) Etapa 1 - estabelecimento de correspondência entre palavras do texto e descritores atribuídos com base em medidas estatísticas (qui-quadrado ou log-verossimilhança) Descritor FISHERY MANAGEMENT - as palavras seguintes (em ordem decrescente de peso): pescaria, pescado, estoque, pesca, conservação, manejo, embarcação, etc. Indexação do estágio 2 em si - somando os logaritmos dos pesos ou como um produto escalar de vetores

Uma combinação de consultas gratuitas e consultas baseadas em um tesauro de recuperação de informações. Uma coleção indexada manualmente – estabelecendo correlações. Um usuário faz uma consulta em linguagem natural. A consulta é expandida pelos descritores do tesauro que estão mais fortemente correlacionados com a consulta (Petras 2004). ; Petras 2005). Por exemplo, na solicitação Empresas Insolventes, pode ser obtida uma lista de descritores liquidez, endividamento, empresa, firma., e a consulta pode ser ampliada. A precisão no experimento aumentou 13%.

Um dos novos conceitos básicos que surgiram com o desenvolvimento de métodos de máquina para processamento de informação, nomeadamente, na tradução de uma língua para outra, na procura de informação científica e técnica e na criação de um modelo de informação de uma empresa em sistemas de controlo automatizados , era o conceito de um tesauro de sistema de informação. O termo “thesaurus” implica um corpo de conhecimento sobre o mundo externo - este é o chamado tesauro do mundo T. Todos os conceitos do mundo externo, expressos em linguagem natural, constituem um tesauro, do qual os tesauros privados podem ser distinguidos por divisão hierárquica levando em consideração a subordinação de conceitos individuais ou isolando partes do tesauro geral do mundo. O tesauro em sistemas de recuperação de informação desempenha um papel importante na localização do documento desejado por meio de palavras-chave. Portanto, construir um tesauro é uma tarefa complexa e responsável. Mas esta tarefa também pode ser automatizada.

Classificação em sua definição mais geral é o particionamento e a ordenação de conjuntos. É chamada de distribuição de objetos em classes com base em uma característica comum inerente a esses fenômenos ou objetos e distinguindo-os de objetos e fenômenos que compõem outras classes. Se necessário, cada classe pode ser dividida em subclasses. Um rubricador é um tipo especial de classificação. Portanto, são criados com base em disposições gerais:
 base científica para construção da classificação;
 reflexão do atual nível de desenvolvimento da ciência;
 a presença de um sistema de links e encaminhamentos, bem como de um aparelho de referência e referência (CCA).

No entanto, o rubricador é uma classificação pragmática criada com base nos fluxos de informação e nas necessidades dos especialistas. Esta é a sua diferença em relação às classificações a priori, como UDC e IPC.

As principais funções das classificações e, em particular, do rubricador são as seguintes:
 diferenciação temática dos subsistemas de informação;
 formação de matrizes de informação com base em quaisquer características;
 sistematização de materiais informativos e publicações;
 pesquisa atual e retrospectiva;
 indexação de documentos e consultas;
 ligação com outros esquemas de classificação;
- funções normativas.

Eles são construídos dividindo conceitos - objetos de classificação com base nas conexões estabelecidas entre as características desses objetos de acordo com certos princípios lógicos. A característica pela qual a classificação é feita é chamada de base de divisão da classificação. As classificações utilizam amplamente métodos de dedução e indução para fixar grupos, classes e identificar conexões entre eles. Isso é típico de classificações hierárquicas. A profundidade da classificação (o número de níveis hierárquicos) pode variar dependendo da finalidade. Um dos rubricadores amplamente utilizados é o Rubricador Estadual de Informação Científica e Técnica (GRNTI).

O rubricador GRNTI foi concebido de forma a poder ser utilizado em conjunto com outras classificações, como UDC e IPC. A Classificação Decimal Universal (CDU) existe há mais de 70 anos, mas ainda não tem igual em sua amplitude de distribuição e é usada em muitos países ao redor do mundo. O CDU abrange todo o universo do conhecimento e é utilizado com sucesso para sistematização e posterior busca nas mais diversas fontes de informação.

Além da UDC, a biblioteca e classificação bibliográfica (LBC) é amplamente utilizada na prática. O BBK é baseado nos princípios da subordinação lógica e representa uma classificação do tipo aplicativo.
Na Federação Russa, para classificar invenções e sistematizar coleções nacionais de descrições de invenções, é usada a classificação internacional de patentes - uma classificação bastante complexa de vários aspectos, construída com base no princípio da indústria funcional. Os mesmos conceitos técnicos podem ser encontrados em IPC ou classes especiais (por indústria) ou em classes funcionais (por princípio de operação). O princípio setorial de distribuição de conceitos envolve a classificação dos objetos em função de sua aplicação em um determinado ramo de equipamentos e tecnologia historicamente estabelecido.

As características comparativas dos rubricadores SRNTI, UDC, BBK e IPC são apresentadas na Tabela 1.

tabela 1
Características do rubricador SRNTI, UDC, BBK e IPC

Nome	Estrutura	O princípio da colocação de divisões	Esquema de construção de partição
	Hierárquico	Indústria	Do geral ao específico
	Hierárquico	Temático
	Hierárquico	Funcional-setorial	Do geral ao específico
LBC para bibliotecas científicas	Hierárquico	Indústria	Do geral ao específico, por espécie

Assim, podemos destacar as principais características distintivas dos rubricadores e classificadores:
- caracterizam-se por um caráter aplicado e orientação setorial;
 são sistemas abertos que dependem do desenvolvimento da ciência e da tecnologia, das necessidades e solicitações dos especialistas;
 sistemas inorgânicos, uma vez que os objetos surgem e se desenvolvem no ambiente e entram neles a partir dele. Os elementos são capazes de existir independentemente fora do sistema. Esta característica está intimamente relacionada com a segunda característica;
- o elemento mínimo é o conceito associado ao ambiente. Um conceito representa um sistema de definições;
 conexões surgem entre conceitos tanto “verticalmente” (tipo de gênero, parte inteira) quanto “horizontalmente” (tipo-tipo, parte-parte), o que indica a hierarquia dos sistemas.

Consequentemente, a estrutura e os princípios de organização das classificações e rubricadores permitem automatizar o processo de construção de tesauros de áreas temáticas pelo método de dedução. O algoritmo para construir um tesauro usando o método de dedução é mostrado na Fig. 1.

A base para a formação de um tesauro é uma imagem de busca de um documento, uma tarefa ou um aplicativo de busca de informações, preenchido pelo operador. Portanto, o primeiro passo é pesquisar e analisar a aplicação. Na primeira etapa, o operador indica o tema ou problema de interesse, possíveis palavras-chave e seus sinônimos. Como resultado, obtemos uma compreensão superficial da área temática.

Arroz. 1. Algoritmo para construção de um tesauro pelo método de dedução

Além disso, um tesauro de palavras-chave CS é formado usando o método de dedução, que requer:
 Matriz KS, que é especificada pelo próprio usuário, designada na Figura 1 como MP;
 Matriz KS extraída da tarefa de pesquisa, respectivamente MZ.

No entanto, para uma compreensão mais completa e aprofundada da área temática, utilizamos rubricadores e esquemas de classificação existentes (GRNTI, UDC, BBK, IPC). Para maximizar a cobertura da área temática, é necessário rever todas as disponíveis. A matriz de rubricadores representa MR. O algoritmo de busca por dedução consiste em duas etapas:
1. Encontrar conceitos genéricos (Fig. 2);
2. Encontrar termos específicos dentro de conceitos genéricos (Fig. 3).

Arroz. 2. Processamento do conceito genérico

Carregamos o primeiro rubricador do array e organizamos um ciclo de verificação da presença do CS inserido pelo usuário nos rubricadores. Cada KS é pesquisado no rubricador e comparado com um conceito genérico ou “ninho”, e então a condição é verificada para ver se há link para termos específicos. Se tal link estiver disponível, o KS será comparado com os termos específicos. Se nenhum link for encontrado, passe para o próximo conceito genérico. Quando são visualizadas as palavras-chave do CS inseridas pelo operador, passamos para o array de CS extraído da tarefa. O procedimento de verificação é semelhante - procuramos os KS correspondentes a conceitos genéricos e, em seguida, suas ligações a termos específicos.

Arroz. 3. Processamento de termos específicos

Observe que dentro de cada conceito genérico é importante revisar todos os termos específicos disponíveis para obter o máximo entendimento da área problemática. O resultado dessas ações é a formação de um array de palavras-chave KS, que é um tesauro completo correspondente à tarefa de busca de informação ou à imagem de busca de um documento.

Com base em um conjunto completo de imagens de pesquisa de documentos (vamos denotá-las), é possível criar tesauros da indústria e um classificador de biblioteca unificado. Obviamente, o próprio conjunto completo de  representa um simples tesauro.

No entanto, usando o critério de seleção
, (1)
podemos construir tesauros da indústria. Neste caso, o conjunto de todos os tesauros do setor forma um tesauro completo
, (2)
cujas seções podem ser estruturadas hierarquicamente de acordo com os requisitos do GOST de acordo com os classificadores principais (GRNTI, UDC, BBK, MPK) ou de acordo com um classificador unificado interno.

A automação do processo de construção de um tesauro e classificação permite facilitar ao máximo o trabalho de um operador que trabalha com recursos de informação distribuídos.

Além de construir um tesauro, baseado na imagem de busca de um documento, a abordagem proposta pode ser utilizada para abstração automática de documentos e agrupamento de texto.

A abstração de documentos é uma das tarefas que visa fornecer aos especialistas especializados informações confiáveis necessárias à tomada de decisões gerenciais sobre o valor dos documentos obtidos na Internet. Abstrair é o processo de transformação da informação documental, culminando na elaboração de um resumo, e resumo é uma apresentação semanticamente adequada do conteúdo principal do documento primário, caracterizada por desenho simbólico econômico, constância de características linguísticas e estruturais e destinada a realizar uma variedade de funções de informação e comunicação no sistema de comunicação científica. O algoritmo de abstração de documentos é apresentado na Fig. 4.

Arroz. 4. Algoritmo de abstração de documentos

Em geral, o algoritmo inclui as seguintes etapas principais.
1. As frases são extraídas de um documento baixado da Internet e localizadas no data warehouse destacando sinais de pontuação e armazenadas em uma matriz.
2. Cada frase é dividida em palavras selecionando separadores e os salvamos em um array, e o array é diferente para cada frase.
3. Para cada frase, para cada palavra desta frase, contamos o número de palavras nas outras frases (antes e depois). A soma das repetições de cada palavra (antes e depois) será o peso desta frase.
4. Um determinado número de frases com coeficiente de ponderação máximo é selecionado para o resumo na ordem de aparecimento no texto.

O modelo proposto para a construção de um tesauro e catálogos temáticos de um sistema de informação representa uma base teórica para a automatização da busca semântica e permite ao especialista não só realizar o trabalho de busca, mas também de forma automatizada, documentos abstratos obtidos a partir da busca em sistemas de informação distribuídos na Internet.

Literatura:
1. Barushkova R.I. Esquemas de classificação da informação científica e técnica. Livro didático mesada. - M., 1981. - 80 p.
2. Barushkova R.I. Rubricator como esquema de classificação de informação científica e técnica. Conjunto de ferramentas. - M., 1980. - 38 p.
3. Trusov A.V., Babarykin E.P. Estimativa dos limites do domínio de uma solicitação de informação temática em sistemas de informação distribuídos. Materiais da conferência toda russa (com participação internacional) “Informação, inovação, investimento”, 24 a 25 de novembro de 2004, Perm / Perm CSTI. - Perm, 2004. - P.76-79.
4. Yatsko V.A. Problemas lógico-linguísticos de análise e síntese de texto científico. - Abakan: Editora do Estado de Khakass. Universidade, 1996. - 128 p.