Untuk apa tesaurus digunakan? Arti kata tesaurus

N.V. Lukashevich

B.V.Dobrov

Pusat Komputasi Penelitian Universitas Negeri Moskow. MV Lomonosov;

Pusat Penelitian Informasi ANO

Kata kunci: tesaurus, pengambilan informasi, pemrosesan teks otomatis,

Sebagian besar teknologi yang bekerja dengan kumpulan teks dalam jumlah besar didasarkan pada metode statistik dan probabilistik. Hal ini disebabkan sumber daya leksikal yang dapat digunakan untuk mengolah kumpulan teks dengan metode linguistik harus memiliki volume puluhan ribu entri kamus dan memiliki sejumlah sifat penting yang harus dipantau secara khusus saat mengembangkan sumber daya. Dalam laporan tersebut, kami memeriksa prinsip-prinsip dasar pengembangan sumber daya leksikal untuk pemrosesan otomatis kumpulan teks besar menggunakan contoh tesaurus bahasa Rusia untuk pemrosesan teks komputer RuTez, dibuat pada tahun 1997, yang saat ini merupakan jaringan hierarki lebih dari 42 ribu konsep . Kami menggambarkan keadaan tesaurus saat ini berdasarkan perbandingan komposisi leksikal dan korpus teks Sistem Informasi Universitas RUSIA (www.cir.ru) - 400 ribu dokumen. Contoh penggunaan tesaurus dalam berbagai aplikasi pengolah kata otomatis dibahas.

Perkenalan

Saat ini, jutaan dokumen telah tersedia dalam bentuk elektronik, ribuan sistem informasi dan perpustakaan elektronik telah dibuat. Pada saat yang sama, sistem informasi yang menggunakan sumber daya leksikal dan terminologis untuk pencarian dihitung dalam sepersekian persen. Hal ini disebabkan oleh tantangan serius dalam menciptakan sumber daya linguistik untuk pemrosesan otomatis koleksi dokumen elektronik modern.

Pertama, koleksi ini biasanya sangat besar; sumber dayanya harus mencakup deskripsi ribuan kata dan istilah. Kedua, koleksi adalah sekumpulan dokumen dengan struktur berbeda dengan struktur sintaksis berbeda, sehingga menyulitkan pemrosesan kalimat teks secara otomatis. Selain itu, informasi penting sering kali didistribusikan di antara kalimat-kalimat teks yang berbeda.

Semua ini menimbulkan pertanyaan tentang apa yang seharusnya menjadi sumber daya linguistik, yang, di satu sisi, akan berguna untuk pemrosesan otomatis dan pencarian dalam koleksi elektronik, di sisi lain, dapat dibuat dalam waktu yang dapat diperkirakan dan dipelihara dengan biaya yang relatif sedikit. upaya.

Pada artikel ini kita akan melihat prinsip dasar pengembangan sumber daya leksikal untuk pemrosesan otomatis kumpulan teks besar. Prinsip-prinsip ini akan diperiksa dengan menggunakan contoh tesaurus bahasa Rusia yang dibuat oleh Pusat Penelitian Informasi ANO sejak 1997 untuk pemrosesan teks komputer RuTez. RuTez saat ini merupakan jaringan hierarki yang terdiri lebih dari 42 ribu konsep, yang mencakup lebih dari 95 ribu kata, ekspresi, dan istilah Rusia. Kami akan menjelaskan keadaan tesaurus saat ini berdasarkan perbandingan komposisi leksikal dan kosakata korpus teks Sistem Informasi Universitas RUSIA, yang didukung oleh Pusat Komputasi Penelitian Universitas Negeri Moskow. MV Lomonosov dan ANO TSII. UIS RUSSIA (www.cir.ru) berisi 400 ribu dokumen tentang topik sosial-politik (sekitar 3 GB teks, 200 juta kata). Artikel ini juga akan membahas contoh penggunaan tesaurus pada berbagai aplikasi pengolah kata otomatis.

Prinsip pengembangan sumber daya linguistik

untuk tugas pencarian informasi

Untuk memastikan pemrosesan otomatis dokumen elektronik yang efektif (pengindeksan otomatis, kategorisasi, perbandingan dokumen), perlu dibuat dasar untuk perbandingannya - daftar apa yang disebutkan dalam dokumen. Agar indeks seperti itu lebih efektif daripada indeks kata demi kata, keragaman leksikal teks perlu diatasi: sinonim, polisemi, jenis kata, stilistika, dan mereduksinya menjadi invarian - sebuah konsep yang menjadi dasar untuk membandingkan teks yang berbeda. Dengan demikian, konsep harus menjadi dasar sumber linguistik, dan ekspresi linguistik: kata, istilah - hanya menjadi masukan teks yang menginisialisasi konsep terkait.

Untuk dapat membandingkan konsep-konsep yang berbeda tetapi serupa, harus dibangun hubungan di antara keduanya. Secara tradisional, sumber daya linguistik untuk pemrosesan otomatis teks dalam bahasa alami menggunakan rangkaian hubungan semantik tertentu, seperti bagian, sumber, alasan dan seterusnya. Namun, ketika bekerja dengan kumpulan teks yang besar dan heterogen, kita harus memahami bahwa dengan kondisi teknologi pengolah kata saat ini, sistem komputer tidak akan dapat secara andal mendeteksi hubungan ini dalam teks untuk melakukan prosedur yang telah kita kaitkan. hubungan ini atau hubungan lainnya. Oleh karena itu, hubungan antar konsep pertama-tama harus menggambarkan sifat-sifat invarian tertentu yang tidak bergantung atau lemah bergantung pada topik teks spesifik di mana konsep tersebut disebutkan.

Fungsi utama dari hubungan ini adalah untuk menjawab pertanyaan berikut:

jika diketahui teks tersebut dikhususkan untuk membahas C1, dan C2 ada kaitannya

sikapRdengan C1, dapatkah kita mengatakan itu topik teksnya(*)

berhubungan dengan C2?

Saat membuat sumber linguistik untuk pemrosesan otomatis, penting untuk menentukan properti konsep C1 dan C2 mana yang memungkinkan kita membangun hubungan (*) yang benar di antara keduanya.

Jadi, misalnya, teks apa pun yang ditulis pohon birch, kami selalu dapat mengatakan bahwa lirik ini tentang pohon. Namun terlepas dari popularitas dan seringnya diskusi tentang hubungan tersebut pohon sebagai bagian hutan, sangat sedikit teks tentang pepohonan yang merupakan teks tentang hutan. Perhatikan bahwa masalahnya tidak terkait dengan nama relasi. Jadi pembukaan lahan adalah bagian dari hutan, dan teks tentang pembukaan lahan adalah teks tentang hutan.

Invariansi relasi relatif terhadap spektrum kemungkinan topik teks dalam suatu bidang studi sangat ditentukan oleh sifat-sifat yang lebih dalam daripada yang dicerminkan oleh nama-nama relasi, yaitu sifat kuantifier dan eksistensialnya. Jadi, sifat kuantifier dari relasi menggambarkan apakah semua contoh konsep memiliki relasi tertentu, apakah relasi ini bertahan sepanjang siklus hidup contoh. Masalah dengan menggunakan relasi pohon – hutan Hal ini disebabkan karena tidak semua pohon tertentu berada di dalam hutan, namun penebangannya tidak bisa dilakukan di luar hutan.

Contoh uraian sifat-sifat eksistensial relasi - apakah mengikuti keberadaan konsep C1 keberadaan konsep C2 (misalnya keberadaan konsep GARASI memerlukan adanya suatu konsep MOBIL) atau keberadaan contoh C1 bergantung pada keberadaan contoh C2 (sangat spesifik BANJIR tidak dapat dipisahkan dari contoh spesifik SUNGAI). Pembahasan dalam teks konsep dependen C2, khususnya dependen pada contoh, menunjukkan bahwa teks tersebut juga berkaitan dengan konsep utama C1.

Mari kita pertimbangkan hubungan antar konsep HUTAN dan POHON secara detail. Faktanya, bagian dari konsep HUTAN adalah POHON DI HUTAN, selagi ada POHON BERDIRI BEBAS,POHON DI TAMAN dll. Bagaimanapun, hubungan subordinasi konsep perlu diputus POHON konsep HUTAN.

Di sisi lain, HUTAN adalah suatu spesies KOLEKSI POHON, tidak ada tanpa pohon (serta KEBUN). Jadi, konsepnya HUTAN harus berhubungan dengan konsep tersebut POHON. Dimulai dengan analisis kebutuhan masalah aplikasi tertentu, kami sampai pada kesimpulan bahwa penting untuk menggambarkan sifat-sifat mendalam dari hubungan yang sebelumnya sangat sedikit tercermin dalam sumber daya linguistik, tetapi sangat penting untuk tugas-tugas pemrosesan otomatis. koleksi teks yang besar, dan, mungkin, untuk banyak tugas lainnya.

Sekarang kita memodelkan deskripsi sifat kuantifier dan eksistensial konsep dengan serangkaian relasi tesaurus tradisional DI ATAS-BAWAH (66% dari seluruh relasi), BAGIAN- KESELURUHAN (30% dari relasi), ASOSIASI (4%), dalam kombinasi dengan a kumpulan pengubah tambahan tertentu (20% relasi ditandai ). Perhatikan bahwa hubungan PART-Whole dan ASSOCIATION diinterpretasikan dengan mempertimbangkan aturan (*). Secara total, sekitar 160 ribu hubungan langsung antar konsep dijelaskan, yang, dengan mempertimbangkan transitivitas hubungan, memberikan jumlah total koneksi berbeda lebih dari 1350 ribu koneksi, yaitu rata-rata, setiap konsep terhubung dengan 30 konsep lainnya. .

Tesaurus RuTez: struktur umum

Tesaurus RuTez adalah jaringan konsep hierarkis yang sesuai dengan makna kata individual, ekspresi teks, atau rangkaian sinonim. Dengan demikian, unsur utama tesaurus adalah konsep, ekspresi linguistik, hubungan antara ekspresi linguistik dan konsep, dan hubungan antar konsep.

Tesaurus menggabungkan ke dalam satu sistem baik pengetahuan linguistik - deskripsi leksem, idiom dan hubungannya, yang secara tradisional terkait dengan pengetahuan leksikal, semantik, dan pengetahuan tentang istilah dan hubungan dalam bidang studi, yang secara tradisional terkait dengan bidang aktivitas para terminolog, dijelaskan dalam tesauri pengambilan informasi. Sebagai subbidang mata pelajaran tersebut, tesaurus menggambarkan bidang studi seperti ekonomi, perundang-undangan, keuangan, hubungan internasional, yang sangat penting bagi kehidupan manusia sehari-hari sehingga memiliki representasi leksikal yang signifikan dalam kamus penjelasan tradisional. Di dalamnya, leksikal dan terminologis saling berhubungan erat dan berinteraksi kuat satu sama lain.

Ekspresi linguistik adalah leksem individual (kata benda, kata sifat, dan kata kerja), kelompok nominal dan verbal. Dengan demikian, tesaurus saat ini tidak memasukkan kata keterangan dan kata fungsi sebagai ekspresi linguistik. Kelompok multikata dapat mencakup istilah, idiom, fungsi leksikal ( pengaruh e).

Untuk setiap ekspresi linguistik dijelaskan sebagai berikut:

Poliseminya adalah keterkaitan dengan satu atau lebih konsep, artinya ekspresi linguistik tertentu dapat berfungsi sebagai ekspresi tekstual dari konsep tersebut. Mengaitkan suatu ekspresi linguistik dengan konsep-konsep yang berbeda juga merupakan indikasi tersirat akan poliseminya;

Komposisi morfologisnya (bagian dari pidato, jumlah, kasus);

Fitur penulisan (misalnya dengan huruf kapital), dll.

Setiap konsep tesaurus memiliki nama unik, daftar ekspresi linguistik yang dapat digunakan untuk mengekspresikan konsep tersebut dalam teks, dan daftar hubungannya dengan konsep lain.

Salah satu ekspresi teksnya yang tidak ambigu biasanya dipilih sebagai nama unik untuk sebuah konsep. Tetapi nama suatu konsep juga dapat dibentuk oleh sepasang ekspresi tekstualnya yang ambigu - sinonim, ditulis dipisahkan dengan koma dan didefinisikan secara jelas (misalnya, konsep TEBAL). Ungkapan teks yang ambigu atas nama suatu konsep juga dapat diberi tanda atau penggalan penafsiran yang dipersingkat, misalnya konsep CROWD ( KELOMPOK ORANG ).

Contoh entri kamus

Kami memilih entri kamus untuk konsep tersebut sebagai contoh HUTAN, sesuai dengan salah satu arti kata tersebut hutan. Entri kamus ini menarik karena mencakup berbagai jenis pengetahuan, yang secara tradisional diklasifikasikan menjadi pengetahuan leksikal (semantik) dan pengetahuan ensiklopedis (pengetahuan tentang bidang studi, terminologi).

Sinonim untuk konsep tersebut HUTAN(jumlahnya 13):

hutan(M), kawasan hutan, lingkungan hutan,

hutan, kawasan hutan, lanskap hutan,

kawasan hutan, daerah berhutan, kawasan berhutan,

kawasan hutan, hutan kecil,

susunan hutan.

Di bawah konsep dengan sinonim:

HUTAN(hutan);

TAMAN HUTAN(taman kota, area hijau,

kawasan hijau, taman hutan,

pengelolaan hutan, taman hutan

ikat pinggang, parkir(M), area taman);

KEHUTANAN;

HUTAN DAUN(hutan berdaun lunak, berdaun keras

hutan);

BELUKAR(hutan ek);

HUTAN KONIFEROUS (hutan jenis konifera, hutan jenis konifera gelap)

Konsep-bagian dengan sinonim:

ANGIN(rejeki nomplok, rejeki nomplok);

PEMOTONGAN(area pemotongan);

BUDAYA HUTAN(spesies hutan, kehutanan

budaya);

LAHAN HUTAN (lahan hutan; lahan tertutup

hutan; kawasan hutan, kawasan hutan;

tanah berhutan, berhutan

daerah);

PERKEBUNAN HUTAN(hutan tanaman, hutan tanaman,

penghijauan);

TEPI HUTAN(tepi, tepi);

BUNGA BAWAH(semak belukar);

PROSEKA;

KAYU KERING(kayu mati).

Di sini simbol (M) mencerminkan catatan tentang ambiguitas masukan teks.

Konsep HUTAN Ia juga memiliki hubungan lain, yang disebut hubungan ketergantungan (dalam versi modern disebut ASC 2 - asosiasi asimetris): KEBAKARAN HUTAN(kebakaran hutan, kebakaran di hutan; PEMANFAATAN HUTAN (pemanfaatan hutan, pemanfaatan kawasan dana hutan); KEHUTANAN; ILMU HUTAN (ilmu kehutanan). Sebagaimana telah dikemukakan pada paragraf 2, konsep HUTAN bergantung pada konsep POHON, yang dalam tesaurus dilambangkan dengan relasi ASC 1.

Konsep keseluruhan HUTAN terhubung langsung dengan 28 konsep lainnya, dengan mempertimbangkan transitivitas hubungan - dengan 235 konsep (total lebih dari 650 input teks).

Penilaian keadaan saat ini

Tesaurus bahasa Rusia RuTez

5.1. Komposisi leksikal

Saat ini, jaringan tesaurus mencakup lebih dari 95 ribu ekspresi linguistik, 61 ribu di antaranya merupakan satu kata.

Volume pekerjaan ini memaksa kami untuk memutuskan kata-kata dan ekspresi linguistik apa yang perlu dimasukkan dalam deskripsi Tesaurus. Keinginan alaminya adalah untuk melihat bagaimana kata-kata yang paling sering digunakan dalam bahasa Rusia ditampilkan dalam tesaurus. Untuk tujuan ini, kumpulan teks Sistem Informasi Universitas RUSIA (400 ribu dokumen) digunakan. Koleksinya berisi dokumen resmi dari berbagai badan Federasi Rusia (55 ribu dokumen sejak 1992), serta materi pers sejak 1999 (surat kabar Izvestia, Nezavisimaya Gazeta, Komsomolskaya Pravda, Argumenty i Fakty, majalah Expert, dan lain-lain), materi dari ilmiah jurnal (“Buletin Universitas Moskow”, “Jurnal Sosiologi”). Perbandingan dilakukan antara daftar lemma yang dimasukkan dalam Tesaurus dan daftar 100.000 lemma yang paling sering ditemukan dalam kumpulan teks (frekuensi lebih dari 25).

Penandaan poleksem pada daftar tersebut menunjukkan bahwa di antara seratus ribu lemma tersebut, 35 ribu di antaranya dijelaskan dalam RuTez, hanya sekitar 7 ribu leksem yang layak dimasukkan dalam Tesaurus, selebihnya merupakan varian lemmatik dari berbagai nama diri. Oleh karena itu, pengisian ulang tidak lagi menjadi tugas prioritas dan dilakukan secara bertahap, dimulai dengan kata-kata yang paling sering diucapkan. Diasumsikan bahwa segera setelah sebagian besar daftar ini habis, perbandingan lain akan dilakukan dengan susunan teks sistem informasi, leksem baru dengan frekuensi lebih dari 25 akan dipilih.Selanjutnya, ambang batas penayangan seharusnya diturunkan . Kehadiran sejumlah besar contoh teks dalam kumpulan teks memungkinkan Anda merespons “inovasi leksikal” dengan cepat (misalnya, instalasi,blockbuster, cantik monde, cerita menegangkan) dan memasukkannya ke tempat yang sesuai dalam sistem hierarki Tesaurus.

Pekerjaan terus-menerus dengan koleksi teks terkini memberikan peluang unik untuk memeriksa signifikansi dan kualitas deskripsi leksikal yang diusulkan dalam kamus. Misalnya, frekuensi penggunaan kata yang luar biasa tinggi Ibu Lihat(lebih dari 400 kali). Pengecekan array menunjukkan bahwa kata tersebut memang sering digunakan sebagai sinonim dari kata tersebut Moskow, sedangkan kamus penjelasan sering kali menandai kata ini sebagai kata usang. Contoh lain dari kata yang sering digunakan (lebih dari 300 kali) yang ditandai sebagai usang dalam kamus adalah kata bahagia.

5.2 Deskripsi arti kata

Perbandingan dengan kumpulan teks menunjukkan bahwa banyak kata frekuensi dalam larik terwakili dengan baik dalam Tesaurus setidaknya dalam salah satu maknanya (biasanya dasar). Mencari tahu sejauh mana spektrum makna kata polisemantik dalam bahasa Rusia yang terwakili dalam Tesaurus adalah tugas utama kita saat ini.

Seperti diketahui, seringkali sumber kamus yang berbeda memberikan arti yang berbeda untuk kata polisemi, menonjolkan corak makna, dan jenis polisemi yang sama dapat dijelaskan secara berbeda untuk kata yang berbeda bahkan dalam kamus yang sama. Oleh karena itu, tugas mendeskripsikan makna leksem secara konsisten dan representatif merupakan tugas penting bagi pencipta sumber kosa kata apa pun.

Namun, jika sumber daya dimaksudkan untuk pemrosesan otomatis, maka tugas deskripsi nilai yang seimbang menjadi jauh lebih penting. Inflasi nilai yang berlebihan dapat mengakibatkan ketidakmampuan sistem komputer untuk memilih nilai yang diinginkan, yang pada akhirnya mengakibatkan penurunan kinerja sistem pengolah kata otomatis secara signifikan. Jadi, salah satu kelemahan sumber daya WordNet sebagai sumber pengolah kata otomatis adalah banyaknya makna yang dijelaskan untuk beberapa kata (dalam WordNet 1.6: 53 arti untuk berlari, 47 untuk bermain dan seterusnya.). Makna-makna ini sulit dibedakan bahkan bagi manusia ketika membuat anotasi teks secara semantik. Jelas bahwa sistem komputer juga tidak dapat mengatasi pemilihan nilai yang sesuai. Oleh karena itu, penulis yang berbeda mengusulkan cara berbeda untuk menggabungkan nilai guna meningkatkan kualitas pemrosesan.

Pada saat yang sama, faktor sebaliknya beroperasi: jika maknanya benar-benar berbeda dalam kumpulan koneksi kamusnya (dalam kasus kami, koneksi tesaurus) - makna tersebut tidak dapat direkatkan menjadi satu kesatuan (satu konsep) - ini juga akan menyebabkan kemunduran dalam kualitas pemrosesan otomatis.

Mari kita ambil contoh kata-katanya sekolah Dan gereja, yang masing-masing dapat dianggap sebagai sebuah organisasi dan sebagai sebuah bangunan.

Setiap organisasi sekolah memiliki gedung (paling sering satu). Seluruh bagian gedung sekolah (ruang kelas, papan tulis) saling berhubungan sekolah bagaimana sebuah organisasi. Tidak ada tipe bangunan sekolah tertentu. Oleh karena itu uraiannya sekolah Sebagai sebuah bangunan, tidak tepat jika memisahkannya menjadi sebuah konsep tersendiri. Namun demikian gambaran konsep kolektif tersebut SEKOLAH sebagai suatu organisasi dan sebagai suatu bangunan harus mempunyai hubungan yang dirancang khusus dengan konsepnya BANGUNAN. Saat menggambarkan hubungan seperti itu dalam Tesaurus, tanda pada hubungan tersebut digunakan - pengubah "A" ("aspek"; selama analisis otomatis, "konfirmasi" oleh konsep lain diperlukan untuk mempertimbangkan hubungan ini).

SEKOLAH

LEBIH TINGGI LEMBAGA PENDIDIKAN

DI ATAS A BANGUNAN PUBLIK

Arti kata yang sesuai gereja tidak sedekat itu. Gereja Sebagai sebuah organisasi, ia dapat memiliki banyak gedung gereja di berbagai tempat, dan juga memiliki banyak gedung lainnya. Pembangunan gereja terkait erat dengan agama dan pengakuan, tetapi dapat mengubah afiliasi organisasi gereja. Organisasi Gereja Dan pembangunan gereja mempunyai subspesies yang berbeda. Itu sebabnya GEREJA (ORGANISASI) Dan GEREJA (BANGUNAN) disajikan di RuTez sebagai konsep yang berbeda.

Perbedaan yang signifikan dalam koneksi tesaurus berkorelasi secara menarik dengan kemampuan denotasi yang sesuai dengan makna untuk ada secara terpisah satu sama lain. Dengan demikian, gedung gereja tidak berhenti eksis bahkan disebut gereja meskipun penggunaannya berubah, berbeda dengan gedung sekolah.

Proses verifikasi representasi nilai dalam Tesaurus terus berlangsung, dimulai dari lemma yang paling sering muncul. Untuk setiap leksem frekuensi diperiksa bagaimana maknanya diuraikan dalam kamus penjelas, makna apa yang digunakan dalam kumpulan dan bagaimana penyajiannya dalam Tesaurus. Hasilnya, daftar 10.000 leksem kini telah terbentuk, yang ambiguitasnya masih memerlukan analisis tambahan atau deskripsi tambahan. Daftar tersebut diperoleh berdasarkan 30 ribu lemma yang paling sering muncul.

Perlu dicatat bahwa dalam Tesaurus, masalah polisemi dihilangkan sebagian karena fakta bahwa hubungan tesaurus antara arti kata yang berbeda dapat dijelaskan, dan oleh karena itu konsep tertinggi dalam hierarki dapat dipilih secara default. Itu pasti dibahas dalam teks. Misalnya saja kata foto mempunyai tiga arti: fotografi sebagai bidang kegiatan, fotografi sebagai gambar fotografi, fotografi sebagai studio foto:

FOTOGRAFI(memotret, bisnis foto, ..., foto )

BAGIAN GAMBAR FOTOGRAFI

(foto, foto, foto )

BAGIAN STUDIO FOTO (foto ).

Jadi, tidak mungkin untuk mengetahui apa arti kata yang digunakan foto, defaultnya adalah berasumsi bahwa foto telah diambil (dari suatu proses, hasil, atau lokasi), yang cukup untuk banyak aplikasi pemrosesan teks otomatis.

Penerapan tesaurus RuTez

untuk pemrosesan teks otomatis

Sejak tahun 1995, terminologi sosio-politik RuTez (tesaurus sosio-politik) telah aktif dan berhasil digunakan untuk berbagai aplikasi pemrosesan teks otomatis, seperti pengindeksan konseptual otomatis, rubrikasi otomatis menggunakan beberapa rubrikator, anotasi otomatis pada teks, termasuk teks berbahasa Inggris. yang. Tesaurus sosial-politik (27 ribu konsep, 62 ribu entri teks) adalah alat pencarian dasar dalam sistem pencarian UIS RUSIA (www.cir.ru).

Semua kosakata tesaurus RuTez digunakan dalam prosedur untuk mengkategorikan teks secara otomatis menggunakan rubrikator hierarki yang kompleks. Dalam teknologi yang ada, setiap kategori digambarkan sebagai ekspresi istilah Boolean, setelah itu rumus aslinya diperluas sepanjang hierarki tesaurus. Ekspresi Boolean yang dihasilkan mungkin sudah mencakup ratusan dan ribuan konjungsi dan disjungsi.

Mari kita berikan, sebagai contoh, penggalan deskripsi menggunakan konsep tesaurus (dan ekspresi linguistik setelah memperluas rumus) dari rubrik “Citra Seorang Wanita” dari rubrikator SOFIST 2, yang digunakan oleh VTsIOM untuk mengklasifikasikan kuesioner jajak pendapat publik:

(WANITA[N]

|| GADIS[N]

|| RELATIF [L] (nenek, cucu, sepupu,

anak perempuan, saudara ipar perempuan, ibu, ibu tiri, menantu perempuan, anak tiri perempuan, ...))

( SIFAT KARAKTER[L] (hemat, tidak berperasaan, pelupa,

sembrono, mengejek, tidak toleran, mudah bergaul, ...)

|| GAMBAR [E] (presentasi, penampilan, penampilan,

penampilan, penampilan, gambar, penampilan)

|| MENYENANGKAN [L] (..., menarik, cantik, imut,

menarik, imut, menarik, ...)

|| TIDAK MENYENANGKAN[L] (tidak simpatik, kasar, jahat, ...)

|| MENGHARGAI[L] (untuk menghormati, memuja, memuja,

memuja, memuja, ...)

|| PILIH[N]

Simbol "E" menunjukkan perluasan penuh sepanjang hierarki tesaurus, simbol "L" - menurut hubungan spesies ("DI BAWAH"), simbol "N" - tidak meluas.

Penelitian sedang dilakukan untuk mengembangkan teknologi gabungan untuk kategorisasi teks otomatis, menggabungkan pengetahuan tesaurus dan prosedur pembelajaran mesin.

Masalah penggunaan tesaurus untuk memperluas kueri yang dirumuskan dalam bahasa alami sedang dieksplorasi (saat ini, hanya bagian sosio-politik dari tesaurus yang digunakan untuk memperluas kueri terminologis dalam sistem pencarian informasi UIS RUSIA), dan mencari jawaban atas pertanyaan dalam kumpulan teks besar.

7. Kesimpulan

Makalah ini menyajikan prinsip-prinsip dasar pengembangan sumber daya linguistik untuk pemrosesan otomatis kumpulan teks berukuran besar. Sumber daya linguistik yang dibuat - Tesaurus bahasa Rusia RuTez - dimaksudkan untuk digunakan dalam aplikasi pemrosesan teks otomatis seperti pengindeksan konseptual dokumen, rubrikasi otomatis menurut rubrikator hierarki yang kompleks, perluasan otomatis kueri bahasa alami.

Pekerjaan ini sebagian didukung oleh hibah Yayasan Kemanusiaan Rusia No. 00-04-00272a.

literatur

Lukashevich N.V., Saliy A.D., Representasi pengetahuan dalam sistem pemrosesan teks otomatis //NTI, Ser.2. 1997. No.3.Hal.1‑6.
Zhuravlev S.V., Yudina T.N., Sistem informasi RUSIA //NTI, Ser.2. 1995. Nomor 3. Hal. 18‑20.
Winston M., Chaffin R., Herman D., Taksonomi Hubungan Bagian-Keseluruhan // Ilmu Kognitif. 1987. Tidak. 11.Hal.417‑444.
Priss U.E., Formalisasi WordNet dengan Metode Analisis Konsep Relasional // WordNet. Basis Data Leksikal Elektronik/Ed. oleh C.Fellbaum. Cambridge, Massachusetts, London, Inggris.: The MIT Press 1998. P. 179‑196.
Guarino N., Welty C., Ontologi Formal Properti // Prosiding Lokakarya ECAI-00 tentang Penerapan Ontologi dan Metode Pemecahan Masalah. Berlin: 2000.Hal.121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Beberapa Prinsip Ontologis untuk Merancang Sumber Daya Leksikal Tingkat Atas // First Int. Konf. tentang Sumber Daya dan Evaluasi Bahasa. 1998.

Lukashevich N.V., Dobrov B.V., Pengubah hubungan konseptual dalam tesaurus untuk pengindeksan otomatis // NTI, Ser.2. 2000, No.4, hal.21‑28.
Kamus Penjelasan Besar Bahasa Rusia / Ed. S.A. Kuznetsova. Sankt Peterburg: Norint, 1998.
Ozhegov S.I., Shvedova N.Yu., Kamus Penjelasan Bahasa Rusia - edisi ke-3. M.: Az, 1996.
Apresyan Yu.D., Karya terpilih, volume I. Semantik leksikal: edisi ke-2. M.: Sekolah “Bahasa Budaya Rusia”, Ed. Firma "Sastra Oriental" RAS, 1995.
G. Miller, R. Beckwith, C. Fellbaum, D. Gross dan K. Miller, Lima makalah di WordNet, Laporan CSL 43. Laboratorium Sains Kognitif, Universitas Princeton, 1990.
Chugur, J. Gonzalo dan F. Verdjeo, Merasakan perbedaan dalam aplikasi NLP // Prosiding “OntoLex-2000”: Ontologi dan Basis Pengetahuan Leksikal. Sofia: OntoTextLab. 2000.
Loukachevitch N., Dobrov B., Ringkasan Tematik Struktural Berbasis Tesaurus dalam Sistem Informasi Multibahasa // Tinjauan Terjemahan Mesin. 2000. Tidak. 11.Hal.10‑20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Tesaurus bahasa Rusia untuk pemrosesan bahasa alami

dari koleksi teks yang besar

Natalia V. Loukachevitch, Boris V. Dobrov

Kata kunci: tesaurus, pemrosesan bahasa alami, pengambilan informasi

Dalam presentasi kami, kami mempertimbangkan prinsip-prinsip utama pengembangan sumber daya leksikal untuk pemrosesan otomatis kumpulan teks besar dan menjelaskan struktur Tesaurus Bahasa Rusia, yang dikembangkan sejak 1997 khusus sebagai alat untuk pemrosesan teks otomatis. Sekarang Tesaurus adalah jaringan hierarki yang terdiri dari 42 ribu konsep. Kami menggambarkan tahap pengembangan Tesaurus saat ini dibandingkan dengan 100.000 lemma paling umum dari kumpulan teks Sistem Informasi Universitas RUSIA (www.cir.ru), termasuk 400 ribu dokumen. Kami juga mempertimbangkan penggunaan Tesaurus dalam berbagai aplikasi pemrosesan teks otomatis.

, antonim, paronim, hiponim, hipernim, dll.) antar unit leksikal. Tesauri adalah salah satu alat paling efektif untuk mendeskripsikan bidang studi individu.

Di masa lalu istilah tersebut kamus Sebagian besar kamus ditunjuk, mewakili kosakata bahasa dengan kelengkapan maksimal dengan contoh penggunaannya dalam teks.

Juga istilah kamus digunakan dalam teori informasi untuk menunjukkan totalitas semua informasi yang dimiliki oleh subjek.

Dalam psikologi, tesaurus individu dicirikan oleh persepsi dan pemahaman informasi. Teori komunikasi juga mempertimbangkan tesaurus umum dari suatu sistem kompleks yang melaluinya elemen-elemennya berinteraksi.

Cerita

Salah satu tesauri pertama disebut “Kamus Sinonim” oleh Philo dari Byblos. Korespondensi yang lebih tepat dengan istilah ini adalah Amara-kosha, yang ditulis dalam bahasa Sansekerta dalam bentuk puisi pada abad ke-6. Tesaurus bahasa Inggris modern pertama diciptakan oleh Peter Mark Roger pada tahun 1805. Itu diterbitkan pada tahun 1852 dan telah digunakan tanpa cetak ulang sejak saat itu.

Pada tahun 1970-an, tesauri mulai aktif digunakan untuk tugas pencarian informasi. Dalam tesauri seperti itu, kata-kata dipetakan ke deskriptor yang melaluinya hubungan semantik dibangun.

Tesaurus

Lihat juga

Tulis ulasan tentang artikel "Tesaurus"

Catatan

Kutipan yang mencirikan Tesaurus

- Betapa kerennya kamu hari ini! – Kata Nesvitsky sambil melihat mantel dan bantalan pelana barunya.
Denisov tersenyum, mengeluarkan saputangan dari tasnya, yang berbau parfum, dan menempelkannya di hidung Nesvitsky.
- Aku tidak bisa, aku akan bekerja! Aku keluar, menggosok gigi, dan memakai parfum.
Sosok Nesvitsky yang bermartabat, ditemani oleh seorang Cossack, dan tekad Denisov, yang mengayunkan pedangnya dan berteriak putus asa, memiliki efek sedemikian rupa sehingga mereka terjepit di sisi lain jembatan dan menghentikan infanteri. Nesvitsky menemukan seorang kolonel di pintu keluar, kepada siapa dia perlu menyampaikan perintah tersebut, dan, setelah memenuhi instruksinya, kembali.
Setelah membersihkan jalan, Denisov berhenti di pintu masuk jembatan. Dengan santai menahan kuda jantan yang berlari menuju miliknya dan menendang, dia melihat ke arah skuadron yang bergerak ke arahnya.
Suara tapak kaki yang transparan terdengar di sepanjang papan jembatan, seolah-olah beberapa kuda sedang berlari kencang, dan skuadron, dengan petugas di depan, empat berturut-turut, membentang di sepanjang jembatan dan mulai muncul di sisi lain.
Para prajurit infanteri yang berhenti, berkerumun di lumpur yang terinjak-injak di dekat jembatan, memandangi prajurit-prajurit berkuda yang bersih dan necis yang berbaris dengan tertib melewati mereka dengan perasaan keterasingan dan ejekan yang tidak bersahabat yang biasanya ditemui di berbagai cabang angkatan bersenjata.
- Orang pintar! Kalau saja di Podnovinskoe!
- Apa bagusnya mereka? Mereka hanya mengemudi untuk pertunjukan! - kata yang lain.
- Infanteri, jangan berdebu! - canda prajurit berkuda, di mana kuda itu, sambil bermain, memercikkan lumpur ke prajurit infanteri.
“Jika saya mengantarmu melewati dua perjalanan dengan ranselmu, talinya pasti sudah aus,” kata prajurit infanteri itu sambil menyeka kotoran dari wajahnya dengan lengan bajunya; - kalau tidak, itu bukan manusia, tapi seekor burung yang duduk!
“Kalau saja aku bisa menunggangimu, Zikin, jika kamu gesit,” kopral itu bercanda tentang prajurit kurus itu, yang membungkuk karena beban ranselnya.
“Ambil pentungan di antara kedua kakimu, dan kamu akan mendapat seekor kuda,” jawab prajurit berkuda itu.

Pasukan infanteri lainnya bergegas melintasi jembatan, membentuk corong di pintu masuk. Akhirnya, semua gerobak lewat, himpitan berkurang, dan batalion terakhir memasuki jembatan. Hanya prajurit berkuda dari skuadron Denisov yang tersisa di sisi lain jembatan melawan musuh. Musuh yang terlihat di kejauhan dari gunung seberang, dari bawah, dari jembatan, belum terlihat, karena dari cekungan tempat aliran sungai, cakrawala berakhir di ketinggian seberang tidak lebih dari setengah mil jauhnya. Di depan ada gurun, di sana-sini kelompok Cossack pengembara kami bergerak. Tiba-tiba, di seberang jalan, pasukan berkerudung biru dan artileri muncul. Ini adalah orang Prancis. Patroli Cossack berlari menuruni bukit. Semua perwira dan anggota skuadron Denisov, meskipun mereka mencoba berbicara tentang orang luar dan melihat-lihat, tidak berhenti hanya memikirkan apa yang ada di gunung itu, dan terus-menerus mengintip ke titik-titik di cakrawala, yang mereka kenali sebagai pasukan musuh. Cuaca kembali cerah di sore hari, matahari terbenam cerah di atas sungai Donau dan pegunungan gelap yang mengelilinginya. Suasana sepi, dan dari gunung itu sesekali terdengar suara klakson dan jeritan musuh. Tidak ada seorang pun antara skuadron dan musuh, kecuali patroli kecil. Sebuah ruang kosong, tiga ratus depa, memisahkan mereka darinya. Musuh berhenti menembak, dan yang lebih jelas terasa adalah garis tegas, mengancam, tidak dapat ditembus, dan sulit dipahami yang memisahkan kedua pasukan musuh.
“Satu langkah melampaui garis ini, mengingatkan pada garis yang memisahkan yang hidup dari yang mati, dan – penderitaan dan kematian yang tidak diketahui. Dan apa yang ada di sana? siapa disana? di sana, di balik ladang ini, dan pohon, dan atapnya diterangi matahari? Tidak ada yang tahu, dan saya ingin tahu; dan menakutkan untuk melewati batas ini, dan Anda ingin melewatinya; dan Anda tahu bahwa cepat atau lambat Anda harus melewatinya dan mencari tahu apa yang ada di balik garis itu, sama seperti mencari tahu apa yang ada di balik kematian adalah hal yang tidak bisa dihindari. Dan dia sendiri kuat, sehat, ceria dan jengkel, dan dikelilingi oleh orang-orang yang sehat dan bersemangat.” Jadi, meskipun dia tidak berpikir, setiap orang yang melihat musuh merasakannya, dan perasaan ini memberikan kesan yang bersinar dan tajam yang menggembirakan terhadap segala sesuatu yang terjadi di menit-menit ini.
Asap tembakan muncul di bukit musuh, dan peluru meriam, bersiul, terbang di atas kepala skuadron prajurit berkuda. Para petugas yang berdiri bersama pergi ke tempat mereka masing-masing. Para prajurit berkuda dengan hati-hati mulai meluruskan kudanya. Segala sesuatu di skuadron terdiam. Semua orang memandang ke depan ke arah musuh dan komandan skuadron, menunggu perintah. Bola meriam ketiga lainnya terbang lewat. Jelas sekali bahwa mereka menembaki prajurit berkuda; tetapi bola meriam itu, yang bersiul dengan cepat, terbang di atas kepala para prajurit berkuda dan menghantam suatu tempat di belakang. Para prajurit berkuda tidak menoleh ke belakang, tetapi pada setiap suara bola meriam yang terbang, seolah-olah atas perintah, seluruh skuadron dengan wajah yang bervariasi secara monoton, menahan napas saat bola meriam itu terbang, bangkit di sanggurdi dan jatuh lagi. Para prajurit, tanpa menoleh, saling melirik, dengan rasa ingin tahu mencari kesan dari rekan mereka. Di setiap wajah, mulai dari Denisov hingga pemain terompet, satu ciri umum pergulatan, iritasi, dan kegembiraan muncul di dekat bibir dan dagu. Sersan itu mengerutkan kening, memandang sekeliling ke arah para prajurit, seolah mengancam akan menerima hukuman. Junker Mironov membungkuk pada setiap operan bola meriam. Rostov, berdiri di sayap kiri dengan Grachik yang kakinya tersentuh tetapi terlihat, memiliki penampilan bahagia seperti seorang siswa yang dipanggil di hadapan banyak orang untuk ujian di mana dia yakin bahwa dia akan unggul. Dia memandang semua orang dengan jelas dan cerah, seolah meminta mereka memperhatikan betapa tenangnya dia berdiri di bawah bola meriam. Tapi di wajahnya juga, ciri yang sama dari sesuatu yang baru dan keras, di luar keinginannya, muncul di dekat mulutnya.
-Siapa yang membungkuk di sana? Yunkeg "Mig"on! Hexog, lihat aku! - Denisov berteriak, tidak bisa berdiri diam dan memutar kudanya di depan skuadron.
Wajah Vaska Denisov yang berhidung pesek dan berambut hitam serta seluruh sosoknya yang kecil dan dipukuli dengan tangannya yang berotot (dengan jari-jari pendek ditutupi rambut), di mana ia memegang gagang pedang yang terhunus, persis sama seperti biasanya, apalagi di malam hari, setelah minum dua botol. Dia hanya lebih merah dari biasanya dan, sambil mengangkat kepalanya yang berbulu lebat, seperti burung ketika mereka minum, tanpa ampun menekan taji ke sisi orang Badui yang baik hati dengan kakinya yang kecil, dia, seolah-olah jatuh ke belakang, berlari ke sisi lain dari orang tersebut. skuadron dan berteriak dengan suara serak untuk memeriksa pistolnya. Dia berkendara ke Kirsten. Kapten markas, dengan seekor kuda betina yang lebar dan tenang, melaju dengan kecepatan tinggi menuju Denisov. Kapten staf, dengan kumis panjang, serius, seperti biasa, hanya matanya yang lebih berbinar dari biasanya.
- Apa? - katanya kepada Denisov, - tidak akan terjadi perkelahian. Anda akan lihat, kami akan kembali.
“Siapa yang tahu apa yang mereka lakukan,” gerutu Denisov. “Ah! G” kerangka! - dia berteriak kepada kadet itu, memperhatikan wajahnya yang ceria. - Yah, aku menunggu.
Dan dia tersenyum menyetujui, tampaknya bersukacita pada kadet itu.
Rostov merasa sangat bahagia. Pada saat ini kepala suku muncul di jembatan. Denisov berlari ke arahnya.
- Yang Mulia! Biarkan saya menyerang! Saya akan membunuh mereka.
“Serangan macam apa yang ada di sana,” kata kepala suku dengan suara bosan, meringis seolah-olah terkena lalat yang mengganggu. - Dan kenapa kamu berdiri di sini? Soalnya, para flanker sedang mundur. Pimpin skuadron kembali.
Skuadron menyeberangi jembatan dan lolos dari tembakan tanpa kehilangan satu orang pun. Mengikuti dia, skuadron kedua, yang berada dalam rantai, menyeberang, dan Cossack terakhir membersihkan sisi itu.
Dua skuadron warga Pavlograd, setelah melintasi jembatan, satu demi satu, kembali ke gunung. Komandan resimen Karl Bogdanovich Schubert melaju ke skuadron Denisov dan melaju dengan kecepatan tidak jauh dari Rostov, tidak memperhatikannya, meskipun faktanya setelah bentrokan sebelumnya atas Telyanin, mereka sekarang bertemu untuk pertama kalinya. Rostov, yang merasa dirinya berada di depan dalam kekuatan seorang pria yang sebelumnya dia anggap bersalah, tidak mengalihkan pandangan dari punggung atletis, tengkuk pirang, dan leher merah komandan resimen. Bagi Rostov, tampaknya Bogdanich hanya berpura-pura lalai, dan seluruh tujuannya sekarang adalah untuk menguji keberanian kadet itu, dan dia berdiri tegak dan melihat sekeliling dengan riang; kemudian dia merasa Bogdanich sengaja mendekat untuk menunjukkan keberaniannya kepada Pertumbuhan. Kemudian dia berpikir bahwa musuhnya sekarang akan dengan sengaja mengirim satu skuadron untuk melakukan serangan putus asa untuk menghukumnya, Rostov. Diperkirakan bahwa setelah serangan itu dia akan mendatanginya dan dengan murah hati mengulurkan tangan rekonsiliasi kepadanya, orang yang terluka itu.

3.1. Konsep tesaurus

Tesaurus (dari bahasa Yunani θήσαϋροξ - harta karun, stok) atau kamus ideografik (dari bahasa Yunani idea - konsep, representasi, ide dan grapho - tulis, jelaskan) - dalam linguistik modern: 1) jenis kamus khusus kosakata umum atau khusus, yang berisi hubungan semantik antar unit leksikal; 2) kamus untuk mencari suatu kata berdasarkan hubungan semantiknya dengan kata lain; 3) cara tertentu dalam mengorganisasikan (menyusun) kata-kata dalam kamus; 4) cara mengatur komposisi leksikal, yang memungkinkan Anda “memodelkan dunia” secara ekonomis.

Dalam arti aslinya yang pertama - gudang, harta karun, istilah tesaurus digunakan oleh L.V. Shcherba dalam artikel “Pengalaman leksikografi umum” (oposisi ketiga: tesaurus - kamus biasa (penjelasan atau terjemahan). Ilmuwan menulis: “Ketika mereka mengatakan tesaurus, saat ini yang paling sering kita maksudkan adalah “Thesaurus linguae latinae”, sebuah usaha dari lima akademi Jerman, dimulai pada tahun 1900 dan sampai sekarang hanya dihilangkan pada huruf M. Ciri khas Kamus jenis ini terdiri dari fakta bahwa kata-kata tersebut memuat secara mutlak semua kata yang muncul dalam bahasa tertentu setidaknya satu kali, dan bahwa di bawah setiap kata secara mutlak semua kutipan dari teks yang tersedia dalam bahasa tertentu diberikan. Dasar dari pertentangan di atas - tesaurus - kamus biasa (penjelasan atau terjemahan) - adalah pertentangan antara "materi linguistik" dan "sistem linguistik" - konsep yang saya coba buktikan dalam artikel saya “Tentang tiga aspek fenomena linguistik dan tentang eksperimen dalam linguistik.”

Arti kedua dari istilah ini dikaitkan dengan kamus-tesaurus yang dikenal luas “Thesaurus Kata dan Ekspresi Bahasa Inggris” oleh P.M. Roger (Roget's Thesaurus of English Words and Phrases, 1852) dan kelanjutannya, kamus O.V. Baranov.

Dalam penafsiran ini, istilah tesaurus menunjukkan cara tertentu dalam mengatur dan menyusun komposisi leksikal dalam kamus (lihat arti ketiga dari istilah tersebut).

Arti keempat dari istilah tesaurus dikaitkan dengan pengakuan universal atas metode pengorganisasian komposisi leksikal ini, yang memungkinkan seseorang untuk “memodelkan dunia” secara ekonomi. Dari sudut pandang ini, kamus tesaurus adalah “pengurutan sistematis kosakata dari bidang ilmiah atau teknis apa pun, dan dalam bentuk paling umum - kosakata sastra umum, dan terlebih lagi, seluruh kosakata bahasa tertentu.”

Menurut Yu.N. Karaulova, tesaurus bahasa umum, yang menetapkan dalam struktur dan hubungan judul, bagian, zona, area kemungkinan luas hubungan ide-ide non-verbal, memastikan pertimbangan nilai-nilai kemanusiaan.

SEBUAH. Baranov dan D.O. Dobrovolsky dalam kata pengantar "Dari editor" hingga "Kamus-tesaurus idiom Rusia modern" memberikan definisi berikut pada tesaurus - jenis kamus khusus yang berbeda dari kamus lain (khususnya, penjelasan, bilingual, dll.) dalam caranya pengorganisasian materi linguistik. Dalam tesaurus, satuan bahasa tidak disajikan menurut abjad seperti pada kamus biasa, tetapi dikelompokkan berdasarkan maknanya.

LP Krysin menyebut tesaurus (kamus ideografis) sebagai jenis kamus penjelasan khusus, kamus “sebaliknya”. “Jika dalam kamus penjelas, tulis ilmuwan, “entri” pada entri kamus adalah sebuah kata, dan isi entri kamus tersebut adalah penafsiran arti kata tersebut, maka dalam kamus ideografik “entri” tersebut adalah makna, gagasan (maka nama kamus jenis ini - ideografis), dan isi entri kamus adalah daftar kata yang mengungkapkan makna tertentu. Dan jika kamus penjelasan merupakan alat yang sangat diperlukan untuk memahami teks, maka kamus ideografik dapat digunakan dalam menghasilkan teks: sering kali seseorang ingin mengungkapkan pemikiran tertentu, tetapi tidak dapat menemukan kata yang cocok untuk ini; kamus ideografis memfasilitasi pencarian ini. Ada dua jenis tesauri utama:

tesaurus linguistik - kamus yang berisi daftar kata-kata bahasa alami yang dipilih sebagai hasil analisis teks yang bermakna dan disistematisasikan sesuai dengan sistem klasifikasi yang diterima;

tesaurus statistik - kamus pencarian informasi yang berisi daftar kata yang dipilih sebagai hasil analisis statistik teks tentang topik tertentu dan dikelompokkan ke dalam entri kamus berdasarkan frekuensi kemunculan kata-kata tersebut dalam teks yang sama.

Tesauri temu kembali informasi (IRT) memudahkan pencarian informasi selama pemrosesan otomatisnya. IPT mengungkap secara maksimal hubungan semantik antar unit leksikal. Sebagaimana dinyatakan dalam GOST tentang IPT, “tesaurus pengambilan informasi monolingual adalah kamus unit leksikal yang terkontrol dan berubah, berdasarkan kosakata satu bahasa alami, menampilkan hubungan semantik antara unit leksikal dan dimaksudkan untuk memproses dan mengambil informasi.”

Unit dasar IPT adalah istilah deskriptif. Bagian alfabetis, leksikal-semantik dari IPT adalah sekumpulan artikel deskriptor.

Kamus deskriptif dimaksudkan untuk mendeskripsikan secara lengkap kosakata suatu bidang tertentu dan mencatat semua kegunaannya; mereka mencatat semua kasus relevan yang tersedia. Contoh khas kamus deskriptif adalah “Kamus Penjelasan Bahasa Rusia Hebat yang Hidup” oleh V.I. Dahl (edisi pertama dalam empat jilid diterbitkan pada tahun 1863-1866). Tujuan penciptanya bukanlah untuk membakukan bahasanya, tetapi untuk mendeskripsikan sepenuhnya seluruh keragaman bahasa Rusia Raya - termasuk bentuk dialek bahasa daerahnya.

Setiap entri kamus deskriptor dimulai dengan deskriptor, di mana sinonim dari deskriptor ini, serta unit leksikal lainnya yang terkait dengan deskriptor utama berdasarkan genus-spesies atau hubungan asosiatif, diberikan di bawah ini dalam artikel Gost.

Dengan demikian, tesauri, khususnya dalam format elektronik, adalah salah satu alat yang paling efektif untuk menggambarkan bidang studi individu.

Tesaurus jarang ditemukan dalam bentuk murni. Dalam tesauri nyata, ide asli disederhanakan atau tidak relevan, tetapi informasi yang mungkin diperlukan ditambahkan ke pengguna. Yang paling terkenal saat ini adalah “Kamus Semantik Rusia” oleh Yu.N. Karaulova, “Kamus nama identik” N.Yu. Shvedova, “Kamus Tematik Bahasa Rusia” oleh L.G. Smekhova dan lainnya.

Ringkasan. Istilah tesaurus L.V. Shcherba menggunakannya dalam kaitannya dengan kamus, yang mencatat, jika mungkin, semua konteks di mana kata tertentu muncul. Ciri khas tesaurus adalah bahwa tesaurus mencantumkan semua kata yang muncul dalam bahasa tertentu setidaknya satu kali, dan di bawah setiap kata diberikan semua kutipan dari teks yang tersedia dalam bahasa tersebut. Isi kamus tesaurus adalah materi bahasa, dan kamus biasa adalah materi bahasa dan sistem bahasa (istilah L.V. Shcherba).

Karakteristik ini dilengkapi dengan berbagai jenis hubungan silang - seringkali paradigmatik (sinonim atau antonim), yang menunjukkan kesamaan atau pertentangan makna. Selain itu, berbagai macam perkumpulan. koneksi (yaitu koneksi sintagma).

Dengan demikian, tugas tesaurus (kamus ideografis) adalah memberikan gambaran tentang organisasi semantik dari suatu bagian materi linguistik tertentu, menunjukkan bidang semantik utama, struktur internalnya, dan hubungan eksternalnya. Tesaurus adalah demonstrasi yang jelas tentang sifat sistemik suatu bahasa, yang memungkinkan seseorang melihat banyak jenis hubungan yang menghubungkan unit-unit linguistik individu dan kelompok unit-unit tersebut.

3.2. Sejarah merepresentasikan pengetahuan konseptual tentang dunia dalam bentuk tesaurus

Kebutuhan untuk menyusun kata-kata menurut kesamaan, kedekatan, dan analogi maknanya telah dirasakan sepanjang sejarah pemikiran manusia.

Untuk menelusuri asal muasal gagasan merepresentasikan pengetahuan konseptual tentang dunia dalam bentuk tesaurus, kita akan terbantu dengan beralih ke sejarah penyusunan tesauri (kamus ideografis).

Jadi, pada awal peradaban, ketika orang dapat mengungkapkan pemikiran mereka secara tertulis hanya dengan bantuan ideogram dan simbol, satu-satunya kamus yang mungkin mungkin adalah kamus yang menyusun kata-kata menjadi kelompok tematik. Sulit bagi seorang leksikografer pada masa itu untuk menemukan kriteria lain untuk mengklasifikasikan kata selain hubungan yang ada dalam realitas itu sendiri.

Sayangnya, kita tidak mempunyai bukti apakah orang-orang yang menggunakan tulisan ideografis benar-benar mempunyai kamus semacam itu. Di antara upaya paling kuno dalam klasifikasi ideografik yang kita kenal adalah Attikai Lexeis dari ahli tata bahasa Yunani, direktur Perpustakaan Aleksandria, Aristophanes dari Byzantium (meninggal 180 SM).

Pada abad II. N. e. karya besar "Onomasticon" muncul, disusun berdasarkan bahan dari bahasa Yunani oleh ahli leksikograf dan sofis Julius Pollux (nama asli Polydeuces), penduduk asli kota Naucratis di Mesir. Yu Pollux menulis beberapa karya, tetapi hanya “Onomasticon” yang sampai kepada kita (Pollux Yu. Onomasticon. M., 1956).

Onomasticon terdiri dari 10 buku. Buku pada dasarnya adalah risalah yang terpisah dan berisi kata-kata terpenting yang berkaitan dengan topik tertentu. Jadi, buku pertama berbicara tentang dewa dan raja; yang kedua - tentang manusia, kehidupan mereka dan struktur fisiologis; yang ketiga - tentang kekerabatan dan hubungan sipil, dll. Kata-kata yang termasuk dalam kamus disertai dengan interpretasi singkat. Di zaman modern, kamus ini pertama kali diterbitkan pada tahun 1502 di Venesia.

Antara abad ke-2 dan ke-3. N. e. Kamus Sansekerta yang luar biasa “Amarakosha” (Amarakosha. Paris, 1839) diterbitkan. Penulisnya adalah penyair, ahli tata bahasa, dan leksikograf India kuno Amara Sina, yang disebut sebagai “salah satu dari sembilan mutiara yang menghiasi takhta Vikramaditya.” Amarakosha yang diterjemahkan ke dalam bahasa Rusia berarti perbendaharaan Amara. Kamus berisi 10 ribu kata. Untuk lebih mengingat penafsiran makna kata, entri kamus dikonstruksikan dalam bentuk puisi. Seluruh materi kamus dibagi menjadi 3 buku. Setiap buku mencakup beberapa bab, dan bab tersebut, jika perlu, dibagi menjadi beberapa bagian. Buku pertama didedikasikan untuk langit, para dewa dan segala sesuatu yang berhubungan langsung dengan mereka. Buku kedua berisi kata-kata yang berhubungan dengan bumi, pemukiman, tumbuhan, hewan dan manusia (pertama, manusia dianggap sebagai makhluk hidup, dan kemudian sebagai makhluk sosial; seluruh struktur kasta masyarakat kontemporer penulis muncul di depan mata kita; para pendeta , sebagai wali Tuhan, berada di urutan paling atas, dan di bawah adalah tentara dan raja, bahkan lebih rendah lagi adalah pemilik tanah, dan di bagian paling bawah adalah pengrajin, pemain sulap, pelayan, dll.). Buku ketiga sepenuhnya bersifat linguistik, terlihat jelas dari judul enam babnya.

Kamus ini baru dikenal oleh para ilmuwan Eropa pada akhir abad ke-18, ketika bagian pertamanya diterbitkan di Roma pada tahun 1798. Itu diterbitkan secara lengkap dengan terjemahan ke dalam bahasa Inggris pada tahun 1808 oleh sarjana Sansekerta Inggris G.T. Colebrooke (NT Colebrooke). Pada tahun 1839, terjemahan bahasa Prancisnya muncul, dibuat oleh A.L. Delonchamps (A.L. Deslongchamps). Perkembangan lebih lanjut dari gagasan klasifikasi semantik kosakata dikaitkan dengan masalah yang disebut bahasa dunia.

Ringkasan. Ini, secara paling umum, adalah tahap pertama dalam pengembangan tradisi klasifikasi ideografis kosa kata. Tahap ini bisa disebut prasejarah kamus ideografis. Sekarang disarankan untuk beralih ke klasifikasi modern kamus tesaurus.

Sangat mudah untuk melihat betapa berbedanya karya-karya yang dijelaskan dari kamus alfabet. Jika dalam kamus abjad penyajian kata diatur oleh instrumen konvensional dan sangat netral seperti alfabet, maka ketika menyusun kamus ideografis, pandangan dunia dari leksikograf itu sendiri menjadi penentu.

3.3. Prinsip klasifikasi kamus-tesaurus

Seperti telah dikemukakan di atas, masalah penyusunan klasifikasi tesauri bukanlah hal baru dan selama beberapa dekade telah menarik perhatian sejumlah ahli bahasa dalam dan luar negeri (C. Marello, V.V. Morkovkin, L.P. Stupin, V.V. Dubichinsky, dll. ). Hasil penelitian di bidang ini adalah terciptanya klasifikasi alternatif karya-karya leksikografis tersebut. Salah satu klasifikasi terbaru didasarkan pada kriteria berikut: a) jenis hubungan semantik antar unit kosakata; 2) volume kosa kata; 3) generalisasi kosa kata; 4) pengembangan makna leksem; 5) kualifikasi gramatikal dan stilistika leksem; 6) demonstrasi berfungsinya leksem; 7) jumlah bahasa yang diwakili; 8) jenis sarana semiotika yang digunakan untuk semantisasi leksem. Klasifikasi ini didasarkan pada klasifikasi yang dibuat sebelumnya oleh O.M. Karpova dan I. Burkhanov (Burchanov I. Tentang Deskripsi Ideografis Aspek Makna Leksikal yang Relevan Secara Gaya dan Pragmatis. London, 1996); terminologi yang digunakan dalam klasifikasi diperkenalkan ke dalam peralatan leksikografis

V.V. Morkovkin, Yu.N. Karaulov, K.Marello. Kriteria klasifikasi dirumuskan oleh O.M. Karpova. Pada saat yang sama, C. Marello membedakan tiga jenis tesauri:

kumulatif, yaitu pengelompokan kata tanpa mendefinisikan maknanya;

definitif, menafsirkan setiap satuan leksikal sekelompok kata;

tesauri bi- dan multibahasa untuk pelancong (Marello C. TheThesaurus//W.D.D. 1990. V. 2. P. 1083).

Tesaurus kumulatif tidak hanya memberikan kesempatan untuk menemukan kata yang lebih mudah dipahami, akurat, dan benar secara stilistika dalam situasi berada dalam bidang semantik tertentu, tetapi juga menjadi dasar pembentukan bank data komputer tematik.

Tesauri definitif dapat mencakup, bersama dengan definisi makna, informasi etimologis dan kutipan dari karya sastra, yang menunjukkan orientasi ensiklopedis langsung dari tesaurus jenis ini. Selain itu, kamus jenis ini memperkenalkan pengguna pada sistem konsep yang diperlukan, menjelaskan esensi, persamaan dan perbedaan konsep, hubungan paradigmatik dan sintagmatiknya, dan terkadang memberikan informasi tentang pengucapan, tata bahasa, pembentukan kata, dan kemungkinan lainnya. unit leksikal yang menunjukkan konsep-konsep ini.

Tesauri bilingual dan multibahasa untuk pelancong biasanya dibuat berdasarkan bagian tematik: nomor, makanan, transportasi, hotel, dll. dengan terjemahan yang setara dengan dua bahasa atau lebih.

Untuk menampilkan selengkap mungkin jenis kamus tesaurus yang ada, dibuatlah klasifikasi bertingkat. Pertama, menurut jenis hubungan semantik antar unit kosakata, tesauri dibagi menjadi tiga kelas besar:

1. Tesaurus asosiatif (terminologi oleh Yu.N. Karaulov

2. Tesaurus analog (terminologi oleh V.V. Morkovkin

3. Tesaurus ideografik (ideologis) (terminologi oleh L.V. Shcherba, V.V. Morkovkin. Ketiga jenis tesauri di atas masing-masing mencerminkan jenis hubungan semantik leksem berikut:

1. Hubungan semantik-sintaksis, yang menjadi dasarnya
kata-kata digabungkan menjadi kelompok atau berpasangan, yang kemunculan dan keberadaannya telah ditentukan sebelumnya melalui hubungan ganda: semantik dan sintaksis. Hubungan semantik antar kata terutama terjalin antara kata kerja dan kata sifat yang menjalankan fungsi predikatif dalam sebuah kalimat, dan kata benda, misalnya:

a) antara suatu tindakan dan organ (instrumen) yang digunakannya: untuk meraih - dengan tangan, untuk melihat - dengan mata, untuk berenang - dengan perahu, dll.;

b) antara kata kerja tindakan yang memerlukan satu subjek dan subjek: menggonggong - seekor anjing, meringkik - seekor kuda, dll.; c) antara kata kerja dan tambahan tata bahasa tertentu, yang diperlukan oleh kata kerja: memotong - kayu, makan - makanan, dll.

Oleh karena itu, tesaurus asosiatif adalah kamus-tesaurus yang mengatur satuan leksikal berdasarkan hubungan semantik dan sintaksis yang ada di antara mereka dan menyusun kelompok sesuai dengan bentuk grafik kata pusat.

2. Koneksi leksiko-semantik. Pengelompokan dengan jenis koneksi ini terjadi sesuai dengan fitur utama kata - makna leksikal. Dalam hal ini, hubungan leksiko-gramatikal juga diperhitungkan, dalam bentuk realisasi makna individu dari kata-kata.

Jadi, tesaurus analogis adalah buku referensi leksikografis, yang unit utama struktur makronya adalah kelompok leksikal-semantik; kelompok-kelompok tersebut disistematisasikan dalam urutan abjad dominan semantik.

3. Hubungan subjek atau tematik, dimana penggabungan kata menjadi satu kelompok terjadi karena adanya persamaan atau kesamaan fungsi benda dan proses yang dilambangkan dengan kata: benda
barang-barang rumah tangga, bagian tubuh, jenis pakaian, bangunan, dll.

Dengan demikian, tesaurus ideografis adalah karya leksikografis yang mewakili unit leksikal sebagai bagian dari kelompok subjek (tematik) dan mengaturnya ke dalam struktur hierarki yang dirancang untuk mewakili pengetahuan yang dikonseptualisasikan tentang dunia.

Dalam kerangka kriteria yang sama, kami membagi lagi jenisnya. Jadi, tesaurus ideografik diwakili oleh 4 jenis berikut:

Sebenarnya tesaurus ideografis.

Kamus tematik.

Kamus sistematis.

Kamus tematik-sistematis

Tesaurus ideografik sendiri adalah jenis kamus ideografik khusus, yang struktur makronya disusun menurut peta sinoptik apriori yang ditumpangkan pada komposisi leksikal bahasa. Tidak seperti jenis kamus ideografis lainnya, tesaurus ideografik itu sendiri dicirikan oleh struktur klasifikasi yang logis dan tertata ketat yang dibuat berdasarkan taksonomi ilmiah, bahkan jika kosakata umum tunduk pada deskripsi leksikografis (New Webster "Thesaurus. Landoll, 1991).

Kamus tematik adalah jenis tesaurus ideografik khusus yang satuan makrostruktur utamanya adalah kelompok tematik, termasuk leksem-leksem, yang disatukan berdasarkan klasifikasi denotasinya (rujukan) dan ditinjau dari kesesuaiannya dengan a topik tertentu.

Kamus sistematik adalah jenis tesaurus ideografis khusus yang struktur klasifikasinya dimaksudkan untuk mewakili hubungan semantik aktual yang ada antara unit leksikal suatu bahasa. Pada intinya, struktur klasifikasi merepresentasikan klasifikasi leksiko-gramatikal kosa kata, dengan kata lain struktur paradigmatiknya, digambarkan dari sudut subordinasi dan komposisi.

Kamus tematik-sistematis adalah jenis kamus ideografis khusus yang merupakan gabungan dari kamus tematik dan sistematis.

Ringkasan. Klasifikasi tesauri linguistik yang dipertimbangkan mencakup jenis kamus berikut: tesaurus analogis (terminologi oleh V.V. Morkovkin); tesaurus ideografis (ideologis) (terminologi oleh L.V. Shcherba dan V.V. Morkovkin); asosiasi. tesaurus (terminologi oleh Yu.N. Karaulov). Selanjutnya akan disajikan pop. tesauri dan fitur-fiturnya terungkap.

3.4. Tesauri populer dan fitur-fiturnya

Kamus tesaurus paling terkenal yang tersedia, yang menjadi asal mula istilah ini, dibuat berdasarkan materi bahasa Inggris; ini adalah tesaurus yang terus-menerus dicetak ulang oleh P.M. Tesaurus Kata dan Frasa Bahasa Inggris karya Roger Roget (1852).

Penting untuk dicatat bahwa penulis Tesaurus Kata dan Ekspresi Bahasa Inggris memanfaatkan sepenuhnya pengalaman yang tersedia pada saat itu. “Prinsip yang memandu saya saat mengklasifikasikan kata,” tulis P.M. Roger, sama dengan yang digunakan dalam mengklasifikasikan individu dalam berbagai bidang sejarah alam. Oleh karena itu, bagian-bagian yang saya soroti berhubungan dengan keluarga alami botani dan zoologi, dan rangkaian kata-kata tersebut diperkuat oleh hubungan yang sama yang menyatukan rangkaian alami tumbuhan dan hewan."

PM. Roger percaya bahwa klasifikasi kata-kata yang meyakinkan menurut maknanya tidak mungkin dilakukan sampai objek realitas yang disebut kata-kata ini dipelajari dan diorganisasikan dengan benar. Oleh karena itu, ia memulai karyanya dengan membagi bidang konseptual bahasa Inggris menjadi empat kelas besar: relasi abstrak, ruang, materi dan jiwa (pikiran, kemauan, perasaan). Kelas-kelas ini dibagi lagi menjadi beberapa genera, yang selanjutnya dibagi lagi menjadi sejumlah spesies tertentu.

Di antara kekurangan kamus ideografis P.M. Para ilmuwan menghubungkan hal-hal berikut dengan Roger: 1) nomenklatur kelas konseptual utama yang tidak sepenuhnya meyakinkan; 2) logika abstrak lebih unggul daripada hubungan alami kata-kata; 3) ketidaknyamanan penggunaan yang relatif (kekurangan ini sebagian besar telah diperbaiki pada edisi berikutnya).

Dalam leksikografi Rusia modern ada beberapa kamus yang harus diklasifikasikan sebagai kamus-tesaurus (kamus ideografis). Ini, misalnya, diciptakan di bawah kepemimpinan Yu.N. Karaulova "Kamus Semantik Rusia", "Kamus Semantik Rusia" diedit oleh N.Yu. Shvedova, “Kamus Tematik Bahasa Rusia” oleh L.G. Sayakhova, D.M. Khasanova dan V.V. Morkovkina, “Kamus kelompok leksikal-semantik kata kerja Rusia”, ed. EV. Kuznetsova, “Kamus Ideografik Bahasa Rusia” O.S. Baranova, “Konsep Dunia Batin Manusia dalam Bahasa Rusia” oleh V.I. Ubiyko, kamus pendidikan komprehensif “Dasar leksikal bahasa Rusia” di bawah bimbingan V.V. Morkovkina.

Mari kita mengenal beberapa di antaranya.

Kamus-tesaurus idiom Rusia modern” diedit oleh A.N. Baranova dan D.O. Dobrovolsky mencakup empat bagian utama: 1) sinopsis; 2) legenda; 3) bagian utama Kamus-Tesaurus; 4) petunjuk. Tujuan Sinopsis adalah untuk memberikan gambaran umum tentang struktur Badan Utama Tesaurus. Ini mencantumkan semua taksa dengan subtaksa dan referensi paradigmatik yang sesuai. Bagian utama Kamus Tesaurus merupakan kumpulan entri kamus yang dikelompokkan menjadi kelompok (taksa) dan subkelompok (subtaksa) sesuai dengan makna idiom yang diuraikan di dalamnya. Setiap artikel berisi idiom dan contoh penggunaannya dalam bahasa Rusia modern. Sinopsis, Legenda, Indeks adalah bagian layanan dari Kamus-tesaurus yang disebutkan di atas, yang memberikan pengguna kesempatan untuk bekerja dengan cepat dan efisien. Legenda digunakan ketika contoh penggunaan idiom tidak diperlukan, karena itu mereproduksi semua informasi kecuali contoh. Sebenarnya, ini adalah kosakata Kamus. Satuan kosakatanya adalah lemma. Lemma dalam hal ini mewakili idiom dalam bentuk aslinya (kamus) dan mencakup, jika mungkin, semua varian signifikannya. Misalnya, idiom stand still merupakan bagian dari lemma mark time, stand still, skid in place.

Kamus berisi dua petunjuk. Di akhir buku terdapat artikel “Konsep Teoritis Kamus-Tesaurus Ideomatika Rusia Modern”, yang menganalisis secara rinci fitur-fitur ilmiah dari proyek ini.

“Kamus Semantik Rusia”, dibuat di bawah kepemimpinan Yu.N. Karaulova mencakup 10 ribu kata Rusia, yang dibagi menjadi 1.600 kelompok konseptual. Identifikasi kelompok didasarkan pada elemen interpretasi kata yang berulang dalam kamus penjelasan: misalnya, “tindakan”, “properti”, “alat”, dll.

“Kamus semantik Rusia”, dibuat di bawah kepemimpinan akademisi N.Yu. Shvedova, didasarkan pada prinsip-prinsip yang sedikit berbeda yang merupakan karakteristik kompilasi kamus ideografis dan penjelasan. Pertama, semua kata dalam bahasa ini dibagi menjadi empat kelas: 1) unit penunjuk (kata ganti), 2) penamaan (kata nosional), 3) penghubung aktual (konjungsi, preposisi, kata kerja penghubung), 4) pengklasifikasian (kata modal , partikel, kata seru). Kedua, dalam setiap kelas, semua kata didistribusikan menurut jenis kata. Ketiga, dalam setiap bagian pidato, himpunan dan himpunan bagian diidentifikasi berdasarkan kedekatan tematik atau, sebaliknya, pertentangan makna kata.

DUDEN adalah buku dengan gambar (gambar) di sisi kiri (menurut software yang berbeda) dengan bagian-bagian yang diberi nomor (sampai yang terkecil). Di sisi kanan, daftar bernomor ini disertai judul (bahkan dalam dua bahasa). Misalnya, perlengkapan kereta api, stasiun, dan rel digambar dalam satu halaman penuh. Di sebelah kanan adalah nama anak panah, semaphore, kruk, dll.

“Kamus Tematik Bahasa Rusia” L.G. Sayakhova, D.M. Khasanova dan V.V. Morkovkina berisi 25 ribu unit leksikal, dikelompokkan menjadi tiga kelas besar: "Manusia", "Masyarakat", "Alam", yang bercabang secara bertahap menjadi subkelas yang lebih kecil. Misalnya, di kelas “Manusia” terdapat subkelas “Tubuh dan Organisme Manusia”, “Kehidupan Manusia”, “Penampilan, Penampilan Seseorang”, “Penampilan Emosional Seseorang”, dll. dibagi menjadi lebih spesifik: “ Dunia emosional seseorang" - "Sifat mental seseorang" - "Temperamen", "Karakter" - "Ciri-ciri karakter umum", dll. Arti dan penggunaan kata-kata yang termasuk dalam setiap kelas diilustrasikan oleh frasa yang paling umum. Misalnya, kata “tertawa” yang termasuk dalam subkelompok “ekspresi perasaan, emosi” kelas “Manusia”, disertai dengan indikasi kombinasi kata tersebut seperti tawa ceria, tawa gembira, tawa anak-anak, ledakan. menjadi tawa, dll.

Ringkasan. Salah satu alat yang efektif untuk mendeskripsikan mata pelajaran individu, terutama dalam format elektronik, adalah tesauri.

Istilah tesaurus telah lama digunakan secara luas dalam linguistik untuk merujuk pada jenis kamus khusus, yang sampai taraf tertentu mencerminkan “gambaran dunia”, “model linguistik dunia” (menurut Yu.N. Karaulov). Tesaurus sebagai “perbendaharaan” telah berkembang dalam cakupan semantiknya dan mendapat makna baru. Mereka mulai menyebutnya kamus yang tidak hanya menyerap seluruh kekayaan leksikal suatu bahasa, tetapi mengaturnya dalam cara logis-sistemik tertentu. Dalam kamus tesaurus, kata-kata digabungkan menjadi beberapa kelompok, dan penyatuan ini terjadi atas dasar kemampuan suatu kata tertentu untuk menyampaikan suatu konsep tertentu.

Kamus tesaurus selalu dianggap dalam linguistik sebagai semacam sistem universal yang menjamin penyimpanan pengetahuan kolektif (untuk masyarakat tertentu) tentang dunia dalam bentuk verbal. Berbeda dengan kamus lain, kamus tesaurus pengetahuan ini disimpan dalam bentuk terstruktur yang mencerminkan gagasan kita tentang “struktur dunia”.

Tesauri yang paling terkenal dan populer saat ini adalah Tesaurus Roger Inggris, O.V. Ideographic Dictionary of the Russian Language. Baranova, kamus semantik Rusia Yu.N. Karaulova, kamus semantik Rusia dari akademisi N.Yu. Shvedova, DUDEN, Kamus Tematik Bahasa Rusia L.G. Sayakhova, D.M. Khasanova dan V.V. Morkovkina.

Sistem konseptual suatu mata pelajaran Dasar dari setiap mata pelajaran adalah sistem konsep mata pelajaran tersebut. Pengertian konsep: Konsep adalah suatu pemikiran yang merefleksikan dalam bentuk umum objek-objek dan fenomena-fenomena realitas dengan memperbaiki sifat-sifat dan hubungannya; yang terakhir (properti dan hubungan) muncul dalam konsep sebagai ciri umum dan khusus, berkorelasi dengan kelas objek dan fenomena (Kamus Linguistik)

Konsep dan Istilah Untuk mengungkapkan konsep suatu bidang studi dalam teks, digunakan kata atau frasa yang disebut istilah. Himpunan istilah suatu bidang studi membentuk sistem terminologisnya. Hubungan suatu istilah tertentu dengan istilah lain dari sistem istilah bidang studi ditentukan melalui suatu definisi

Definisi istilahnya? Sebuah kata (atau kombinasi kata) yang merupakan sebutan yang tepat untuk konsep tertentu dari bidang khusus ilmu pengetahuan, teknologi, seni, kehidupan sosial, dll. || Kata atau ungkapan khusus yang digunakan untuk menunjuk sesuatu. di lingkungan tertentu, profesi (Kamus Penjelasan Besar Bahasa Rusia)

Istilah - nama pasti dari konsep Biasanya, setiap konsep di lapangan berhubungan dengan setidaknya satu istilah yang dipahami dengan jelas, yang artinya adalah konsep ini. - istilah, dalam pengertian teori terminologi tradisional Sifat istilah - nama pasti konsep - istilah harus berhubungan langsung dengan konsep, harus mengungkapkan konsep dengan jelas; - arti istilah harus tepat dan tidak boleh tumpang tindih maknanya dengan istilah lain; - arti istilah tidak bergantung pada konteksnya. Istilah-istilah yang secara akurat menyebutkan suatu konsep menjadi bahan penelitian teori terminologi, terminolog

Istilah teks Dalam teks nyata bidang studi, untuk merujuk pada suatu konsep, selain istilah dasar, banyak ekspresi bahasa yang berbeda dapat digunakan, yang kita sebut istilah teks: - opsi sintaksis dan pembentukan kata: penerima dana anggaran - anggaran penerima; - opsi leksikal – penghapusan langsung, penghapusan tidak terbantahkan; - ekspresi polisemantik, tergantung konteksnya, yang menjadi acuan berbagai konsep bidang, misalnya kata mata uang dalam konteks berbeda dapat berarti mata uang nasional atau mata uang asing.

Deskriptor dengan tanda Sampah - bagian dari nama deskriptor derek (alat pengangkat) vs derek (burung) cangkang (struktur) – perbandingan berbagai tesaurus Preferensi untuk frasa: –Catatan fonograf vs. rekaman (fonograf) Tanda dan jamak: Kayu (bahan) Kayu (kawasan hutan)

Menyertakan deskriptor berdasarkan ekspresi multi-kata Pemisahan istilah meningkatkan ambiguitas: makanan nabati Arti ekspresi bergantung pada urutan kata: ilmu informasi - informasi ilmiah Salah satu kata komponen berada di luar cakupan tesaurus atau terlalu umum: pertama bantuan Hubungan deskriptor tidak mengikuti strukturnya: –Ginjal buatan, status pengungsi, lampu lalu lintas

Hubungan asosiatif Bidang kegiatan - aktor - Matematika - matematikawan Disiplin - objek studi - Neurologi - sistem saraf Tindakan - agen atau alat - Berburu - pemburu Aksi - hasil tindakan - Menenun - kain Tindakan - tujuan - Penjilidan buku - buku Sebab-akibat - Kematian – Nilai pemakaman – satuan pengukuran – Kekuatan arus – ampere Aksi – rekanan – Alergen – obat anti alergi, dll.

Tesauri penelusuran informasi: tahapan pengembangan Tahap pertama: pengindeks mendeskripsikan topik utama teks menggunakan kata dan frasa arbitrer Istilah-istilah yang diperoleh dari banyak teks disatukan Di antara istilah-istilah yang memiliki kesamaan makna, dipilih yang paling representatif Beberapa sisanya menjadi sinonim bersyarat, sisanya dihapus Istilah khusus biasanya tidak disertakan

Tesauri temu kembali informasi: seni pengembangan Deskriptor adalah istilah-istilah yang diperlukan untuk mengungkapkan topik utama dokumen. Sinonim hanya mencantumkan yang paling penting saja (misalnya dimulai dengan huruf yang berbeda) agar tidak mempersulit pekerjaan pengindeks. istilah harus dikurangi menjadi satu istilah untuk menghindari subjektivitas pengindeksan Tingkat hierarki, penyertaan istilah tertentu dibatasi

Tesaurus penelusuran informasi: seni pembangunan - 2 Dalam kasus kompleks, deskriptor dilengkapi dengan tanda dan komentar –LIV: bombardir – pengeboman – Istilah polisemantik: satu makna dalam tesaurus (modal), tidak sesuai dengan tesaurus, nilai !!! Tesaurus pengambilan informasi tradisional adalah bahasa buatan yang dibangun berdasarkan istilah nyata

IPT tradisional: penerapan dalam pemrosesan otomatis Kurangnya pengetahuan tentang bahasa sebenarnya dari perangkat lunak Kurangnya pengetahuan tentang bahasa sebenarnya dari perangkat lunak Kosakata Pengindeksan Legislatif: Kosakata Pengindeksan Legislatif: – dalam teks PASUKAN – dalam tesaurus PASUKAN MILITER – dalam teks MODAL – kapital, dalam tesaurus hanya kapital Disarankan: setiap deskriptor dilengkapi dengan daftar kata dan istilah Diusulkan: setiap deskriptor dilengkapi dengan daftar kata dan istilah Tetapi: polisemi atau berkaitan dengan deskriptor yang berbeda. Tapi: polisemi atau berkaitan dengan deskriptor yang berbeda. Resolusi disambiguasi Resolusi disambiguasi

IPT tradisional: perluasan kueri otomatis Masalah dengan asosiasi Disarankan: masukkan bobot masukkan bobot masukkan nama relasi: objek, properti, dll. masukkan nama hubungan: objek, properti, dll. KESIMPULAN: Anda perlu mempelajari cara membangun sumber daya linguistik khusus untuk pemrosesan otomatis kumpulan teks

Tesaurus EUROVOC – tesaurus multibahasa Komunitas Eropa Tesaurus dalam 9 bahasa EUROVOC versi Rusia – +5 ribu konsep yang mencerminkan kekhasan Rusia Tesaurus multibahasa – Deskriptor – nama dalam berbagai bahasa – Ascriptor – untuk beberapa bahasa

Pengindeksan otomatis menurut tesaurus EUROVOC, berdasarkan aturan (Hlava, Heinebach, 1996) Contoh aturan: IF (dekat "Teknologi" DAN dengan "Pengembangan") GUNAKAN Program komunitas GUNAKAN bantuan pengembangan ENDIF 40 ribu aturan. Pengujian: 20 deskriptor paling sering dalam teks, dihasilkan secara otomatis - kelengkapan 42%, dibandingkan dengan rubrikasi manual

Pengindeksan otomatis berdasarkan penetapan bobot korespondensi antara kata dan deskriptor (Steinberger et al., 2000) Tahap 1 - menetapkan korespondensi antara kata teks dan deskriptor yang ditetapkan berdasarkan ukuran statistik (chi-square atau log-likelihood) Deskriptor PENGELOLAAN PERIKANAN - kata-kata berikut (dalam urutan berat): perikanan, ikan, stok, penangkapan ikan, konservasi, pengelolaan, kapal, dll. Tahap 2 pengindeksan itu sendiri - menjumlahkan logaritma bobot atau sebagai produk skalar vektor

Kombinasi kueri gratis dan kueri berdasarkan tesaurus pengambilan informasi Koleksi yang diindeks secara manual – membangun korelasi Pengguna menanyakan kueri dalam bahasa alami Kueri diperluas dengan deskriptor tesaurus yang berkorelasi paling kuat dengan kueri (Petras 2004 ;Petra 2005). Misalnya, atas permintaan Perusahaan Insolven, daftar deskriptor likuiditas, hutang, perusahaan, firma dapat diperoleh, dan kueri dapat diperluas. Akurasi dalam eksperimen meningkat sebesar 13%.

Salah satu konsep dasar baru yang muncul sebagai hasil dari pengembangan metode mesin untuk memproses informasi, khususnya ketika menerjemahkan dari satu bahasa ke bahasa lain, mencari informasi ilmiah dan teknis dan menciptakan model informasi suatu perusahaan dalam sistem kendali otomatis , adalah konsep tesaurus sistem informasi. Istilah "tesaurus" menyiratkan kumpulan pengetahuan tentang dunia luar - inilah yang disebut tesaurus dunia T. Semua konsep dunia luar, yang diungkapkan menggunakan bahasa alami, merupakan tesaurus, dari mana tesauri privat dapat dibedakan. dengan pembagian hierarki dengan mempertimbangkan subordinasi konsep individu atau dengan mengisolasi bagian-bagian tesaurus umum dunia. Tesaurus dalam sistem temu kembali informasi berperan penting dalam mencari dokumen yang diinginkan dengan menggunakan kata kunci. Oleh karena itu, membangun tesaurus adalah tugas yang kompleks dan bertanggung jawab. Namun tugas ini juga bisa diotomatisasi.

Klasifikasi dalam definisi paling umum adalah pemartisian dan pengurutan himpunan. Ini disebut pembagian objek ke dalam kelas-kelas berdasarkan ciri-ciri umum yang melekat pada fenomena atau objek tersebut dan membedakannya dari objek dan fenomena yang membentuk kelas lain. Jika perlu, setiap kelas dapat dibagi menjadi subkelas. Rubrikator adalah jenis klasifikasi khusus. Oleh karena itu, mereka dibuat berdasarkan ketentuan umum:
 dasar ilmiah untuk menyusun klasifikasi;
 cerminan tingkat perkembangan ilmu pengetahuan saat ini;
 adanya sistem tautan dan rujukan, serta alat referensi dan referensi (CCA).

Namun rubrikator merupakan klasifikasi pragmatis yang dibuat berdasarkan arus informasi dan kebutuhan spesialis. Inilah perbedaannya dengan klasifikasi apriori seperti UDC dan IPC.

Fungsi utama klasifikasi dan khususnya rubrikator adalah sebagai berikut:
 diferensiasi tematik subsistem informasi;
 pembentukan susunan informasi berdasarkan kriteria apa pun;
 sistematisasi materi informasi dan publikasi;
 pencarian saat ini dan retrospektif;
 pengindeksan dokumen dan pertanyaan;
 koneksi dengan skema klasifikasi lainnya;
- fungsi normatif.

Mereka dibangun dengan membagi konsep – objek klasifikasi berdasarkan hubungan yang terjalin antara karakteristik objek tersebut sesuai dengan prinsip logika tertentu. Ciri-ciri yang dijadikan dasar klasifikasi disebut dasar pembagian klasifikasi. Klasifikasi banyak menggunakan metode deduksi dan induksi untuk mengkonsolidasikan kelompok, kelas dan mengidentifikasi hubungan di antara mereka. Ini tipikal untuk klasifikasi hierarkis. Kedalaman klasifikasi (jumlah tingkat hierarki) dapat bervariasi tergantung pada tujuannya. Salah satu rubrikator yang banyak digunakan adalah Rubrikator Negara Informasi Ilmiah dan Teknis (GRNTI).

Rubrikator GRNTI dirancang sedemikian rupa sehingga dapat digunakan bersama dengan klasifikasi lain seperti UDC dan IPC. Klasifikasi Desimal Universal (UDC) telah ada selama lebih dari 70 tahun, namun luas distribusinya masih belum ada bandingannya dan digunakan di banyak negara di dunia. UDC mencakup seluruh alam semesta pengetahuan dan berhasil digunakan untuk sistematisasi dan pencarian selanjutnya untuk berbagai sumber informasi.

Selain UDC, klasifikasi perpustakaan dan bibliografi (LBC) banyak digunakan dalam praktik. BBK dibangun berdasarkan prinsip subordinasi logis dan mewakili klasifikasi tipe aplikasi.
Di Federasi Rusia, untuk mengklasifikasikan penemuan dan mensistematisasikan kumpulan deskripsi penemuan dalam negeri, klasifikasi paten internasional digunakan - klasifikasi multi-aspek yang agak rumit yang dibangun berdasarkan prinsip industri fungsional. Konsep teknis yang sama dapat ditemukan di IPC atau kelas khusus (menurut industri) atau di kelas fungsional (menurut prinsip operasi). Prinsip distribusi konsep sektoral melibatkan klasifikasi objek tergantung pada penerapannya dalam cabang peralatan dan teknologi tertentu yang berkembang secara historis.

Perbandingan karakteristik rubrikator SRNTI, UDC, BBK dan IPC disajikan pada Tabel 1.

Tabel 1
Karakteristik rubrikator SRNTI, UDC, BBK dan IPC

Nama	Struktur	Prinsip penempatan divisi	Skema konstruksi partisi
	Hierarki	Industri	Dari yang umum ke yang khusus
	Hierarki	Tematik
	Hierarki	Fungsional-sektoral	Dari yang umum ke yang khusus
LBC untuk perpustakaan ilmiah	Hierarki	Industri	Dari umum ke khusus, berdasarkan spesies

Dengan demikian, kita dapat menyoroti ciri-ciri pembeda utama rubrikator dan pengklasifikasi:
- mereka dicirikan oleh sifat terapan dan orientasi industri;
 ini adalah sistem terbuka yang bergantung pada perkembangan ilmu pengetahuan dan teknologi, kebutuhan dan permintaan para spesialis;
- sistem anorganik, karena benda-benda muncul dan berkembang di lingkungan dan masuk ke dalamnya dari lingkungan tersebut. Elemen mampu eksis secara mandiri di luar sistem. Sifat ini berkaitan erat dengan sifat kedua;
- unsur minimalnya adalah konsep yang berhubungan dengan lingkungan. Sebuah konsep mewakili suatu sistem definisi;
 hubungan muncul antara konsep-konsep baik secara “vertikal” (tipe-genus, seluruh-bagian) dan “secara horizontal” (tipe-tipe, bagian-bagian), yang menunjukkan hierarki sistem.

Oleh karena itu, struktur dan prinsip pengorganisasian klasifikasi dan rubrikator memungkinkan untuk mengotomatiskan proses pembuatan tesauri mata pelajaran dengan menggunakan metode deduksi. Algoritma pembuatan tesaurus dengan metode deduksi ditunjukkan pada Gambar. 1.

Dasar pembentukan tesaurus adalah gambar pencarian suatu dokumen, tugas atau aplikasi pencarian informasi, yang diisi oleh operator. Oleh karena itu, langkah pertama yang dilakukan adalah meneliti dan menganalisis aplikasi. Pada tahap pertama, operator menunjukkan topik atau masalah yang diminati, kemungkinan kata kunci dan sinonimnya. Hasilnya, kita mendapatkan pemahaman yang dangkal tentang bidang studi tersebut.

Beras. 1. Algoritma pembuatan tesaurus dengan metode deduksi

Selain itu, tesaurus kata kunci KS dibentuk dengan metode deduksi, yang memerlukan:
 Array KS, yang ditentukan oleh pengguna sendiri, ditunjuk pada Gambar 1 sebagai MP;
 Array KS diekstraksi dari tugas pencarian, masing-masing MZ.

Namun untuk pemahaman mata pelajaran yang lebih lengkap dan mendalam, kami menggunakan rubrikator dan skema klasifikasi yang sudah ada (GRNTI, UDC, BBK, IPC). Untuk memaksimalkan cakupan area subjek, perlu meninjau semua subjek yang tersedia. Susunan rubrikator mewakili MR. Algoritma pencarian deduksi terdiri dari dua langkah:
1. Menemukan konsep umum (Gbr. 2);
2. Menemukan istilah-istilah tertentu dalam konsep umum (Gbr. 3).

Beras. 2. Pengolahan konsep generik

Kami memuat rubrikator pertama dari array dan mengatur siklus pemeriksaan keberadaan CS yang dimasukkan oleh pengguna di rubrikator. Setiap KS dicari di rubrikator dan dibandingkan dengan konsep umum atau “sarang”, kemudian kondisinya diperiksa apakah ada kaitannya dengan istilah tertentu. Jika link tersebut tersedia, maka KS tersebut dibandingkan dengan ketentuan tertentu. Jika tidak ada tautan yang ditemukan, lanjutkan ke konsep umum berikutnya. Ketika kata kunci CS yang dimasukkan oleh operator dilihat, kita beralih ke array CS yang diekstraksi dari tugas tersebut. Prosedur verifikasinya serupa - kami mencari KS yang sesuai dengan konsep umum, dan kemudian kaitannya dengan istilah tertentu.

Beras. 3. Pemrosesan istilah tertentu

Perhatikan bahwa dalam setiap konsep umum, penting untuk meninjau semua istilah spesifik yang tersedia untuk mendapatkan pemahaman maksimal tentang bidang permasalahan. Hasil dari tindakan tersebut adalah terbentuknya larik kata kunci KS yang merupakan tesaurus lengkap yang sesuai dengan tugas pencarian informasi atau gambar pencarian suatu dokumen.

Berdasarkan kumpulan gambar pencarian dokumen yang lengkap (sebut saja), dimungkinkan untuk membuat tesauri industri dan pengklasifikasi perpustakaan terpadu. Jelasnya, himpunan lengkap  itu sendiri mewakili tesaurus sederhana.

Namun menggunakan kriteria seleksi
, (1)
kita bisa membangun tesauri industri. Dalam hal ini, himpunan semua tesaurus industri membentuk tesaurus yang lengkap
, (2)
bagian-bagiannya dapat disusun secara hierarkis sesuai dengan persyaratan Gost menurut pengklasifikasi utama (GRNTI, UDC, BBK, MPK) atau menurut pengklasifikasi terpadu internal.

Otomatisasi proses pembuatan tesaurus dan klasifikasi memungkinkan pekerjaan operator yang bekerja dengan sumber informasi terdistribusi semudah mungkin.

Selain membangun tesaurus, berdasarkan gambar pencarian suatu dokumen, pendekatan yang diusulkan dapat digunakan untuk abstraksi dokumen otomatis dan pengelompokan teks.

Pengabstrakan dokumen adalah salah satu tugas yang bertujuan untuk memberikan informasi andal kepada spesialis ahli yang diperlukan untuk membuat keputusan manajemen tentang nilai dokumen yang diperoleh dari Internet. Abstrak adalah proses mentransformasikan informasi dokumenter, yang berpuncak pada penyusunan abstrak, dan abstrak adalah penyajian konten utama dokumen utama yang memadai secara semantik, dicirikan oleh desain simbolis yang ekonomis, keteguhan karakteristik linguistik dan struktural dan dimaksudkan untuk melakukan berbagai fungsi informasi dan komunikasi dalam sistem komunikasi ilmiah. Algoritma abstraksi dokumen disajikan pada Gambar. 4.

Beras. 4. Algoritma abstraksi dokumen

Secara umum, algoritma ini mencakup tahapan utama berikut.
1. Kalimat diambil dari dokumen yang diunduh dari Internet dan ditempatkan di gudang data dengan memilih tanda baca dan menyimpannya dalam array.
2. Setiap kalimat dibagi menjadi kata-kata dengan memilih pemisah, dan kami menyimpannya ke dalam array, dan array berbeda untuk setiap kalimat.
3. Untuk setiap kalimat, untuk setiap kata dalam kalimat ini, kami menghitung jumlah kata dalam kalimat lain (sebelum dan sesudah). Jumlah pengulangan setiap kata (sebelum dan sesudah) akan menjadi bobot kalimat ini.
4. Sejumlah kalimat tertentu dengan koefisien bobot maksimum dipilih untuk abstrak sesuai urutan kemunculannya dalam teks.

Model yang diusulkan untuk membangun tesaurus dan katalog tematik dari suatu sistem informasi mewakili landasan teoritis untuk mengotomatisasi pencarian semantik dan memungkinkan seorang ahli tidak hanya untuk melakukan pekerjaan pencarian, tetapi juga dalam mode otomatis, dokumen abstrak yang diperoleh sebagai hasil pencarian di sistem informasi terdistribusi di Internet.

Literatur:
1. Barushkova R.I. Skema klasifikasi informasi ilmiah dan teknis. Buku pelajaran uang saku. - M., 1981. - 80 hal.
2. Barushkova R.I. Rubrikator sebagai skema klasifikasi informasi ilmiah dan teknis. Perangkat. - M., 1980. - 38 hal.
3. Trusov A.V., Babarykin E.P. Estimasi batas domain permintaan informasi tematik dalam sistem informasi terdistribusi. Materi konferensi Seluruh Rusia (dengan partisipasi internasional) “Informasi, inovasi, investasi”, 24-25 November 2004, Perm / Perm CSTI. - Perm, 2004. - Hal.76-79.
4. Yatsko V.A. Masalah logika-linguistik dalam menganalisis dan merangkum teks ilmiah. - Abakan: Rumah Penerbitan Negara Khakass. Universitas, 1996. - 128 hal.