थिसारस का उपयोग किसके लिए किया जाता है? थिसॉरस शब्द का अर्थ

एन. वी. लुकाशेविच

[ईमेल सुरक्षित]

बी. वी. डोब्रोव

मॉस्को स्टेट यूनिवर्सिटी का रिसर्च कंप्यूटिंग सेंटर। एम.वी. लोमोनोसोव;

सूचना अनुसंधान के लिए एएनओ केंद्र

[ईमेल सुरक्षित]

कीवर्ड:थिसारस, सूचना पुनर्प्राप्ति, स्वचालित पाठ प्रसंस्करण,

ग्रंथों के बड़े संग्रह के साथ काम करने वाली अधिकांश प्रौद्योगिकियां सांख्यिकीय और संभाव्य तरीकों पर आधारित हैं। यह इस तथ्य के कारण है कि शाब्दिक संसाधन जिनका उपयोग भाषाई तरीकों का उपयोग करके पाठ संग्रह को संसाधित करने के लिए किया जा सकता है, उनमें हजारों शब्दकोश प्रविष्टियों की मात्रा होनी चाहिए और कई महत्वपूर्ण गुण होने चाहिए जिनकी संसाधन विकसित करते समय विशेष रूप से निगरानी की जानी चाहिए। रिपोर्ट में, हम 1997 में बनाए गए कंप्यूटर टेक्स्ट प्रोसेसिंग रूटेज़ के लिए रूसी भाषा थिसॉरस के उदाहरण का उपयोग करके बड़े टेक्स्ट संग्रहों के स्वचालित प्रसंस्करण के लिए शाब्दिक संसाधनों को विकसित करने के बुनियादी सिद्धांतों की जांच करते हैं, जो वर्तमान में 42 हजार से अधिक अवधारणाओं का एक पदानुक्रमित नेटवर्क है। . हम थिसॉरस की वर्तमान स्थिति का वर्णन इसकी शाब्दिक संरचना और विश्वविद्यालय सूचना प्रणाली रूसिया (www.cir.ru) के पाठ कोष की तुलना के आधार पर करते हैं - 400 हजार दस्तावेज़। विभिन्न स्वचालित वर्ड प्रोसेसिंग अनुप्रयोगों में थिसॉरस के उपयोग के उदाहरणों पर चर्चा की गई है।

  1. परिचय

वर्तमान में, लाखों दस्तावेज़ इलेक्ट्रॉनिक रूप में उपलब्ध हो गए हैं, हजारों सूचना प्रणालियाँ और इलेक्ट्रॉनिक पुस्तकालय बनाए गए हैं। साथ ही, खोज के लिए शाब्दिक और शब्दावली संसाधनों का उपयोग करने वाली सूचना प्रणालियों की गणना प्रतिशत के अंशों में की जाती है। यह इलेक्ट्रॉनिक दस्तावेजों के आधुनिक संग्रह के स्वचालित प्रसंस्करण के लिए ऐसे भाषाई संसाधन बनाने की गंभीर चुनौतियों के कारण है।

सबसे पहले, ये संग्रह आमतौर पर बहुत बड़े होते हैं; संसाधन में हजारों शब्दों और शब्दों का विवरण शामिल होना चाहिए। दूसरे, संग्रह विभिन्न वाक्यात्मक संरचनाओं के साथ विभिन्न संरचनाओं के दस्तावेज़ों का एक सेट है, जिससे पाठ वाक्यों को स्वचालित रूप से संसाधित करना मुश्किल हो जाता है। इसके अलावा, महत्वपूर्ण जानकारी अक्सर पाठ के विभिन्न वाक्यों के बीच वितरित की जाती है।

यह सब इस सवाल को गंभीरता से उठाता है कि एक भाषाई संसाधन क्या होना चाहिए, जो एक ओर, इलेक्ट्रॉनिक संग्रहों में स्वचालित प्रसंस्करण और खोज के लिए उपयोगी होगा, दूसरी ओर, निकट भविष्य में बनाया जा सकता है और अपेक्षाकृत कम लागत पर बनाए रखा जा सकता है। कोशिश।

इस लेख में हम बड़े पाठ संग्रहों के स्वचालित प्रसंस्करण के लिए शाब्दिक संसाधन विकसित करने के बुनियादी सिद्धांतों को देखेंगे। कंप्यूटर टेक्स्ट प्रोसेसिंग RuTez के लिए 1997 से एएनओ सेंटर फॉर इंफॉर्मेशन रिसर्च द्वारा बनाए गए रूसी भाषा थिसॉरस के उदाहरण का उपयोग करके इन सिद्धांतों की जांच की जाएगी। RuTez वर्तमान में 42 हजार से अधिक अवधारणाओं का एक पदानुक्रमित नेटवर्क है, जिसमें 95 हजार से अधिक रूसी शब्द, अभिव्यक्ति और पद शामिल हैं। हम मॉस्को स्टेट यूनिवर्सिटी के रिसर्च कंप्यूटिंग सेंटर द्वारा समर्थित, विश्वविद्यालय सूचना प्रणाली रूस के पाठ कोष की शब्दावली और इसकी शाब्दिक संरचना की तुलना के आधार पर थिसॉरस की वर्तमान स्थिति का वर्णन करेंगे। एम.वी. लोमोनोसोव और एएनओ टीएसआईआई। यूआईएस रूस (www.cir.ru) में सामाजिक-राजनीतिक विषयों पर 400 हजार दस्तावेज़ (लगभग 3 जीबी पाठ, 200 मिलियन शब्द) शामिल हैं। लेख विभिन्न स्वचालित वर्ड प्रोसेसिंग अनुप्रयोगों में थिसॉरस का उपयोग करने के उदाहरणों पर भी चर्चा करेगा।

  1. भाषाई संसाधन विकसित करने के सिद्धांत

सूचना पुनर्प्राप्ति कार्यों के लिए

इलेक्ट्रॉनिक दस्तावेजों (स्वचालित अनुक्रमण, वर्गीकरण, दस्तावेजों की तुलना) के प्रभावी स्वचालित प्रसंस्करण को सुनिश्चित करने के लिए, उनकी तुलना के लिए एक आधार बनाना आवश्यक है - दस्तावेज़ में जो उल्लेख किया गया था उसकी एक सूची। ऐसे सूचकांक को शब्द-दर-शब्द सूचकांक से अधिक प्रभावी बनाने के लिए, पाठ की शाब्दिक विविधता पर काबू पाना आवश्यक है: पर्यायवाची शब्द, बहुरूपता, भाषण के भाग, शैलीविज्ञान, और इसे एक अपरिवर्तनीय में कम करना - एक अवधारणा जो बन जाती है विभिन्न पाठों की तुलना का आधार। इस प्रकार, अवधारणाओं को भाषाई संसाधन का आधार बनना चाहिए, और भाषाई अभिव्यक्तियाँ: शब्द, शब्द - केवल पाठ इनपुट बन जाते हैं जो संबंधित अवधारणा को आरंभ करते हैं।

भिन्न लेकिन समान अवधारणाओं की तुलना करने में सक्षम होने के लिए, उनके बीच संबंध स्थापित करना होगा। परंपरागत रूप से, प्राकृतिक भाषा में पाठों के स्वचालित प्रसंस्करण के लिए भाषाई संसाधनों में शब्दार्थ संबंधों के कुछ सेटों का उपयोग किया जाता है, जैसे भाग, स्रोत, कारणऔर इसी तरह। हालाँकि, बड़े और विषम पाठ संग्रहों के साथ काम करते समय, हमें यह समझना चाहिए कि वर्ड प्रोसेसिंग तकनीक की वर्तमान स्थिति के साथ, एक कंप्यूटर सिस्टम उन प्रक्रियाओं को निष्पादित करने के लिए पाठ में इन संबंधों का विश्वसनीय रूप से पता लगाने में सक्षम नहीं होगा, जिनसे हम जुड़े हैं। ये या अन्य रिश्ते. इसलिए, अवधारणाओं के बीच संबंधों को सबसे पहले कुछ अपरिवर्तनीय गुणों का वर्णन करना चाहिए जो उस विशिष्ट पाठ के विषय पर निर्भर या कमजोर रूप से निर्भर नहीं करते हैं जिसमें अवधारणा का उल्लेख किया गया है।

इस रिश्ते का मुख्य कार्य निम्नलिखित प्रश्न का उत्तर देना है:

यदि यह ज्ञात हो कि पाठ C1 पर चर्चा करने के लिए समर्पित है, और C2 संबंधित है

नज़रियाआरC1 के साथ, क्या हम कह सकते हैं कि पाठ का विषय(*)

C2 से संबंधित?

स्वचालित प्रसंस्करण के लिए भाषाई संसाधन बनाते समय, यह निर्धारित करना महत्वपूर्ण है कि C1 और C2 अवधारणाओं के कौन से गुण हमें उनके बीच सही (*) संबंध स्थापित करने की अनुमति देते हैं।

इसलिए, उदाहरण के लिए, इससे कोई फर्क नहीं पड़ता कि पाठ किस बारे में लिखे गए हैं बिर्च,हम हमेशा कह सकते हैं कि ये गीत इसी बारे में हैं पेड़।लेकिन रिश्ते की लोकप्रियता और लगातार चर्चा के बावजूद पेड़भाग के रूप में जंगलों, पेड़ों के बारे में बहुत कम ग्रंथ जंगलों के बारे में ग्रंथ हैं। ध्यान दें कि समस्या रिश्ते के नाम से संबंधित नहीं है। इसलिए समाशोधन जंगल का हिस्सा है, और समाशोधन के बारे में पाठ वनों के बारे में पाठ हैं।

किसी विषय क्षेत्र में पाठों के संभावित विषयों के स्पेक्ट्रम के सापेक्ष संबंधों की अपरिवर्तनीयता काफी हद तक संबंधों के नाम, अर्थात् इसके परिमाणक और अस्तित्व संबंधी गुणों की तुलना में अधिक गहरे गुणों द्वारा निर्धारित होती है। इस प्रकार, संबंधों के परिमाणक गुण बताते हैं कि क्या किसी अवधारणा के सभी उदाहरणों में एक दिया गया संबंध है, क्या यह संबंध उदाहरण के पूरे जीवन चक्र के दौरान बना रहता है। संबंध का उपयोग करने में समस्या पेड़जंगलयह ठीक इस तथ्य के कारण है कि प्रत्येक विशिष्ट वृक्ष जंगल में स्थित नहीं है, लेकिन सफाया जंगल के बाहर नहीं हो सकता है।

संबंधों के अस्तित्वगत गुणों के विवरण का एक उदाहरण - क्या यह अवधारणा C1 के अस्तित्व से अवधारणा C2 के अस्तित्व का अनुसरण करता है (उदाहरण के लिए, अवधारणा का अस्तित्व गैरेजएक अवधारणा के अस्तित्व की आवश्यकता है ऑटोमोबाइल) या उदाहरण C1 का अस्तित्व उदाहरण C2 (इतना विशिष्ट) के अस्तित्व पर निर्भर करता है बाढ़एक विशिष्ट उदाहरण से अविभाज्य नदियों). आश्रित अवधारणा C2 के पाठ में चर्चा, विशेष रूप से उदाहरण पर निर्भर, से पता चलता है कि पाठ मुख्य अवधारणा C1 से भी संबंधित है।

आइए अवधारणाओं के बीच संबंध पर विचार करें जंगल और पेड़विस्तार में। वास्तव में, अवधारणा का हिस्सा जंगलहै जंगल में पेड़, जबकि वहाँ हैं स्वतंत्र खड़ा पेड़,बगीचे में पेड़आदि किसी भी स्थिति में अवधारणा के अधीनता के संबंध को तोड़ना आवश्यक है पेड़अवधारणा जंगल.

दूसरी ओर, जंगलएक प्रजाति है पेड़ों का संग्रह, पेड़ों के बिना अस्तित्व में नहीं है (साथ ही बगीचा). इस प्रकार, अवधारणा जंगलअवधारणा के संबंध में होना चाहिए पेड़. विशिष्ट अनुप्रयोग समस्याओं की आवश्यकताओं के विश्लेषण से शुरू करते हुए, हम इस निष्कर्ष पर पहुंचे कि संबंधों के गहरे गुणों का वर्णन करना महत्वपूर्ण है जो पहले भाषाई संसाधनों में बहुत कम परिलक्षित होते थे, लेकिन जो स्वचालित प्रसंस्करण के कार्यों के लिए अत्यंत महत्वपूर्ण हैं। बड़े पाठ संग्रहों के लिए, और, संभवतः, कई अन्य कार्यों के लिए।

अब हम ऊपर-नीचे (सभी संबंधों का 66%), भाग-संपूर्ण (संबंधों का 30%), एसोसिएशन (4%) के संयोजन में पारंपरिक थिसॉरस संबंधों के एक सेट के साथ अवधारणाओं के परिमाणक और अस्तित्व संबंधी गुणों का विवरण तैयार करते हैं। अतिरिक्त संशोधकों का निश्चित सेट (20% संबंध चिह्नित हैं)। ध्यान दें कि पार्ट-होल और एसोसिएशन संबंधों की व्याख्या नियम (*) को ध्यान में रखते हुए की जाती है। कुल मिलाकर, अवधारणाओं के बीच लगभग 160 हजार प्रत्यक्ष संबंधों का वर्णन किया गया है, जो संबंधों की परिवर्तनशीलता को ध्यान में रखते हुए, 1350 हजार से अधिक कनेक्शनों के विभिन्न कनेक्शनों की कुल संख्या देता है, यानी औसतन, प्रत्येक अवधारणा 30 अन्य के साथ जुड़ी हुई है। .

  1. रूटेज़ थिसॉरस: सामान्य संरचना

रुतेज़ थिसॉरस व्यक्तिगत शब्दों, पाठ अभिव्यक्तियों या पर्यायवाची श्रृंखला के अर्थों के अनुरूप अवधारणाओं का एक पदानुक्रमित नेटवर्क है। इस प्रकार, थिसॉरस के मुख्य तत्व अवधारणाएँ, भाषाई अभिव्यक्तियाँ, भाषाई अभिव्यक्तियों और अवधारणाओं के बीच संबंध और अवधारणाओं के बीच संबंध हैं।

थिसॉरस भाषाई ज्ञान दोनों को एक ही प्रणाली में जोड़ता है - लेक्सेम, मुहावरों और उनके कनेक्शन का वर्णन, पारंपरिक रूप से शाब्दिक, अर्थ संबंधी ज्ञान से संबंधित है, और विषय क्षेत्रों के भीतर शब्दों और संबंधों के बारे में ज्ञान, पारंपरिक रूप से शब्दावली विशेषज्ञों की गतिविधि के क्षेत्र से संबंधित है, जिसका वर्णन किया गया है। सूचना पुनर्प्राप्ति थिसॉरी। ऐसे विषय उप-क्षेत्रों के रूप में, थिसॉरस ऐसे विषय क्षेत्रों का वर्णन करता है जैसे अर्थशास्त्र, कानून, वित्त, अंतर्राष्ट्रीय संबंध, जो रोजमर्रा के मानव जीवन के लिए इतने महत्वपूर्ण हैं कि पारंपरिक व्याख्यात्मक शब्दकोशों में उनका महत्वपूर्ण शाब्दिक प्रतिनिधित्व है। उनमें, शाब्दिक और शब्दावली आपस में दृढ़ता से जुड़े हुए हैं और एक-दूसरे के साथ दृढ़ता से बातचीत करते हैं।

भाषाई अभिव्यक्तियाँ व्यक्तिगत शब्दांश (संज्ञा, विशेषण और क्रिया), नाममात्र और मौखिक समूह हैं। इस प्रकार, थिसॉरस में वर्तमान में क्रियाविशेषण और फ़ंक्शन शब्द भाषाई अभिव्यक्ति के रूप में शामिल नहीं हैं। बहुशब्द समूहों में शब्द, मुहावरे, शाब्दिक कार्य शामिल हो सकते हैं ( प्रभावइ)।

प्रत्येक भाषाई अभिव्यक्ति के लिए निम्नलिखित का वर्णन किया गया है:

इसका बहुविकल्पी एक या अधिक अवधारणाओं के साथ संबंध है, जिसका अर्थ है कि एक दी गई भाषाई अभिव्यक्ति इस अवधारणा की पाठ्य अभिव्यक्ति के रूप में काम कर सकती है। किसी भाषाई अभिव्यक्ति को विभिन्न अवधारणाओं से जोड़ना भी उसके बहुरूपी होने का एक अंतर्निहित संकेत है;

इसकी रूपात्मक संरचना (भाषण का हिस्सा, संख्या, मामला);

विशेषताएँ लिखना (उदाहरण के लिए, बड़े अक्षर के साथ), आदि।

प्रत्येक थिसॉरस अवधारणा का एक अद्वितीय नाम होता है, भाषाई अभिव्यक्तियों की एक सूची होती है जिसके साथ इस अवधारणा को पाठ में व्यक्त किया जा सकता है, और अन्य अवधारणाओं के साथ संबंधों की एक सूची होती है।

इसकी स्पष्ट पाठ्य अभिव्यक्तियों में से एक को आमतौर पर किसी अवधारणा के लिए एक अद्वितीय नाम के रूप में चुना जाता है। लेकिन एक अवधारणा का नाम उसके अस्पष्ट पाठ अभिव्यक्तियों की एक जोड़ी से भी बनाया जा सकता है - पर्यायवाची शब्द, अल्पविराम द्वारा अलग किए गए और स्पष्ट रूप से इसे परिभाषित करते हुए लिखे गए (उदाहरण के लिए, अवधारणा मोटा). किसी अवधारणा के नाम की अस्पष्ट पाठ अभिव्यक्ति को एक चिह्न या व्याख्या के संक्षिप्त टुकड़े के साथ भी प्रदान किया जा सकता है, उदाहरण के लिए, अवधारणा भीड़ (लोगों का समूह)।

  1. उदाहरण शब्दकोश प्रविष्टि

हमने उदाहरण के तौर पर अवधारणा के लिए शब्दकोश प्रविष्टि को चुना जंगल, शब्द के किसी एक अर्थ के अनुरूप जंगल. यह शब्दकोश प्रविष्टि दिलचस्प है क्योंकि इसमें विभिन्न प्रकार के ज्ञान शामिल हैं, जिन्हें पारंपरिक रूप से शाब्दिक (शब्दार्थ) ज्ञान और विश्वकोशीय ज्ञान (विषय क्षेत्र, शब्दावली के बारे में ज्ञान) के रूप में वर्गीकृत किया गया है।

अवधारणा के पर्यायवाची जंगल(कुल 13):

जंगल(एम), वन क्षेत्र, वन पर्यावरण,

जंगल, वन क्षेत्र, वन परिदृश्य,

वन क्षेत्र, वनक्षेत्र, वनाच्छादित क्षेत्र,

वन क्षेत्र, छोटा जंगल,

वनों की श्रृंखला.

समानार्थक शब्द वाली अवधारणाएँ नीचे दी गई हैं:

JUNGLE(JUNGLE);

फ़ॉरेस्ट पार्क(शहर का बगीचा, हरित क्षेत्र,

हरित क्षेत्र, वन पार्क,

वन प्रबंधन, वन पार्क

बेल्ट, पार्क(एम), पार्क क्षेत्र);

वानिकी;

जंगल छोड़ दिया(नरम पत्तों वाला जंगल, कठोर पत्तों वाला

जंगल);

कुंज(ओक ग्रोव);

शंकुधारी वन (शंकुधारी वन, गहरे शंकुधारी वन)

समानार्थक शब्द के साथ अवधारणाएँ-भाग:

हवा का झोंका(हवा का झोंका, हवा का झोंका);

काट रहा है(काटने का क्षेत्र);

वन संस्कृति(वन प्रजातियाँ, वानिकी

संस्कृति);

वन भूमि (वन भूमि; आच्छादित भूमि

जंगल; वन भूमि, वन क्षेत्र;

वनाच्छादित भूमि, वनाच्छादित

क्षेत्र);

वन वृक्षारोपण(वन वृक्षारोपण, वन वृक्षारोपण,

वनीकरण);

जंगल का किनारा(किनारा, किनारा);

अंडरफ़्लावर (अंडरफ़्लावर)।);

प्रोसेका;

सूखी लकड़ी(Deadwood).

यहां प्रतीक (एम) पाठ इनपुट की अस्पष्टता के बारे में एक नोट दर्शाते हैं।

अवधारणा जंगलइसके अन्य रिश्ते भी हैं, तथाकथित निर्भरता रिश्ते (आधुनिक संस्करण में उन्हें एएससी 2 - असममित एसोसिएशन कहा जाता है): जंगल की आग(जंगल की आग, जंगल में आग; वन उपयोग (वन उपयोग, वन निधि क्षेत्रों का उपयोग); वानिकी; वन विज्ञान (वन विज्ञान). जैसा कि पैराग्राफ 2 में पहले ही उल्लेख किया गया है, वन की अवधारणा पेड़ की अवधारणा पर निर्भर करती है, जिसे थिसॉरस में संबंध एएससी 1 द्वारा दर्शाया गया है।

कुल संकल्पना जंगलसंबंधों की परिवर्तनशीलता को ध्यान में रखते हुए, 28 अन्य अवधारणाओं के साथ सीधे जुड़ा हुआ है - 235 अवधारणाओं (कुल 650 से अधिक पाठ इनपुट) के साथ।

  1. वर्तमान स्थिति का आकलन

रूसी भाषा कोश रुतेज़

5.1. शाब्दिक रचना

वर्तमान में, थिसॉरस नेटवर्क में 95 हजार से अधिक भाषाई अभिव्यक्तियाँ शामिल हैं, जिनमें से 61 हजार एकल-शब्द हैं।

कार्य की इस मात्रा ने हमें यह तय करने के लिए मजबूर किया कि थिसॉरस विवरण में किन शब्दों और भाषाई अभिव्यक्तियों को शामिल करने की आवश्यकता है। स्वाभाविक इच्छा यह देखने की थी कि रूसी भाषा में सबसे अधिक बार आने वाले शब्दों को थिसॉरस में कैसे दर्शाया जाता है। इस प्रयोजन के लिए, विश्वविद्यालय सूचना प्रणाली RUSSIA (400 हजार दस्तावेज़) के पाठ संग्रह का उपयोग किया गया था। संग्रह में रूसी संघ के विभिन्न निकायों के आधिकारिक दस्तावेज़ (1992 से 55 हजार दस्तावेज़), साथ ही 1999 से प्रेस सामग्री (समाचार पत्र इज़वेस्टिया, नेज़ाविसिमया गज़ेटा, कोम्सोमोल्स्काया प्रावदा, आर्गुमेंटी आई फैक्टी, विशेषज्ञ पत्रिका और अन्य), वैज्ञानिक सामग्री शामिल हैं। जर्नल ("मॉस्को यूनिवर्सिटी का बुलेटिन", "सोशियोलॉजिकल जर्नल")। थिसॉरस में शामिल लेम्माओं की सूची और पाठ संग्रह में सबसे अधिक बार आने वाले 100,000 लेम्माओं की सूची (25 से अधिक आवृत्ति) के बीच तुलना की गई थी।

सूची के पोलेक्सेम अंकन से पता चला कि इन सौ हजार लेम्माओं में से, 35 हजार रुतेज़ में वर्णित हैं, केवल लगभग 7 हजार लेक्सेम थिसॉरस में शामिल होने के लायक हैं, बाकी विभिन्न उचित नामों के लेमेटिक रूप हैं। इसलिए, पुनःपूर्ति एक प्राथमिकता वाला कार्य नहीं रह गया है और इसे सबसे अधिक बार आने वाले शब्दों से शुरू करके धीरे-धीरे किया जाता है। यह माना जाता है कि जैसे ही यह सूची अधिकतर समाप्त हो जाएगी, सूचना प्रणाली के पाठ सरणी के साथ एक और तुलना की जाएगी, 25 से अधिक की आवृत्ति वाले नए लेक्सेम का चयन किया जाएगा। इसके बाद, देखने की सीमा को कम किया जाना चाहिए . पाठ संग्रह में बड़ी संख्या में पाठ उदाहरणों की उपस्थिति आपको "शब्दावली नवाचारों" पर तुरंत प्रतिक्रिया देने की अनुमति देती है (उदाहरण के लिए, इंस्टालेशन,फिल्म, ब्यू मोंडे, थ्रिलर) और उन्हें थिसॉरस पदानुक्रमित प्रणाली में उपयुक्त स्थानों में शामिल करें।

मौजूदा पाठ संग्रह के साथ लगातार काम करने से शब्दकोशों में प्रस्तावित शाब्दिक विवरणों के महत्व और गुणवत्ता की जांच के लिए अद्वितीय अवसर मिलते हैं। उदाहरण के लिए, शब्द के उपयोग की असामान्य रूप से उच्च आवृत्ति माँ देखो(400 से अधिक बार)। सारणी की जाँच से पता चला कि यह शब्द वास्तव में अक्सर शब्द के पर्यायवाची के रूप में उपयोग किया जाता है मास्को, जबकि व्याख्यात्मक शब्दकोश अक्सर इस शब्द को अप्रचलित के रूप में चिह्नित करते हैं। शब्दकोशों में अप्रचलित के रूप में चिह्नित अक्सर उपयोग किए जाने वाले शब्द (300 से अधिक बार) का एक और उदाहरण शब्द है आनंदमय.

5.2 शब्द अर्थ का वर्णन

पाठ संग्रह के साथ तुलना से पता चलता है कि सरणी में कई आवृत्ति शब्द थिसॉरस में उनके कम से कम एक (आमतौर पर बुनियादी) अर्थ में अच्छी तरह से दर्शाए गए हैं। यह पता लगाना कि थिसॉरस रूसी भाषा में बहुअर्थी शब्दों के अर्थों की सीमा को किस हद तक दर्शाता है, वर्तमान समय में हमारा प्राथमिक कार्य है।

जैसा कि ज्ञात है, अक्सर अलग-अलग शब्दकोश स्रोत बहुविकल्पीय शब्दों के लिए अलग-अलग अर्थ देते हैं, अर्थ के रंगों को उजागर करते हैं, और एक ही शब्दकोश में भी विभिन्न शब्दों के लिए एक ही प्रकार के बहुविकल्पी को अलग-अलग तरीके से वर्णित किया जा सकता है। इसलिए, लेक्सेम के अर्थों का लगातार और प्रतिनिधि रूप से वर्णन करने का कार्य किसी भी शब्दावली संसाधन के रचनाकारों के लिए एक महत्वपूर्ण कार्य है।

हालाँकि, यदि संसाधन स्वचालित प्रसंस्करण के लिए अभिप्रेत है, तो मूल्यों के संतुलित विवरण का कार्य अधिक महत्वपूर्ण हो जाता है। अत्यधिक मूल्य मुद्रास्फीति के परिणामस्वरूप कंप्यूटर सिस्टम वांछित मूल्य का चयन करने में असमर्थ हो सकता है, जिसके परिणामस्वरूप स्वचालित वर्ड प्रोसेसिंग सिस्टम के प्रदर्शन में महत्वपूर्ण कमी आ सकती है। तो, स्वचालित वर्ड प्रोसेसिंग के लिए संसाधन के रूप में वर्डनेट संसाधन का एक नुकसान कुछ शब्दों के लिए वर्णित अर्थों की अत्यधिक संख्या है (वर्डनेट 1.6 में: 53 अर्थ दौड़ना, 47 के लिए खेलऔर इसी तरह।)। पाठों की शब्दार्थ व्याख्या करते समय इन अर्थों को मनुष्यों के लिए भी भेद करना कठिन होता है। यह स्पष्ट है कि कंप्यूटर सिस्टम भी उचित मूल्य चुनने में असमर्थ है। इसलिए, विभिन्न लेखक प्रसंस्करण गुणवत्ता में सुधार के लिए मूल्यों को संयोजित करने के विभिन्न तरीकों का प्रस्ताव करते हैं।

उसी समय, विपरीत कारक कार्य करता है: यदि अर्थ वास्तव में शब्दकोश कनेक्शन के सेट में भिन्न होते हैं (हमारे मामले में, थिसॉरस कनेक्शन) - उन्हें एक इकाई (एक अवधारणा) में चिपकाया नहीं जा सकता है - इससे भी गिरावट आएगी स्वचालित प्रसंस्करण की गुणवत्ता।

आइए शब्दों का एक उदाहरण लें विद्यालयऔर गिरजाघर, जिनमें से प्रत्येक को एक संगठन और एक इमारत के रूप में माना जा सकता है।

प्रत्येक स्कूल संगठन के पास एक भवन (अक्सर एक) होता है। विद्यालय भवन के सभी भाग (कक्षाएँ, ब्लैकबोर्ड) किससे संबंधित हैं? विद्यालयएक संगठन कैसे हो. कोई विशिष्ट प्रकार के स्कूल भवन नहीं हैं। इसलिए विवरण स्कूलोंइमारतों के रूप में, उन्हें एक अलग अवधारणा में विभाजित करना अनुचित है। हालाँकि, ऐसी सामूहिक अवधारणा का वर्णन विद्यालयएक संगठन के रूप में और एक भवन के रूप में अवधारणा के साथ एक विशेष रूप से डिज़ाइन किया गया संबंध होना चाहिए इमारत. थिसॉरस में ऐसे संबंधों का वर्णन करते समय, रिश्ते पर एक चिह्न का उपयोग किया जाता है - संशोधक "ए" ("पहलू"; स्वचालित विश्लेषण के दौरान, इस रिश्ते को ध्यान में रखने के लिए अन्य अवधारणाओं द्वारा "पुष्टि" की आवश्यकता होती है)।

विद्यालय

उच्च शैक्षिक संस्था

इसके ऊपर सार्वजनिक ईमारत

शब्द के संगत अर्थ गिरजाघरइतना करीब नहीं. चर्चोंएक संगठन के रूप में, इसमें विभिन्न स्थानों पर बड़ी संख्या में चर्च भवन हो सकते हैं, और कई अन्य भवन भी हैं। चर्च के निर्माणधर्म और स्वीकारोक्ति से गहरा संबंध है, लेकिन संबद्धता बदल सकती है चर्च संगठन. चर्च-संगठनऔर चर्च के निर्माणअलग-अलग उप-प्रजातियाँ हैं। इसीलिए चर्च (संगठन)) और चर्च (भवन) RuTez में विभिन्न अवधारणाओं के रूप में प्रस्तुत किया गया है।

थिसॉरस कनेक्शन में महत्वपूर्ण विचलन एक दूसरे से अलग-अलग मौजूद होने के अर्थों के अनुरूप अर्थों की क्षमता के साथ एक दिलचस्प तरीके से सहसंबंधित होता है। इस प्रकार, स्कूल-भवन के विपरीत, एक चर्च-भवन का अस्तित्व समाप्त नहीं होता है और उसे चर्च भी कहा जाता है, भले ही उसका उपयोग बदल जाए।

थिसॉरस में मूल्यों के प्रतिनिधित्व को सत्यापित करने की प्रक्रिया लगातार चल रही है, जो कि सबसे अधिक बार होने वाले लेम्मा से शुरू होती है। प्रत्येक फ़्रीक्वेंसी लेक्सेम के लिए, यह जांचा जाता है कि व्याख्यात्मक शब्दकोशों में इसके अर्थों का वर्णन कैसे किया गया है, संग्रह में किन अर्थों का उपयोग किया गया है और उन्हें थिसॉरस में कैसे प्रस्तुत किया गया है। परिणामस्वरूप, अब 10,000 लेक्सेम की एक सूची बनाई गई है, जिसकी अस्पष्टता के लिए अभी भी अतिरिक्त विश्लेषण या अतिरिक्त विवरण की आवश्यकता है। सूची सबसे अधिक बार आने वाले 30 हजार लेम्माओं के आधार पर प्राप्त की गई थी।

यह ध्यान दिया जाना चाहिए कि थिसॉरस में पॉलीसेमी की समस्या आंशिक रूप से इस तथ्य के कारण हटा दी गई है कि थिसॉरस कनेक्शन को किसी शब्द के विभिन्न अर्थों के बीच वर्णित किया जा सकता है, और इसलिए पदानुक्रम में उच्चतम अवधारणा को डिफ़ॉल्ट रूप से चुना जा सकता है। पाठ में इसकी चर्चा अवश्य की गई थी। उदाहरण के लिए, शब्द तस्वीरइसके तीन अर्थ हैं: गतिविधि के क्षेत्र के रूप में फोटोग्राफी, एक फोटोग्राफिक छवि के रूप में फोटोग्राफी, एक फोटो स्टूडियो के रूप में फोटोग्राफी:

फोटोग्राफी(फोटो खींचना, फोटो व्यवसाय, ..., तस्वीर )

भाग फोटोग्राफिक छवि

(तस्वीर, फोटो, तस्वीर )

भाग फोटो स्टूडियो (तस्वीर ).

इस प्रकार, यदि यह पता लगाना संभव नहीं था कि शब्द का उपयोग किस अर्थ में किया गया था तस्वीर, डिफ़ॉल्ट यह मान लेना है कि एक फोटो लिया गया था (किसी प्रक्रिया, परिणाम या स्थान का), जो कई स्वचालित टेक्स्ट प्रोसेसिंग अनुप्रयोगों के लिए पर्याप्त है।

  1. रूटेज़ थिसॉरस का अनुप्रयोग

स्वचालित पाठ प्रसंस्करण के लिए

1995 के बाद से, सामाजिक-राजनीतिक शब्दावली रूटेज़ (सामाजिक-राजनीतिक थिसॉरस) का उपयोग स्वचालित पाठ प्रसंस्करण के विभिन्न अनुप्रयोगों के लिए सक्रिय रूप से और सफलतापूर्वक किया गया है, जैसे स्वचालित वैचारिक अनुक्रमण, कई रूब्रिकेटर का उपयोग करके स्वचालित रूब्रिकेशन, अंग्रेजी भाषा सहित ग्रंथों की स्वचालित एनोटेशन। लोगों. सामाजिक-राजनीतिक थिसॉरस (27 हजार अवधारणाएं, 62 हजार पाठ प्रविष्टियां) यूआईएस रूस खोज प्रणाली (www.cir.ru) में एक बुनियादी खोज उपकरण है।

रूटेज़ थिसॉरस की सभी शब्दावली का उपयोग जटिल पदानुक्रमित रूब्रिकेटर का उपयोग करके पाठों को स्वचालित रूप से वर्गीकृत करने की प्रक्रियाओं में किया जाता है। मौजूदा तकनीक में, प्रत्येक श्रेणी को शब्दों की बूलियन अभिव्यक्ति के रूप में वर्णित किया गया है, जिसके बाद मूल सूत्र को थिसॉरस पदानुक्रम के साथ विस्तारित किया जाता है। परिणामी बूलियन अभिव्यक्ति में पहले से ही सैकड़ों और हजारों संयोजन और विच्छेद शामिल हो सकते हैं।

आइए, एक उदाहरण के रूप में, SOFIST 2 रूब्रिकेटर के "एक महिला की छवि" रूब्रिक के थिसॉरस अवधारणाओं (और सूत्र का विस्तार करने के बाद भाषाई अभिव्यक्ति) का उपयोग करते हुए विवरण का एक टुकड़ा दें, जिसका उपयोग VTsIOM द्वारा जनमत सर्वेक्षण प्रश्नावली को वर्गीकृत करने के लिए किया जाता है:

(महिला[एन]

|| लड़की[एन]

|| रिश्तेदार [एल] (दादी, पोती, चचेरी बहन,

बेटी, भाभी, माँ, सौतेली माँ, बहू, सौतेली बेटी, ...))

(चरित्र गुण[एल] (मितव्ययी, हृदयहीन, भुलक्कड़,

तुच्छ, उपहास करनेवाला, असहिष्णु, मिलनसार, ...)

|| छवि [ई] (प्रस्तुति, उपस्थिति, उपस्थिति,

दिखावट, दिखावट, छवि, रूप)

|| सुखद [एल] (..., दिलचस्प, सुंदर, प्यारा,

आकर्षक, प्यारा, आकर्षक, ...)

|| अप्रिय[एल] (असहानुभूतिपूर्ण, असभ्य, बुरा, ...)

|| सराहना[एल] (आदर करना, आदर करना, आराधना करना,

पूजा करो, आराधना करो,...)

|| पसंद करें[एन]

प्रतीक "ई" थिसॉरस पदानुक्रम के साथ पूर्ण विस्तार को दर्शाता है, प्रतीक "एल" - प्रजाति संबंधों ("नीचे") के अनुसार, प्रतीक "एन" - विस्तार नहीं करता है।

स्वचालित पाठ वर्गीकरण, थिसॉरस ज्ञान और मशीन सीखने की प्रक्रियाओं के संयोजन के लिए एक संयुक्त तकनीक विकसित करने के लिए अनुसंधान किया जा रहा है।

प्राकृतिक भाषा में तैयार की गई क्वेरी का विस्तार करने के लिए थिसॉरस का उपयोग करने के मुद्दों का पता लगाया जा रहा है (वर्तमान में, थिसॉरस का केवल सामाजिक-राजनीतिक भाग यूआईएस रूस की सूचना पुनर्प्राप्ति प्रणाली में शब्दावली क्वेरी का विस्तार करने के लिए उपयोग किया जाता है), और खोज की जा रही है बड़े पाठ संग्रहों में प्रश्नों के उत्तर।

सात निष्कर्ष

यह पेपर बड़े पाठ संग्रहों के स्वचालित प्रसंस्करण के लिए भाषाई संसाधनों को विकसित करने के बुनियादी सिद्धांतों को प्रस्तुत करता है। निर्मित भाषाई संसाधन - रूसी भाषा का थिसॉरस रुतेज़ - दस्तावेजों के वैचारिक अनुक्रमण, जटिल पदानुक्रमित रूब्रिकेटर के अनुसार स्वचालित रूब्रिकेटर, प्राकृतिक भाषा प्रश्नों के स्वचालित विस्तार जैसे स्वचालित पाठ प्रसंस्करण अनुप्रयोगों में उपयोग के लिए अभिप्रेत है।

यह कार्य आंशिक रूप से रूसी मानवतावादी फाउंडेशन अनुदान संख्या 00-04-00272a द्वारा समर्थित है।

साहित्य

  1. लुकाशेविच एन.वी., साली ए.डी., स्वचालित पाठ प्रसंस्करण की प्रणाली में ज्ञान का प्रतिनिधित्व //एनटीआई, सेर.2। 1997. नंबर 3. पी. 1‑6.
  2. ज़ुरावलेव एस.वी., युदीना टी.एन., सूचना प्रणाली रूस //एनटीआई, सेर.2। 1995. नंबर 3. पी. 18‑20.
  3. विंस्टन एम., चैफिन आर., हरमन डी., आंशिक-संपूर्ण संबंधों का एक वर्गीकरण // संज्ञानात्मक विज्ञान। 1987. नहीं. 11. पी. 417‑444.
  4. प्रिस यू.ई., रिलेशनल कॉन्सेप्ट विश्लेषण के तरीकों द्वारा वर्डनेट का औपचारिकीकरण // वर्डनेट। एक इलेक्ट्रॉनिक लेक्सिकल डेटाबेस/एड। सी. फेलबाम द्वारा। कैम्ब्रिज, मैसाचुसेट्स, लंदन, इंग्लैंड: एमआईटी प्रेस 1998. पी. 179‑196।
  5. ग्वारिनो एन., वेल्टी सी., गुणों की एक औपचारिक ओन्टोलॉजी // ओन्टोलॉजी और समस्या समाधान विधियों के अनुप्रयोगों पर ईसीएआई-00 कार्यशाला की कार्यवाही। बर्लिन: 2000. पी. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html)।

ऊपरी स्तर के शाब्दिक संसाधनों को डिजाइन करने के लिए कुछ ऑन्टोलॉजिकल सिद्धांत // प्रथम इंट। कॉन्फ़. भाषा संसाधन और मूल्यांकन पर। 1998.

  1. लुकाशेविच एन.वी., डोब्रोव बी.वी., स्वचालित अनुक्रमण के लिए थिसॉरस में वैचारिक संबंधों के संशोधक // एनटीआई, धारा 2। 2000, क्रमांक 4, पृ. 21‑28.
  2. रूसी भाषा का बड़ा व्याख्यात्मक शब्दकोश / एड। एस.ए. कुज़नेत्सोवा। सेंट पीटर्सबर्ग: नोरिंट, 1998।
  3. ओज़ेगोव एस.आई., श्वेदोवा एन.यू., रूसी भाषा का व्याख्यात्मक शब्दकोश - तीसरा संस्करण। एम.: एज़, 1996।
  4. एप्रेसियन यू.डी., चयनित कार्य, खंड I. लेक्सिकल सिमेंटिक्स: दूसरा संस्करण। एम.: स्कूल "रूसी संस्कृति की भाषाएँ", एड। फर्म "ओरिएंटल लिटरेचर" आरएएस, 1995।
  5. जी. मिलर, आर. बेकविथ, सी. फेलबाम, डी. ग्रॉस और के. मिलर, वर्डनेट पर पांच पेपर, सीएसएल रिपोर्ट 43. संज्ञानात्मक विज्ञान प्रयोगशाला, प्रिंसटन विश्वविद्यालय, 1990।
  6. चुगुर, जे. गोंज़ालो और एफ. वर्डजियो, एनएलपी अनुप्रयोगों में सेंस डिस्टिंक्शन // "ऑन्टोलेक्स-2000" की कार्यवाही: ओन्टोलॉजी और लेक्सिकल नॉलेज बेस। सोफिया: ऑनटूटेक्स्टलैब। 2000.
  7. लौकाचेविच एन., डोबरोव बी., बहुभाषी सूचना प्रणालियों में थिसॉरस-आधारित संरचनात्मक विषयगत सारांश // मशीन अनुवाद समीक्षा। 2000. नहीं. 11. पी. 10‑20. (http://www.bcs.org.uk/siggroup/nalatrans/mtreview/mtr-11/mtr-11-8.htm)।

प्राकृतिक भाषा प्रसंस्करण के लिए रूसी भाषा का थिसॉरस

बड़े पाठ संग्रह का

नतालिया वी. लौकाचेविच, बोरिस वी. डोबरोव

कीवर्ड:थिसारस, प्राकृतिक भाषा प्रसंस्करण, सूचनात्मक पुनर्प्राप्ति

हमारी प्रस्तुति में हम बड़े पाठ संग्रहों के स्वचालित प्रसंस्करण के लिए शाब्दिक संसाधनों को विकसित करने के मुख्य सिद्धांतों पर विचार करते हैं और रूसी भाषा के थिसॉरस की संरचना का वर्णन करते हैं, जिसे 1997 से विशेष रूप से स्वचालित पाठ प्रसंस्करण के लिए एक उपकरण के रूप में विकसित किया गया है। अब थिसारस 42 हजार अवधारणाओं का एक श्रेणीबद्ध जाल है। हम 400 हजार दस्तावेजों सहित विश्वविद्यालय सूचना प्रणाली रूस (www.cir.ru) के पाठ संग्रह के 100,000 सबसे लगातार लेम्मा की तुलना में थिसॉरस के विकास के वर्तमान चरण का वर्णन करते हैं। इसके अलावा हम स्वचालित पाठ प्रसंस्करण के विभिन्न अनुप्रयोगों में थिसॉरस के उपयोग पर भी विचार करते हैं।

, एंटोनिम्स, समानार्थक शब्द, सम्मोहन, हाइपरनिम्स, आदि) शाब्दिक इकाइयों के बीच। व्यक्तिगत विषय क्षेत्रों का वर्णन करने के लिए थिसॉरी सबसे प्रभावी उपकरणों में से एक है।

अतीत में शब्द कोशअधिकतर शब्दकोशों को नामित किया गया था, जो ग्रंथों में इसके उपयोग के उदाहरणों के साथ भाषा की शब्दावली को अधिकतम पूर्णता के साथ प्रस्तुत करते थे।

साथ ही टर्म कोशसूचना सिद्धांत में विषय के पास मौजूद सभी सूचनाओं की समग्रता को दर्शाने के लिए उपयोग किया जाता है।

मनोविज्ञान में, किसी व्यक्ति के थिसॉरस की पहचान सूचना की धारणा और समझ से होती है। संचार सिद्धांत एक जटिल प्रणाली के सामान्य थिसॉरस पर भी विचार करता है जिसके माध्यम से इसके तत्व परस्पर क्रिया करते हैं।

कहानी

पहली थिसॉरी में से एक को बायब्लोस के फिलो द्वारा "समानार्थक शब्द का शब्दकोश" कहा जाता है। इस शब्द का अधिक सटीक पत्राचार अमर-कोश है, जो छठी शताब्दी में काव्यात्मक रूप में संस्कृत में लिखा गया था। पहला आधुनिक अंग्रेजी थिसॉरस 1805 में पीटर मार्क रोजर द्वारा बनाया गया था। यह 1852 में प्रकाशित हुआ था और तब से बिना पुनर्मुद्रण के इसका उपयोग किया जा रहा है।

1970 के दशक में, सूचना पुनर्प्राप्ति कार्यों के लिए थिसॉरी का सक्रिय रूप से उपयोग किया जाने लगा। ऐसी थिसौरी में, शब्दों को वर्णनकर्ताओं के साथ मैप किया जाता है जिसके माध्यम से अर्थ संबंधी संबंध स्थापित किए जाते हैं।

थिसॉरस

यह सभी देखें

"थिसॉरस" लेख के बारे में एक समीक्षा लिखें

टिप्पणियाँ

थिसारस की विशेषता बताने वाला अंश

- आज तुम कितने अच्छे हो! - नेस्विट्स्की ने अपने नए मेंटल और सैडल पैड को देखते हुए कहा।
डेनिसोव मुस्कुराया, अपने बैग से एक रूमाल निकाला, जिसमें इत्र की गंध थी, और उसे नेस्विट्स्की की नाक में चिपका दिया।
- मैं नहीं कर सकता, मैं काम पर जा रहा हूँ! मैं बाहर निकला, अपने दाँत ब्रश किये और परफ्यूम लगाया।
एक कोसैक के साथ नेस्वित्स्की की गरिमामय छवि, और डेनिसोव के दृढ़ संकल्प, अपनी कृपाण लहराते हुए और हताश होकर चिल्लाते हुए, ऐसा प्रभाव पड़ा कि वे पुल के दूसरी तरफ दब गए और पैदल सेना को रोक दिया। नेस्विट्स्की को बाहर निकलने पर एक कर्नल मिला, जिसे उसे आदेश देना था, और उसके निर्देशों को पूरा करने के बाद, वह वापस चला गया।
सड़क साफ़ करने के बाद, डेनिसोव पुल के प्रवेश द्वार पर रुक गया। लापरवाही से अपनी ओर दौड़ते घोड़े को पकड़कर लात मारते हुए, उसने स्क्वाड्रन को अपनी ओर बढ़ते हुए देखा।
पुल के बोर्डों पर खुरों की पारदर्शी आवाजें सुनाई दे रही थीं, जैसे कि कई घोड़े सरपट दौड़ रहे हों, और स्क्वाड्रन, सामने एक पंक्ति में चार अधिकारियों के साथ, पुल के साथ फैला हुआ था और दूसरी तरफ उभरने लगा।
रुके हुए पैदल सेना के सैनिक, पुल के पास कुचले हुए कीचड़ में भीड़ लगाकर, साफ-सुथरे, आकर्षक हुसारों को अलगाव और उपहास की उस विशेष अमित्र भावना के साथ व्यवस्थित रूप से आगे बढ़ते हुए देख रहे थे, जिसका सामना सेना की विभिन्न शाखाओं को आमतौर पर करना पड़ता है।
- होशियार लोग! यदि यह केवल पोड्नोविंस्को पर होता!
- वे कितने अच्छे हैं? वे केवल दिखावे के लिए गाड़ी चलाते हैं! - दूसरे ने कहा।
- पैदल सेना, धूल मत झाड़ो! - हुस्सर ने मजाक किया, जिसके तहत घोड़े ने खेलते हुए पैदल सैनिक पर कीचड़ उछाल दिया।
पैदल सैनिक ने अपनी आस्तीन से अपने चेहरे की गंदगी को पोंछते हुए कहा, "अगर मैंने तुम्हें अपने बैग के साथ दो मार्च में चलाया होता, तो फीते खराब हो गए होते।" - अन्यथा यह कोई व्यक्ति नहीं, बल्कि एक पक्षी बैठा है!
"काश मैं तुम्हें घोड़े पर बिठा पाता, ज़िकिन, अगर तुम फुर्तीले होते," कॉर्पोरल ने अपने बैकपैक के वजन से झुके हुए पतले सैनिक के बारे में मज़ाक किया।
हुस्सर ने जवाब दिया, "अपनी टांगों के बीच में गदा ले लो और तुम्हारे पास एक घोड़ा होगा।"

शेष पैदल सेना तेजी से पुल के पार चली गई, जिससे प्रवेश द्वार पर एक फ़नल बन गया। अंत में, सभी गाड़ियाँ गुजर गईं, क्रश कम हो गया और आखिरी बटालियन पुल में प्रवेश कर गई। केवल डेनिसोव के स्क्वाड्रन के हुसार दुश्मन के खिलाफ पुल के दूसरी तरफ बने रहे। विपरीत पर्वत से, नीचे से, पुल से दूरी में दिखाई देने वाला दुश्मन अभी तक दिखाई नहीं दे रहा था, क्योंकि जिस खोखले रास्ते से नदी बहती थी, क्षितिज विपरीत ऊंचाई पर आधे मील से अधिक दूर नहीं समाप्त होता था। आगे एक रेगिस्तान था, जिसके किनारे-किनारे हमारे यात्रा करने वाले कोसैक के समूह घूम रहे थे। अचानक, सड़क की विपरीत पहाड़ी पर, नीले हुड और तोपखाने में सैनिक प्रकट हुए। ये फ्रांसीसी थे. कोसैक गश्ती दल नीचे की ओर चला गया। डेनिसोव के स्क्वाड्रन के सभी अधिकारियों और पुरुषों ने, हालांकि उन्होंने बाहरी लोगों के बारे में बात करने और चारों ओर देखने की कोशिश की, केवल पहाड़ पर क्या था इसके बारे में सोचना बंद नहीं किया, और लगातार क्षितिज पर स्थानों पर नज़र डाली, जिन्हें उन्होंने दुश्मन सैनिकों के रूप में पहचाना। दोपहर में मौसम फिर से साफ हो गया, डेन्यूब और उसके आसपास के अंधेरे पहाड़ों पर सूरज चमक रहा था। वह शांत था, और उस पहाड़ से कभी-कभी दुश्मन के सींगों और चीखों की आवाज़ें सुनी जा सकती थीं। छोटे गश्ती दल को छोड़कर, स्क्वाड्रन और दुश्मनों के बीच कोई नहीं था। एक ख़ाली जगह, तीन सौ थाह, ने उन्हें उससे अलग कर दिया। दुश्मन ने गोलीबारी बंद कर दी, और अधिक स्पष्ट रूप से उस सख्त, खतरनाक, अभेद्य और मायावी रेखा को महसूस किया गया जो दो दुश्मन सैनिकों को अलग करती है।
“इस रेखा से एक कदम आगे, जीवित को मृत से अलग करने वाली रेखा की याद दिलाती है, और - पीड़ा और मृत्यु का अज्ञात। और वहां क्या है? वहाँ कौन है? वहाँ, इस मैदान से परे, और पेड़, और सूरज से रोशन छत? कोई नहीं जानता, और मैं जानना चाहता हूँ; और इस रेखा को पार करना डरावना है, और आप इसे पार करना चाहते हैं; और आप जानते हैं कि देर-सबेर आपको इसे पार करना होगा और पता लगाना होगा कि रेखा के दूसरी तरफ क्या है, जैसे यह पता लगाना अपरिहार्य है कि मृत्यु के दूसरी तरफ क्या है। और वह स्वयं मजबूत, स्वस्थ, हंसमुख और चिड़चिड़े हैं, और ऐसे स्वस्थ और चिड़चिड़े एनिमेटेड लोगों से घिरे हुए हैं। इसलिए, भले ही वह न सोचता हो, दुश्मन की नज़र में आने वाला हर व्यक्ति इसे महसूस करता है, और यह भावना इन मिनटों में होने वाली हर चीज़ को छापों की एक विशेष चमक और आनंददायक तीक्ष्णता देती है।
एक गोली का धुआं दुश्मन की पहाड़ी पर दिखाई दिया, और तोप का गोला, सीटी बजाते हुए, हुस्सर स्क्वाड्रन के सिर के ऊपर से उड़ गया। साथ खड़े अधिकारी अपने स्थान पर चले गए। हुसारों ने सावधानी से अपने घोड़ों को सीधा करना शुरू कर दिया। स्क्वाड्रन में सब कुछ शांत हो गया। हर कोई आगे दुश्मन और स्क्वाड्रन कमांडर की ओर देख रहा था और आदेश की प्रतीक्षा कर रहा था। एक और, तीसरा तोप का गोला उड़ गया। यह स्पष्ट है कि वे हुस्सरों पर गोली चला रहे थे; लेकिन तोप का गोला, तेजी से समान रूप से सीटी बजाते हुए, हुस्सरों के सिर के ऊपर से उड़ गया और पीछे कहीं टकरा गया। हुस्सरों ने पीछे मुड़कर नहीं देखा, लेकिन उड़ते हुए तोप के गोले की हर आवाज पर, जैसे कि आदेश दिया गया हो, पूरा स्क्वाड्रन अपने नीरस विविध चेहरों के साथ, तोप के गोले के उड़ने के दौरान अपनी सांस रोककर, अपनी रकाब में उठा और फिर से गिर गया। सैनिकों ने, अपना सिर घुमाए बिना, एक-दूसरे की ओर तिरछी नज़र से देखा, उत्सुकता से अपने साथी की छाप तलाश रहे थे। डेनिसोव से लेकर बिगुलर तक, हर चेहरे पर, होठों और ठोड़ी के पास संघर्ष, जलन और उत्तेजना की एक सामान्य विशेषता दिखाई दी। हवलदार ने भौंहें सिकोड़कर चारों ओर सिपाहियों की ओर देखा, मानो सज़ा देने की धमकी दे रहा हो। जंकर मिरोनोव तोप के गोले के प्रत्येक पास के साथ नीचे झुक गया। रोस्तोव, बाएं पार्श्व में अपने पैर से छूए हुए लेकिन दृश्यमान ग्रैचिक पर खड़े थे, एक छात्र की प्रसन्न नज़र थी जिसे एक परीक्षा के लिए बड़े दर्शकों के सामने बुलाया गया था जिसमें उसे विश्वास था कि वह उत्कृष्टता प्राप्त करेगा। उसने सभी को स्पष्ट और उज्ज्वल दृष्टि से देखा, मानो उनसे इस बात पर ध्यान देने के लिए कह रहा हो कि वह तोप के गोलों के नीचे कितनी शांति से खड़ा है। लेकिन उसके चेहरे पर भी, उसकी इच्छा के विपरीत, कुछ नया और सख्त होने का वही लक्षण उसके मुंह के पास दिखाई दिया।
-वहां कौन झुक रहा है? यूंकेग "मिग"ऑन! हेक्सोग, मेरी ओर देखो! - डेनिसोव चिल्लाया, स्थिर खड़े रहने में असमर्थ था और स्क्वाड्रन के सामने अपने घोड़े पर घूम रहा था।
वास्का डेनिसोव का घिनौना नाक वाला और काले बालों वाला चेहरा और उसके पापी (बालों से ढकी छोटी उंगलियों वाली) हाथ वाली उसकी पूरी छोटी, पिटी हुई आकृति, जिसमें उसने खींची हुई कृपाण की मूठ पकड़ रखी थी, हमेशा की तरह बिल्कुल वैसी ही थी, विशेषकर शाम को, दो बोतल पीने के बाद। वह केवल सामान्य से अधिक लाल था और, अपने झबरा सिर को ऊपर उठाते हुए, पक्षियों की तरह जब वे शराब पीते हैं, निर्दयता से अपने छोटे पैरों के साथ अच्छे बेडौइन के किनारों को दबाते हुए, वह, जैसे कि पीछे की ओर गिर रहा हो, सरपट नदी के दूसरे किनारे पर चला गया स्क्वाड्रन और कर्कश आवाज में पिस्तौल की जांच करने के लिए चिल्लाया। वह गाड़ी चलाकर कर्स्टन तक गया। मुख्यालय का कप्तान, एक चौड़ी और शांत घोड़ी पर सवार होकर, डेनिसोव की ओर तेजी से दौड़ा। स्टाफ कैप्टन, अपनी लंबी मूंछों के साथ, हमेशा की तरह गंभीर था, केवल उसकी आँखें सामान्य से अधिक चमक रही थीं।
- क्या? - उन्होंने डेनिसोव से कहा, - यह लड़ाई की नौबत नहीं आएगी। आप देखेंगे, हम वापस चलेंगे।
"कौन जानता है कि वे क्या कर रहे हैं," डेनिसोव बड़बड़ाया। "आह! जी" कंकाल! - वह कैडेट के प्रसन्न चेहरे को देखकर चिल्लाया। - अच्छा, मैंने इंतजार किया।
और वह अनुमोदनपूर्वक मुस्कुराया, जाहिर तौर पर कैडेट को देखकर खुशी हुई।
रोस्तोव पूरी तरह खुश महसूस कर रहा था। इसी समय मुखिया पुल पर दिखाई दिये। डेनिसोव उसकी ओर सरपट दौड़ा।
- महामहिम! मुझे हमला करने दो! मैं उन्हें मार डालूँगा।
“कैसे तरह के हमले होते हैं,” मुखिया ने ऊबी हुई आवाज़ में कहा, मानो किसी परेशान करने वाली मक्खी से छटपटा रहा हो। - और तुम यहाँ क्यों खड़े हो? आप देखिए, फ़्लैंकर्स पीछे हट रहे हैं। स्क्वाड्रन को वापस ले जाओ।
स्क्वाड्रन ने पुल पार किया और एक भी आदमी को खोए बिना गोलीबारी से बच गया। उसके पीछे, दूसरा स्क्वाड्रन, जो श्रृंखला में था, पार हो गया, और आखिरी कोसैक ने उस तरफ साफ़ कर दिया।
पावलोग्राड निवासियों के दो स्क्वाड्रन, एक के बाद एक, पुल पार करके, पहाड़ पर वापस चले गए। रेजिमेंटल कमांडर कार्ल बोगदानोविच शूबर्ट ने डेनिसोव के स्क्वाड्रन तक गाड़ी चलाई और रोस्तोव से बहुत दूर की गति से सवार हुए, उस पर कोई ध्यान नहीं दिया, इस तथ्य के बावजूद कि टेल्यानिन पर पिछले संघर्ष के बाद, उन्होंने अब पहली बार एक-दूसरे को देखा। रोस्तोव, खुद को एक ऐसे व्यक्ति की शक्ति में सबसे आगे महसूस कर रहा था जिसके सामने वह अब खुद को दोषी मानता था, उसने रेजिमेंटल कमांडर की एथलेटिक पीठ, गोरा सिर और लाल गर्दन से अपनी आँखें नहीं हटाईं। रोस्तोव को ऐसा लग रहा था कि बोगडानिच केवल असावधान होने का नाटक कर रहा था, और उसका पूरा लक्ष्य अब कैडेट के साहस का परीक्षण करना था, और वह सीधा हो गया और खुशी से चारों ओर देखा; तब उसे ऐसा लगा कि रोस्तोव को अपना साहस दिखाने के लिए बोगडानिच जानबूझकर उसके करीब आ रहा था। तब उसने सोचा कि उसका दुश्मन अब जानबूझकर उसे, रोस्तोव को दंडित करने के लिए एक हताश हमले पर एक स्क्वाड्रन भेजेगा। यह सोचा गया था कि हमले के बाद वह उसके पास आएंगे और उदारतापूर्वक उस घायल व्यक्ति की ओर सुलह का हाथ बढ़ाएंगे।

3.1. थिसॉरस अवधारणा

थिसॉरस (ग्रीक θήσαϋροξ से - खजाना, स्टॉक) या विचारधारा शब्दकोश (ग्रीक विचार से - अवधारणा, प्रतिनिधित्व, विचार और ग्राफो - लिखें, वर्णन करें) - आधुनिक भाषाविज्ञान में: 1) सामान्य या विशेष शब्दावली का एक विशेष प्रकार का शब्दकोश, जिसमें शाब्दिक इकाइयों के बीच अर्थ संबंधी संबंध शामिल हैं; 2) किसी शब्द को दूसरे शब्दों के साथ उसके अर्थ संबंधी संबंध के आधार पर खोजने के लिए एक शब्दकोश; 3) शब्दकोश में शब्दों को व्यवस्थित (व्यवस्थित) करने का एक निश्चित तरीका; 4) शाब्दिक रचना को व्यवस्थित करने का एक तरीका, जो आपको आर्थिक रूप से "दुनिया का मॉडल" बनाने की अनुमति देता है।

पहले, मूल अर्थ में - भंडार, खजाना, थिसॉरस शब्द का प्रयोग एल.वी. द्वारा किया गया था। लेख "सामान्य शब्दावली का अनुभव" में शेर्बा (तीसरा विरोध: थिसॉरस - एक साधारण (व्याख्यात्मक या अनुवाद) शब्दकोश)। वैज्ञानिक लिखते हैं: "जब वे थिसॉरस कहते हैं, तो आज हमारा मतलब अक्सर "थिसॉरस लिंगुए लाटिनाई" होता है, जो पांच जर्मन अकादमियों का एक उद्यम है, जो 1900 में शुरू हुआ था और अब तक केवल एम अक्षर को छोड़कर लाया गया था। इस प्रकार के शब्दकोश की विशेषता विशेषता है इस तथ्य में निहित है कि उनमें वे सभी शब्द शामिल हैं जो किसी दी गई भाषा में कम से कम एक बार आते हैं, और प्रत्येक शब्द के तहत किसी दिए गए भाषा में उपलब्ध ग्रंथों के सभी उद्धरण दिए गए हैं। उपरोक्त विरोध का आधार - थिसॉरस - एक साधारण (व्याख्यात्मक या अनुवाद) शब्दकोश - "भाषाई सामग्री" और "भाषाई प्रणाली" का विरोध है - अवधारणाएं जिन्हें मैंने अपने लेख "भाषाई घटना के तीन गुना पहलू पर" में प्रमाणित करने का प्रयास किया है। भाषा विज्ञान में प्रयोग पर।

इस शब्द का दूसरा अर्थ पी.एम. द्वारा लिखित व्यापक रूप से ज्ञात शब्दकोश-थिसॉरस "थिसॉरस ऑफ़ इंग्लिश वर्ड्स एंड एक्सप्रेशंस" से जुड़ा है। रोजर (रोजेट्स थिसॉरस ऑफ इंग्लिश वर्ड्स एंड फ्रेजेस, 1852) और इसकी निरंतरता, ओ.वी. बारानोव का शब्दकोश।

इस व्याख्या में, थिसॉरस शब्द शब्दकोश में शाब्दिक रचना को व्यवस्थित करने और व्यवस्थित करने के एक निश्चित तरीके को दर्शाता है (शब्द का तीसरा अर्थ देखें)।

थिसॉरस शब्द का चौथा अर्थ शाब्दिक रचना को व्यवस्थित करने की इस पद्धति की सार्वभौमिक मान्यता से जुड़ा है, जो किसी को आर्थिक रूप से "दुनिया का मॉडल" बनाने की अनुमति देता है। इस दृष्टिकोण से, थिसॉरस शब्दकोश "किसी भी वैज्ञानिक या तकनीकी क्षेत्र की शब्दावली का एक व्यवस्थित क्रम है, और सबसे सामान्य रूप में - सामान्य साहित्यिक शब्दावली, और इसके अलावा, किसी दिए गए भाषा की संपूर्ण शब्दावली।"

यू.एन. के अनुसार। करौलोवा, एक सामान्य भाषा थिसॉरस, जो अपने शीर्षकों, अनुभागों, क्षेत्रों, क्षेत्रों की संरचना और संबंधों में विचारों के गैर-मौखिक कनेक्शन की व्यापक संभावनाओं को ठीक करता है, मानवीय मूल्यों का लेखा-जोखा सुनिश्चित करता है।

एक। बारानोव और डी.ओ. डोब्रोवल्स्की ने अपने "संपादकों से" अपने "आधुनिक रूसी मुहावरों के शब्दकोश-थिसॉरस" की प्रस्तावना में थिसॉरस को निम्नलिखित परिभाषा दी है - एक विशेष प्रकार का शब्दकोश जो दूसरों से भिन्न होता है (विशेष रूप से, व्याख्यात्मक, द्विभाषी, आदि) भाषाई सामग्री को व्यवस्थित करना। थिसॉरस में, भाषा इकाइयों को नियमित शब्दकोश की तरह वर्णानुक्रम में प्रस्तुत नहीं किया जाता है, बल्कि उनके अर्थ के आधार पर समूहीकृत किया जाता है।

एल.पी. क्रिसिन थिसारस (वैचारिक शब्दकोश) को एक विशेष प्रकार का व्याख्यात्मक शब्दकोश कहते हैं, एक शब्दकोश "इसके विपरीत।" "यदि एक व्याख्यात्मक शब्दकोश में, वैज्ञानिक लिखते हैं, शब्दकोश प्रविष्टि की "प्रविष्टि" एक शब्द है, और शब्दकोश प्रविष्टि की सामग्री इस शब्द के अर्थ की व्याख्या है, तो एक वैचारिक शब्दकोश में "प्रविष्टि" है अर्थ, विचार (इसलिए इस प्रकार के शब्दकोश का नाम - वैचारिक), और शब्दकोश प्रविष्टि की सामग्री किसी दिए गए अर्थ को व्यक्त करने वाले शब्दों की एक सूची है। और यदि एक व्याख्यात्मक शब्दकोश किसी पाठ को समझने के लिए एक अनिवार्य उपकरण है, तो एक विचारधारात्मक शब्दकोश का उपयोग पाठ उत्पन्न करने में किया जा सकता है: अक्सर एक व्यक्ति एक निश्चित विचार व्यक्त करना चाहता है, लेकिन इसके लिए उपयुक्त शब्द नहीं ढूंढ पाता है; एक विचारधारात्मक शब्दकोश इन खोजों को सुविधाजनक बनाता है। थिसॉरी के दो मुख्य प्रकार हैं:

भाषाई थिसॉरस - एक शब्दकोश जिसमें ग्रंथों के सार्थक विश्लेषण के परिणामस्वरूप चुने गए प्राकृतिक भाषा के शब्दों की एक सूची होती है और स्वीकृत वर्गीकरण प्रणाली के अनुसार व्यवस्थित किया जाता है;

सांख्यिकीय थिसॉरस - एक सूचना पुनर्प्राप्ति शब्दकोश जिसमें किसी विशिष्ट विषय पर ग्रंथों के सांख्यिकीय विश्लेषण के परिणामस्वरूप चुने गए शब्दों की एक सूची होती है और उसी पाठ में इन शब्दों की सह-घटना की आवृत्ति के आधार पर शब्दकोश प्रविष्टियों में समूहीकृत किया जाता है।

सूचना पुनर्प्राप्ति थिसॉरी (आईआरटी) स्वचालित प्रसंस्करण के दौरान जानकारी की खोज की सुविधा प्रदान करता है। आईपीटी अधिकतम रूप से शाब्दिक इकाइयों के बीच अर्थ संबंधों को प्रकट करता है। जैसा कि आईपीटी पर GOST में कहा गया है, "एक मोनोलिंगुअल सूचना पुनर्प्राप्ति थिसॉरस एक प्राकृतिक भाषा की शब्दावली के आधार पर शाब्दिक इकाइयों का एक नियंत्रित और बदलता शब्दकोश है, जो शाब्दिक इकाइयों के बीच अर्थ संबंधी संबंधों को प्रदर्शित करता है और जानकारी को संसाधित करने और पुनर्प्राप्त करने के लिए अभिप्रेत है।"

आईपीटी की मूल इकाई वर्णनात्मक पद है। आईपीटी का वर्णमाला, शाब्दिक-अर्थपूर्ण हिस्सा वर्णनात्मक लेखों का एक सेट है।

वर्णनात्मक शब्दकोशों का उद्देश्य एक निश्चित क्षेत्र की शब्दावली का पूरी तरह से वर्णन करना और उसमें सभी उपयोगों को रिकॉर्ड करना है; वे सभी उपलब्ध प्रासंगिक मामलों को रिकॉर्ड करते हैं। वर्णनात्मक शब्दकोश का एक विशिष्ट उदाहरण वी.आई. द्वारा लिखित "जीवित महान रूसी भाषा का व्याख्यात्मक शब्दकोश" है। डाहल (चार खंडों में पहला संस्करण 1863-1866 में प्रकाशित हुआ था)। इसके निर्माता का लक्ष्य भाषा का मानकीकरण करना नहीं था, बल्कि महान रूसी भाषण की संपूर्ण विविधता का पूरी तरह से वर्णन करना था - जिसमें स्थानीय भाषा के बोली रूप भी शामिल थे।

प्रत्येक डिस्क्रिप्टर डिक्शनरी प्रविष्टि एक डिस्क्रिप्टर से शुरू होती है, जिसमें इस डिस्क्रिप्टर के पर्यायवाची शब्द, साथ ही जीनस-प्रजाति या साहचर्य संबंधों द्वारा मुख्य डिस्क्रिप्टर से जुड़ी अन्य शाब्दिक इकाइयाँ, GOST लेख के भीतर नीचे दी गई हैं।

इस प्रकार, थिसॉरी, विशेष रूप से इलेक्ट्रॉनिक प्रारूप में, व्यक्तिगत विषय क्षेत्रों का वर्णन करने के लिए प्रभावी उपकरणों में से एक है।

थिसॉरस अपने शुद्ध रूप में बहुत कम पाया जाता है। वास्तविक थीसॉरी में, मूल विचार सरलीकृत या अप्रासंगिक है, लेकिन संभावित रूप से आवश्यक है, जानकारी उपयोगकर्ता के लिए जोड़ी जाती है। आज सबसे प्रसिद्ध यू.एन. द्वारा "रूसी सिमेंटिक डिक्शनरी" हैं। करौलोवा, "समान नामों का शब्दकोश" एन.यू. श्वेदोवा, "रूसी भाषा का विषयगत शब्दकोश" एल.जी. द्वारा। स्मेखोवा और अन्य।

सारांश। थिसॉरस शब्द एल.वी. शचेरबा ने इसका उपयोग एक शब्दकोश के संबंध में किया, जिसमें, यदि संभव हो तो, उन सभी संदर्भों को दर्ज किया गया जिनमें कोई दिया गया शब्द आता है। थिसारस की एक विशेषता यह है कि वे किसी भाषा में आने वाले सभी शब्दों को कम से कम एक बार सूचीबद्ध करते हैं, और प्रत्येक शब्द के नीचे उस भाषा में उपलब्ध पाठ के सभी उद्धरण दिए जाते हैं। थिसॉरस शब्दकोश की सामग्री भाषा सामग्री है, और एक नियमित शब्दकोश भाषा सामग्री और एक भाषा प्रणाली है (एल.वी. शचेरबा द्वारा शब्द)।

इस विशेषता को विभिन्न प्रकार के क्रॉस-कनेक्शन द्वारा पूरक किया जाता है - अक्सर प्रतिमानात्मक (समानार्थी या एंटोनिमिक), जो अर्थों की समानता या विरोध को इंगित करता है। इसके अलावा, विभिन्न प्रकार के संघ। कनेक्शन (अर्थात् वाक्य-विन्यास कनेक्शन)।

इस प्रकार, थिसॉरस (वैचारिक शब्दकोश) का कार्य भाषाई सामग्री के एक निश्चित क्रॉस-सेक्शन के शब्दार्थ संगठन का एक विचार देना है, जो मुख्य अर्थ क्षेत्रों, उनकी आंतरिक संरचना और बाहरी कनेक्शन को दर्शाता है। थिसॉरस किसी भाषा की प्रणालीगत प्रकृति का एक स्पष्ट प्रदर्शन है, जो व्यक्ति को व्यक्तिगत भाषाई इकाइयों और इकाइयों के समूहों को जोड़ने वाले कई प्रकार के संबंधों को देखने की अनुमति देता है।

3.2. विश्व के बारे में वैचारिक ज्ञान को थिसॉरस के रूप में प्रस्तुत करने का इतिहास

शब्दों को समानता, सन्निहितता और उनके अर्थों की सादृश्यता के अनुसार व्यवस्थित करने की आवश्यकता मानव विचार के अवलोकनीय इतिहास में महसूस की गई है।

थिसॉरस के रूप में दुनिया के बारे में वैचारिक ज्ञान का प्रतिनिधित्व करने के विचार की उत्पत्ति का पता लगाने के लिए, हमें थिसॉरी (वैचारिक शब्दकोश) संकलित करने के इतिहास की ओर रुख करने में मदद मिलेगी।

इस प्रकार, सभ्यता के आरंभ में, जब लोग केवल विचारधाराओं और प्रतीकों की सहायता से अपने विचारों को लिखित रूप में व्यक्त कर सकते थे, संभवतः एकमात्र संभव शब्दकोश वह था जिसमें शब्दों को विषयगत समूहों में व्यवस्थित किया गया था। उस समय एक कोशकार के लिए वास्तविकता में मौजूद रिश्तों के अलावा शब्दों को वर्गीकृत करने के लिए कोई अन्य मानदंड खोजना मुश्किल था।

दुर्भाग्य से, हमारे पास इस बात का कोई सबूत नहीं है कि वैचारिक लेखन का उपयोग करने वाले लोगों के पास वास्तव में ऐसे शब्दकोष थे या नहीं। वैचारिक वर्गीकरण के सबसे प्राचीन प्रयासों में से एक ग्रीक व्याकरणविद्, अलेक्जेंड्रिया लाइब्रेरी के निदेशक, बीजान्टियम के अरिस्टोफेन्स (मृत्यु 180 ईसा पूर्व) की एटिकाई लेक्सिस है।

द्वितीय शताब्दी में। एन। इ। मिस्र के शहर नौक्रैटिस के मूल निवासी, कोशकार और सोफिस्ट जूलियस पोलक्स (असली नाम पॉलीड्यूसेस) द्वारा ग्रीक भाषा की सामग्री पर संकलित प्रमुख कार्य "ओनोमैस्टिकॉन" दिखाई देता है। यू. पोलक्स ने कई रचनाएँ लिखीं, लेकिन केवल "ओनोमैस्टिकॉन" ही हम तक पहुँची है (पोलक्स यू. ओनोमैस्टिकॉन. एम., 1956)।


ओनोमैस्टिकॉन में 10 पुस्तकें हैं। पुस्तकें अनिवार्य रूप से अलग-अलग ग्रंथ हैं और उनमें किसी विशेष विषय से संबंधित सबसे महत्वपूर्ण शब्द होते हैं। इस प्रकार, पहली पुस्तक देवताओं और राजाओं के बारे में बात करती है; दूसरे में - लोगों, उनके जीवन और शारीरिक संरचना के बारे में; तीसरे में - रिश्तेदारी और नागरिक संबंधों आदि के बारे में। शब्दकोश में शामिल शब्द संक्षिप्त व्याख्याओं के साथ हैं। आधुनिक समय में, शब्दकोश पहली बार 1502 में वेनिस में प्रकाशित हुआ था।

दूसरी और तीसरी शताब्दी के बीच. एन। इ। अद्भुत संस्कृत शब्दकोष "अमरकोश" (अमरकोश. पेरिस, 1839) प्रकाशित हुआ। इसके लेखक प्राचीन भारतीय कवि, व्याकरणविद् और कोशकार अमारा सीना हैं, जिन्हें "विक्रमादित्य के सिंहासन को सुशोभित करने वाले नौ मोतियों में से एक" कहा जाता था। अमरकोश का रूसी में अनुवाद का अर्थ है अमारा का खजाना। शब्दकोश में 10 हजार शब्द हैं। शब्दों के अर्थों की व्याख्या को बेहतर ढंग से याद रखने के लिए शब्दकोश प्रविष्टियों का निर्माण कविताओं के रूप में किया जाता है। सभी शब्दकोश सामग्री को 3 पुस्तकों में विभाजित किया गया है। प्रत्येक पुस्तक में कई अध्याय शामिल हैं, और यदि आवश्यक हो तो अध्याय को कई खंडों में विभाजित किया गया है। पहली पुस्तक आकाश, देवताओं और उन सभी चीजों को समर्पित है जो उनसे सीधे संबंधित हैं। दूसरी पुस्तक में पृथ्वी, बस्तियों, पौधों, जानवरों और मनुष्यों से संबंधित शब्द हैं (पहले मनुष्य को एक जीवित प्राणी माना जाता है, और फिर एक सामाजिक प्राणी के रूप में; लेखक के समकालीन समाज की संपूर्ण जातीय संरचना हमारी आंखों के सामने दिखाई देती है; पुजारी) , भगवान के ट्रस्टी के रूप में, सबसे ऊपर हैं, और नीचे सैन्य लोग और राजा हैं, इससे भी नीचे ज़मींदार हैं, और सबसे नीचे कारीगर, बाजीगर, नौकर, आदि हैं)। तीसरी पुस्तक पूरी तरह से भाषाई है, जैसा कि इसके छह अध्यायों के शीर्षकों से स्पष्ट है।

यह शब्दकोश यूरोपीय वैज्ञानिकों को 18वीं शताब्दी के अंत में ही ज्ञात हुआ, जब इसका पहला भाग 1798 में रोम में प्रकाशित हुआ था। इसे 1808 में अंग्रेजी संस्कृत विद्वान जी.टी. द्वारा अंग्रेजी में अनुवाद के साथ पूर्ण रूप से प्रकाशित किया गया था। कोलब्रुक (एन.टी. कोलब्रुक)। 1839 में इसका फ्रेंच अनुवाद सामने आया, जिसे ए.एल. ने बनाया था। डेलोनचैम्प्स (ए.एल. डेसलॉन्गचैम्प्स)। शब्दावली के शब्दार्थ वर्गीकरण के विचार का आगे का विकास तथाकथित विश्व भाषा की समस्या से जुड़ा है।

सारांश। यह, सबसे सामान्य शब्दों में, शब्दावली के वैचारिक वर्गीकरण की परंपरा के विकास में पहला चरण है। इस चरण को वैचारिक शब्दकोशों का प्रागैतिहासिक काल कहा जा सकता है। अब थिसॉरस शब्दकोशों के आधुनिक वर्गीकरण की ओर रुख करना उचित है।

यह देखना आसान है कि वर्णित कार्य वर्णमाला शब्दकोशों से कितने भिन्न हैं। यदि वर्णमाला शब्दकोशों में शब्दों की प्रस्तुति को वर्णमाला जैसे पारंपरिक और अत्यधिक तटस्थ उपकरण द्वारा नियंत्रित किया जाता है, तो एक वैचारिक शब्दकोश का निर्माण करते समय, कोशकार का विश्वदृष्टिकोण स्वयं निर्णायक हो जाता है।

3.3. शब्दकोशों-थिसॉरस के वर्गीकरण के सिद्धांत

जैसा कि पहले ही ऊपर दिखाया जा चुका है, थिसॉरी के वर्गीकरण को संकलित करने की समस्या नई नहीं है और कई दशकों से इसने कई घरेलू और विदेशी भाषाविदों (सी. मारेलो, वी.वी. मोर्कोवकिन, एल.पी. स्टुपिन, वी.वी. डुबिचिन्स्की, आदि) का ध्यान आकर्षित किया है। ). इस क्षेत्र में अनुसंधान का परिणाम इन शब्दकोषीय कार्यों के वैकल्पिक वर्गीकरण का निर्माण था। नवीनतम वर्गीकरणों में से एक निम्नलिखित मानदंडों पर आधारित है: ए) शब्दावली इकाइयों के बीच अर्थ संबंधी कनेक्शन का प्रकार; 2) शब्दावली की मात्रा; 3) शब्दावली का सामान्यीकरण; 4) लेक्समेस के अर्थ का विकास; 5) लेक्समेस की व्याकरणिक और शैलीगत योग्यता; 6) लेक्समेस की कार्यप्रणाली का प्रदर्शन; 7) प्रस्तुत भाषाओं की संख्या; 8) लेक्सेम को शब्दार्थ बनाने के लिए उपयोग किए जाने वाले लाक्षणिक साधनों का प्रकार। यह वर्गीकरण ओ.एम. द्वारा पहले बनाए गए वर्गीकरणों पर आधारित है। कार्पोवा और आई. बुरखानोव (बुर्चानोव आई. शाब्दिक अर्थों के शैलीगत और व्यावहारिक रूप से प्रासंगिक पहलुओं के वैचारिक विवरण पर। लंदन, 1996); वर्गीकरण में प्रयुक्त शब्दावली को शब्दावली उपकरण में पेश किया गया है


वी.वी. मोर्कोवकिन, यू.एन. करौलोव, के. मारेलो। वर्गीकरण मानदंड ओ.एम. द्वारा तैयार किए गए थे। कार्पोवा. साथ ही, सी. मारेलो तीन प्रकार के थिसॉरी को अलग करते हैं:

संचयी, जो उनके अर्थ को परिभाषित किए बिना शब्दों का समूह है;

निश्चित, शब्दों के समूह की प्रत्येक शाब्दिक इकाई की व्याख्या करना;

यात्रियों के लिए द्वि- और बहुभाषी थिसॉरी (मैरेलो सी. थेसॉरस//डब्ल्यू.डी.डी. 1990. वी. 2. पी. 1083)।

संचयी थिसॉरस न केवल एक निश्चित अर्थ क्षेत्र में होने की स्थिति में अधिक समझने योग्य, सटीक, शैलीगत रूप से सही शब्द खोजने का अवसर प्रदान करते हैं, बल्कि विषयगत कंप्यूटर डेटा बैंकों के निर्माण का आधार भी बनते हैं।

निश्चित थिसॉरी में अर्थ की परिभाषाओं के साथ, व्युत्पत्ति संबंधी जानकारी और साहित्यिक कार्यों के उद्धरण शामिल हो सकते हैं, जो इस प्रकार के थिसॉरस के प्रत्यक्ष विश्वकोश अभिविन्यास को दर्शाता है। इसके अलावा, इस प्रकार के शब्दकोश उपयोगकर्ता को अवधारणाओं की आवश्यक प्रणाली से परिचित कराते हैं, अवधारणाओं के सार, समानताएं और अंतर, उनके प्रतिमानात्मक और वाक्य-विन्यास कनेक्शन की व्याख्या करते हैं, और कभी-कभी उच्चारण, व्याकरणिक, शब्द-गठन और अन्य संभावनाओं के बारे में जानकारी प्रदान करते हैं। इन अवधारणाओं को दर्शाने वाली शाब्दिक इकाइयाँ।

यात्रियों के लिए द्विभाषी और बहुभाषी थीशौरी आमतौर पर विषयगत अनुभागों के अनुसार बनाई जाती है: संख्या, भोजन, परिवहन, होटल, आदि। दो या दो से अधिक भाषाओं के अनुवाद समकक्षों के साथ।

मौजूदा थिसॉरस शब्दकोशों के प्रकारों को यथासंभव पूर्ण रूप से प्रदर्शित करने के लिए, एक बहु-स्तरीय वर्गीकरण बनाया गया है। सबसे पहले, शब्दावली इकाइयों के बीच शब्दार्थ संबंध के प्रकार के अनुसार, थिसॉरी को तीन बड़े वर्गों में विभाजित किया गया है:

1. एसोसिएटिव थिसॉरस (शब्दावली यू.एन. करौलोव द्वारा

2. एनालॉगस थिसॉरस (वी.वी. मोर्कोवकिन द्वारा शब्दावली

3. आइडियोग्राफ़िक (वैचारिक) थिसॉरस (एल.वी. शचेरबा, वी.वी. मोर्कोवकिन द्वारा शब्दावली। उपरोक्त तीन प्रकार की थिसॉरी क्रमशः लेक्समेस के निम्नलिखित प्रकार के शब्दार्थ कनेक्शन को दर्शाती है:

1. सिमेंटिक-सिंटेक्टिक कनेक्शन, जिसके आधार पर
शब्दों को समूहों या जोड़ियों में जोड़ा जाता है, जो उनकी घटना और अस्तित्व में दोहरे कनेक्शन द्वारा पूर्व निर्धारित होते हैं: शब्दार्थ और वाक्य-विन्यास। शब्दों के बीच शब्दार्थ संबंध मुख्य रूप से क्रियाओं और विशेषणों के बीच स्थापित होते हैं जो एक वाक्य में विधेय कार्य करते हैं, और संज्ञाएं, उदाहरण के लिए:

ए) एक क्रिया और उस अंग (यंत्र) के बीच जिसके साथ यह किया जाता है: पकड़ना - एक हाथ, देखना - एक आंख, तैरना - एक नाव, आदि;

बी) क्रिया क्रियाओं के बीच जिसमें एक विषय और एक विषय की आवश्यकता होती है: भौंकना - एक कुत्ता, पड़ोसी - एक घोड़ा, आदि; ग) क्रियाओं और एक निश्चित व्याकरणिक जोड़ के बीच, जिसकी पूर्व आवश्यकता होती है: काटना - लकड़ी, खाना - खाना, आदि।

इसलिए, एक साहचर्य थिसॉरस एक शब्दकोश-थिसॉरस है जो उनके बीच मौजूद अर्थ और वाक्यात्मक कनेक्शन के आधार पर शाब्दिक इकाइयों को व्यवस्थित करता है और केंद्र शब्दों के ग्राफिक रूप के अनुसार समूहों को व्यवस्थित करता है।

2. लेक्सिको-सिमेंटिक कनेक्शन। इस प्रकार के कनेक्शन के साथ समूहीकरण शब्दों की मुख्य विशेषता के अनुसार होता है - शाब्दिक अर्थ। इस मामले में, लेक्सिको-व्याकरणिक कनेक्शन को भी ध्यान में रखा जाता है, जिसके रूप में शब्दों के व्यक्तिगत अर्थों का एहसास होता है।

इस प्रकार, एक अनुरूप थिसॉरस एक लेक्सिकोग्राफ़िक संदर्भ पुस्तक है, जिसकी मैक्रोस्ट्रक्चर की मुख्य इकाई लेक्सिकल-सिमेंटिक समूह है; समूहों को शब्दार्थ प्रभुत्व के वर्णानुक्रम में व्यवस्थित किया गया है।

3. विषयगत या विषयगत कनेक्शन, जहां एक समूह में शब्दों का संयोजन शब्दों द्वारा दर्शाई गई वस्तुओं और प्रक्रियाओं के कार्यों की समानता या समानता के कारण होता है: वस्तुएं
घरेलू सामान, शरीर के अंग, कपड़ों के प्रकार, इमारतें, आदि।

इस प्रकार, एक वैचारिक थिसॉरस एक शब्दकोषीय कार्य है जो विषय (विषयगत) समूहों के हिस्से के रूप में शाब्दिक इकाइयों का प्रतिनिधित्व करता है और उन्हें दुनिया के बारे में संकल्पनात्मक ज्ञान का प्रतिनिधित्व करने के लिए डिज़ाइन की गई एक पदानुक्रमित संरचना में व्यवस्थित करता है।

उसी मानदंड के ढांचे के भीतर, हम प्रकारों को आगे उप-विभाजित करते हैं। इस प्रकार, विचारधारात्मक कोश को निम्नलिखित 4 प्रकारों द्वारा दर्शाया जाता है:


वास्तव में एक विचारधारात्मक कोश।

विषयगत शब्दकोश.

व्यवस्थित शब्दकोश.

विषयगत-व्यवस्थित शब्दकोश


आइडियोग्राफ़िक थिसॉरस अपने आप में एक विशेष प्रकार का आइडियोग्राफ़िक शब्दकोश है, जिसका मैक्रोस्ट्रक्चर भाषा की शाब्दिक संरचना पर लगाए गए एक प्राथमिक सिनॉप्टिक मानचित्र के अनुसार व्यवस्थित होता है। अन्य प्रकार के वैचारिक शब्दकोशों के विपरीत, वैचारिक थिसॉरस को वैज्ञानिक वर्गीकरण के आधार पर बनाई गई एक तार्किक और कड़ाई से आदेशित वर्गीकरण संरचना की विशेषता है, भले ही सामान्य शब्दावली लेक्सिकोग्राफ़िक विवरण (न्यू वेबस्टर "थिसॉरस। लैंडोल, 1991) के अधीन हो।

एक विषयगत शब्दकोश एक विशेष प्रकार का वैचारिक थिसॉरस है, जिसकी मैक्रोस्ट्रक्चर की मुख्य इकाई एक विषयगत समूह है, जिसमें लेक्सेम भी शामिल है, जो उनके अर्थों (संदर्भों) के वर्गीकरण के आधार पर एकजुट होता है और अनुपालन के दृष्टिकोण से माना जाता है। विशिष्ट विषय।

एक व्यवस्थित शब्दकोश एक विशेष प्रकार का वैचारिक थिसॉरस है जिसकी वर्गीकरण संरचना का उद्देश्य किसी भाषा की शाब्दिक इकाइयों के बीच मौजूद वास्तविक अर्थ संबंधों का प्रतिनिधित्व करना है। इसके मूल में, वर्गीकरण संरचना शब्दावली के लेक्सिको-व्याकरणिक वर्गीकरण का प्रतिनिधित्व करती है, दूसरे शब्दों में, इसकी प्रतिमान संरचना, अधीनता और संरचना के दृष्टिकोण से वर्णित है।

विषयगत-व्यवस्थित शब्दकोश एक विशेष प्रकार का विचारधारात्मक शब्दकोश है, जो विषयगत और व्यवस्थित शब्दकोश का संयोजन है।

सारांश। भाषाई थिसॉरी के सुविचारित वर्गीकरण में निम्नलिखित प्रकार के शब्दकोश शामिल हैं: अनुरूप थिसॉरस (वी.वी. मोर्कोवकिन द्वारा शब्दावली); विचारधारात्मक (वैचारिक) थिसॉरस (एल.वी. शचेरबा और वी.वी. मोर्कोवकिन द्वारा शब्दावली); सह. थिसॉरस (यू.एन. करौलोव द्वारा शब्दावली)। अगला पॉप प्रस्तुत किया जाएगा. थिसौरी और उनकी विशेषताओं का पता चला है।

3.4. लोकप्रिय थिसॉरी और उनकी विशेषताएं

उपलब्ध शब्दकोशों में से सबसे प्रसिद्ध-थिसॉरस, जिसके कारण यह शब्द स्वयं अस्तित्व में है, अंग्रेजी भाषा की सामग्री पर बनाया गया था; यह पी.एम. द्वारा लगातार पुनर्मुद्रित कोश है। रोजर रोजेट का थिसॉरस ऑफ़ इंग्लिश वर्ड्स एंड फ़्रेज़ेस (1852)।

यह ध्यान रखना महत्वपूर्ण है कि थिसॉरस ऑफ़ इंग्लिश वर्ड्स एंड एक्सप्रेशंस के लेखक ने उस समय तक उपलब्ध अनुभव का पूरा उपयोग किया। "वह सिद्धांत जिसने शब्दों को वर्गीकृत करते समय मेरा मार्गदर्शन किया," पी.एम. लिखते हैं। रोजर, वही है जिसका उपयोग प्राकृतिक इतिहास के विभिन्न क्षेत्रों में व्यक्तियों को वर्गीकृत करने में किया जाता है। इसलिए, जिन अनुभागों पर मैंने प्रकाश डाला है वे वनस्पति विज्ञान और प्राणीशास्त्र के प्राकृतिक परिवारों से मेल खाते हैं, और शब्दों की श्रृंखला उन्हीं संबंधों से मजबूत होती है जो पौधों और जानवरों की प्राकृतिक श्रृंखला को एकजुट करती हैं।

पी.एम. रोजर का मानना ​​था कि शब्दों का उनके अर्थ के अनुसार एक ठोस वर्गीकरण तब तक असंभव है जब तक कि इन शब्दों को कहे जाने वाली वास्तविकता की वस्तुओं का ठीक से अध्ययन और आयोजन नहीं किया जाता है। इसलिए, उन्होंने अंग्रेजी भाषा के वैचारिक क्षेत्र को चार बड़े वर्गों में विभाजित करके अपना काम शुरू किया: अमूर्त संबंध, स्थान, पदार्थ और आत्मा (मन, इच्छा, भावनाएं)। इन वर्गों को आगे कई प्रजातियों में विभाजित किया गया है, जो बदले में एक निश्चित संख्या में प्रजातियों में विभाजित हैं।

पी.एम. के वैचारिक शब्दकोश की कमियों के बीच। वैज्ञानिक निम्नलिखित का श्रेय रोजर को देते हैं: 1) मुख्य वैचारिक वर्गों का पूरी तरह से ठोस नामकरण नहीं; 2) अमूर्त तर्क शब्दों के प्राकृतिक संबंधों पर हावी होता है; 3) उपयोग की सापेक्ष असुविधा (बाद के संस्करणों में इस कमी को काफी हद तक ठीक कर लिया गया है)।

आधुनिक रूसी शब्दावली में कई शब्दकोश हैं जिन्हें शब्दकोश-थिसॉरस (वैचारिक शब्दकोश) के रूप में वर्गीकृत किया जाना चाहिए। उदाहरण के लिए, यह यू.एन. के नेतृत्व में बनाया गया था। करौलोवा "रूसी सिमेंटिक डिक्शनरी", "रूसी सिमेंटिक डिक्शनरी" एन.यू. द्वारा संपादित। श्वेदोवा, "रूसी भाषा का विषयगत शब्दकोश" एल.जी. द्वारा। सयाखोवा, डी.एम. खसानोवा और वी.वी. मोर्कोवकिना, "रूसी क्रियाओं के शाब्दिक-शब्दार्थ समूहों का शब्दकोश", एड। ई.वी. कुज़नेत्सोवा, "रूसी भाषा का वैचारिक शब्दकोश" ओ.एस. बारानोवा, "द कॉन्सेप्टोस्फीयर ऑफ द इनर वर्ल्ड ऑफ मैन इन द रशियन लैंग्वेज" वी.आई. द्वारा। उबियको, वी.वी. के मार्गदर्शन में व्यापक शैक्षिक शब्दकोश "रूसी भाषा का शाब्दिक आधार"। मोर्कोवकिना।

आइए उनमें से कुछ के बारे में जानें।

आधुनिक रूसी मुहावरों का शब्दकोश-थिसारस” ए.एन. द्वारा संपादित। बारानोवा और डी.ओ. डोब्रोवोल्स्की में चार मुख्य भाग शामिल हैं: 1) सारांश; 2) किंवदंती; 3) डिक्शनरी-थिसॉरस का मुख्य भाग; 4) सूचक. सिनोप्सिस का उद्देश्य थिसॉरस के मुख्य भाग की संरचना का एक सामान्य विचार देना है। यह सभी करों को उपवर्गों और संबंधित प्रतिमानात्मक संदर्भों के साथ सूचीबद्ध करता है। थिसॉरस डिक्शनरी का मुख्य भाग शब्दकोश प्रविष्टियों का एक संग्रह है, जो उनमें वर्णित मुहावरों के अर्थ के अनुसार समूहों (टैक्सा) और उपसमूहों (सबटैक्सा) में समूहीकृत है। प्रत्येक लेख में एक मुहावरा और आधुनिक रूसी में इसके उपयोग के उदाहरण शामिल हैं। सिनोप्सिस, लीजेंड, इंडेक्स उपर्युक्त शब्दकोश-थिसॉरस के सेवा भाग हैं, जो उपयोगकर्ता को जल्दी और कुशलता से काम करने का अवसर प्रदान करते हैं। किंवदंती का उपयोग उन मामलों में किया जाता है जहां मुहावरों के उपयोग के उदाहरणों की आवश्यकता नहीं होती है, क्योंकि यह उदाहरणों को छोड़कर सभी जानकारी पुन: प्रस्तुत करता है। वस्तुतः यही शब्दकोष की शब्दावली है। शब्दावली की इकाइयाँ लेम्मा हैं। इस मामले में लेम्मा मुहावरे को उसके मूल (शब्दकोश) रूप में दर्शाता है और यदि संभव हो तो, इसके सभी महत्वपूर्ण रूप शामिल करता है। उदाहरण के लिए, मुहावरा अभी भी खड़ा रहना लेम्मा मार्क टाइम का हिस्सा है, स्थिर खड़े रहना, जगह पर फिसलना।

शब्दकोश में दो संकेत हैं। पुस्तक के अंत में एक लेख है "आधुनिक रूसी विचारधारा के शब्दकोश-थिसारस की सैद्धांतिक अवधारणा", जो इस परियोजना की वैज्ञानिक विशेषताओं का विस्तार से विश्लेषण करता है।

यू.एन. के नेतृत्व में बनाया गया "रूसी सिमेंटिक डिक्शनरी"। करौलोवा में 10 हजार रूसी शब्द शामिल हैं, जो 1600 वैचारिक समूहों में विभाजित हैं। समूहों की पहचान व्याख्यात्मक शब्दकोशों में शब्द व्याख्या के दोहराए गए तत्वों पर आधारित है: उदाहरण के लिए, "क्रिया", "संपत्ति", "उपकरण", आदि।

"रूसी शब्दार्थ शब्दकोश", शिक्षाविद् एन.यू. के नेतृत्व में बनाया गया। श्वेदोवा, विचारधारात्मक और व्याख्यात्मक दोनों शब्दकोशों के संकलन की विशेषता वाले थोड़े अलग सिद्धांतों पर आधारित है। सबसे पहले, भाषा के सभी शब्दों को यहां चार वर्गों में विभाजित किया गया है: 1) इकाइयों का संकेत (सर्वनाम), 2) नामकरण (काल्पनिक शब्द), 3) वास्तविक संयोजक (संयोजन, पूर्वसर्ग, जोड़ने वाली क्रिया), 4) वर्गीकरण (मोडल शब्द) , कण, प्रक्षेप)। दूसरे, प्रत्येक कक्षा के भीतर, सभी शब्दों को भाषण के भागों के अनुसार वितरित किया जाता है। तीसरा, भाषण के प्रत्येक भाग के भीतर, विषयगत निकटता या, इसके विपरीत, शब्द अर्थों के विरोध के आधार पर सेट और उपसमुच्चय की पहचान की जाती है।

डुडेन एक किताब है जिसमें बायीं ओर चित्र (चित्र) हैं (विभिन्न सॉफ़्टवेयर के अनुसार) क्रमांकित भागों के साथ (सबसे छोटे तक)। दाईं ओर, यह क्रमांकित सूची शीर्षकों के साथ है (यहां तक ​​कि दो भाषाओं में भी)। उदाहरण के लिए, रेलवे उपकरण, स्टेशन और ट्रैक पूरे पृष्ठ पर बनाए गए हैं। दाईं ओर तीर, सेमाफोर, बैसाखी आदि के नाम हैं।

"रूसी भाषा का विषयगत शब्दकोश" एल.जी. सयाखोवा, डी.एम. खसानोवा और वी.वी. मोर्कोवकिना में 25 हजार शाब्दिक इकाइयाँ हैं, जिन्हें तीन बड़े वर्गों में बांटा गया है: "मनुष्य", "समाज", "प्रकृति", जो चरणबद्ध रूप से छोटे उपवर्गों में शाखाबद्ध हैं। उदाहरण के लिए, वर्ग "मानव" में उपवर्ग हैं "मानव शरीर और जीव", "मानव जीवन", "रूप, किसी व्यक्ति की उपस्थिति", "किसी व्यक्ति की भावनात्मक उपस्थिति", आदि। प्रत्येक उपवर्ग बदले में है और भी विशिष्ट में विभाजित: " किसी व्यक्ति की भावनात्मक दुनिया" - "किसी व्यक्ति के मानसिक गुण" - "स्वभाव", "चरित्र" - "सामान्य चरित्र लक्षण", आदि। प्रत्येक वर्ग से संबंधित शब्दों का अर्थ और उपयोग सबसे सामान्य वाक्यांशों द्वारा दर्शाया गया है। उदाहरण के लिए, शब्द "हँसी", जो "मनुष्य" वर्ग के उपसमूह "भावनाओं, भावनाओं की अभिव्यक्ति" में है, इस शब्द के साथ हर्षित हँसी, हर्षित हँसी, बच्चे की हँसी, फूट जैसे संयोजनों का संकेत देता है। हंसी आदि में

सारांश। व्यक्तिगत विषय क्षेत्रों का वर्णन करने के लिए, विशेष रूप से इलेक्ट्रॉनिक प्रारूप में, प्रभावी उपकरणों में से एक थिसॉरी है।

शब्द थिसॉरस लंबे समय से भाषाविज्ञान में व्यापक रूप से एक विशेष प्रकार के शब्दकोश को नामित करने के लिए उपयोग किया जाता है, जो एक डिग्री या किसी अन्य तक "दुनिया की तस्वीर", "दुनिया का भाषाई मॉडल" (यू.एन. करौलोव के अनुसार) को दर्शाता है। "कोष" के रूप में थिसारस अपने अर्थगत दायरे में विकसित हुआ है और एक नया अर्थ प्राप्त किया है। उन्होंने इसे एक शब्दकोश कहना शुरू कर दिया जो न केवल किसी भाषा की सभी शाब्दिक समृद्धि को अवशोषित करता है, बल्कि उन्हें एक निश्चित तार्किक-प्रणालीगत तरीके से व्यवस्थित करता है। थिसॉरस शब्दकोश में, शब्दों को समूहों में संयोजित किया जाता है, और यह एकीकरण एक निश्चित अवधारणा को व्यक्त करने के लिए किसी विशेष शब्द की क्षमता के आधार पर होता है।

भाषाविज्ञान में थिसॉरस शब्दकोश को हमेशा एक प्रकार की सार्वभौमिक प्रणाली के रूप में माना गया है जो दुनिया के बारे में मौखिक रूप में सामूहिक (किसी विशेष समाज के लिए) ज्ञान का भंडारण सुनिश्चित करता है। अन्य शब्दकोशों के विपरीत, थिसॉरस-शब्दकोश में यह ज्ञान एक संरचित रूप में संग्रहीत होता है जो "दुनिया की संरचना" के बारे में हमारे विचारों को दर्शाता है।

वर्तमान में सबसे प्रसिद्ध और लोकप्रिय थिसॉरी इंग्लिश रोजर्स थिसॉरस, ओ.वी. आइडियोग्राफ़िक डिक्शनरी ऑफ़ द रशियन लैंग्वेज हैं। बारानोवा, रूसी शब्दार्थ शब्दकोश यू.एन. करौलोवा, शिक्षाविद् एन.यू. का रूसी शब्दार्थ शब्दकोश। श्वेदोवा, डुडेन, रूसी भाषा का विषयगत शब्दकोश एल.जी. सयाखोवा, डी.एम. खसानोवा और वी.वी. मोर्कोवकिना।

किसी विषय क्षेत्र की वैचारिक प्रणाली किसी भी विषय क्षेत्र का आधार उस क्षेत्र की अवधारणाओं की प्रणाली होती है। एक अवधारणा की परिभाषा: एक अवधारणा एक विचार है जो वस्तुओं और वास्तविकता की घटनाओं को उनके गुणों और संबंधों को ठीक करके सामान्यीकृत रूप में प्रतिबिंबित करती है; उत्तरार्द्ध (गुण और संबंध) अवधारणा में सामान्य और विशिष्ट विशेषताओं के रूप में प्रकट होते हैं, जो वस्तुओं और घटनाओं के वर्गों से संबंधित होते हैं (भाषाई शब्दकोश)


अवधारणाएँ और पद किसी विषय क्षेत्र की अवधारणा को पाठों में व्यक्त करने के लिए शब्दों या वाक्यांशों का उपयोग किया जाता है जिन्हें शब्द कहते हैं। किसी विषय क्षेत्र के शब्दों का समूह उसकी शब्दावली प्रणाली का निर्माण करता है। विषय क्षेत्र की शब्द प्रणाली के अन्य शब्दों के साथ एक विशिष्ट शब्द का संबंध एक परिभाषा के माध्यम से निर्दिष्ट किया जाता है


शब्द की परिभाषाएँ? एक शब्द (या शब्दों का संयोजन) जो विज्ञान, प्रौद्योगिकी, कला, सामाजिक जीवन आदि के किसी विशेष क्षेत्र की विशिष्ट अवधारणा का सटीक पदनाम है। || किसी चीज़ को निर्दिष्ट करने के लिए प्रयुक्त विशेष शब्द या अभिव्यक्ति। किसी न किसी परिवेश में, पेशा (रूसी भाषा का बड़ा व्याख्यात्मक शब्दकोश)


शर्तें - अवधारणाओं के सटीक नाम आमतौर पर, क्षेत्र में प्रत्येक अवधारणा कम से कम एक स्पष्ट रूप से समझे जाने वाले शब्द से मेल खाती है, जिसका अर्थ यह अवधारणा है। - शब्द, शब्दावली के पारंपरिक सिद्धांत के अर्थ में शब्दों के गुण - अवधारणाओं के सटीक नाम - शब्द को सीधे अवधारणा से संबंधित होना चाहिए, इसे अवधारणा को स्पष्ट रूप से व्यक्त करना चाहिए; - शब्द का अर्थ सटीक होना चाहिए और अन्य शब्दों के साथ अर्थ में ओवरलैप नहीं होना चाहिए; - शब्द का अर्थ संदर्भ पर निर्भर नहीं होना चाहिए। वे शब्द जो किसी अवधारणा का सटीक नाम देते हैं, शब्दावली के सिद्धांत, शब्दावली विशेषज्ञों द्वारा शोध का विषय हैं


पाठ शब्द विषय क्षेत्र के वास्तविक पाठों में, एक अवधारणा को संदर्भित करने के लिए, मूल शब्दों के अलावा, कई अलग-अलग भाषा अभिव्यक्तियों का उपयोग किया जा सकता है, जिन्हें हम पाठ शब्द कहते हैं: - वाक्यविन्यास और शब्द-निर्माण विकल्प: बजट निधि के प्राप्तकर्ता - बजट प्राप्तकर्ता; - शाब्दिक विकल्प - प्रत्यक्ष बट्टे खाते में डालना, निर्विवाद रूप से बट्टे खाते में डालना; - संदर्भ के आधार पर बहुअर्थी अभिव्यक्तियाँ, जो क्षेत्र की विभिन्न अवधारणाओं के संदर्भ के रूप में कार्य करती हैं, उदाहरण के लिए, विभिन्न संदर्भों में मुद्रा शब्द का अर्थ राष्ट्रीय मुद्रा या विदेशी मुद्रा हो सकता है।














चिह्नों के साथ वर्णनकर्ता कूड़े - वर्णनकर्ता के नाम का हिस्सा क्रेन (उठाने वाले उपकरण) बनाम क्रेन (पक्षी) गोले (संरचनाएं) - विभिन्न थिसॉरस की तुलना वाक्यांशों के लिए प्राथमिकताएं: -फोनोग्राफ रिकॉर्ड बनाम। अभिलेख (फोनोग्राफ) चिह्न और बहुवचन: लकड़ी (सामग्री) जंगल (वन क्षेत्र)






बहु-शब्द अभिव्यक्तियों के आधार पर वर्णनकर्ताओं को शामिल करने से एक शब्द को विभाजित करने से अस्पष्टता बढ़ जाती है: पौधे का भोजन अभिव्यक्ति का अर्थ शब्द क्रम पर निर्भर करता है: सूचना विज्ञान - वैज्ञानिक जानकारी घटक शब्दों में से एक थिसॉरस के दायरे से बाहर है या बहुत सामान्य है: पहला सहायता विवरणकर्ता के संबंध इसकी संरचना से अनुसरण नहीं करते हैं: -कृत्रिम गुर्दे, शरणार्थी की स्थिति, यातायात रोशनी




सहयोगी संबंध गतिविधि का क्षेत्र - अभिनेता - गणित - गणितज्ञ अनुशासन - अध्ययन की वस्तु - न्यूरोलॉजी - तंत्रिका तंत्र क्रिया - एजेंट या उपकरण - शिकार - शिकारी क्रिया - क्रिया का परिणाम - बुनाई - कपड़ा क्रिया - लक्ष्य - बुकबाइंडिंग - पुस्तक कारण-प्रभाव - मृत्यु - अंत्येष्टि मूल्य - माप की इकाई - वर्तमान ताकत - एम्पीयर क्रिया - प्रतिपक्ष - एलर्जेन - एंटीएलर्जिक दवा, आदि।


सूचना पुनर्प्राप्ति थीसॉरी: विकास के चरण पहला चरण: अनुक्रमणिका मनमाने शब्दों और वाक्यांशों का उपयोग करके पाठ के मुख्य विषय का वर्णन करती है कई पाठों से प्राप्त शब्दों को एक साथ लाया जाता है उन शब्दों में से जो अर्थ में समान हैं, सबसे अधिक प्रतिनिधि का चयन किया जाता है, शेष में से कुछ बन जाते हैं सशर्त समानार्थक शब्द, बाकी हटा दिए जाते हैं विशिष्ट शब्द आमतौर पर शामिल नहीं होते हैं


सूचना पुनर्प्राप्ति थीसॉरी: विकास की कला वर्णनकर्ता ऐसे शब्द हैं जो दस्तावेज़ के मुख्य विषय को व्यक्त करने के लिए आवश्यक हैं समानार्थक शब्द केवल सबसे आवश्यक शामिल किए जाते हैं (उदाहरण के लिए, एक अलग अक्षर से शुरू करना) ताकि अनुक्रमणिका के काम को जटिल न बनाया जाए संबंधित व्यक्तिपरकता अनुक्रमण पदानुक्रम स्तरों से बचने के लिए शब्दों को एक पद तक कम किया जाना चाहिए, विशिष्ट शब्दों का समावेश सीमित है


सूचना पुनर्प्राप्ति थिसॉरस: विकास की कला - 2 जटिल मामलों में, विवरणकों को निशान और टिप्पणियों के साथ आपूर्ति की जाती है -LIV: बमबारी - बमबारी - बहुविषयक शब्द: थिसॉरस (पूंजी) में एक अर्थ, थिसॉरस में फिट नहीं होता है, निशान !!! पारंपरिक सूचना पुनर्प्राप्ति थिसॉरस वास्तविक शब्दों के आधार पर निर्मित एक कृत्रिम भाषा है




पारंपरिक आईपीटी: स्वचालित प्रसंस्करण में अनुप्रयोग सॉफ्टवेयर की वास्तविक भाषा के बारे में ज्ञान का अभाव सॉफ्टवेयर की वास्तविक भाषा के बारे में ज्ञान का अभाव विधायी अनुक्रमणिका शब्दावली: विधायी अनुक्रमणिका शब्दावली: - पाठ में सैनिक - थिसॉरस में सैन्य बल - पाठ में कैपिटल - कैपिटल, थिसॉरस में केवल कैपिटल सुझाव दिया गया है: प्रत्येक डिस्क्रिप्टर शब्दों और शब्दों की सूचियों के साथ पूरक है यह प्रस्तावित है: प्रत्येक डिस्क्रिप्टर शब्दों और शब्दों की सूचियों के साथ पूरक है लेकिन: पॉलीसेमी या विभिन्न डिस्क्रिप्टर से संबंधित। लेकिन: बहुविकल्पी या विभिन्न वर्णनकर्ताओं से संबंधित। असंबद्धता समाधान असंबद्धता समाधान


पारंपरिक आईपीटी: स्वचालित क्वेरी विस्तार, एसोसिएशन के साथ समस्या, सुझाव: वजन दर्ज करें, वजन दर्ज करें, संबंधों के नाम दर्ज करें: वस्तु, संपत्ति, आदि। रिश्तों के नाम दर्ज करें: वस्तु, संपत्ति, आदि। निष्कर्ष: आपको यह सीखना होगा कि पाठ संग्रहों के स्वचालित प्रसंस्करण के लिए विशेष रूप से भाषाई संसाधनों का निर्माण कैसे किया जाए


थिसॉरस EUROVOC - यूरोपीय समुदाय का बहुभाषी थिसॉरस 9 भाषाओं में थिसॉरस EUROVOC का रूसी संस्करण - +5 हजार अवधारणाएँ जो रूसी विशिष्टताओं को दर्शाती हैं बहुभाषी थिसॉरस - डिस्क्रिप्टर - विभिन्न भाषाओं में नाम - एस्क्रिप्टर - कुछ भाषाओं के लिए


EUROVOC थिसॉरस के अनुसार स्वचालित अनुक्रमण, नियमों के आधार पर (हलवा, हेनेबैक, 1996) उदाहरण नियम: IF ("प्रौद्योगिकी" के पास और "विकास" के साथ) USE सामुदायिक कार्यक्रम USE विकास सहायता ENDIF 40 हजार नियम। परीक्षण: पाठ में 20 सबसे अधिक बार आने वाले वर्णनकर्ता, स्वचालित रूप से उत्पन्न होते हैं - मैन्युअल रुब्रिकेशन की तुलना में 42% पूर्णता


शब्दों और वर्णनकर्ताओं के बीच पत्राचार भार स्थापित करने के आधार पर स्वचालित अनुक्रमण (स्टाइनबर्गर एट अल।, 2000) चरण 1 - सांख्यिकीय उपायों (ची-स्क्वायर या लॉग-संभावना) के आधार पर पाठ शब्दों और निर्दिष्ट वर्णनकर्ताओं के बीच पत्राचार स्थापित करना मत्स्य प्रबंधन वर्णनकर्ता - निम्नलिखित शब्द (वजन के घटते क्रम में): मत्स्य पालन, मछली, स्टॉक, मछली पकड़ना, संरक्षण, प्रबंधन, जहाज, आदि। चरण 2 स्वयं अनुक्रमण - भार के लघुगणक का योग या वैक्टर के अदिश उत्पाद के रूप में


सूचना पुनर्प्राप्ति थिसॉरस पर आधारित निःशुल्क प्रश्नों और प्रश्नों का एक संयोजन। एक मैन्युअल रूप से अनुक्रमित संग्रह - सहसंबंध स्थापित करना। एक उपयोगकर्ता प्राकृतिक भाषा में एक प्रश्न पूछता है। क्वेरी को थिसॉरस डिस्क्रिप्टर द्वारा विस्तारित किया जाता है जो क्वेरी के साथ सबसे दृढ़ता से सहसंबद्ध होते हैं (पेट्रास 2004) ; पेट्रास 2005)। उदाहरण के लिए, दिवालिया कंपनियों के अनुरोध पर, वर्णनकर्ताओं की तरलता, ऋणग्रस्तता, उद्यम, फर्म की एक सूची प्राप्त की जा सकती है, और क्वेरी का विस्तार किया जा सकता है। प्रयोग में सटीकता 13% बढ़ गई।



नई बुनियादी अवधारणाओं में से एक जो सूचना प्रसंस्करण के लिए मशीन विधियों के विकास के परिणामस्वरूप उभरी, विशेष रूप से, जब एक भाषा से दूसरी भाषा में अनुवाद करना, वैज्ञानिक और तकनीकी जानकारी की खोज करना और स्वचालित नियंत्रण प्रणालियों में एक उद्यम का सूचना मॉडल बनाना , एक सूचना प्रणाली थिसॉरस की अवधारणा थी। शब्द "थिसॉरस" का तात्पर्य बाहरी दुनिया के बारे में ज्ञान के एक समूह से है - यह विश्व टी का तथाकथित थिसॉरस है। बाहरी दुनिया की सभी अवधारणाएँ, प्राकृतिक भाषा का उपयोग करके व्यक्त की जाती हैं, एक थिसॉरस का निर्माण करती हैं, जिससे निजी थिसॉरस को अलग किया जा सकता है। व्यक्तिगत अवधारणाओं की अधीनता को ध्यान में रखते हुए या दुनिया के सामान्य थिसॉरस के हिस्सों को अलग करके पदानुक्रमित विभाजन द्वारा। सूचना पुनर्प्राप्ति प्रणालियों में थिसॉरस कीवर्ड का उपयोग करके वांछित दस्तावेज़ खोजने में महत्वपूर्ण भूमिका निभाता है। इसलिए, थिसारस का निर्माण एक जटिल और जिम्मेदार कार्य है। लेकिन यह कार्य स्वचालित भी किया जा सकता है.

इसकी सबसे सामान्य परिभाषा में वर्गीकरण सेटों का विभाजन और क्रम है। इसे इन घटनाओं या वस्तुओं में निहित एक सामान्य विशेषता के आधार पर वस्तुओं का वर्गों में वितरण करना और उन्हें अन्य वर्गों को बनाने वाली वस्तुओं और घटनाओं से अलग करना कहा जाता है। यदि आवश्यक हो तो प्रत्येक वर्ग को उपवर्गों में विभाजित किया जा सकता है। रुब्रिकेटर एक विशेष प्रकार का वर्गीकरण है। इसलिए, वे सामान्य प्रावधानों के आधार पर बनाए गए हैं:
 वर्गीकरण के निर्माण का वैज्ञानिक आधार;
 विज्ञान के विकास के वर्तमान स्तर का प्रतिबिंब;
 लिंक और रेफरल की एक प्रणाली की उपस्थिति, साथ ही एक संदर्भ और संदर्भ उपकरण (सीसीए)।

हालाँकि, रूब्रिकेटर सूचना प्रवाह और विशेषज्ञों की आवश्यकताओं के आधार पर बनाया गया एक व्यावहारिक वर्गीकरण है। यह यूडीसी और आईपीसी जैसे प्राथमिक वर्गीकरणों से इसका अंतर है।

वर्गीकरण और विशेष रूप से रुब्रिकेटर के मुख्य कार्य निम्नलिखित हैं:
 सूचना उपप्रणालियों का विषयगत विभेदन;
 किसी भी मानदंड के आधार पर सूचना सरणियों का गठन;
 सूचना सामग्री और प्रकाशनों का व्यवस्थितकरण;
 वर्तमान और पूर्वव्यापी खोज;
 दस्तावेज़ों और प्रश्नों का अनुक्रमण;
 अन्य वर्गीकरण योजनाओं के साथ संबंध;
- मानक कार्य.

वे कुछ तार्किक सिद्धांतों के अनुसार इन वस्तुओं की विशेषताओं के बीच स्थापित कनेक्शन के आधार पर अवधारणाओं - वर्गीकरण की वस्तुओं को विभाजित करके बनाए गए हैं। जिस विशेषता के आधार पर वर्गीकरण किया जाता है उसे वर्गीकरण को विभाजित करने का आधार कहा जाता है। वर्गीकरण समूहों, वर्गों को ठीक करने और उनके बीच कनेक्शन की पहचान करने के लिए कटौती और प्रेरण के तरीकों का व्यापक रूप से उपयोग करते हैं। यह पदानुक्रमित वर्गीकरणों के लिए विशिष्ट है। वर्गीकरण की गहराई (पदानुक्रम स्तरों की संख्या) उद्देश्य के आधार पर भिन्न हो सकती है। व्यापक रूप से उपयोग किए जाने वाले रूब्रिकेटर में से एक स्टेट रूब्रिकेटर ऑफ साइंटिफिक एंड टेक्निकल इंफॉर्मेशन (जीआरएनटीआई) है।

जीआरएनटीआई रूब्रिकेटर को इस तरह से डिज़ाइन किया गया है कि इसका उपयोग यूडीसी और आईपीसी जैसे अन्य वर्गीकरणों के साथ किया जा सकता है। यूनिवर्सल दशमलव वर्गीकरण (यूडीसी) 70 से अधिक वर्षों से अस्तित्व में है, लेकिन वितरण की चौड़ाई में अभी भी इसका कोई समान नहीं है और दुनिया भर के कई देशों में इसका उपयोग किया जाता है। यूडीसी ज्ञान के संपूर्ण ब्रह्मांड को कवर करता है और सूचना के विभिन्न स्रोतों की व्यवस्थितकरण और उसके बाद की खोज के लिए सफलतापूर्वक उपयोग किया जाता है।

यूडीसी के अलावा, पुस्तकालय और ग्रंथ सूची वर्गीकरण (एलबीसी) का व्यापक रूप से व्यवहार में उपयोग किया जाता है। बीबीके तार्किक अधीनता के सिद्धांतों पर बनाया गया है और एक एप्लिकेशन-प्रकार वर्गीकरण का प्रतिनिधित्व करता है।
रूसी संघ में, आविष्कारों को वर्गीकृत करने और आविष्कार विवरणों के घरेलू संग्रह को व्यवस्थित करने के लिए, अंतर्राष्ट्रीय पेटेंट वर्गीकरण का उपयोग किया जाता है - एक कार्यात्मक-उद्योग सिद्धांत पर निर्मित एक जटिल बहु-पहलू वर्गीकरण। समान तकनीकी अवधारणाएँ आईपीसी या विशेष वर्गों (उद्योग द्वारा) या कार्यात्मक वर्गों (संचालन के सिद्धांत द्वारा) में पाई जा सकती हैं। अवधारणाओं के वितरण के क्षेत्रीय सिद्धांत में उपकरण और प्रौद्योगिकी की एक विशेष ऐतिहासिक रूप से स्थापित शाखा में उनके अनुप्रयोग के आधार पर वस्तुओं का वर्गीकरण शामिल है।

एसआरएनटीआई, यूडीसी, बीबीके और आईपीसी के रूब्रिकेटर की तुलनात्मक विशेषताएं तालिका 1 में दी गई हैं।

तालिका नंबर एक
एसआरएनटीआई, यूडीसी, बीबीके और आईपीसी के रूब्रिकेटर की विशेषताएं

नाम

संरचना

प्रभागों की नियुक्ति का सिद्धांत

विभाजन निर्माण योजना

श्रेणीबद्ध

उद्योग

सामान्य से विशिष्ट तक

श्रेणीबद्ध

विषयगत

श्रेणीबद्ध

कार्यात्मक-क्षेत्रीय

सामान्य से विशिष्ट तक

वैज्ञानिक पुस्तकालयों के लिए एलबीसी

श्रेणीबद्ध

उद्योग

सामान्य से विशिष्ट तक, प्रजातियों के अनुसार


इस प्रकार, हम रूब्रिकेटर और क्लासिफायर की मुख्य विशिष्ट विशेषताओं पर प्रकाश डाल सकते हैं:
- वे एक व्यावहारिक प्रकृति और उद्योग अभिविन्यास की विशेषता रखते हैं;
 ये खुली प्रणालियाँ हैं जो विज्ञान और प्रौद्योगिकी के विकास, विशेषज्ञों की जरूरतों और अनुरोधों पर निर्भर करती हैं;
- अकार्बनिक प्रणालियाँ, चूँकि वस्तुएँ पर्यावरण में उत्पन्न होती हैं और विकसित होती हैं और उसमें से प्रवेश करती हैं। तत्व सिस्टम के बाहर स्वतंत्र रूप से अस्तित्व में रहने में सक्षम हैं। यह गुण दूसरे गुण से निकटता से संबंधित है;
- न्यूनतम तत्व पर्यावरण से जुड़ी अवधारणा है। एक अवधारणा परिभाषाओं की एक प्रणाली का प्रतिनिधित्व करती है;
 "ऊर्ध्वाधर" (जीनस-प्रकार, पूर्ण-भाग) और "क्षैतिज" (प्रकार-प्रकार, भाग-भाग) दोनों अवधारणाओं के बीच संबंध उत्पन्न होते हैं, जो सिस्टम के पदानुक्रम को इंगित करता है।

नतीजतन, वर्गीकरण और रूब्रिकेटर के संगठन की संरचना और सिद्धांत कटौती पद्धति का उपयोग करके विषय क्षेत्र थीसॉरी के निर्माण की प्रक्रिया को स्वचालित करना संभव बनाते हैं। कटौती विधि का उपयोग करके थिसॉरस बनाने का एल्गोरिदम चित्र में दिखाया गया है। 1.

थिसॉरस के निर्माण का आधार किसी दस्तावेज़, कार्य या सूचना खोज के लिए एप्लिकेशन की एक खोज छवि है, जो ऑपरेटर द्वारा भरी जाती है। इसलिए, पहला कदम एप्लिकेशन पर शोध और विश्लेषण करना है। पहले चरण में, ऑपरेटर रुचि के विषय या समस्या, संभावित कीवर्ड और उनके समानार्थक शब्द को इंगित करता है। परिणामस्वरूप, हमें विषय क्षेत्र की सतही समझ प्राप्त होती है।

चावल। 1. कटौती विधि का उपयोग करके थिसॉरस बनाने के लिए एल्गोरिदम

इसके अलावा, कटौती पद्धति का उपयोग करके केएस कीवर्ड का एक थिसॉरस बनाया जाता है, जिसके लिए आवश्यक है:
 केएस सरणी, जो उपयोगकर्ता द्वारा स्वयं निर्दिष्ट की जाती है, चित्र 1 में एमपी के रूप में निर्दिष्ट है;
 केएस सरणी क्रमशः एमजेड, खोज कार्य से निकाली गई।

हालाँकि, विषय क्षेत्र की अधिक संपूर्ण और गहन समझ के लिए, हम मौजूदा रूब्रिकेटर और वर्गीकरण योजनाओं (जीआरएनटीआई, यूडीसी, बीबीके, आईपीसी) का उपयोग करते हैं। विषय क्षेत्र की कवरेज को अधिकतम करने के लिए, सभी उपलब्ध की समीक्षा करना आवश्यक है। रूब्रिकेटर की श्रृंखला एमआर का प्रतिनिधित्व करती है। कटौती खोज एल्गोरिदम में दो चरण होते हैं:
1. सामान्य अवधारणाएँ ढूँढना (चित्र 2);
2. सामान्य अवधारणाओं के भीतर विशिष्ट शब्द ढूँढना (चित्र 3)।


चावल। 2. सामान्य अवधारणा का प्रसंस्करण

हम पहले रूब्रिकेटर को सरणी से लोड करते हैं और रूब्रिकेटर में उपयोगकर्ता द्वारा दर्ज सीएस की उपस्थिति की जांच करने का एक चक्र व्यवस्थित करते हैं। प्रत्येक केएस को रुब्रिकेटर में खोजा जाता है और एक सामान्य अवधारणा या "नेस्ट" के साथ तुलना की जाती है, और फिर यह देखने के लिए स्थिति की जांच की जाती है कि क्या विशिष्ट शब्दों के लिए कोई लिंक है। यदि ऐसा कोई लिंक उपलब्ध है, तो केएस की तुलना विशिष्ट शर्तों से की जाती है। यदि कोई लिंक नहीं मिलता है, तो अगली सामान्य अवधारणा पर आगे बढ़ें। जब ऑपरेटर द्वारा दर्ज किए गए सीएस के कीवर्ड देखे जाते हैं, तो हम कार्य से निकाले गए सीएस की सरणी पर आगे बढ़ते हैं। सत्यापन प्रक्रिया समान है - हम सामान्य अवधारणाओं के अनुरूप केएस की तलाश करते हैं, और फिर विशिष्ट शब्दों के साथ उनके लिंक की तलाश करते हैं।


चावल। 3. विशिष्ट शर्तों का प्रसंस्करण

ध्यान दें कि प्रत्येक सामान्य अवधारणा के भीतर समस्या क्षेत्र की अधिकतम समझ प्राप्त करने के लिए सभी उपलब्ध विशिष्ट शब्दों की समीक्षा करना महत्वपूर्ण है। इन क्रियाओं का परिणाम केएस कीवर्ड की एक श्रृंखला का निर्माण होता है, जो किसी दस्तावेज़ की जानकारी या खोज छवि की खोज के कार्य के अनुरूप एक पूर्ण थिसॉरस है।

दस्तावेज़ों की खोज छवियों के एक पूरे सेट के आधार पर (आइए उन्हें निरूपित करें), उद्योग थिसॉरी और एक एकीकृत पुस्तकालय क्लासिफायरियर बनाना संभव है। जाहिर है,  का पूरा सेट स्वयं एक सरल थिसॉरस का प्रतिनिधित्व करता है।

हालाँकि, चयन मानदंड का उपयोग करते हुए
, (1)
हम उद्योग थिसॉरी का निर्माण कर सकते हैं। इस मामले में, सभी उद्योग थिसॉरस का सेट एक पूर्ण थिसॉरस बनाता है
, (2)
जिसके अनुभागों को मुख्य क्लासिफायर (जीआरएनटीआई, यूडीसी, बीबीके, एमपीके) के अनुसार या आंतरिक एकीकृत क्लासिफायर के अनुसार GOST की आवश्यकताओं के अनुसार पदानुक्रमित रूप से संरचित किया जा सकता है।

थिसॉरस और वर्गीकरण के निर्माण की प्रक्रिया का स्वचालन वितरित सूचना संसाधनों के साथ काम करने वाले ऑपरेटर के काम को यथासंभव आसान बनाना संभव बनाता है।

किसी दस्तावेज़ की खोज छवि के आधार पर थिसॉरस के निर्माण के अलावा, प्रस्तावित दृष्टिकोण का उपयोग स्वचालित दस्तावेज़ अमूर्तन और टेक्स्ट क्लस्टरिंग के लिए किया जा सकता है।

दस्तावेज़ सार निकालना उन कार्यों में से एक है जिसका उद्देश्य विशेषज्ञ विशेषज्ञों को इंटरनेट से प्राप्त दस्तावेज़ों के मूल्य के बारे में प्रबंधन निर्णय लेने के लिए आवश्यक विश्वसनीय जानकारी प्रदान करना है। सार-संक्षेप दस्तावेज़ी जानकारी को बदलने की प्रक्रिया है, जो एक सार की तैयारी में परिणत होती है, और एक सार प्राथमिक दस्तावेज़ की मुख्य सामग्री की शब्दार्थिक रूप से पर्याप्त प्रस्तुति है, जो किफायती प्रतीकात्मक डिजाइन, भाषाई और संरचनात्मक विशेषताओं की स्थिरता और प्रदर्शन के उद्देश्य से होती है। वैज्ञानिक संचार प्रणाली में विभिन्न प्रकार की सूचना और संचार कार्य। दस्तावेज़ अमूर्त एल्गोरिथ्म चित्र में प्रस्तुत किया गया है। 4.


चावल। 4. दस्तावेज़ अमूर्त एल्गोरिथ्म

सामान्य तौर पर, एल्गोरिदम में निम्नलिखित मुख्य चरण शामिल होते हैं।
1. वाक्यों को इंटरनेट से डाउनलोड किए गए दस्तावेज़ से निकाला जाता है और विराम चिह्नों का चयन करके डेटा वेयरहाउस में स्थित किया जाता है और इसे एक सरणी में संग्रहीत किया जाता है।
2. प्रत्येक वाक्य को विभाजक चुनकर शब्दों में विभाजित किया जाता है, और हम उन्हें एक सरणी में सहेजते हैं, और प्रत्येक वाक्य के लिए सरणी अलग-अलग होती है।
3. प्रत्येक वाक्य के लिए, इस वाक्य के प्रत्येक शब्द के लिए, हम अन्य वाक्यों (पहले और बाद) में शब्दों की संख्या गिनते हैं। प्रत्येक शब्द (पहले और बाद) के लिए दोहराव का योग इस वाक्य का वजन होगा।
4. पाठ में उपस्थिति के क्रम में सार के लिए अधिकतम भार गुणांक वाले वाक्यों की एक निश्चित संख्या का चयन किया जाता है।

एक सूचना प्रणाली के थिसॉरस और विषयगत कैटलॉग के निर्माण के लिए प्रस्तावित मॉडल सिमेंटिक खोज को स्वचालित करने के लिए एक सैद्धांतिक आधार का प्रतिनिधित्व करता है और एक विशेषज्ञ को न केवल खोज कार्य करने की अनुमति देता है, बल्कि एक स्वचालित मोड में, खोज के परिणामस्वरूप प्राप्त अमूर्त दस्तावेज़ भी प्रदान करता है। इंटरनेट पर वितरित सूचना प्रणाली।

साहित्य:
1. बरुश्कोवा आर.आई. वैज्ञानिक और तकनीकी जानकारी की वर्गीकरण योजनाएँ। पाठयपुस्तक भत्ता. - एम., 1981. - 80 पी.
2. बरुश्कोवा आर.आई. वैज्ञानिक और तकनीकी जानकारी की वर्गीकरण योजना के रूप में रुब्रिकेटर। टूलकिट. - एम., 1980. - 38 पी.
3. ट्रुसोव ए.वी., बाबरीकिन ई.पी. वितरित सूचना प्रणालियों में विषयगत सूचना अनुरोध के डोमेन की सीमाओं का अनुमान। अखिल रूसी (अंतर्राष्ट्रीय भागीदारी के साथ) सम्मेलन की सामग्री "सूचना, नवाचार, निवेश", 24-25 नवंबर, 2004, पर्म / पर्म सीएसटीआई। - पर्म, 2004. - पी.76-79।
4. यात्स्को वी.ए. वैज्ञानिक पाठ के विश्लेषण और सारांश की तार्किक-भाषाई समस्याएं। - अबकन: खाकस स्टेट पब्लिशिंग हाउस। विश्वविद्यालय, 1996. - 128 पी।

अनुभाग में नवीनतम सामग्री:

कॉमेडी पाइग्मेलियन.  बर्नार्ड शॉ
कॉमेडी पाइग्मेलियन. बर्नार्ड शॉ "पैग्मेलियन" एलिज़ा प्रोफेसर हिगिंस से मिलने जाती है

पाइग्मेलियन (पूरा शीर्षक: पाइग्मेलियन: ए फैंटेसी नॉवेल इन फाइव एक्ट्स, अंग्रेजी पाइग्मेलियन: ए रोमांस इन फाइव एक्ट्स) बर्नार्ड द्वारा लिखित एक नाटक है...

टैलीरैंड चार्ल्स - जीवनी, जीवन से जुड़े तथ्य, तस्वीरें, पृष्ठभूमि की जानकारी महान फ्रांसीसी क्रांति
टैलीरैंड चार्ल्स - जीवनी, जीवन से जुड़े तथ्य, तस्वीरें, पृष्ठभूमि की जानकारी महान फ्रांसीसी क्रांति

टैलीरैंड चार्ल्स (पूरी तरह से चार्ल्स मौरिस टैलीरैंड-पेरिगॉर्ड; टैलीरैंड-पेरिगॉर्ड), फ्रांसीसी राजनीतिज्ञ और राजनेता, राजनयिक,...

गतिशील तारा मानचित्र के साथ व्यावहारिक कार्य
गतिशील तारा मानचित्र के साथ व्यावहारिक कार्य