اصطلاحنامه برای چه مواردی استفاده می شود؟ معنی کلمه اصطلاحنامه

N. V. لوکاشویچ

[ایمیل محافظت شده]

B. V. Dobrov

مرکز محاسبات تحقیقاتی دانشگاه دولتی مسکو. M.V. Lomonosov;

مرکز تحقیقات اطلاعات ANO

[ایمیل محافظت شده]

کلید واژه ها:اصطلاحنامه، بازیابی اطلاعات، پردازش خودکار متن،

اکثریت قریب به اتفاق فناوری هایی که با مجموعه های بزرگی از متون کار می کنند بر اساس روش های آماری و احتمالاتی هستند. این به این دلیل است که منابع واژگانی که می‌توان برای پردازش مجموعه‌های متنی با استفاده از روش‌های زبانی استفاده کرد، باید دارای حجمی از ده‌ها هزار مدخل فرهنگ لغت باشد و دارای تعدادی ویژگی مهم باشد که باید به طور خاص در هنگام توسعه منبع نظارت شود. در این گزارش، به بررسی اصول اولیه توسعه منابع واژگانی برای پردازش خودکار مجموعه‌های متنی بزرگ با استفاده از مثال اصطلاحنامه زبان روسی برای پردازش متن رایانه‌ای RuTez، ایجاد شده در سال 1997 می‌پردازیم که در حال حاضر یک شبکه سلسله مراتبی از بیش از 42 هزار مفهوم است. . ما وضعیت فعلی اصطلاحنامه را بر اساس مقایسه ترکیب واژگانی آن و مجموعه متنی سیستم اطلاعات دانشگاه روسیه (www.cir.ru) - 400 هزار سند توصیف می کنیم. نمونه هایی از استفاده از اصطلاحنامه در برنامه های مختلف پردازش کلمه خودکار مورد بحث قرار می گیرد.

  1. معرفی

در حال حاضر میلیون ها سند به صورت الکترونیکی در دسترس قرار گرفته اند، هزاران سیستم اطلاعاتی و کتابخانه الکترونیکی ایجاد شده است. در عین حال، سیستم های اطلاعاتی که از منابع واژگانی و اصطلاحی برای جستجو استفاده می کنند، به کسری از درصد محاسبه می شوند. این به دلیل چالش های جدی ایجاد چنین منابع زبانی برای پردازش خودکار مجموعه های مدرن اسناد الکترونیکی است.

اولاً، این مجموعه ها معمولاً بسیار بزرگ هستند. ثانیاً، مجموعه ها مجموعه ای از اسناد ساختارهای مختلف با ساختارهای نحوی متنوع هستند که پردازش خودکار جملات متنی را دشوار می کند. علاوه بر این، اطلاعات مهم اغلب بین جملات مختلف متن توزیع می شود.

همه اینها به شدت این سوال را ایجاد می کند که یک منبع زبانی باید چه باشد، که از یک سو برای پردازش و جستجوی خودکار در مجموعه های الکترونیکی مفید است، از سوی دیگر، می تواند در زمان قابل پیش بینی ایجاد شود و با نسبتاً کمی نگهداری شود. تلاش.

در این مقاله به اصول اولیه توسعه منابع واژگانی برای پردازش خودکار مجموعه‌های متنی بزرگ می‌پردازیم. این اصول با استفاده از مثال اصطلاحنامه زبان روسی ایجاد شده توسط مرکز تحقیقات اطلاعات ANO از سال 1997 برای پردازش متن کامپیوتری RuTez مورد بررسی قرار خواهند گرفت. RuTez در حال حاضر یک شبکه سلسله مراتبی از بیش از 42 هزار مفهوم است که شامل بیش از 95 هزار کلمه، عبارت و اصطلاح روسی است. ما وضعیت فعلی اصطلاحنامه را بر اساس مقایسه ترکیب واژگانی آن و واژگان مجموعه متنی سیستم اطلاعات دانشگاه روسیه که توسط مرکز محاسبات تحقیقاتی دانشگاه دولتی مسکو پشتیبانی می‌شود، توصیف خواهیم کرد. M.V. Lomonosov و ANO TSII. UIS RUSSIA (www.cir.ru) حاوی 400 هزار سند در مورد موضوعات اجتماعی-سیاسی است (حدود 3 گیگابایت متون، 200 میلیون کلمه). در این مقاله همچنین نمونه هایی از استفاده از اصطلاحنامه در برنامه های مختلف پردازش کلمه خودکار مورد بحث قرار خواهد گرفت.

  1. اصول توسعه یک منبع زبانی

برای وظایف بازیابی اطلاعات

برای اطمینان از پردازش خودکار مؤثر اسناد الکترونیکی (نمایه سازی خودکار، طبقه بندی، مقایسه اسناد)، لازم است مبنایی برای مقایسه آنها ایجاد شود - فهرستی از آنچه در سند ذکر شد. برای اینکه چنین نمایه‌ای مؤثرتر از نمایه کلمه به کلمه باشد، لازم است بر تنوع واژگانی متن غلبه کرد: مترادف‌ها، چندمعنی، بخش‌های گفتار، سبک‌شناسی و تقلیل آن به یک مفهوم ثابت - مفهومی که تبدیل می‌شود. مبنای مقایسه متون مختلف بنابراین، مفاهیم باید اساس یک منبع زبانی شوند، و عبارات زبانی: کلمات، اصطلاحات - تنها ورودی های متنی هستند که مفهوم مربوطه را مقداردهی اولیه می کنند.

برای اینکه بتوان مفاهیم متفاوت اما مشابه را با هم مقایسه کرد، باید بین آنها روابط برقرار کرد. به طور سنتی، منابع زبانی برای پردازش خودکار متون در زبان طبیعی از مجموعه های خاصی از روابط معنایی استفاده می کردند، مانند بخش، منبع، دلیلو غیره با این حال، هنگام کار با مجموعه‌های متنی بزرگ و ناهمگون، باید درک کنیم که با وضعیت فعلی فناوری پردازش کلمه، یک سیستم رایانه‌ای نمی‌تواند به‌طور قابل اعتماد این روابط را در متن تشخیص دهد تا رویه‌هایی را که ما با آن مرتبط کرده‌ایم انجام دهد. این یا روابط دیگر بنابراین، روابط بین مفاهیم قبل از هر چیز باید ویژگی های ثابت معینی را توصیف کند که به موضوع متن خاصی که در آن مفهوم ذکر شده است، وابسته یا ضعیف نیستند.

کارکرد اصلی این رابطه پاسخ به سوال زیر است:

اگر معلوم باشد که متن به بحث C1 اختصاص دارد و C2 مرتبط است

نگرشآربا C1 می توان گفت که موضوع متن(*)

مربوط به C2؟

هنگام ایجاد یک منبع زبانی برای پردازش خودکار، مهم است که تعیین کنیم کدام ویژگی مفاهیم C1 و C2 به ما اجازه می دهد تا روابط صحیح (*) بین آنها برقرار کنیم.

بنابراین، برای مثال، مهم نیست در مورد چه متنی نوشته شده است توس،همیشه می توان گفت که این اشعار در مورد درختان.اما با وجود محبوبیت و بحث مکرر این رابطه درختبه عنوان بخشی جنگل ها، تعداد بسیار کمی از متون در مورد درختان متن هایی در مورد جنگل ها هستند. توجه داشته باشید که مشکل مربوط به نام رابطه نیست. بنابراین پاکسازی بخشی از جنگل است، و متون در مورد پاکسازی متن هایی در مورد جنگل ها هستند.

تغییر ناپذیری روابط نسبت به طیف موضوعات ممکن متون در یک حوزه موضوعی عمدتاً توسط ویژگی‌های عمیق‌تری نسبت به ویژگی‌های منعکس‌شده توسط نام روابط تعیین می‌شود، یعنی ویژگی‌های کمی و وجودی آن. بنابراین، ویژگی‌های کمی‌کننده روابط توصیف می‌کنند که آیا همه مثال‌های یک مفهوم دارای یک رابطه معین هستند یا خیر، آیا این رابطه در کل چرخه زندگی مثال ادامه دارد یا خیر. مشکل در استفاده از رابطه درختجنگلدقیقاً به این دلیل است که هر درخت خاصی در جنگل قرار ندارد، اما پاکسازی نمی تواند خارج از جنگل باشد.

نمونه ای از توصیف ویژگی های وجودی روابط - آیا از وجود مفهوم C1 وجود مفهوم C2 (مثلاً وجود مفهوم گاراژمستلزم وجود یک مفهوم است خودرو) یا وجود مثال های C1 بستگی به وجود مثال های C2 دارد (خیلی خاص سیلغیر قابل تفکیک از یک مثال خاص رودخانه ها). بحث در متن مفهوم وابسته C2، به ویژه وابسته به مثال، حاکی از آن است که متن با مفهوم اصلی C1 نیز مرتبط است.

بیایید رابطه بین مفاهیم را در نظر بگیریم جنگل و درختدر جزئیات. در واقع بخشی از مفهوم جنگلاست درخت در جنگل، در حالی که وجود دارد درخت ایستاده آزاد,درخت در باغو غیره در هر صورت باید رابطه فرعی مفهوم را قطع کرد درختمفهوم جنگل.

از طرف دیگر، جنگلیک گونه است مجموعه ای از درختان، بدون درخت وجود ندارد (و همچنین باغ). بنابراین، مفهوم جنگلباید در ارتباط با مفهوم باشد درخت. با شروع با تجزیه و تحلیل نیازهای مشکلات کاربردی خاص، به این نتیجه رسیدیم که توصیف ویژگی های عمیق روابطی که قبلاً در منابع زبانی بسیار کم منعکس شده بودند، اما برای وظایف پردازش خودکار از اهمیت بالایی برخوردار هستند، مهم است. مجموعه‌های متنی بزرگ، و احتمالاً برای بسیاری از وظایف دیگر.

اکنون توصیف کمیت و ویژگی‌های وجودی مفاهیم را با مجموعه‌ای از روابط اصطلاحنامه سنتی بالا-زیر (66٪ از همه روابط)، PART-WHOLE (30٪ از روابط)، ASSOCIATION (4٪) در ترکیب با یک مدل می‌کنیم. مجموعه خاصی از اصلاح کننده های اضافی (20٪ از روابط مشخص شده اند). توجه داشته باشید که روابط PART-WHOLE و ASSOCIATION با در نظر گرفتن قانون (*) تفسیر می شوند. در مجموع، حدود 160 هزار ارتباط مستقیم بین مفاهیم توصیف شده است که با در نظر گرفتن گذرا بودن روابط، تعداد کل اتصالات مختلف بیش از 1350 هزار اتصال به دست می‌آید، یعنی به طور متوسط ​​هر مفهوم با 30 مفهوم دیگر مرتبط است. .

  1. اصطلاحنامه RuTez: ساختار کلی

اصطلاحنامه RuTez یک شبکه سلسله مراتبی از مفاهیم مربوط به معانی تک تک کلمات، عبارات متنی یا مجموعه های مترادف است. بنابراین، عناصر اصلی یک اصطلاحنامه مفاهیم، ​​عبارات زبانی، روابط بین عبارات و مفاهیم زبانی و روابط بین مفاهیم هستند.

این اصطلاحنامه دانش زبانی را در یک سیستم واحد ترکیب می کند - توصیف واژگان، اصطلاحات و ارتباطات آنها، به طور سنتی مربوط به دانش واژگانی، معنایی، و دانش در مورد اصطلاحات و روابط در حوزه های موضوعی، به طور سنتی مربوط به حوزه فعالیت اصطلاح شناسان، شرح داده شده در اصطلاحنامه بازیابی اطلاعات . به عنوان زیر حوزه های موضوعی، اصطلاحنامه حوزه های موضوعی مانند اقتصاد، قانون گذاری، امور مالی، روابط بین الملل را توصیف می کند که برای زندگی روزمره بشر بسیار مهم هستند که در لغت نامه های توضیحی سنتی بازنمایی واژگانی قابل توجهی دارند. در آنها، واژگانی و اصطلاحی به شدت به هم پیوسته و به شدت با یکدیگر تعامل دارند.

عبارات زبانی واژگان فردی (اسم، صفت و افعال)، گروه های اسمی و لفظی هستند. بنابراین، اصطلاحنامه در حال حاضر شامل قیدها و کلمات تابعی به عنوان عبارات زبانی نمی شود. گروه های چند کلمه ای ممکن است شامل اصطلاحات، اصطلاحات، توابع واژگانی ( نفوذه)

برای هر عبارت زبانی موارد زیر شرح داده شده است:

چند معنایی آن ارتباط با یک یا چند مفهوم است، به این معنی که یک بیان زبانی معین می تواند به عنوان بیان متنی این مفهوم عمل کند. نسبت دادن یک بیان زبانی به مفاهیم مختلف نیز نشانه ضمنی چندمعنایی آن است.

ترکیب مورفولوژیکی آن (بخشی از گفتار، عدد، مورد)؛

ویژگی های نوشتن (مثلا با حروف بزرگ) و غیره.

هر مفهوم اصطلاحنامه دارای یک نام منحصر به فرد، فهرستی از عبارات زبانی است که می توان با آنها این مفهوم را در متن بیان کرد، و فهرستی از روابط با مفاهیم دیگر.

یکی از عبارات متنی بدون ابهام آن معمولاً به عنوان یک نام منحصر به فرد برای یک مفهوم انتخاب می شود. اما نام یک مفهوم را می توان با یک جفت عبارات متن مبهم آن - مترادف ها، که با کاما از هم جدا شده اند و به طور واضح آن را تعریف می کنند، تشکیل داد (به عنوان مثال، مفهوم ضخیم). یک بیان متن مبهم از نام یک مفهوم نیز می تواند با یک علامت یا یک قطعه کوتاه از تفسیر ارائه شود، به عنوان مثال، مفهوم جمعیت (گروهی از مردم).

  1. نمونه مدخل فرهنگ لغت

ما مدخل فرهنگ لغت را برای این مفهوم به عنوان مثال انتخاب کردیم جنگل، مطابق با یکی از معانی کلمه جنگل. این مدخل فرهنگ لغت جالب است زیرا شامل انواع مختلفی از دانش است که به طور سنتی به عنوان دانش واژگانی (معنی) و دانش دایره المعارفی (دانش در مورد حوزه موضوعی، اصطلاحات) طبقه بندی می شود.

مترادف مفهوم جنگل(مجموع 13):

جنگل(ممنطقه جنگلی، محیط جنگلی،

جنگل، محله جنگلی، منظره جنگلی،

منطقه جنگلی، جنگل، منطقه جنگلی،

منطقه جنگلی، جنگل کوچک،

مجموعه ای از جنگل ها

مفاهیم زیر با مترادف ها:

جنگل(جنگل);

پارک جنگلی(باغ شهر، فضای سبز،

فضای سبز، پارک جنگلی،

مدیریت جنگل، پارک جنگلی

کمربند، پارک(م، منطقه پارک)؛

جنگلداری;

جنگل برگ(جنگل نرم برگ، سخت برگ

جنگل)؛

GROVE(بیشه بلوط);

جنگل مخروطیان (جنگل مخروطی، جنگل مخروطی تیره)

مفاهیم - اجزای مترادف:

WINDBREAK (باد، باد باد);

برش دادن(منطقه برش)؛

فرهنگ جنگل(گونه های جنگلی، جنگلداری

فرهنگ)؛

FOREST LAND (زمین های جنگلی؛ زمین های تحت پوشش

جنگل؛ زمین های جنگلی، قلمرو جنگلی؛

زمین جنگلی، جنگلی

حوزه)؛

گیاهان جنگلی(مزارع جنگلی، مزارع جنگلی،

جنگل کاری);

لبه جنگل(لبه، لبه);

زیر گل (زیر رشد);

PROSEKA;

چوب خشک(چوب خشک).

در اینجا نمادها (M) یادداشتی را در مورد ابهام ورودی متن منعکس می کنند.

مفهوم جنگلهمچنین دارای روابط دیگری است، به اصطلاح روابط وابستگی (در نسخه مدرن آنها ASC 2 نامیده می شود - انجمن نامتقارن): آتش سوزی جنگل(آتش سوزی جنگل، آتش سوزی در جنگل؛ استفاده از جنگل (استفاده از جنگل، استفاده از مناطق صندوق جنگلی); جنگلداری; علوم جنگل (علوم جنگل). همانطور که قبلاً در پاراگراف 2 ذکر شد، مفهوم FOREST به مفهوم TREE بستگی دارد که در اصطلاحنامه با رابطه ASC 1 نشان داده می شود.

مفهوم کل جنگلبا در نظر گرفتن گذرا بودن روابط - با 235 مفهوم (در مجموع بیش از 650 ورودی متن) مستقیماً با 28 مفهوم دیگر مرتبط است.

  1. ارزیابی وضعیت فعلی

اصطلاحنامه زبان روسی RuTez

5.1. ترکیب واژگانی

در حال حاضر شبکه اصطلاحنامه شامل بیش از 95 هزار عبارت زبانی است که 61 هزار عبارت تک کلمه ای است.

این حجم کار ما را وادار کرد تا تصمیم بگیریم که چه کلمات و عبارات زبانی باید در توضیحات اصطلاحنامه گنجانده شود. میل طبیعی این بود که ببینیم پرتکرارترین کلمات در زبان روسی چگونه در اصطلاحنامه نمایش داده می شوند. برای این منظور از مجموعه متنی سیستم اطلاعات دانشگاه روسیه (400 هزار سند) استفاده شد. این مجموعه حاوی اسناد رسمی از ارگان های مختلف فدراسیون روسیه (55 هزار سند از سال 1992) و همچنین مطالب مطبوعاتی از سال 1999 (روزنامه های ایزوستیا، نزاویسیمایا گازتا، کومسومولسکایا پراودا، آرگومنتی ای فاکتی، مجله اکسپرت و دیگران) است. مجلات ("بولتن دانشگاه مسکو"، "مجله جامعه شناسی"). مقایسه ای بین فهرست لم های موجود در اصطلاحنامه و فهرست پرتکرارترین 100000 لم در مجموعه متن (فراوانی بیش از 25) انجام شد.

علامت گذاری پلکسی فهرست نشان داد که از میان این صد هزار لم، 35 هزار لم در روتز توصیف شده است، تنها حدود 7 هزار واژه مستحق گنجاندن در اصطلاحنامه هستند، بقیه انواع لماتیک نام های خاص مختلف هستند. بنابراین، دوباره پر کردن به عنوان یک کار اولویت متوقف شده است و به تدریج انجام می شود و با رایج ترین کلمات شروع می شود. فرض بر این است که به محض اتمام این لیست، مقایسه دیگری با آرایه متنی سیستم اطلاعاتی انجام می شود، واژگان جدید با فرکانس بیش از 25 انتخاب می شوند، سپس آستانه مشاهده کاهش می یابد . وجود تعداد زیادی نمونه متن در مجموعه متن به شما امکان می دهد به سرعت به "نوآوری های واژگانی" پاسخ دهید (به عنوان مثال، نصب و راه اندازی,فیلم یا کتاب پرمخاطب, بوموند, دلهره آور) و آنها را در مکان های مناسب در سیستم سلسله مراتبی اصطلاحنامه قرار دهید.

کار مداوم با مجموعه متن فعلی فرصت های منحصر به فردی را برای بررسی اهمیت و کیفیت توصیفات واژگانی ارائه شده در فرهنگ لغت فراهم می کند. به عنوان مثال، فراوانی غیرعادی زیاد استفاده از کلمه نگاه مادر(بیش از 400 بار). بررسی آرایه نشان داد که این کلمه در واقع اغلب به عنوان مترادف کلمه استفاده می شود مسکو، در حالی که لغت نامه های توضیحی اغلب این کلمه را منسوخ می کنند. نمونه دیگری از یک کلمه پرکاربرد (بیش از 300 بار) که در فرهنگ لغت به عنوان منسوخ علامت گذاری شده است، کلمه است. سعادتمند.

5.2 شرح معانی کلمات

مقایسه با مجموعه متن نشان می دهد که بسیاری از واژه های فرکانس در آرایه حداقل در یکی از معانی (معمولاً اساسی) خود به خوبی در اصطلاحنامه نشان داده شده اند. یافتن اینکه تا چه حد طیف معانی کلمات چند معنایی در زبان روسی در اصطلاحنامه نمایش داده شده است، وظیفه اصلی ما در حال حاضر است.

همانطور که مشخص است، اغلب منابع فرهنگ لغت مختلف، مجموعه معانی متفاوتی را برای کلمات چندمعنی بیان می‌کنند، سایه‌های معنا را برجسته می‌کنند، و همان نوع چندمعنی را می‌توان برای کلمات مختلف حتی در فرهنگ لغت یکسان، متفاوت توصیف کرد. بنابراین، وظیفه توصیف مستمر و معرف معانی واژگان، وظیفه مهمی برای پدیدآورندگان هر منبع واژگانی است.

با این حال، اگر منبع برای پردازش خودکار در نظر گرفته شده باشد، وظیفه توصیف متعادل مقادیر بسیار مهم تر می شود. تورم بیش از حد ارزش می تواند منجر به ناتوانی سیستم کامپیوتری در انتخاب مقدار مورد نظر شود که به نوبه خود منجر به کاهش قابل توجهی در عملکرد سیستم پردازش خودکار متن می شود. بنابراین، یکی از معایب منبع WordNet به عنوان منبعی برای پردازش خودکار کلمات، تعداد بیش از حد معانی توصیف شده برای برخی از کلمات است (در WordNet 1.6: 53 معنی برای اجرا کن، 47 برای بازیو غیره.). تشخیص این معانی حتی برای انسان ها هنگام حاشیه نویسی معنایی متون دشوار است. واضح است که سیستم کامپیوتری نیز نمی تواند با انتخاب مقدار مناسب کنار بیاید. بنابراین، نویسندگان مختلف روش‌های مختلفی را برای ترکیب مقادیر برای بهبود کیفیت پردازش پیشنهاد می‌کنند.

در عین حال، عامل مخالف عمل می کند: اگر معانی واقعاً در مجموعه پیوندهای فرهنگ لغت متفاوت باشد (در مورد ما، ارتباطات اصطلاحنامه) - آنها را نمی توان در یک واحد (یک مفهوم) چسباند - این نیز منجر به وخامت می شود. کیفیت پردازش خودکار

بیایید یک مثال از کلمات را در نظر بگیریم مدرسهو کلیساکه هر کدام را می توان به عنوان یک سازمان و به عنوان یک ساختمان در نظر گرفت.

هر سازمان مدرسه دارای یک ساختمان (اغلب یک ساختمان) است. تمامی قسمت های ساختمان مدرسه (کلاس درس، تخته سیاه) مربوط به مدرسهچگونه به یک سازمان هیچ نوع خاصی از ساختمان مدرسه وجود ندارد. بنابراین شرح مدارسبه عنوان ساختمان، تفکیک آنها در یک مفهوم جداگانه نامناسب است. با این حال، توصیف چنین مفهوم جمعی مدرسهبه عنوان یک سازمان و به عنوان یک ساختمان باید رابطه ای خاص با مفهوم داشته باشد ساختمان. هنگام توصیف چنین روابطی در اصطلاحنامه، از علامتی در رابطه استفاده می شود - اصلاح کننده "A" ("جنبه"؛ در طول تجزیه و تحلیل خودکار، "تأیید" توسط مفاهیم دیگر برای در نظر گرفتن این رابطه مورد نیاز است).

مدرسه

بالاتر موسسه تحصیلی

بالاتر از A ساختمان عمومی

معانی متناظر کلمه کلیسانه آنقدر نزدیک کلیساهابه عنوان یک سازمان می تواند تعداد زیادی ساختمان کلیسا در مکان های مختلف داشته باشد و همچنین ساختمان های بسیار دیگری نیز دارد. کلیساسازیارتباط نزدیکی با دین و اقرار دارد، اما می تواند وابستگی را تغییر دهد سازمان های کلیسا. کلیسا-سازمانو کلیساسازیزیرگونه های مختلف دارند از همین رو کلیسا (سازمان) و کلیسا (ساختمان)در RuTez به عنوان مفاهیم مختلف ارائه شده است.

واگرایی قابل توجه در ارتباطات اصطلاحنامه به شیوه ای جالب با توانایی دلالت های مربوط به معانی برای وجود جداگانه از یکدیگر مرتبط است. بنابراین، ساختمان کلیسا وجود ندارد و حتی به عنوان کلیسا نامیده می شود، حتی زمانی که بر خلاف ساختمان مدرسه تغییر کاربری پیدا کند.

فرآیند تأیید بازنمایی ارزش‌ها در اصطلاحنامه به طور مداوم در حال انجام است و با متداول‌ترین لم‌ها شروع می‌شود. برای هر واژه فرکانس، بررسی می شود که چگونه معانی آن در فرهنگ لغت های توضیحی توصیف شده است، چه معانی در مجموعه به کار رفته و چگونه آنها در اصطلاحنامه ارائه شده اند. در نتیجه، اکنون فهرستی از 10000 واژگان تشکیل شده است که ابهام آن همچنان نیازمند تحلیل بیشتر یا توضیحات اضافی است. این فهرست بر اساس 30 هزار مورد از رایج ترین لم ها به دست آمده است.

لازم به ذکر است که در اصطلاحنامه مشکل چندمعنی تا حدی حذف شده است زیرا می توان ارتباطات اصطلاحنامه را بین معانی مختلف یک کلمه توصیف کرد و بنابراین بالاترین مفهوم در سلسله مراتب را می توان به طور پیش فرض انتخاب کرد. قطعا در متن به آن پرداخته شده است. مثلا کلمه عکسسه معنی دارد: عکاسی به عنوان یک زمینه فعالیت، عکاسی به عنوان یک تصویر عکاسی، عکاسی به عنوان یک آتلیه عکس:

عکاسی(عکاسی, کسب و کار عکس, ..., عکس )

قسمت تصویر عکاسی

(عکس, عکس, عکس )

قسمت استودیو عکس (عکس ).

بنابراین، اگر نمی‌توانستیم بفهمیم که چه معنایی از این کلمه استفاده شده است عکس، پیش فرض این است که فرض کنیم یک عکس گرفته شده است (از یک فرآیند، نتیجه یا مکان)، که برای بسیاری از برنامه های پردازش خودکار متن کافی است.

  1. کاربرد اصطلاحنامه RuTez

برای پردازش خودکار متن

از سال 1995، اصطلاحات سیاسی-اجتماعی RuTez ( اصطلاحنامه سیاسی - اجتماعی) به طور فعال و با موفقیت برای کاربردهای مختلف پردازش خودکار متن، مانند نمایه سازی مفهومی خودکار، روبریک سازی خودکار با استفاده از چندین روبریکاتور، حاشیه نویسی خودکار متون، از جمله زبان انگلیسی استفاده شده است. آنهایی که. اصطلاحنامه اجتماعی-سیاسی (27 هزار مفهوم، 62 هزار ورودی متن) یک ابزار جستجوی اساسی در سیستم جستجوی UIS RUSSIA (www.cir.ru) است.

تمام واژگان اصطلاحنامه RuTez در روش هایی برای دسته بندی خودکار متون با استفاده از روبریکاتورهای سلسله مراتبی پیچیده استفاده می شود. در فناوری موجود، هر دسته به عنوان یک بیان بولی از اصطلاحات توصیف می شود، پس از آن فرمول اصلی در امتداد سلسله مراتب اصطلاحنامه گسترش می یابد. عبارت بولی حاصل ممکن است قبلاً شامل صدها و هزاران پیوند و منفصل باشد.

اجازه دهید، به عنوان مثال، بخشی از توصیف را با استفاده از مفاهیم اصطلاحنامه (و عبارات زبانی پس از بسط فرمول) روبریک "تصویر یک زن" از روبریکاتور SOFIST 2، که توسط VTsIOM برای طبقه بندی پرسشنامه های نظرسنجی افکار عمومی استفاده می شود، ارائه دهیم:

(WOMAN[N]

|| دختر[N]

|| نسبی [L] (مادربزرگ، نوه، پسر عمو،

دختر، خواهر شوهر، مادر، نامادری، عروس، دختر خوانده، ...))

(خاصیت شخصیت[L] (صرفه جو، بی عاطفه، فراموشکار،

بیهوده، تمسخرآمیز، نابردبار، اجتماعی، ...)

|| IMAGE [E] (ارائه، ظاهر، ظاهر،

ظاهر، ظاهر، تصویر، ظاهر)

|| PLEASANT [L] (...، جالب، زیبا، ناز،

جذاب، ناز، جذاب، ...)

|| ناخوشایند[L] (غیر دلسوز، بی ادب، زننده، ...)

|| APPRECIATE[L] (احترام کردن، ستایش کردن، ستایش کردن،

پرستش، پرستش،...)

|| ترجیح[N]

نماد "E" نشان دهنده گسترش کامل در امتداد سلسله مراتب اصطلاحنامه است، نماد "L" - با توجه به روابط گونه ("زیر")، نماد "N" - گسترش نمی یابد.

تحقیقات برای توسعه یک فناوری ترکیبی برای دسته‌بندی خودکار متن، ترکیب دانش اصطلاحنامه و روش‌های یادگیری ماشین در حال انجام است.

مسائل مربوط به استفاده از اصطلاحنامه برای گسترش یک پرس و جو فرموله شده به زبان طبیعی در حال بررسی است (در حال حاضر، فقط بخش اجتماعی-سیاسی اصطلاحنامه برای گسترش یک پرس و جوی اصطلاحی در سیستم بازیابی اطلاعات UIS RUSSIA استفاده می شود)، و جستجو برای پاسخ به سوالات در مجموعه های متنی بزرگ

7. نتیجه گیری

این مقاله اصول اساسی توسعه منابع زبانی را برای پردازش خودکار مجموعه‌های متنی بزرگ ارائه می‌کند. منبع زبانی ایجاد شده - اصطلاحنامه زبان روسی RuTez - برای استفاده در برنامه های پردازش خودکار متن مانند نمایه سازی مفهومی اسناد، روبریکاسیون خودکار بر اساس روبریکاتورهای سلسله مراتبی پیچیده، گسترش خودکار جستجوهای زبان طبیعی در نظر گرفته شده است.

این کار تا حدی توسط کمک مالی بنیاد بشردوستانه روسیه به شماره 00-04-00272a پشتیبانی می شود.

ادبیات

  1. Lukashevich N.V., Saliy A.D., بازنمایی دانش در سیستم پردازش خودکار متن //NTI, Ser.2. 1997. شماره 3. ص 1-6.
  2. Zhuravlev S.V.، Yudina T.N.، سیستم اطلاعات روسیه //NTI، Ser.2. 1995. شماره 3. ص 18-20.
  3. وینستون ام.، شافین آر.، هرمان دی.، طبقه بندی روابط جزئی کل // علوم شناختی. 1987. شماره. 11. ص 417-444.
  4. Priss U.E., The Formalization of WordNet by Methods of Relational Concept Analysis // WordNet. پایگاه داده الکترونیکی واژگانی / ویرایش. توسط C. Fellbaum. کمبریج، ماساچوست، لندن، انگلستان.: مطبوعات MIT 1998. ص 179-196.
  5. Guarino N., Welty C., A Formal Ontology of Properties // مجموعه مقالات کارگاه آموزشی ECAI-00 در مورد کاربرد هستی شناسی ها و روش های حل مسئله. برلین: 2000. ص 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

برخی از اصول هستی شناختی برای طراحی منابع واژگانی سطح بالا // First Int. Conf. در مورد منابع زبان و ارزشیابی. 1998.

  1. Lukashevich N.V., Dobrov B.V., Modifiers of Conceptual Relations in thesaurus for automatic indexing // NTI, Ser.2. 1379، شماره 4، صص 21-28.
  2. فرهنگ لغت توضیحی بزرگ زبان روسی / اد. S.A. کوزنتسوا. سن پترزبورگ: نورینت، 1998.
  3. Ozhegov S.I.، Shvedova N.Yu.، فرهنگ لغت توضیحی زبان روسی - ویرایش 3. م.: آز، 1996.
  4. Apresyan Yu.D.، آثار برگزیده، جلد اول. معناشناسی لغوی: ویرایش دوم. M.: مدرسه "زبان های فرهنگ روسیه"، اد. شرکت "ادبیات شرقی" RAS، 1995.
  5. G. Miller, R. Beckwith, C. Fellbaum, D. Gross and K. Miller, Five papers on WordNet, CSL Report 43. Cognitive Science Laboratory, University Princeton, 1990.
  6. Chugur، J. Gonzalo و F. Verdjeo، تمایزات حسی در برنامه های NLP // مجموعه مقالات "OntoLex-2000": هستی شناسی ها و پایگاه های دانش واژگانی. صوفیه: OntoTextLab. 2000.
  7. Loukachevitch N., Dobrov B., خلاصه موضوعی ساختاری مبتنی بر اصطلاحنامه در سیستم های اطلاعات چند زبانه // بررسی ترجمه ماشینی. 2000. شماره 11. ص 10-20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

اصطلاحنامه زبان روسی برای پردازش زبان طبیعی

مجموعه های متنی بزرگ

ناتالیا وی لوکاچویچ، بوریس وی. دوبروف

کلید واژه ها:اصطلاحنامه، پردازش زبان طبیعی، بازیابی اطلاعات

در ارائه خود، اصول اصلی توسعه منابع واژگانی برای پردازش خودکار مجموعه‌های متنی بزرگ را در نظر می‌گیریم و ساختار اصطلاحنامه زبان روسی را که از سال 1997 به‌ویژه به عنوان ابزاری برای پردازش خودکار متن توسعه یافته است، شرح می‌دهیم. اکنون اصطلاحنامه یک شبکه سلسله مراتبی از 42 هزار مفهوم است. ما مرحله فعلی اصطلاحنامه در حال توسعه را در مقایسه با 100000 متداول ترین لم مجموعه متنی سیستم اطلاعات دانشگاه روسیه (www.cir.ru) شامل 400 هزار سند توصیف می کنیم. همچنین استفاده از اصطلاحنامه در کاربردهای مختلف پردازش خودکار متن را در نظر می گیریم.

، متضاد، متضاد، مترادف، ابرنام و غیره) بین واحدهای واژگانی. اصطلاحنامه ها یکی از مؤثرترین ابزارها برای توصیف حوزه های موضوعی فردی هستند.

در گذشته این اصطلاح اصطلاحنامهعمدتاً لغت نامه هایی تعیین شده بودند که واژگان زبان را با حداکثر کامل بودن با نمونه هایی از استفاده از آن در متون نشان می دادند.

همچنین مدت اصطلاحنامهدر تئوری اطلاعات برای نشان دادن کلیت تمام اطلاعات در اختیار سوژه استفاده می شود.

در روانشناسی، اصطلاحنامه یک فرد با درک و درک اطلاعات مشخص می شود. نظریه ارتباطات همچنین اصطلاحنامه کلی یک سیستم پیچیده را در نظر می گیرد که از طریق آن عناصر آن برهم کنش دارند.

داستان

یکی از اولین اصطلاحنامه ها "فرهنگ مترادف" توسط فیلو بیبلوس نامیده می شود. مطابقت دقیق‌تری با این اصطلاح Amara-kosha است که در قرن ششم به زبان سانسکریت به شکل شاعرانه نوشته شده است. اولین اصطلاحنامه مدرن انگلیسی توسط پیتر مارک راجر در سال 1805 ایجاد شد. در سال 1852 منتشر شد و از آن زمان بدون تجدید چاپ استفاده می شود.

در دهه 1970، اصطلاحنامه ها به طور فعال برای کارهای بازیابی اطلاعات مورد استفاده قرار گرفتند. در این گونه اصطلاحنامه ها، کلمات به توصیفگرهایی نگاشت می شوند که از طریق آنها ارتباطات معنایی برقرار می شود.

اصطلاحنامه ها

همچنین ببینید

نظری در مورد مقاله " اصطلاحنامه " بنویسید

یادداشت

گزیده ای در توصیف اصطلاحنامه

- امروز چه شیک پوشی! نسویتسکی در حالی که به مانتو و پد زین جدیدش نگاه کرد گفت.
دنیسوف لبخندی زد و دستمالی از کیفش که بوی عطر می داد بیرون آورد و در بینی نسویتسکی فرو کرد.
-نمیتونم میرم سرکار! پیاده شدم، مسواک زدم و عطر زدم.
چهره باوقار نسویتسکی با همراهی یک قزاق و عزم دنیسوف که شمشیر خود را تکان می داد و ناامیدانه فریاد می زد، چنان تأثیری داشت که به طرف دیگر پل فشار آوردند و پیاده نظام را متوقف کردند. نسویتسکی سرهنگی را در خروجی پیدا کرد که باید دستور را به او ابلاغ کند و با انجام دستورات خود به عقب برگشت.
پس از پاکسازی جاده، دنیسوف در ورودی پل توقف کرد. نریان را که با عجله به سمت خودش می‌دوید و لگد می‌زد، نگه داشت، به اسکادران که به سمت او حرکت می‌کرد نگاه کرد.
صداهای شفاف سم از کنار تخته های پل شنیده می شد، انگار که چندین اسب در حال تاختن هستند، و گروهان با افسران جلویی، چهار نفر پشت سر هم، در امتداد پل دراز شدند و از طرف دیگر شروع به بیرون آمدن کردند.
سربازان پیاده متوقف شده، که در گل و لای پایمال شده نزدیک پل جمع شده بودند، با آن احساس غیر دوستانه خاص از بیگانگی و تمسخر که معمولاً با شاخه های مختلف ارتش مواجه می شود، به هوسرهای تمیز و نازک نگاه کردند که منظم از کنار آنها رژه می رفتند.
- بچه های باهوش! اگر فقط در Podnovinskoe بود!
- چه فایده ای دارند؟ آنها فقط برای نمایش رانندگی می کنند! - یکی دیگر گفت.
- پیاده نظام، گرد و خاک نکن! - هوسر به شوخی گفت، که در زیر آن اسب، در حال بازی، لجن پاشیده به پیاده نظام.
پیاده نظام در حالی که خاک را با آستینش از صورتش پاک می کرد، گفت: «اگر تو را با کوله پشتی از دو راهپیمایی رد می کردم، بند ها کهنه می شد». - در غیر این صورت یک شخص نیست، بلکه یک پرنده نشسته است!
سرجوخه در مورد سرباز لاغر که از سنگینی کوله پشتی خم شده بود به شوخی گفت: "کاش می توانستم تو را سوار بر اسب کنم، زیکین، اگر چابک بودی."
هوسر پاسخ داد: «چماق را بین پاهایت بگیر، تا یک اسب خواهی داشت».

بقیه پیاده نظام با عجله از پل عبور کردند و یک قیف در ورودی تشکیل دادند. بالاخره همه گاری ها رد شدند، لهو کمتر شد و آخرین گردان وارد پل شد. فقط هوسرهای اسکادران دنیسوف در آن سوی پل در مقابل دشمن باقی ماندند. دشمن که در فاصله دور از کوه مقابل ، از پایین ، از پل قابل مشاهده بود ، هنوز قابل مشاهده نبود ، زیرا از حفره ای که رودخانه در امتداد آن جریان داشت ، افق در ارتفاع مخالف به پایان می رسید که بیش از نیم مایل دورتر نبود. جلوتر بیابانی بود که در امتداد آن گروه هایی از قزاق های مسافر ما در حال حرکت بودند. ناگهان در تپه روبروی جاده، نیروهایی با کلاه آبی و توپخانه ظاهر شدند. اینها فرانسوی ها بودند. گشت قزاق از سراشیبی دور شد. همه افسران و مردان اسکادران دنیسوف، اگرچه سعی می کردند در مورد افراد خارجی صحبت کنند و به اطراف نگاه کنند، فقط به آنچه در کوه بود فکر نمی کردند و دائماً به نقاطی در افق نگاه می کردند که آنها را به عنوان نیروهای دشمن می شناختند. هوا دوباره در بعد از ظهر روشن شد، خورشید بر فراز دانوب و کوه های تاریک اطراف آن غروب کرد. خلوت بود و از آن کوه گهگاه صدای بوق و فریاد دشمن به گوش می رسید. بین گروهان و دشمنان جز پاتک های کوچک کسی نبود. یک جای خالی سیصد فاثوم آنها را از او جدا می کرد. دشمن تیراندازی را متوقف کرد و به وضوح آن خط سخت، تهدیدآمیز، تسخیرناپذیر و گریزان را که دو سپاه دشمن را از هم جدا می کند احساس کرد.
«یک قدم فراتر از این خط، یادآور خط جدا کردن زنده ها از مردگان، و - ناشناخته رنج و مرگ. و چه چیزی وجود دارد؟ کی اونجاست؟ آنجا، فراتر از این مزرعه، و درخت، و سقف روشن شده توسط خورشید؟ هیچ کس نمی داند و من می خواهم بدانم. و عبور از این خط ترسناک است و می خواهید از آن عبور کنید. و می دانی که دیر یا زود باید از آن عبور کنی و بفهمی آن سوی خط چه چیزی وجود دارد، همان طور که یافتن آنچه در آن سوی مرگ وجود دارد اجتناب ناپذیر است. و خود او قوی، سالم، شاد و عصبانی است، و در میان افراد سالم و تحریک‌پذیر احاطه شده است.» بنابراین، حتی اگر فکر نکند، هر فردی که در دید دشمن است، آن را احساس می کند و این احساس به هر آنچه در این دقایق اتفاق می افتد، درخشش و تیزبینی شادی بخش می بخشد.
دود یک گلوله روی تپه دشمن ظاهر شد و گلوله توپ با سوت زدن بالای سر اسکادران حصار پرواز کرد. افسران با هم ایستاده بودند به جای خود. هوسرها با احتیاط شروع به راست کردن اسب های خود کردند. همه چیز در اسکادران ساکت شد. همه جلوتر به دشمن و به فرمانده گروهان نگاه می کردند و منتظر فرمان بودند. سومین گلوله توپ دیگر به پرواز درآمد. واضح است که آنها به سمت حصرها تیراندازی می کردند. اما گلوله توپ که به سرعت یکنواخت سوت می زد، بالای سر هوسرها پرواز کرد و به جایی از پشت اصابت کرد. هوسرها به عقب نگاه نکردند، اما با هر صدای گلوله توپ پرنده، گویی به دستور، کل اسکادران با چهره های متنوع و یکنواخت خود، نفس خود را حبس می کردند، در حالی که گلوله توپ پرواز می کرد، در رکاب های خود بلند شد و دوباره سقوط کرد. سربازها بدون اینکه سرشان را برگردانند، نگاهی دو طرفه به یکدیگر انداختند و کنجکاو به دنبال برداشت رفیق خود بودند. در هر چهره، از دنیسوف گرفته تا سارق، یک ویژگی مشترک مبارزه، تحریک و هیجان در نزدیکی لب ها و چانه ظاهر می شد. گروهبان اخم کرد و به سربازها نگاه کرد و انگار تهدید به مجازات کرد. یونکر میرونوف با هر پاس گلوله توپ خم شد. روستوف که در جناح چپ روی گراچیک لمس شده اما قابل مشاهده اش ایستاده بود، نگاه شاد دانش آموزی را داشت که برای امتحانی که در آن مطمئن بود موفق خواهد شد، در مقابل تماشاگران زیادی احضار شده بود. به همه روشن و روشن نگاه می کرد، انگار از آنها می خواست توجه کنند که با چه آرامشی زیر گلوله های توپ ایستاده است. اما در چهره او نیز همان ویژگی چیز جدید و سختی برخلاف میلش در نزدیکی دهانش نمایان شد.
-چه کسی آنجا تعظیم می کند؟ یونکگ "میگ"ها! هگزوگ، به من نگاه کن! - دنیسوف فریاد زد، قادر به ایستادن نبود و روی اسب خود در مقابل اسکادران می چرخید.
صورت دماغ دراز و موی سیاه واسکا دنیسوف و تمام هیکل کوچک و کتک خورده اش با دست ژولیده (با انگشتان کوتاه پوشیده از مو) که در آن دسته شمشیر کشیده شده را در دست گرفته بود، دقیقاً مثل همیشه بود. به خصوص در عصر، پس از نوشیدن دو بطری. او فقط قرمزتر از حد معمول بود و در حالی که سر پشمالو خود را بالا می‌برد، مثل پرندگان وقتی آب می‌نوشند، بی‌رحمانه خارها را با پاهای کوچکش به دو طرف بادیه‌نشین خوب فشار می‌داد، و گویی به سمت عقب افتاده بود، به طرف دیگر بادیه تاخت. اسکادران و با صدای خشن فریاد زد تا تپانچه مورد بررسی قرار گیرد. او به سمت کرستن رفت. کاپیتان ستاد، روی یک مادیان پهن و آرام، با سرعت به سمت دنیسوف سوار شد. کاپیتان ستاد با سبیل های بلندش مثل همیشه جدی بود، فقط چشمانش بیشتر از همیشه برق می زد.
- چی؟ - او به دنیسوف گفت - این به دعوا نمی رسد. خواهی دید، برمی گردیم.
دنیسوف غرغر کرد: «چه کسی می‌داند دارند چه می‌کنند.» - او با توجه به چهره شاد او به دانشجو فریاد زد. - خب صبر کردم.
و او لبخندی تأیید آمیز زد، ظاهراً در حال خوشحالی از دانش‌آموز.
روستوف کاملاً خوشحال بود. در این هنگام رئیس بر روی پل ظاهر شد. دنیسوف به سمت او تاخت.
- عالیجناب بزارید حمله کنم!
رئیس با صدای بی حوصله ای که گویی از مگس آزاردهنده ای می پیچید گفت: «چه نوع حملاتی وجود دارد. - و چرا اینجا ایستاده ای؟ می بینید که طرفین در حال عقب نشینی هستند. اسکادران را به عقب هدایت کنید.
اسکادران از پل عبور کرد و بدون از دست دادن یک نفر از تیراندازی فرار کرد. به دنبال او، اسکادران دوم که در زنجیر بود، عبور کرد و آخرین قزاق ها آن طرف را پاکسازی کردند.
دو اسکادران از ساکنان پاولوگراد با عبور از پل، یکی پس از دیگری به کوه بازگشتند. فرمانده هنگ کارل بوگدانوویچ شوبرت به سمت اسکادران دنیسوف رفت و با سرعتی نه چندان دور از روستوف سوار شد و هیچ توجهی به او نکرد ، علیرغم این واقعیت که پس از درگیری قبلی بر سر تلیانین ، آنها اکنون برای اولین بار یکدیگر را دیدند. روستوف که خود را در جلو در قدرت مردی احساس می کرد که اکنون خود را مقصر می دانست ، چشمانش را از کمر ورزشی ، گردن بور و گردن قرمز فرمانده هنگ برنداشت. به نظر روستوف می رسید که بوگدانیچ فقط وانمود می کند که بی توجه است، و تمام هدف او اکنون آزمایش شجاعت کادت است، و او راست شد و با خوشحالی به اطراف نگاه کرد. سپس به نظرش رسید که بوگدانیچ عمداً نزدیک می شود تا شجاعت خود را به روستوف نشان دهد. سپس او فکر کرد که دشمنش اکنون عمدا یک اسکادران را به یک حمله ناامیدانه می فرستد تا او را مجازات کند، روستوف. تصور می شد که پس از حمله به سمت او می آید و دست آشتی را سخاوتمندانه به سوی او مجروح دراز می کند.

3.1. مفهوم اصطلاحنامه

اصطلاحنامه (از یونانی θήσαϋροξ - گنج، سهام) یا فرهنگ لغت ایدئوگرافیک (از ایده یونانی - مفهوم، نمایش، ایده و گرافو - نوشتن، توصیف) - در زبانشناسی مدرن: 1) نوع خاصی از فرهنگ لغات عمومی یا خاص، که حاوی روابط معنایی بین واحدهای واژگانی است. 2) فرهنگ لغت برای جستجوی یک کلمه بر اساس ارتباط معنایی آن با کلمات دیگر. 3) روش خاصی برای سازماندهی (ترتیب) کلمات در فرهنگ لغت. 4) راهی برای سازماندهی ترکیب واژگانی، که به شما امکان می دهد از نظر اقتصادی جهان را مدل کنید.

در اولین معنای اصلی - مخزن، گنج، اصطلاح اصطلاحنامه توسط L.V. شچربا در مقاله "تجربه فرهنگ لغت عمومی" (تضاد سوم: اصطلاحنامه - فرهنگ لغت معمولی (توضیح یا ترجمه)). این دانشمند می نویسد: «وقتی می گویند اصطلاحنامه، امروزه بیشتر منظور ما «Thesaurus linguae latinae» است، شرکتی متشکل از پنج آکادمی آلمانی، که در سال 1900 آغاز شد و تا به حال تنها با حذف حرف M آورده شده است. ویژگی بارز این نوع فرهنگ لغت. شامل این واقعیت است که آنها مطلقاً شامل همه کلماتی هستند که حداقل یک بار در یک زبان خاص ظاهر می شوند، و در زیر هر کلمه مطلقاً تمام نقل قول ها از متون موجود در یک زبان مشخص آورده شده است. اساس مخالفت فوق - اصطلاحنامه - یک فرهنگ لغت معمولی (توضیح یا ترجمه) - تقابل "مطالب زبانی" و "نظام زبانی" است - مفاهیمی که من سعی کردم در مقاله خود "درباره جنبه های سه گانه پدیده های زبانی و" آنها را اثبات کنم. در مورد آزمایش در زبان شناسی.

معنای دوم این اصطلاح با فرهنگ لغت- اصطلاحنامه معروف "Thesaurus of English Words and Expressions" توسط P.M. راجر (Thesaurus of English Words and Phrases، 1852) و ادامه آن، فرهنگ لغت O.V.

در این تفسیر، اصطلاح اصطلاحنامه به شیوه خاصی از سازماندهی و تنظیم ترکیب واژگانی در فرهنگ لغت اشاره دارد (به معنای سوم این اصطلاح مراجعه کنید).

معنای چهارم اصطلاح اصطلاحنامه با شناخت جهانی این روش سازماندهی ترکیب واژگانی مرتبط است، که به فرد اجازه می دهد تا از نظر اقتصادی "جهان را مدل سازی کند". از این منظر، فرهنگ لغت اصطلاحنامه عبارت است از "ترتیب منظم واژگان هر زمینه علمی یا فنی، و به کلی ترین شکل - واژگان ادبی عمومی، و علاوه بر این، کل واژگان یک زبان معین."

به گفته Yu.N. Karaulova، یک اصطلاحنامه زبان عمومی، که در ساختار و روابط سرفصل ها، بخش ها، مناطق، مناطق، امکانات گسترده ارتباط غیرکلامی ایده ها را تثبیت می کند، گزارش ارزش های انسانی را تضمین می کند.

A.N. بارانوف و D.O. دوبروولسکی در مقدمه "از ویراستاران" به "فرهنگ لغت نامه اصطلاحات مدرن روسی" تعریف زیر را به اصطلاحنامه ارائه می دهد - نوع خاصی از فرهنگ لغت که از نظر روش با دیگران (به ویژه ، توضیحی ، دو زبانه و غیره) متفاوت است. سازماندهی مطالب زبانی در یک اصطلاحنامه، واحدهای زبان به ترتیب حروف الفبا مانند یک فرهنگ لغت معمولی ارائه نمی شوند، بلکه بر اساس معنای آنها گروه بندی می شوند.

L.P. کرایسین اصطلاحنامه (فرهنگ نامه ایدئوگرافیک) را نوع خاصی از فرهنگ لغت توضیحی، یک فرهنگ لغت "برعکس" می نامد. اگر دانشمند بنویسد در لغتنامه توضیحی، مدخل یک مدخل فرهنگ لغت یک کلمه است و محتوای مدخل فرهنگ تفسیر معنای این کلمه است، در فرهنگ ایدئوگرافیک مدخل عبارت است از معنی، ایده (از این رو نام این نوع فرهنگ لغت - ایدئوگرافیک) و محتوای یک مدخل فرهنگ لغت فهرستی از کلمات است که معنای معینی را بیان می کند. و اگر یک فرهنگ لغت توضیحی ابزاری ضروری برای درک یک متن باشد، می توان از فرهنگ لغت ایدئوگرافیک برای تولید یک متن استفاده کرد: اغلب اوقات شخصی می خواهد فکر خاصی را بیان کند، اما نمی تواند کلمات مناسب برای این کار را بیابد. یک فرهنگ لغت ایدئوگرافیک این جستجوها را تسهیل می کند. دو نوع اصلی اصطلاحنامه وجود دارد:

اصطلاحنامه زبانی - فرهنگ لغت حاوی فهرستی از کلمات زبان طبیعی که در نتیجه تجزیه و تحلیل معنی دار متون انتخاب شده و مطابق با سیستم طبقه بندی پذیرفته شده نظام مند شده است.

اصطلاحنامه آماری - فرهنگ بازیابی اطلاعات شامل فهرستی از کلمات انتخاب شده در نتیجه تجزیه و تحلیل آماری متون در یک موضوع خاص و گروه بندی شده در مدخل های فرهنگ لغت بر اساس فراوانی تکرار این کلمات در همان متون.

اصطلاحنامه بازیابی اطلاعات (IRT) جستجوی اطلاعات را در طول پردازش خودکار آن تسهیل می کند. IPT روابط معنایی بین واحدهای واژگانی را به حداکثر نشان می دهد. همانطور که در GOST در IPT بیان شده است، "یک اصطلاحنامه بازیابی اطلاعات تک زبانه یک فرهنگ لغت کنترل شده و در حال تغییر از واحدهای واژگانی است که بر اساس واژگان یک زبان طبیعی است که روابط معنایی بین واحدهای واژگانی را نشان می دهد و برای پردازش و بازیابی اطلاعات در نظر گرفته شده است."

واحد اصلی IPT اصطلاحات توصیفگر است. بخش الفبایی، واژگانی- معنایی IPT مجموعه ای از مقالات توصیفی است.

دیکشنری های توصیفی برای توصیف کامل واژگان یک زمینه خاص و ثبت همه موارد استفاده در آن در نظر گرفته شده است. آنها تمام موارد مربوطه موجود را ثبت می کنند. یک مثال معمولی از یک فرهنگ لغت توصیفی "فرهنگ توضیحی زبان بزرگ روسی زنده" توسط V.I. دال (نسخه اول در چهار جلد در 1863-1866 منتشر شد). هدف خالق آن استانداردسازی زبان نبود، بلکه توصیف کامل تنوع گفتار بزرگ روسی - از جمله اشکال گویش زبان بومی آن بود.

هر مدخل فرهنگ لغت توصیفگر با یک توصیفگر شروع می شود که در آن مترادف های این توصیفگر و همچنین سایر واحدهای واژگانی مرتبط با توصیفگر اصلی بر اساس جنس-گونه یا روابط انجمنی، در زیر در مقاله GOST آورده شده است.

بنابراین، اصطلاحنامه ها، به ویژه در قالب الکترونیکی، یکی از مؤثرترین ابزارها برای توصیف حوزه های موضوعی فردی هستند.

اصطلاحنامه به ندرت به شکل خالص آن یافت می شود. در اصطلاحنامه واقعی، ایده اصلی ساده شده یا غیر ضروری است، اما اطلاعات بالقوه ضروری به کاربر اضافه می شود. مشهورترین آنها امروزه "فرهنگ معنایی روسی" توسط Yu.N. کاراولوا، "فرهنگ لغت نامهای یکسان" N.Yu. شودووا، "فرهنگ موضوعی زبان روسی" توسط L.G. اسمخوا و دیگران.

خلاصه. اصطلاح اصطلاحنامه L.V. شچربا از آن در رابطه با فرهنگ لغت استفاده کرد، که در صورت امکان، تمام زمینه هایی را که یک کلمه در آن وجود دارد، ثبت می کرد. یکی از ویژگی‌های اصطلاحنامه‌ها این است که تمام کلماتی را که در یک زبان خاص ظاهر می‌شوند حداقل یک بار فهرست می‌کنند و در زیر هر کلمه تمام نقل‌قول‌ها از متون موجود در آن زبان آورده شده است. محتوای فرهنگ لغت اصطلاحنامه مواد زبانی است و فرهنگ لغت معمولی مواد زبانی و یک سیستم زبانی است (اصطلاحات توسط L.V. Shcherba).

این ویژگی با اتصالات متقابل از انواع مختلف تکمیل می شود - اغلب پارادایمیک (مترادف یا متضاد)، که نشان دهنده اشتراک یا مخالفت معانی است. علاوه بر این، انواع مختلف انجمن. اتصالات (به عنوان مثال اتصالات نحوی).

بنابراین، وظیفه یک اصطلاحنامه (فرهنگ لغت ایدئوگرافیک) ارائه ایده ای از سازمان معنایی یک مقطع معینی از مطالب زبانی، نشان دادن زمینه های معنایی اصلی، ساختار درونی آنها و ارتباطات خارجی است. اصطلاحنامه نمایش واضحی از ماهیت سیستمی یک زبان است که به فرد امکان می دهد انواع زیادی از روابط را که واحدهای زبانی فردی و گروه های واحدها را به هم متصل می کنند، مشاهده کند.

3.2. تاریخچه بازنمایی دانش مفهومی درباره جهان در قالب یک اصطلاحنامه

نیاز به ترتیب کلمات بر اساس شباهت، مجاورت و قیاس معانی آنها در طول تاریخ قابل مشاهده اندیشه بشری احساس شده است.

برای ردیابی خاستگاه ایده بازنمایی دانش مفهومی درباره جهان در قالب یک اصطلاحنامه، با مراجعه به تاریخچه تدوین اصطلاحنامه ها (فرهنگ های ایدئوگرافیک) به ما کمک می شود.

بنابراین، در طلوع تمدن، زمانی که مردم فقط با کمک ایدئوگرام ها و نمادها می توانستند افکار خود را به صورت نوشتاری بیان کنند، احتمالاً تنها فرهنگ لغت ممکن لغت نامه ای بود که در آن کلمات در گروه های موضوعی مرتب شده بودند. برای یک فرهنگ نویس در آن زمان به سادگی دشوار بود که معیار دیگری برای طبقه بندی کلمات غیر از روابطی که در خود واقعیت وجود دارد پیدا کند.

متأسفانه، ما هیچ مدرکی در دست نداریم که آیا مردمی که از نوشتار ایدئوگرافیک استفاده می کردند، واقعاً چنین لغت نامه هایی داشتند یا خیر. یکی از قدیمی‌ترین تلاش‌ها برای طبقه‌بندی ایدئوگرافیک که برای ما شناخته شده است، آتیکای لکسیس دستور زبان یونانی، مدیر کتابخانه اسکندریه، آریستوفان بیزانس (متوفی 180 قبل از میلاد) است.

در قرن دوم. n ه. اثر اصلی "Onomasticon" ظاهر می شود که بر اساس مطالبی از زبان یونانی توسط فرهنگ نویس و سوفسطایی جولیوس پولوکس (نام واقعی پولیدئوس) که اهل شهر مصری Naucratis است گردآوری شده است. یو.


Onomasticon شامل 10 کتاب است. کتاب ها اساساً رساله های جداگانه ای هستند و حاوی مهمترین کلمات مربوط به یک موضوع خاص هستند. بنابراین، کتاب اول در مورد خدایان و پادشاهان صحبت می کند. در دوم - در مورد مردم، زندگی و ساختار فیزیولوژیکی آنها. در سوم - در مورد خویشاوندی و روابط مدنی و غیره لغات مندرج در فرهنگ لغت با تعابیر مختصری همراه است. در دوران مدرن، فرهنگ لغت برای اولین بار در سال 1502 در ونیز منتشر شد.

بین قرن دوم و سوم. n ه. فرهنگ لغت شگفت انگیز سانسکریت "Amarakosha" (Amarakosha. Paris, 1839) منتشر شد. نویسنده آن، شاعر، دستور زبان و فرهنگ نویس هندی باستان، آمارا سینا است که او را «یکی از 9 مرواریدی که تاج و تخت ویکرامادیتیا را زینت می دهد» می نامیدند. آماراکوشا که به روسی ترجمه شده است به معنای خزانه آمارا است. فرهنگ لغت شامل 10 هزار کلمه است. برای به خاطر سپردن بهتر تفسیر معانی کلمات، مدخل های فرهنگ لغت در قالب شعر ساخته شده است. تمام مطالب فرهنگ لغت به 3 کتاب تقسیم شده است. هر کتاب شامل چندین فصل است و فصل به نوبه خود در صورت لزوم به تعدادی بخش تقسیم می شود. کتاب اول به آسمان، خدایان و هر آنچه که مستقیماً به آنها مربوط است اختصاص دارد. کتاب دوم حاوی واژه‌های مربوط به زمین، سکونتگاه‌ها، گیاهان، حیوانات و انسان‌ها است (اول انسان را موجودی زنده و سپس موجودی اجتماعی می‌دانند؛ کل ساختار کاست جامعه معاصر نویسنده در مقابل چشمان ما ظاهر می‌شود؛ کاهنان. به عنوان امانتداران خدا در راس آن قرار دارند و در پایین آن نظامیان و پادشاهان قرار دارند، حتی پایین تر زمینداران و در پایین ترین قسمت ها صنعتگران، شعبده بازان، خدمتکاران و غیره قرار دارند. کتاب سوم کاملاً زبانی است، همانطور که از عناوین شش فصل آن مشخص است.

این فرهنگ لغت تنها در پایان قرن هجدهم برای دانشمندان اروپایی شناخته شد، زمانی که بخش اول آن در سال 1798 در رم منتشر شد. این به طور کامل همراه با ترجمه به انگلیسی در سال 1808 توسط محقق انگلیسی سانسکریت G.T. کولبروک (N.T. Colebrooke). در سال 1839، ترجمه فرانسوی آن توسط A.L. دلونشان (A.L. Deslongchamps). توسعه بیشتر ایده طبقه بندی معنایی واژگان با مشکل به اصطلاح زبان جهان همراه است.

خلاصه. این، در کلی‌ترین عبارت، اولین مرحله در توسعه سنت طبقه‌بندی ایدئوگرافیک واژگان است. این مرحله را می توان پیش از تاریخ لغت نامه های ایدئوگرافیک نامید. اکنون توصیه می شود به طبقه بندی مدرن فرهنگ لغت نامه ها مراجعه کنید.

به راحتی می توان فهمید که آثار توصیف شده چقدر با فرهنگ لغت الفبایی متفاوت است. اگر در لغت نامه های الفبایی، ارائه کلمات با ابزاری متعارف و بسیار خنثی مانند الفبا تنظیم می شود، پس هنگام ساخت فرهنگ لغت ایدئوگرافیک، جهان بینی خود فرهنگ نویس تعیین کننده می شود.

3.3. اصول طبقه بندی فرهنگ لغت نامه ها

همانطور که در بالا نشان داده شد، مشکل تدوین یک طبقه بندی اصطلاحنامه ها جدید نیست و برای چندین دهه توجه تعدادی از زبان شناسان داخلی و خارجی (C. Marello، V.V. Morkovkin، L.P. Stupin، V.V. Dubichinsky، و غیره) را به خود جلب کرده است. ). نتیجه تحقیقات در این زمینه ایجاد طبقه بندی های جایگزین این آثار فرهنگ شناسی بود. یکی از آخرین طبقه بندی ها بر اساس معیارهای زیر است: الف) نوع پیوندهای معنایی بین واحدهای واژگانی. 2) حجم واژگان؛ 3) تعمیم واژگان؛ 4) توسعه معنای واژگان؛ 5) صلاحیت دستوری و سبکی واژگان. 6) نمایش عملکرد واژگان؛ 7) تعداد زبان های ارائه شده؛ 8) نوع ابزار نشانه شناختی مورد استفاده برای معنایی سازی واژگان. این طبقه بندی بر اساس طبقه بندی های قبلی ایجاد شده توسط O.M. Karpova and I. Burkhanov (Burchanov I. On the Ideographic Description of Stylistically and Pragmatically Relevant Aspects of Lexical Meanings. London, 1996); اصطلاحات مورد استفاده در طبقه بندی به دستگاه واژگانی معرفی شده است


V.V. مورکوکین، یو.ن. کارائولوف، ک. مارلو. معیارهای طبقه بندی توسط O.M. کارپووا در عین حال، سی مارلو سه نوع اصطلاحنامه را متمایز می کند:

تجمعی که گروه بندی کلمات بدون تعریف معانی آنهاست.

قطعی، تفسیر هر واحد واژگانی از یک گروه از کلمات.

اصطلاحنامه دو و چند زبانه برای مسافران (Marello C. Thesaurus//W.D.D. 1990. V. 2. P. 1083).

اصطلاحنامه های انباشته نه تنها فرصتی را برای یافتن کلمه ای قابل فهم تر، دقیق تر و از نظر سبکی درست در موقعیت قرار گرفتن در یک زمینه معنایی خاص فراهم می کنند، بلکه مبنایی برای شکل گیری بانک های داده های رایانه ای موضوعی می شوند.

اصطلاحنامه‌های قطعی می‌توانند همراه با تعاریف معنا، اطلاعات ریشه‌شناختی و نقل‌قول‌هایی از آثار ادبی را در بر داشته باشد که جهت‌گیری دایره‌المعارفی مستقیم این نوع اصطلاحنامه را نشان می‌دهد. علاوه بر این، لغت نامه هایی از این نوع، کاربر را با سیستم مفاهیم ضروری آشنا می کنند، ماهیت، شباهت ها و تفاوت های مفاهیم، ​​پیوندهای پارادایمیک و نحوی آنها را توضیح می دهند و گاهی اطلاعاتی در مورد تلفظ، دستور زبان، واژه سازی و سایر امکانات آن ارائه می دهند. واحدهای واژگانی که این مفاهیم را نشان می دهند.

اصطلاحنامه های دو زبانه و چند زبانه برای مسافران معمولاً بر اساس بخش های موضوعی ایجاد می شوند: اعداد، غذا، حمل و نقل، هتل ها و غیره. با معادل های ترجمه دو یا چند زبان.

برای نمایش انواع لغت نامه های اصطلاحنامه موجود تا حد امکان، یک طبقه بندی چند سطحی ایجاد می شود. اولاً، با توجه به نوع ارتباط معنایی بین واحدهای واژگانی، اصطلاحنامه ها به سه دسته بزرگ تقسیم می شوند:

1. اصطلاحنامه انجمنی (اصطلاحات توسط Yu.N. Karaulov

2. اصطلاحنامه مشابه (اصطلاحات توسط V.V. Morkovkin

3. اصطلاحنامه ایدئولوژیک (ایدئولوژیک) (اصطلاحات L.V. Shcherba, V.V. Morkovkin. سه نوع اصطلاحنامه فوق به ترتیب نشان دهنده انواع پیوندهای معنایی واژگان زیر است:

1. پیوندهای معنایی- نحوی که بر اساس آن
کلمات در گروه ها یا جفت ها ترکیب می شوند که در وقوع و وجود آنها با پیوندهای دوگانه از پیش تعیین شده است: معنایی و نحوی. پیوندهای معنایی بین کلمات عمدتاً بین افعال و صفت هایی که در یک جمله یک کار گزاره ای انجام می دهند و اسم ها برقرار می شود، به عنوان مثال:

الف) بین یک عمل و اندام (ابزاری) که با آن انجام می شود: گرفتن - دست، دیدن - چشم، شنا کردن - قایق و غیره.

ب) بین افعال عملی که نیاز به یک فاعل و فاعل دارند: پارس - سگ، نیش - اسب و غیره. ج) بین افعال و اضافه دستوری خاص که اولی مستلزم آن است: خرد کردن - چوب، خوردن - غذا و غیره.

از این رو، اصطلاحنامه انجمنی، فرهنگ لغت- اصطلاحنامه ای است که واحدهای واژگانی را بر اساس پیوندهای معنایی و نحوی موجود بین آنها سازماندهی می کند و گروه ها را مطابق با فرم گرافیکی کلمات مرکزی مرتب می کند.

2. پیوندهای لغوی- معنایی. گروه بندی با این نوع ارتباط با توجه به ویژگی اصلی برای کلمات - معنای لغوی - اتفاق می افتد. در این مورد، پیوندهای واژگانی- دستوری نیز مورد توجه قرار می گیرد که در قالب آن معانی فردی واژه ها تحقق می یابد.

بنابراین، اصطلاحنامه قیاسی، کتاب مرجع واژگانی است که واحد اصلی ساختار کلان آن گروه واژگانی- معنایی است. گروه ها به ترتیب حروف الفبای غالب معنایی نظام مند شده اند.

3. ارتباط موضوعی یا موضوعی، که در آن ترکیب کلمات در یک گروه به دلیل شباهت یا مشترک بودن کارکردهای اشیاء و فرآیندهای مشخص شده با کلمات: اشیا رخ می دهد.
وسایل منزل، اعضای بدن، انواع لباس، ساختمان و ...

بنابراین، اصطلاحنامه ایدئوگرافیک یک اثر واژگانی است که واحدهای واژگانی را به عنوان بخشی از گروه‌های موضوعی (موضوعی) نشان می‌دهد و آنها را در یک ساختار سلسله مراتبی سازمان‌دهی می‌کند که برای نمایش دانش مفهوم‌سازی شده درباره جهان طراحی شده است.

در چارچوب همان معیار، انواع را بیشتر تقسیم می کنیم. بنابراین، اصطلاحنامه ایدئوگرافیک با 4 نوع زیر نشان داده می شود:


در واقع یک اصطلاحنامه ایدئوگرافیک.

فرهنگ لغت موضوعی.

فرهنگ لغت سیستماتیک

فرهنگ لغت موضوعی- سیستماتیک


اصطلاحنامه ایدئوگرافیک خود نوع خاصی از فرهنگ لغت ایدئوگرافیک است که ساختار کلان آن مطابق با یک نقشه سینوپتیک پیشینی که بر ترکیب واژگانی زبان قرار گرفته است سازماندهی شده است. بر خلاف انواع دیگر فرهنگ لغات ایدئوگرافیک، خود اصطلاحنامه ایدئوگرافیک با ساختار طبقه بندی منطقی و کاملاً منظمی که بر اساس طبقه بندی علمی ایجاد شده است، مشخص می شود، حتی اگر واژگان عمومی مشمول توصیف واژگانی باشد (New Webster "Thesaurus. Landol, 1991).

فرهنگ لغت موضوعی نوع خاصی از اصطلاحنامه ایدئوگرافیک است که واحد اصلی ساختار کلان آن یک گروه موضوعی شامل واژگان است که بر اساس طبقه بندی نشانه های آنها (مرجع) متحد شده و از نظر انطباق با یک مورد در نظر گرفته شده است. موضوع خاص

فرهنگ لغت سیستماتیک نوع خاصی از اصطلاحنامه ایدئوگرافیک است که ساختار طبقه بندی آن برای نمایش روابط معنایی واقعی بین واحدهای واژگانی یک زبان در نظر گرفته شده است. در هسته خود، ساختار طبقه بندی نشان دهنده طبقه بندی واژگانی- دستوری واژگان است، به عبارت دیگر، ساختار پارادایمیک آن، که از نقطه نظر تبعیت و ترکیب توصیف شده است.

فرهنگ لغت موضوعی- سیستماتیک نوع خاصی از فرهنگ ایدئوگرافیک است که ترکیبی از فرهنگ موضوعی و نظام مند است.

خلاصه. طبقه بندی در نظر گرفته شده اصطلاحنامه های زبانی شامل انواع فرهنگ لغت های زیر است: اصطلاحنامه قیاسی (اصطلاحات V.V. Morkovkin)؛ اصطلاحنامه ایدئولوژیک (ایدئولوژیک) (اصطلاحات L.V. Shcherba و V.V. Morkovkin)؛ دانشیار اصطلاحنامه (اصطلاحات توسط Yu.N. Karaulov). بعد پاپ ارائه خواهد شد. اصطلاحنامه ها و ویژگی های آنها آشکار می شود.

3.4. اصطلاحنامه های محبوب و ویژگی های آنها

معروف ترین لغت نامه ها- اصطلاحنامه های موجود، که خود این اصطلاح وجودش را مدیون آن است، بر اساس مواد زبان انگلیسی ایجاد شده است. این یک اصطلاحنامه دائماً تجدید چاپ شده توسط P.M. اصطلاحنامه کلمات و عبارات انگلیسی راجر روژه (1852).

توجه به این نکته ضروری است که نویسنده اصطلاحنامه کلمات و عبارات انگلیسی از تجربیات موجود در آن زمان استفاده کامل کرده است. P.M می نویسد: «اصلی که هنگام طبقه بندی کلمات مرا راهنمایی کرد. راجر، همان چیزی است که در طبقه بندی افراد در زمینه های مختلف تاریخ طبیعی استفاده می شود. بنابراین، بخش‌هایی که من برجسته کرده‌ام با خانواده‌های طبیعی گیاه‌شناسی و جانورشناسی مطابقت دارد و مجموعه‌ای از کلمات با همان روابطی که مجموعه‌های طبیعی گیاهان و جانوران را متحد می‌کند، تثبیت می‌شوند.»

پ.م. راجر معتقد بود که طبقه بندی متقاعد کننده کلمات بر اساس معانی آنها غیرممکن است تا زمانی که اشیاء واقعیت به نام این کلمات به درستی مطالعه و سازماندهی شوند. بنابراین، او کار خود را با تقسیم حوزه مفهومی زبان انگلیسی به چهار طبقه بزرگ آغاز می کند: روابط انتزاعی، فضا، ماده و روح (ذهن، اراده، احساسات). این طبقات بیشتر به تعدادی جنس تقسیم می شوند که به نوبه خود به تعداد معینی از گونه ها تقسیم می شوند.

از جمله کاستی های فرهنگ لغت ایدئوگرافیک پ.م. دانشمندان موارد زیر را به راجر نسبت می دهند: 1) نامگذاری نه کاملا قانع کننده از طبقات مفهومی اصلی. 2) منطق انتزاعی بر پیوندهای طبیعی کلمات غلبه دارد. 3) ناراحتی نسبی استفاده (این کمبود تا حد زیادی در نسخه های بعدی اصلاح شده است).

در فرهنگ لغت مدرن روسی چندین فرهنگ لغت وجود دارد که باید به عنوان فرهنگ لغت- اصطلاحنامه (فرهنگنامه ایدئوگرافیک) طبقه بندی شوند. این، به عنوان مثال، تحت رهبری Yu.N. Karaulova "فرهنگ لغت معنایی روسی"، "فرهنگ معنایی روسی" ویرایش شده توسط N.Yu. شودووا، "فرهنگ موضوعی زبان روسی" توسط L.G. سایاخوا، دی.م. Khasanova و V.V. مورکوکینا، "فرهنگ لغت گروه های واژگانی- معنایی افعال روسی"، ویرایش. E.V. کوزنتسوا، "فرهنگ ایدئوگرافیک زبان روسی" O.S. بارانووا، "مفهوم سپهر دنیای درونی انسان در زبان روسی" نوشته V.I. Ubiyko، فرهنگ لغت آموزشی جامع "مبنای واژگانی زبان روسی" تحت راهنمایی V.V. مورکوکینا.

بیایید با برخی از آنها آشنا شویم.

فرهنگ لغت اصطلاحات مدرن روسی» ویرایش شده توسط A.N. بارانوا و D.O. Dobrovolsky شامل چهار بخش اصلی است: 1) خلاصه. 2) افسانه؛ 3) بدنه اصلی فرهنگ لغت- اصطلاحنامه. 4) اشاره گر هدف خلاصه ارائه یک ایده کلی از ساختار بدنه اصلی اصطلاحنامه است. همه گونه‌ها را با زیرمجموعه‌ها و ارجاعات الگوی مربوطه فهرست می‌کند. بدنه اصلی فرهنگ لغت اصطلاحنامه مجموعه‌ای از مدخل‌های فرهنگ لغت است که به گروه‌ها (taxa) و زیر گروه‌ها (subtaxa) مطابق با معنای اصطلاحات توصیف شده در آنها گروه‌بندی شده‌اند. هر مقاله شامل یک اصطلاح و نمونه هایی از کاربرد آن در روسی مدرن است. خلاصه، افسانه، فهرست ها بخش های خدماتی فرهنگ لغت- اصطلاحنامه فوق هستند که این فرصت را برای کاربر فراهم می کنند تا سریع و کارآمد کار کند. افسانه در مواردی به کار می رود که مصادیق استفاده از اصطلاحات مورد نیاز نباشد، زیرا تمام اطلاعات به جز نمونه ها را بازتولید می کند. در واقع این واژگان دیکشنری است. واحدهای واژگان لم هستند. لم در این مورد بیانگر اصطلاح به شکل اصلی (فرهنگ لغت) آن است و در صورت امکان شامل تمام انواع مهم آن است. به عنوان مثال، اصطلاح ایستاده هنوز بخشی از زمان علامت لم، ایستادن ثابت، لغزش در جای خود است.

فرهنگ لغت شامل دو نشانگر است. در پایان کتاب مقاله ای با عنوان "مفهوم نظری فرهنگ لغت- اصطلاحنامه ایدئوماتیک مدرن روسیه" وجود دارد که ویژگی های علمی این پروژه را به تفصیل تجزیه و تحلیل می کند.

"فرهنگ معنایی روسی" که تحت رهبری Yu.N. Karaulova شامل 10 هزار کلمه روسی است که به 1600 گروه مفهومی تقسیم می شود. شناسایی گروه ها بر اساس عناصر مکرر تفسیر کلمه در فرهنگ لغت های توضیحی است: به عنوان مثال، "عمل"، "ملک"، "ابزار" و غیره.

"فرهنگ معنایی روسی" که تحت رهبری آکادمیک N.Yu. شودووا بر اساس اصول کمی متفاوت است که مشخصه تدوین فرهنگ لغت های ایدئوگرافیک و توضیحی است. اولاً، همه کلمات زبان در اینجا به چهار کلاس تقسیم می شوند: 1) واحدهای نشان دهنده (ضمایر)، 2) نام گذاری (کلمات مفهومی)، 3) رابط های واقعی (حرف های ربط، حروف اضافه، افعال پیوند دهنده)، 4) طبقه بندی (کلمات وجهی). ، ذرات، الفاظ). ثانیاً، در هر کلاس، همه کلمات بر اساس بخش‌هایی از گفتار توزیع می‌شوند. ثالثاً، در هر بخش از گفتار، مجموعه ها و زیرمجموعه ها بر اساس نزدیکی موضوعی یا برعکس، تقابل معانی کلمات شناسایی می شوند.

DUDEN کتابی است با تصاویر (نقاشی) در سمت چپ (طبق نرم افزارهای مختلف) با قسمت های شماره گذاری شده (تا کوچکترین). در سمت راست، این فهرست شماره گذاری شده با عناوین (حتی به دو زبان) همراه است. به عنوان مثال، تجهیزات، ایستگاه ها و خطوط راه آهن در یک صفحه کامل ترسیم می شوند. در سمت راست نام فلش ها، سمافورها، عصاها و غیره وجود دارد.

"فرهنگ موضوعی زبان روسی" L.G. سایاخوا، دی.م. Khasanova و V.V. Morkovkina شامل 25 هزار واحد واژگانی است که به سه طبقه بزرگ گروه بندی می شوند: "انسان" ، "جامعه" ، "طبیعت" که به صورت گام به گام به زیر طبقات کوچکتر تقسیم می شوند. به عنوان مثال، در کلاس "انسان" زیرمجموعه های "بدن و ارگانیسم انسان"، "زندگی انسان"، "ظاهر، ظاهر یک فرد"، "ظاهر عاطفی یک شخص" و غیره وجود دارد. هر یک از زیر کلاس ها به نوبه خود به موارد خاص تر تقسیم می شود: " دنیای عاطفی یک فرد" - "ویژگی های ذهنی یک فرد" - "خلق و خو" ، "شخصیت" - "ویژگی های شخصیتی عمومی" و غیره. معنی و کاربرد کلمات متعلق به هر کلاس با رایج ترین عبارات نشان داده شده است. به عنوان مثال، کلمه "خنده" که در زیر گروه "بیان احساسات، عواطف" کلاس "مرد" قرار دارد، با نشانه ای از ترکیباتی با این کلمه مانند خنده شاد، خنده شاد، خنده کودک، ترکیدن همراه است. به خنده و غیره

خلاصه. یکی از ابزارهای مؤثر برای توصیف حوزه های موضوعی به خصوص در قالب الکترونیکی، اصطلاحنامه ها هستند.

اصطلاح اصطلاحنامه مدت‌هاست که به طور گسترده در زبان‌شناسی برای تعیین نوع خاصی از فرهنگ لغت استفاده می‌شود که به یک درجه یا دیگری منعکس کننده "تصویر جهان"، "مدل زبانی جهان" (به گفته Yu.N. Karaulov) است. اصطلاحنامه به عنوان یک «خزانه» در دامنه معنایی خود رشد کرده و معنای جدیدی دریافت کرده است. آنها شروع به نامیدن آن را به فرهنگ لغت کردند که نه تنها تمام غنای واژگانی یک زبان را جذب می کند، بلکه آنها را به روش منطقی - سیستمی خاصی سازمان می دهد. در فرهنگ لغت اصطلاحنامه، کلمات در گروه‌هایی با هم ترکیب می‌شوند و این یکپارچگی بر اساس توانایی یک کلمه خاص برای انتقال یک مفهوم خاص رخ می‌دهد.

فرهنگ لغت اصطلاحنامه همیشه در زبان شناسی به عنوان نوعی سیستم جهانی در نظر گرفته شده است که ذخیره دانش جمعی (برای یک جامعه خاص) در مورد جهان را به صورت کلامی تضمین می کند. برخلاف سایر فرهنگ‌های لغت، در فرهنگ لغت‌نامه این دانش به شکلی ساختاریافته ذخیره می‌شود که ایده‌های ما را درباره «ساختار جهان» منعکس می‌کند.

معروف ترین و محبوب ترین اصطلاحنامه در حال حاضر اصطلاحنامه انگلیسی راجرز، O.V. بارانوا، فرهنگ معنایی روسی Yu.N. کاراولوا، فرهنگ معنایی روسی آکادمیک N.Yu. Shvedova، DUDEN، فرهنگ لغت موضوعی زبان روسی L.G. سایاخوا، دی.م. Khasanova و V.V. مورکوکینا.

نظام مفهومی یک حوزه موضوعی اساس هر حوزه موضوعی، نظام مفاهیم این حوزه است. تعریف مفهوم: مفهوم اندیشه ای است که اشیاء و پدیده های واقعیت را با تثبیت ویژگی ها و روابط آنها به صورت تعمیم منعکس می کند. دومی (ویژگی ها و روابط) در مفهوم به عنوان ویژگی های کلی و خاص ظاهر می شود که با طبقات اشیاء و پدیده ها مرتبط است (لغت نامه زبانی).


مفاهیم و اصطلاحات برای بیان مفهوم حوزه موضوعی در متون از کلمات یا عباراتی به نام اصطلاح استفاده می شود. مجموعه اصطلاحات یک حوزه موضوعی سیستم اصطلاحی آن را تشکیل می دهد. رابطه یک اصطلاح خاص با سایر اصطلاحات سیستم اصطلاحی حوزه موضوعی با استفاده از یک تعریف مشخص می شود


تعاریف اصطلاح؟ کلمه (یا ترکیبی از کلمات) که تعیین دقیق یک مفهوم خاص از هر رشته خاصی از علم، فناوری، هنر، زندگی اجتماعی و غیره است. || کلمه یا عبارت خاصی که برای نشان دادن چیزی به کار می رود. در یک محیط یا محیط دیگر، حرفه (فرهنگ توضیحی بزرگ زبان روسی)


اصطلاحات - نام دقیق مفاهیم معمولاً هر مفهوم در زمینه حداقل با یک اصطلاح کاملاً درک شده مطابقت دارد که معنای آن همین مفهوم است. - اصطلاحات، به مفهوم نظریه سنتی اصطلاحات خصوصیات اصطلاحات - نام دقیق مفاهیم - اصطلاح باید مستقیماً با مفهوم مرتبط باشد، باید مفهوم را به وضوح بیان کند. - معنای اصطلاح باید دقیق باشد و از نظر معنی با اصطلاحات دیگر همپوشانی نداشته باشد. - معنای اصطلاح نباید به زمینه بستگی داشته باشد. اصطلاحاتی که به طور دقیق یک مفهوم را نامگذاری می کنند، موضوع تحقیق نظریه اصطلاحات، اصطلاح شناسان هستند


اصطلاحات متنی در متون واقعی حوزه موضوعی برای ارجاع به یک مفهوم، علاوه بر اصطلاحات پایه، از عبارات زبانی بسیاری می توان استفاده کرد که آنها را اصطلاحات متنی می نامیم: - گزینه های نحوی و واژه سازی: گیرنده بودجه بودجه - بودجه. گیرنده؛ - گزینه های لغوی - حذف مستقیم، حذف بلامنازع. - عبارات چند معنایی، بسته به زمینه، که به عنوان ارجاع به مفاهیم مختلف حوزه عمل می کنند، به عنوان مثال، کلمه ارز در زمینه های مختلف می تواند به معنای پول ملی یا ارز خارجی باشد.














توصیفگرها با علامت بستر - بخشی از نام جرثقیل توصیفگر (تجهیزات بالابر) در مقابل جرثقیل (پرندگان) پوسته (سازه ها) - مقایسه اصطلاحنامه های مختلف ترجیحات عبارات: - رکوردهای گرامافون در مقابل. ضبط (گرامافون) علائم و جمع: چوب (ماده) چوب (مناطق جنگلی)






شامل توصیف کننده ها بر اساس عبارات چند کلمه ای تقسیم یک عبارت باعث افزایش ابهام می شود: غذای گیاهی معنای عبارت به ترتیب کلمات بستگی دارد: علم اطلاعات - اطلاعات علمی یکی از کلمات جزء خارج از محدوده اصطلاحنامه است یا خیلی کلی است: اول کمک روابط توصیفگر از ساختار آن تبعیت نمی کند: - کلیه های مصنوعی، وضعیت پناهندگی، چراغ های راهنمایی




روابط انجمنی زمینه فعالیت - بازیگر - ریاضی - ریاضیدان رشته - موضوع مورد مطالعه - عصب شناسی - سیستم عصبی عمل - عامل یا ابزار - شکار - شکارچی عمل - نتیجه عمل - بافندگی - پارچه عمل - هدف - صحافی - کتاب علت و معلول - مرگ - ارزش تشییع جنازه - واحد اندازه گیری - قدرت فعلی - آمپر عمل - طرف مقابل - آلرژن - داروی ضد حساسیت و غیره.


اصطلاحنامه بازیابی اطلاعات: مراحل توسعه مرحله اول: نمایه سازها موضوع اصلی متن را با استفاده از کلمات و عبارات دلخواه توصیف می کنند. اصطلاحات به دست آمده از بسیاری از متون در کنار هم قرار می گیرند در میان اصطلاحاتی که از نظر معنی مشابه هستند، معرف ترین آنها انتخاب می شود برخی از موارد باقی مانده تبدیل می شوند. مترادف های شرطی، بقیه حذف می شوند. اصطلاحات خاص معمولاً شامل نمی شوند


اصطلاحنامه بازیابی اطلاعات: هنر توسعه توصیفگرها اصطلاحاتی هستند که برای بیان موضوع اصلی سند مورد نیاز هستند. برای جلوگیری از نمایه سازی ذهنی سطوح سلسله مراتبی باید به یک ترم کاهش یابد، گنجاندن اصطلاحات خاص محدود است.


اصطلاحنامه بازیابی اطلاعات: هنر توسعه - 2 در موارد پیچیده، توصیفگرها با علائم و نظرات ارائه می شوند -LIV: بمباران - بمباران - اصطلاحات چند معنایی: یک معنی در اصطلاحنامه (سرمایه)، در اصطلاحنامه نمی گنجد، علائم !!! اصطلاحنامه سنتی بازیابی اطلاعات یک زبان مصنوعی است که بر اساس اصطلاحات واقعی ساخته شده است




IPT سنتی: کاربرد در پردازش خودکار عدم اطلاع از زبان واقعی نرم افزار عدم اطلاع از زبان واقعی نرم افزار Legislative Indexing Vocabulary: Legislative Indexing Vocabulary: – در متن TROOPS – در اصطلاحنامه MILITARY FORCES – در متن CAPITAL – سرمایه، در اصطلاحنامه فقط سرمایه پیشنهادی: مکمل هر توصیفگر با فهرست کلمات و اصطلاحات پیشنهاد می شود: هر توصیفگر با فهرستی از کلمات و اصطلاحات تکمیل شود اما: چندمعنی یا مربوط به توصیفگرهای مختلف. اما: چند معنایی یا مربوط به توصیفگرهای مختلف. تفکیک ابهام زدایی ابهام زدایی


IPT سنتی: بسط پرس و جو خودکار مشکل با انجمن ها پیشنهاد شده: وزن ها را وارد کنید وزن ها را وارد کنید نام روابط را وارد کنید: شی، ویژگی و غیره. نام روابط را وارد کنید: شی، ویژگی و غیره. نتیجه گیری: شما باید یاد بگیرید که چگونه منابع زبانی را به طور خاص برای پردازش خودکار مجموعه های متنی بسازید.


اصطلاحنامه EUROVOC - اصطلاحنامه چند زبانه جامعه اروپا اصطلاحنامه به 9 زبان نسخه روسی EUROVOC - + 5 هزار مفهوم منعکس کننده خصوصیات روسی اصطلاحنامه چند زبانه - توصیفگر - نامها در زبانهای مختلف - Ascriptors - برای برخی از زبانها


نمایه سازی خودکار طبق اصطلاحنامه EUROVOC، بر اساس قوانین (Hlava, Heinebach, 1996) قانون مثال: IF (نزدیک به "تکنولوژی" و با "توسعه") استفاده از برنامه جامعه استفاده از کمک توسعه ENDIF 40 هزار قانون. تست: 20 توصیف کننده پرتکرار در متن، تولید شده به صورت خودکار - 42٪ کامل بودن، در مقایسه با روبریک دستی


نمایه سازی خودکار بر اساس تعیین وزن متناظر بین کلمات و توصیفگرها (Steinberger et al., 2000) مرحله 1 - ایجاد تناظر بین کلمات متنی و توصیفگرهای اختصاص داده شده بر اساس معیارهای آماری (خی دو یا لگ احتمال) توصیفگر مدیریت ماهیگیری - کلمات زیر (به ترتیب وزن نزولی): ماهیگیری، ماهی، سهام، ماهیگیری، حفاظت، مدیریت، کشتی و غیره. مرحله 2 نمایه سازی خود - جمع لگاریتم وزن ها یا به عنوان حاصل ضرب مقیاسی بردارها


ترکیبی از پرس و جوهای رایگان و بر اساس یک اصطلاحنامه بازیابی اطلاعات - یک کاربر یک پرس و جو به زبان طبیعی می پرسد (Petras 2004). پتراس 2005). به عنوان مثال، در درخواست شرکت های ورشکسته، لیستی از توصیف کننده های نقدینگی، بدهی، شرکت، شرکت را می توان به دست آورد، و دقت در آزمایش را می توان 13 درصد افزایش داد.



یکی از مفاهیم اساسی جدید که در نتیجه توسعه روش های ماشینی برای پردازش اطلاعات، به ویژه هنگام ترجمه از یک زبان به زبان دیگر، جستجوی اطلاعات علمی و فنی و ایجاد مدل اطلاعاتی یک شرکت در سیستم های کنترل خودکار پدیدار شد. ، مفهوم اصطلاحنامه سیستم اطلاعاتی بود. اصطلاح اصطلاحنامه به مجموعه ای از دانش در مورد جهان خارج دلالت دارد - این اصطلاحنامه به اصطلاح جهان T است. همه مفاهیم جهان خارج که با زبان طبیعی بیان می شوند، یک اصطلاحنامه را تشکیل می دهند که اصطلاحنامه های خصوصی را می توان از آن متمایز کرد. با تقسیم سلسله مراتبی با در نظر گرفتن تبعیت از مفاهیم فردی یا با جداسازی بخش‌هایی از اصطلاحنامه عمومی جهان. اصطلاحنامه در سیستم های بازیابی اطلاعات نقش مهمی در یافتن سند مورد نظر با استفاده از کلمات کلیدی دارد. بنابراین، ساخت یک اصطلاحنامه یک کار پیچیده و مسئولانه است. اما این کار می تواند خودکار نیز باشد.

طبقه بندی در کلی ترین تعریف آن تقسیم بندی و ترتیب مجموعه ها است. به توزیع اشیاء در طبقات بر اساس ویژگی مشترک ذاتی این پدیده ها یا اشیاء و تمایز آنها از اشیاء و پدیده هایی که طبقات دیگر را می سازند گفته می شود. در صورت لزوم، هر کلاس را می توان به زیر کلاس ها تقسیم کرد. روبریکاتور نوع خاصی از طبقه بندی است. بنابراین، آنها بر اساس مقررات کلی ایجاد می شوند:
 مبنای علمی برای ساخت طبقه بندی؛
 بازتاب سطح فعلی توسعه علم؛
 وجود سیستمی از پیوندها و ارجاعات و همچنین دستگاه مرجع و مرجع (CCA).

با این حال، روبریکاتور یک طبقه بندی عملی است که بر اساس جریان اطلاعات و نیازهای متخصصان ایجاد شده است. این تفاوت آن با طبقه بندی های قبلی مانند UDC و IPC است.

کارکردهای اصلی طبقه بندی ها و به ویژه روبراتور به شرح زیر است:
 تمایز موضوعی زیرسیستم های اطلاعاتی؛
 تشکیل آرایه های اطلاعاتی بر اساس هر ویژگی.
 سیستم سازی مواد اطلاعاتی و نشریات؛
 جستجوی فعلی و گذشته نگر؛
 نمایه سازی اسناد و پرس و جوها؛
 ارتباط با سایر طرح های طبقه بندی؛
- کارکردهای هنجاری

آنها با تقسیم مفاهیم - اشیاء طبقه بندی بر اساس ارتباطات برقرار شده بین ویژگی های این اشیاء مطابق با اصول منطقی خاصی ساخته می شوند. مشخصه ای که طبق آن طبقه بندی انجام می شود، مبنای تقسیم بندی نامیده می شود. طبقه بندی ها به طور گسترده ای از روش های استنتاج و استقرا برای تثبیت گروه ها، کلاس ها و شناسایی ارتباطات بین آنها استفاده می کنند. این برای طبقه بندی های سلسله مراتبی معمول است. عمق طبقه بندی (تعداد سطوح سلسله مراتبی) بسته به هدف ممکن است متفاوت باشد. یکی از روبریکاتورهای پرکاربرد، روبریکاتور دولتی اطلاعات علمی و فنی (GRNTI) است.

روبریکاتور GRNTI به گونه ای طراحی شده است که می توان از آن در کنار سایر طبقه بندی ها مانند UDC و IPC استفاده کرد. طبقه بندی اعشاری جهانی (UDC) بیش از 70 سال است که وجود دارد، اما هنوز هم از نظر وسعت توزیع مشابهی ندارد و در بسیاری از کشورهای جهان استفاده می شود. UDC کل جهان دانش را پوشش می دهد و با موفقیت برای سیستم سازی و جستجوی بعدی برای طیف گسترده ای از منابع اطلاعاتی استفاده می شود.

علاوه بر UDC، طبقه بندی کتابخانه ای و کتابشناختی (LBC) به طور گسترده در عمل استفاده می شود. BBK بر اساس اصول تابعیت منطقی ساخته شده است و یک طبقه بندی از نوع کاربردی را نشان می دهد.
در فدراسیون روسیه، برای طبقه بندی اختراعات و نظام مند کردن مجموعه های داخلی توصیفات اختراع، از طبقه بندی ثبت اختراع بین المللی استفاده می شود - یک طبقه بندی چند جنبه نسبتاً پیچیده که بر اساس یک اصل کاربردی-صنعتی ساخته شده است. همان مفاهیم فنی را می توان در IPC یا کلاس های ویژه (بر اساس صنعت) یا در کلاس های عملکردی (بر اساس اصل عملیات) یافت. اصل بخشی توزیع مفاهیم شامل طبقه بندی اشیا بسته به کاربرد آنها در شاخه ای خاص از تجهیزات و فناوری است که از لحاظ تاریخی ایجاد شده است.

مشخصات مقایسه ای روبراتورهای SRNTI، UDC، BBK و IPC در جدول 1 آورده شده است.

میز 1
ویژگی های روبراتور SRNTI، UDC، BBK و IPC

نام

ساختار

اصل قرار دادن تقسیمات

طرح ساخت پارتیشن

بر اساس سلسله مراتب

صنعت

از عام به خاص

بر اساس سلسله مراتب

موضوعی

بر اساس سلسله مراتب

عملکردی-بخشی

از عام به خاص

LBC برای کتابخانه های علمی

بر اساس سلسله مراتب

صنعت

از عام به خاص، بر اساس گونه


بنابراین، می‌توانیم ویژگی‌های متمایز اصلی روبریکاتورها و طبقه‌بندی‌کننده‌ها را برجسته کنیم:
- آنها با ماهیت کاربردی و جهت گیری صنعتی مشخص می شوند.
 اینها سیستم های باز هستند که به توسعه علم و فناوری، نیازها و درخواست های متخصصان بستگی دارد.
- سیستم های معدنی، زیرا اجسام در محیط بوجود می آیند و رشد می کنند و از آن وارد می شوند. عناصر می توانند به طور مستقل در خارج از سیستم وجود داشته باشند. این صفت با صفت دوم ارتباط نزدیک دارد;
- حداقل عنصر، مفهوم مرتبط با محیط است. یک مفهوم نشان دهنده سیستمی از تعاریف است.
 ارتباطات بین مفاهیم هم به صورت "عمودی" (نوع-نوع، تمام-جزئی) و هم "افقی" (نوع-نوع، قسمت-جزئی) ایجاد می شود که نشان دهنده سلسله مراتب سیستم ها است.

در نتیجه ساختار و اصول سازماندهی طبقه‌بندی‌ها و روبریکاتورها امکان خودکارسازی فرآیند ساخت اصطلاحنامه‌های حوزه موضوعی را با استفاده از روش کسر فراهم می‌کند. الگوریتم ساخت اصطلاحنامه با استفاده از روش کسر در شکل 1 نشان داده شده است. 1.

اساس تشکیل یک اصطلاحنامه یک تصویر جستجو از یک سند، یک کار یا یک برنامه برای جستجوی اطلاعات است که توسط اپراتور پر شده است. بنابراین اولین قدم تحقیق و تحلیل اپلیکیشن است. در مرحله اول، اپراتور موضوع یا مشکل مورد علاقه، کلمات کلیدی احتمالی و مترادف آنها را نشان می دهد. در نتیجه، درک سطحی از حوزه موضوعی به دست می آوریم.

برنج. 1. الگوریتم ساخت اصطلاحنامه با استفاده از روش کسر

علاوه بر این، اصطلاحنامه ای از کلمات کلیدی KS با استفاده از روش کسر تشکیل می شود که نیاز به:
 آرایه KS که توسط خود کاربر مشخص شده و در شکل 1 به عنوان MP تعیین شده است.
 آرایه KS به ترتیب MZ از کار جستجو استخراج شده است.

با این حال، برای درک کامل‌تر و عمیق‌تر از حوزه موضوعی، ما از روبریکاتورها و طرح‌های طبقه‌بندی موجود (GRNTI، UDC، BBK، IPC) استفاده می‌کنیم. برای به حداکثر رساندن پوشش حوزه موضوعی، لازم است همه موارد موجود را بررسی کنید. آرایه روبریکاتورها نشان دهنده MR است. الگوریتم جستجوی کسر شامل دو مرحله است:
1. یافتن مفاهیم عمومی (شکل 2).
2. یافتن اصطلاحات خاص در مفاهیم عمومی (شکل 3).


برنج. 2. پردازش مفهوم عمومی

ما اولین روبراتور را از آرایه بارگذاری می کنیم و یک چرخه بررسی وجود CS وارد شده توسط کاربر در روبریکاتورها سازماندهی می کنیم. هر KS در روبریکاتور جستجو می شود و با یک مفهوم عمومی یا "لانه" مقایسه می شود، و سپس شرایط بررسی می شود که آیا پیوندی به عبارات خاص وجود دارد یا خیر. اگر چنین پیوندی در دسترس باشد، KS با شرایط خاص مقایسه می شود. اگر پیوندی یافت نشد، به مفهوم کلی بعدی بروید. هنگامی که کلمات کلیدی CS وارد شده توسط اپراتور مشاهده می شود، به آرایه CS استخراج شده از وظیفه می رویم. روش تأیید مشابه است - ما به دنبال KS مربوط به مفاهیم عمومی و سپس پیوندهای آنها به شرایط خاص هستیم.


برنج. 3. پردازش اصطلاحات خاص

توجه داشته باشید که در هر مفهوم عمومی، بررسی همه اصطلاحات خاص موجود برای به دست آوردن حداکثر درک از منطقه مشکل مهم است. نتیجه این اقدامات، تشکیل آرایه ای از کلمات کلیدی KS است که یک اصطلاحنامه کامل مربوط به وظیفه جستجوی اطلاعات یا تصویر جستجوی یک سند است.

بر اساس مجموعه کاملی از تصاویر جستجوی اسناد (بیایید آنها را مشخص کنیم)، امکان ایجاد اصطلاحنامه های صنعتی و یک طبقه بندی کتابخانه یکپارچه وجود دارد. بدیهی است که مجموعه کامل  خود بیانگر یک اصطلاحنامه ساده است.

با این حال، با استفاده از معیار انتخاب
, (1)
ما می توانیم اصطلاحنامه های صنعتی بسازیم. در این حالت مجموعه همه اصطلاحنامه های صنعتی یک اصطلاحنامه کامل را تشکیل می دهند
, (2)
که بخش هایی از آن را می توان مطابق با الزامات GOST با توجه به طبقه بندی کننده های اصلی (GRNTI، UDC، BBK، MPK) یا طبق یک طبقه بندی داخلی یکپارچه ساختار سلسله مراتبی ساخت.

اتوماسیون فرآیند ساخت اصطلاحنامه و طبقه بندی این امکان را فراهم می کند که کار یک اپراتور که با منابع اطلاعاتی توزیع شده کار می کند تا حد امکان آسان شود.

علاوه بر ساخت یک اصطلاحنامه، بر اساس یک تصویر جستجو از یک سند، رویکرد پیشنهادی می تواند برای انتزاع خودکار اسناد و خوشه بندی متن استفاده شود.

چکیده اسناد یکی از وظایفی است که با هدف ارائه اطلاعات قابل اعتماد لازم برای تصمیم گیری مدیریت در مورد ارزش اسناد به دست آمده از اینترنت به متخصصان خبره انجام می شود. چکیده فرآیند تبدیل اطلاعات اسنادی است که در تهیه یک چکیده به اوج خود می رسد و چکیده یک ارائه معنایی کافی از محتوای اصلی سند اولیه است که با طراحی نمادین اقتصادی، ثبات ویژگی های زبانی و ساختاری مشخص می شود و برای اجرا در نظر گرفته شده است. انواع کارکردهای اطلاعاتی و ارتباطی در سیستم ارتباطات علمی. الگوریتم انتزاع اسناد در شکل 1 ارائه شده است. 4.


برنج. 4. الگوریتم انتزاع سند

به طور کلی الگوریتم شامل مراحل اصلی زیر است.
1. جملات از سندی که از اینترنت دانلود شده و در انبار داده قرار دارد با انتخاب علائم نگارشی و ذخیره آن در یک آرایه استخراج می شوند.
2. هر جمله با انتخاب جداکننده ها به کلمات تقسیم می شود و آنها را در یک آرایه ذخیره می کنیم و آرایه برای هر جمله متفاوت است.
3. برای هر جمله، برای هر کلمه از این جمله، تعداد کلمات جملات دیگر (قبل و بعد) را می شماریم. مجموع تکرارهای هر کلمه (قبل و بعد) وزن این جمله خواهد بود.
4. تعداد معینی از جمله با حداکثر ضریب وزنی برای چکیده به ترتیب ظاهر در متن انتخاب می شود.

مدل پیشنهادی برای ساخت اصطلاحنامه و کاتالوگ های موضوعی یک سیستم اطلاعاتی، مبنایی نظری برای خودکارسازی جستجوی معنایی نشان می دهد و به متخصص اجازه می دهد نه تنها کار جستجو را انجام دهد، بلکه در حالت خودکار، اسناد انتزاعی به دست آمده در نتیجه جستجو در سیستم های اطلاعاتی توزیع شده در اینترنت

ادبیات:
1. Barushkova R.I. طرح های طبقه بندی اطلاعات علمی و فنی. کتاب درسی کمک هزینه - م.، 1981. - 80 ص.
2. Barushkova R.I. روبریکاتور به عنوان یک طرح طبقه بندی اطلاعات علمی و فنی. ابزار. - م.، 1980. - 38 ص.
3. Trusov A.V., Babarykin E.P. برآورد مرزهای دامنه درخواست اطلاعات موضوعی در سیستم های اطلاعاتی توزیع شده. مواد کنفرانس همه روسی (با مشارکت بین المللی) "اطلاعات، نوآوری، سرمایه گذاری"، 24-25 نوامبر 2004، Perm / Perm CSTI. - Perm, 2004. - P.76-79.
4. Yatsko V.A. مسائل منطقی-زبانی تحلیل و تلخیص متون علمی. - آبکان: مؤسسه انتشارات دولتی خاکاس. دانشگاه، 1996. - 128 ص.

آخرین مطالب در بخش:

کمدی پیگمالیون.  برنارد شاو
کمدی پیگمالیون. برنارد شاو "پیگمالیون" الیزا از پروفسور هیگینز دیدن می کند

پیگمالیون (عنوان کامل: پیگمالیون: رمان فانتزی در پنج عمل، انگلیسی پیگمالیون: عاشقانه در پنج عمل) نمایشنامه‌ای نوشته برنارد...

Talleyrand Charles - بیوگرافی، حقایق از زندگی، عکس ها، اطلاعات پس زمینه انقلاب کبیر فرانسه
Talleyrand Charles - بیوگرافی، حقایق از زندگی، عکس ها، اطلاعات پس زمینه انقلاب کبیر فرانسه

تالیران چارلز (به طور کامل چارلز موریس تالیران-پریگورد؛ تالیران-پریگورد)، سیاستمدار و دولتمرد فرانسوی، دیپلمات،...

کار عملی با نقشه ستاره متحرک
کار عملی با نقشه ستاره متحرک