シソーラスは何に使用されますか? 類語辞典という言葉の意味

NV・ルカシェヴィチ

[メールで保護されています]

B.V.ドブロフ

モスクワ州立大学リサーチ コンピューティング センター。 M.V.ロモノーソフ。

ANO情報研究センター

[メールで保護されています]

キーワード:シソーラス、情報検索、自動テキスト処理、

大規模なテキストのコレクションを処理するテクノロジーの大部分は、統計的および確率的手法に基づいています。 これは、言語的手法を使用してテキスト コレクションを処理するために使用できる語彙リソースには、数万の辞書エントリが必要であり、リソースの開発時に特に監視する必要がある多くの重要なプロパティが必要であるという事実によるものです。 この報告書では、コンピュータテキスト処理用のロシア語シソーラス RuTez の例を使用して、大規模なテキストコレクションの自動処理のための語彙リソース開発の基本原則を検討します。RuTez は 1997 年に作成され、現在 42,000 を超える概念の階層ネットワークです。 。 シソーラスの語彙構成とロシア大学情報システム (www.cir.ru) のテキスト コーパス (40 万件の文書) の比較に基づいて、シソーラスの現状について説明します。 さまざまな自動文書処理アプリケーションでのシソーラスの使用例について説明します。

  1. 導入

現在、何百万もの文書が電子形式で利用できるようになり、何千もの情報システムや電子ライブラリが作成されています。 同時に、検索に語彙や用語のリソースを使用する情報システムは、パーセント単位で計算されます。 これは、最新の電子文書のコレクションを自動処理するための言語リソースを作成することが重大な課題であるためです。

まず、これらのコレクションは通常非常に大きく、リソースには何千もの単語や用語の説明が含まれている必要があります。 第 2 に、コレクションはさまざまな構文構造を持つさまざまな構造のドキュメントのセットであるため、テキスト文を自動的に処理することが困難になります。 さらに、重要な情報はテキストの異なる文の間に分散されることがよくあります。

これらすべては、言語リソースとはどうあるべきかという問題を鋭く提起します。言語リソースは、一方では電子コレクションの自動処理と検索に役立ち、他方では予見可能な時間内に作成でき、比較的少ない労力で維持できるものであるべきです。努力。

この記事では、大規模なテキスト コレクションを自動処理するための語彙リソースを開発する基本原則を見ていきます。 これらの原則は、コンピュータ テキスト処理用に 1997 年から ANO 情報研究センターによって作成されたロシア語シソーラス RuTez の例を使用して検証されます。 RuTez は現在 42,000 を超える概念の階層ネットワークであり、これには 95,000 を超えるロシア語の単語、表現、用語が含まれています。 シソーラスの語彙構成と、モスクワ州立大学リサーチ コンピューティング センターの支援による大学情報システム RUSSIA のテキスト コーパスの語彙の比較に基づいて、シソーラスの現状について説明します。 M.V.ロモノーソフとANO TSII。 UIS RUSSIA (www.cir.ru) には、社会政治的トピックに関する 40 万件の文書 (約 3 GB のテキスト、2 億語) が含まれています。 この記事では、さまざまな自動ワープロ アプリケーションでのシソーラスの使用例についても説明します。

  1. 言語リソースを開発するための原則

情報検索タスク用

電子文書の効果的な自動処理 (文書の自動インデックス作成、分類、比較) を確実に行うには、比較の基礎、つまり文書内で言及されている内容のリストを構築する必要があります。 このような索引が単語ごとの索引よりも効果的であるためには、同義語、多義性、品詞、文体などのテキストの語彙の多様性を克服し、それを不変式に還元する必要があります。異なるテキストを比較するための基礎。 したがって、概念は言語リソースの基礎となるべきであり、言語表現、つまり単語や用語は、対応する概念を初期化するテキスト入力のみになります。

異なるが類似した概念を比較できるようにするには、それらの間に関係を確立する必要があります。 従来、自然言語によるテキストの自動処理のための言語リソースは、次のような特定の意味関係のセットを使用していました。 部分、出典、理由等々。 ただし、大規模で異質なテキストのコレクションを扱う場合、現在のワードプロセッサ技術では、コンピューター システムがテキスト内のこれらの関係を確実に検出して、関連する手順を実行することができないことを理解する必要があります。これらまたは他の関係。 したがって、概念間の関係は、まず、その概念が言及されている特定のテキストのトピックに依存しない、または弱く依存する特定の不変特性を記述しなければなりません。

この関係の主な機能は、次の質問に答えることです。

テキストが C1 についての説明に特化しており、C2 が関連していることがわかっている場合

態度RC1 では、テキストのトピックと言えますか?(*)

C2と関係あるの?

自動処理用の言語リソースを作成する場合、概念 C1 と C2 のどの特性によってそれらの間に正しい (*) 関係を確立できるかを判断することが重要です。

したがって、たとえば、どのような文章が書かれていても、 白樺、いつでも言えることは、この歌詞は 木。しかし、人気があり、関係について頻繁に議論されているにもかかわらず、 一部として 森林、木についての文章で森林についての文章はほとんどありません。 この問題は関係の名前とは関係がないことに注意してください。 それで 伐採は森の一部です、開拓地に関するテキストは森林に関するテキストです。

主題領域内のテキストの考えられるトピックのスペクトルに対する関係の不変性は、主に、関係の名前によって反映されるものよりも深い性質、すなわちその数量詞と存在的性質によって決定されます。 したがって、関係の数量詞プロパティは、概念のすべての例が特定の関係を持っているかどうか、この関係が例のライフサイクル全体を通じて持続するかどうかを記述します。 リレーションの使用に関する問題 それはまさに、すべての特定の木が森の中にあるわけではないが、伐採は森の外ではできないという事実によるものです。

関係の存在特性の記述の例 - 概念 C1 の存在から概念 C2 の存在が帰結しますか (たとえば、概念の存在) ガレージ概念の存在が必要です 自動車)または例 C1 の存在は例 C2 の存在に依存します(非常に具体的です) 洪水特定の例から切り離せない 河川)。 従属概念 C2 のテキストでの議論、特に例に依存するものは、テキストが主概念 C1 にも関連していることを示唆しています。

概念間の関係を考えてみましょう 森と木詳細に。 実はコンセプトの一部 森の中の木、ある一方で、 自立する木,庭の木 etc. いずれにしても概念の従属関係を断ち切る必要がある コンセプト .

反対側では、 種です 木のコレクション、木なしでは存在しません(同様に) )。 したがって、コンセプトは、 コンセプトに関連している必要があります 。 特定のアプリケーション問題のニーズの分析から始めて、以前は言語リソースにはほとんど反映されていなかったが、自動処理のタスクにとっては最も重要な関係の深い特性を記述することが重要であるという結論に達しました。大規模なテキスト コレクションや、場合によっては他の多くのタスクにも使用できます。

ここで、伝統的なシソーラスの関係である ABOVE-BELOW (すべての関係の 66%)、PART-WHOLE (関係の 30%)、ASSOCIATION (4%) を組み合わせて、概念の数量詞と存在特性の記述をモデル化します。追加修飾子の特定のセット (関係の 20% がマークされます)。 PART-WHOLE および ASSOCIATION 関係は、規則 (*) を考慮して解釈されることに注意してください。 合計で約 16 万の概念間の直接的な接続が記述されており、関係の推移性を考慮すると、異なる接続の総数は 135 万以上になります。つまり、平均して、各概念は 30 の他の概念と接続されています。 。

  1. RuTez シソーラス: 一般的な構造

RuTez シソーラスは、個々の単語、テキスト表現、または同義語シリーズの意味に対応する概念の階層ネットワークです。 したがって、シソーラスの主な要素は、概念、言語表現、言語表現と概念の間の関係、および概念間の関係です。

シソーラスは、伝統的に語彙、意味知識に関連する語彙素、イディオム、およびそれらの関係の説明という言語知識と、伝統的に用語学者の活動分野に関連する主題領域内の用語と関係についての知識の両方を単一のシステムに結合します。情報検索シソーラス。 このような主題の下位分野として、シソーラスは経済、立法、金融、国際関係などの主題分野を記述します。これらは人間の日常生活にとって非常に重要であるため、従来の説明辞書には重要な語彙表現が含まれています。 これらでは、語彙と用語が強く相互に関連しており、互いに強く相互作用します。

言語表現は、個々の語彙素 (名詞、形容詞、動詞)、名詞および動詞のグループです。 したがって、シソーラスには現在、言語表現としての副詞や機能語は含まれていません。 複数の単語グループには、用語、イディオム、語彙関数 ( 影響 e)。

それぞれの言語表現について次のように説明します。

その多義性は 1 つまたは複数の概念とのつながりであり、これは、特定の言語表現がこの概念のテキスト表現として機能できることを意味します。 言語表現をさまざまな概念に帰することは、その多義性を暗黙のうちに示すものでもあります。

その形態学的構成 (品詞、番号、格)。

書き方の特徴(大文字など)など。

各シソーラスの概念には、一意の名前、この概念をテキスト内で表現できる言語表現のリスト、および他の概念との関係のリストがあります。

通常、その明確なテキスト表現の 1 つが、概念の一意の名前として選択されます。 しかし、概念の名前は、そのあいまいなテキスト表現のペア、つまりコンマで区切って明確に定義する同義語によって形成されることもあります (たとえば、概念 厚い)。 概念の名前のあいまいなテキスト表現には、マークまたは解釈の短縮された断片を付けることもできます。たとえば、「concept」などです。 群衆(人々のグループ)。

  1. 辞書エントリの例

例として、概念の辞書エントリを選択しました。 、単語の意味の 1 つに対応します。 。 この辞書の項目が興味深いのは、伝統的に語彙 (意味) 知識と百科事典的知識 (主題領域、用語に関する知識) として分類されてきたさまざまな種類の知識が含まれているためです。

コンセプトの類義語 (合計 13):

森(M)、森林地帯、森林環境、

森林、森林地区、森林景観、

森林地帯、森林地帯、森林地帯、

森林地帯、小さな森、

森林の配列。

以下の概念と同義語:

密林(密林);

森林公園(都市の庭園、緑地、

緑地、森林公園、

森林管理、森林公園

ベルト、パーク(M)、公園エリア);

林業;

落ち葉の森(軟葉樹林、硬葉樹林

森);

グローブ(樫の木立);

CONIFEROUS FOREST(針葉樹林、暗い針葉樹林)

同義語を含む概念部分:

防風林(防風林、風よけ));

切断(切断領域);

森林文化(森林種、林業

文化);

FOREST LAND (森林土地; 覆われた土地)

森; 森林土地、森林領土。

森林に覆われた土地、森林に覆われた土地

エリア);

森林プランテーション(森林プランテーション、森林プランテーション、

植林);

森の端(エッジ、エッジ);

UNDERFLOWER(下草));

プロセカ;

ドライウッド(枯れた木).

ここで、記号 (M) はテキスト入力の曖昧さに関する注意を反映しています。

コンセプト また、他の関係、いわゆる依存関係 (最新バージョンでは、ASC 2 - 非対称関連付けと呼ばれます) もあります。 森林火災(森林火災、森林火災。 森林利用 (森林利用、森林基金エリアの利用); 林業; 森林科学 (森林科学)。 段落 2 ですでに述べたように、FOREST の概念は TREE の概念に依存しており、シソーラスでは関係 ASC 1 で示されています。

トータルコンセプト は、関係の推移性を考慮して、他の 28 の概念 (合計 650 を超えるテキスト入力) の 235 の概念と直接接続されています。

  1. 現状の評価

ロシア語シソーラス RuTez

5.1. 語彙構成

現在、シソーラス ネットワークには 95,000 を超える言語表現が含まれており、そのうち 61,000 は単一の単語です。

この膨大な作業により、シソーラスの説明にどのような単語や言語表現を含める必要があるかを決定する必要がありました。 自然な欲求は、ロシア語で最も頻繁に使用される単語がシソーラスでどのように表現されているかを確認することでした。 この目的のために、ロシア大学情報システムのテキストコレクション(40万文書)が使用されました。 このコレクションには、ロシア連邦のさまざまな機関からの公式文書 (1992 年以降 5 万 5,000 の文書) のほか、1999 年以降の報道資料 (新聞イズベスチヤ、ネザヴィシマヤ ガゼタ、コムソモリスカヤ プラウダ、アーギュメンティ イ ファクティ、エキスパート誌など)、科学機関の資料が含まれています。雑誌(「モスクワ大学紀要」、「社会学ジャーナル」)。 シソーラスに含まれる補題のリストと、テキスト コレクション内で最も頻繁に使用される 100,000 個の補題 (頻度が 25 を超える) のリストとの間で比較が行われました。

リストの補語素マーキングにより、これら 10 万個の見出し語のうち 35,000 個が RuTez で記述されており、シソーラスに含めるに値する語彙素は約 7,000 個だけで、残りはさまざまな固有名の見出し語の変形であることがわかりました。 したがって、補充は優先タスクではなくなり、最も頻繁に使用される単語から始めて徐々に実行されます。 このリストがほとんど使い尽くされるとすぐに、情報システムのテキスト配列との別の比較が行われ、頻度が 25 を超える新しい語彙素が選択されると想定されます。次に、閲覧のしきい値が引き下げられると想定されます。 。 テキスト コレクションには多数のテキスト例が含まれているため、「語彙の革新」に迅速に対応できます (たとえば、 インストール,大ヒット作, ボーモンド, スリラー) を作成し、シソーラス階層システムの適切な場所に含めます。

現在のテキスト コレクションを継続的に使用することで、辞書で提案されている語彙の説明の重要性と品質をチェックするまたとない機会が得られます。 たとえば、この単語の使用頻度が異常に高いなど、 マザー・シー(400回以上)。 配列を確認すると、その単語が実際にその単語の同義語としてよく使用されていることがわかりました。 モスクワ、説明的な辞書では、この単語が時代遅れであるとマークされていることがよくあります。 辞書で古いものとしてマークされている、頻繁に使用される (300 回以上) 単語のもう 1 つの例は、次のような単語です。 至福の.

5.2 単語の意味の説明

テキスト コレクションと比較すると、配列内の頻度単語の多くが、(通常は基本的な) 意味の少なくとも 1 つでシソーラスで適切に表現されていることがわかります。 ロシア語の多義語の意味の範囲がシソーラスでどの程度表現されているかを調べることが、現時点での私たちの主な課題です。

知られているように、多くの場合、異なる辞書ソースでは多義語の異なる意味が与えられ、意味の濃淡が強調され、同じ種類の多義語が同じ辞書内であっても異なる単語に対して異なる記述がされることがあります。 したがって、語彙素の意味を一貫して代表的に記述する作業は、あらゆる語彙リソースの作成者にとって重要な作業です。

ただし、リソースが自動処理を目的としている場合は、値のバランスの取れた記述のタスクがより重要になります。 過度の値のインフレにより、コンピュータ システムが目的の値を選択できなくなり、自動ワードプロセッサ システムのパフォーマンスが大幅に低下する可能性があります。 したがって、自動文書処理用のリソースとしての WordNet リソースの欠点の 1 つは、一部の単語について記述される意味の数が多すぎることです (WordNet 1.6 では、単語の意味は 53 個)。 走る、47 遊ぶ等々。)。 これらの意味は、テキストに意味論的な注釈を付ける場合、人間にとってさえも区別するのが困難です。 コンピュータ システムも適切な値の選択に対応できないことは明らかです。 したがって、さまざまな作成者が、処理品質を向上させるために値を組み合わせるさまざまな方法を提案しています。

同時に、反対の要因が働きます。つまり、辞書接続のセット (この場合はシソーラス接続) で意味が実際に異なる場合、それらを 1 つのユニット (1 つの概念) に貼り付けることができません。これもまた、意味の低下につながります。自動処理の品質。

言葉の例を挙げてみましょう 学校そして 教会、それぞれは組織および建物として考えることができます。

各学校組織には建物 (ほとんどの場合は 1 つ) があります。 校舎のあらゆる部分(教室、黒板)は、 学校組織のあり方。 特定の校舎の種類はありません。 したがって、説明は 学校建築物として、別の概念に分離することは不適切です。 しかし、そのような集合的な概念の説明は、 学校組織として、そして建物として、コンセプトと特別に設計された関係がなければなりません。 建物。 シソーラスでそのような関係を記述する場合、関係に関するマーク、つまり修飾語「A」(「側面」。自動分析中、この関係を考慮するために他の概念による「確認」が必要です)が使用されます。

学校

より高い 教育機関

Aの上 公共の建物

対応する単語の意味 教会それほど近くない。 教会組織として、さまざまな場所に多数の教会の建物を持つことができ、また他の多くの建物も持つことができます。 教会建設宗教と告白に密接に関係していますが、所属が変わる可能性があります 教会組織. 教会組織そして 教会建設異なる亜種があります。 それが理由です 教会(組織)) そして 教会(建物) RuTez ではさまざまな概念として表示されます。

シソーラスの接続における大きな相違は、意味に対応する表示が互いに別々に存在する能力と興味深い形で相関しています。 したがって、教会の建物は、学校の建物とは異なり、用途が変わっても存在しなくなることはなく、教会とさえ呼ばれます。

シソーラス内の値の表現を検証するプロセスは、最も頻繁に使用される補題から始めて常に進行中です。 頻度語彙素ごとに、その意味が説明辞書でどのように記述されているか、コレクションでどのような意味が使用されているか、シソーラスでどのように表示されているかがチェックされます。 その結果、現在 10,000 の語彙素のリストが作成されていますが、そのあいまいさには依然として追加の分析または追加の説明が必要です。 このリストは、最も頻繁に使用される 30,000 の補題に基づいて取得されました。

シソーラスでは、単語の異なる意味の間でシソーラスの接続を記述できるため、多義性の問題が部分的に除去され、したがって階層内の最上位の概念がデフォルトで選択できることに注意してください。 それは間違いなく本文で議論されました。 たとえば、この言葉は、 写真「活動の場としての写真」、「写真画像としての写真」、「写真スタジオとしての写真」という3つの意味があります。

写真(撮影, 写真事業, ..., 写真 )

一部 写真画像

(写真, 写真, 写真 )

一部 フォトスタジオ (写真 ).

したがって、その単語がどのような意味で使用されているかを理解することができなかった場合は、 写真の場合、デフォルトでは、(プロセス、結果、または場所の) 写真が撮影されたと想定されます。これは、多くの自動テキスト処理アプリケーションには十分です。

  1. RuTez シソーラスの適用

自動テキスト処理用

1995 年以来、社会政治用語 RuTez (社会政治シソーラス) は、自動概念索引付け、複数のルブリケーターを使用した自動ルブリケーション、英語を含むテキストの自動注釈など、自動テキスト処理のさまざまなアプリケーションに積極的に使用され、成功してきました。もの。 社会政治シソーラス (27,000 の概念、62,000 のテキスト項目) は、UIS RUSSIA 検索システム (www.cir.ru) の基本的な検索ツールです。

RuTez シソーラスのすべての語彙は、複雑な階層ルブリケーターを使用してテキストを自動的に分類する手順で使用されます。 既存のテクノロジーでは、各カテゴリは用語のブール表現として記述され、その後、元の式がシソーラス階層に沿って展開されます。 結果として得られるブール式には、すでに数百、数千の論理積と論理和が含まれている可能性があります。

例として、VTsIOM が世論調査アンケートを分類するために使用する SOFIST 2 ルブリケーターの「女性のイメージ」ルーブリックのシソーラス概念 (および公式を拡張した後の言語表現) を使用した記述の一部を示します。

(女性[N]

|| ガール[N]

|| 親戚 [L] (祖母、孫娘、いとこ、

娘、義理の妹、母親、継母、義理の娘、継娘、...))

(性格特性[L] (倹​​約家、無情、忘れっぽい、

軽薄、嘲笑、不寛容、社交的、...)

|| IMAGE [E] (プレゼンテーション、外観、外観、

外観、外観、イメージ、見た目)

|| PLEASANT [L] (...、面白い、美しい、かわいい、

魅力的、かわいい、魅力的、...)

|| UNPLEASANT[L] (同情的でない、無礼な、意地悪な、...)

|| APPRECIATE[L] (尊敬する、崇拝する、崇拝する、

崇拝、崇拝、...)

|| 優先[N]

記号「E」はシソーラス階層に沿った完全な拡張を示し、記号「L」は種の関係に従って (「以下」)、記号「N」は拡張しないことを示します。

シソーラスの知識と機械学習手順を組み合わせた、自動テキスト分類のための複合テクノロジーを開発する研究が行われています。

自然言語で作成されたクエリを拡張するためにシソーラスを使用する問題が検討されています (現在、UIS RUSSIA の情報検索システムで用語クエリを拡張するためにシソーラスの社会政治的部分のみが使用されています)。大規模なテキストコレクション内の質問への回答。

7. 結論

この論文では、大規模なテキスト コレクションを自動処理するための言語リソースを開発する基本原則を示します。 作成された言語リソース - ロシア語 RuTez のシソーラス - は、文書の概念索引付け、複雑な階層ルブリケータに従った自動ルブリケーション、自然言語クエリの自動拡張などの自動テキスト処理アプリケーションでの使用を目的としています。

この研究は、ロシア人道財団助成金番号 00-04-00272a によって部分的に支援されています。

文学

  1. Lukashevich N.V.、Saliy A.D.、自動テキスト処理システムにおける知識の表現 //NTI、Ser.2。 1997. No. 3. P. 1-6。
  2. Zhuravlev S.V.、Yudina T.N.、情報システム RUSSIA //NTI、Ser.2。 1995. No. 3. P. 18-20。
  3. Winston M.、Chaffin R.、Herman D.、部分と全体の関係の分類 // 認知科学。 1987年。いいえ。 11. P. 417‑444。
  4. Priss U.E.、関係概念分析の方法による WordNet の形式化 // WordNet。 電子語彙データベース/編 C.フェルバウム著。 ケンブリッジ、マサチューセッツ、ロンドン、イギリス: MIT Press 1998。P. 179‑196。
  5. Guarino N.、Welty C.、プロパティの形式的オントロジー // オントロジーと問題解決方法のアプリケーションに関する ECAI-00 ワークショップの議事録。 ベルリン: 2000。P. 121-128。 (http://citeseer.nj.nec.com/guarino00formal.html)。

上位レベルの語彙リソースを設計するためのいくつかのオントロジー原則 // First Int. 会議 言語リソースと評価について。 1998年。

  1. Lukashevich N.V.、Dobrov B.V.、自動インデックス作成のためのシソーラスの概念関係の修飾子 // NTI、Ser.2。 2000 年、第 4 号、21 ~ 28 ページ。
  2. ロシア語大解説辞典 / 編 SA クズネツォワ。 サンクトペテルブルク: ノリント、1998 年。
  3. Ozhegov S.I.、Shvedova N.Yu.、ロシア語解説辞典 - 第 3 版。 M.: アズ、1996 年。
  4. Apresyan Yu.D.、厳選作品、第 1 巻。語彙意味論: 第 2 版。 M.: 学校「ロシア文化の言語」、編。 『東洋文学』RAS社、1995年。
  5. G. ミラー、R. ベックウィズ、C. フェルバウム、D. グロスおよび K. ミラー、WordNet に関する 5 つの論文、CSL レポート 43。プリンストン大学認知科学研究所、1990 年。
  6. Chugur、J. Gonzalo、F. Verdjeo、NLP アプリケーションにおける区別の区別 // 「OntoLex-2000」の議事録: オントロジーと語彙知識ベース。 ソフィア: OntoTextLab。 2000年。
  7. Loukachevitch N.、Dobrov B.、多言語情報システムにおけるシソーラスベースの構造テーマの概要 // 機械翻訳レビュー。 2000年。 11. P.10‑20。 (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm)。

自然言語処理のためのロシア語のシソーラス

大規模なテキストコレクションの

ナタリア・V・ルカチェビッチ、ボリス・V・ドブロフ

キーワード:シソーラス、自然言語処理、情報検索

私たちのプレゼンテーションでは、大規模なテキストコレクションを自動処理するための語彙リソースを開発する主な原則を検討し、特に自動テキスト処理用のツールとして 1997 年以来開発されたロシア語シソーラスの構造について説明します。 現在、シソーラスは 42,000 の概念の階層的なネットです。 私たちは、シソーラス開発の現在の段階を、ロシア大学情報システム (www.cir.ru) のテキスト コレクション (40 万件の文書を含む) の最も頻繁に使用される 10 万件の見出し語と比較しながら説明します。 また、自動テキスト処理のさまざまなアプリケーションでのシソーラスの使用についても検討します。

、語彙単位間の反意語、同義語、下位語、上位語など)。 シソーラスは、個々の主題分野を説明するための最も効果的なツールの 1 つです。

過去にはこの用語 シソーラス辞書は主に指定され、テキストでの使用例とともに言語の語彙を最大限の完全性で表現します。

また、用語 シソーラス情報理論において、主体が持つすべての情報の全体を表すために使用されます。

心理学では、個人のシソーラスは情報の認識と理解によって特徴付けられます。 コミュニケーション理論では、要素が相互作用する複雑なシステムの一般シソーラスも考慮します。

最初のシソーラスの 1 つは、ビブロスのフィロによる「同義語辞典」と呼ばれるものです。 この用語に正確に対応するのは、6 世紀にサンスクリット語で詩的な形で書かれた『アマラ・コーシャ』です。 最初の現代英語類義語辞典は、1805 年にピーター マーク ロジャーによって作成されました。 1852年に出版され、それ以来再版されることなく使用されています。

1970 年代に、シソーラスは情報検索タスクに積極的に使用され始めました。 このようなシソーラスでは、単語が記述子にマッピングされ、それを通じて意味上のつながりが確立されます。

シソーラス

こちらも参照

記事「シソーラス」についてレビューを書く

ノート

シソーラスの特徴を示す抜粋

- 今日のあなたはなんてダンディなんでしょう! – ネスヴィツキーは、新しいマントとサドルパッドを見ながら言いました。
デニソフは微笑み、バッグから香水の匂いがしたハンカチを取り出し、ネスヴィツキーの鼻に突っ込んだ。
- 無理です、仕事に行きます! 外に出て歯を磨き、香水をつけました。
コサックを従えたネスヴィツキーの威厳ある姿と、サーベルを振って必死に叫ぶデニソフの決意は、橋の向こう側に体を寄せて歩兵を足止めするほどの効果をもたらした。 ネスヴィツキーは出口で大佐を見つけ、命令を伝える必要があり、彼の指示を履行して戻った。
道路を空けたデニソフは橋の入り口で立ち止まった。 自分のほうに突進して蹴りを入れてくる牡馬を何気なく抑えながら、彼は自分に向かってくる戦隊を眺めた。
まるで数頭の馬が疾走しているかのような透明なひづめの音が橋の板に沿って聞こえ、士官を前に四列に並べた戦隊が橋に沿って伸び、反対側から姿を現し始めた。
橋の近くで踏み固められた泥の中に群がり、足を止めた歩兵たちは、軍のさまざまな部門が通常遭遇する特別な疎外感と嘲笑のような特別な非友好的な感情を抱きながら、整然と通り過ぎていく清潔で小粋な軽騎兵を眺めていた。
- 賢い人たちよ! それがポドノヴィンスコエにあれば!
- 何が良いのですか? 彼らはショーのために運転しているだけです! -別の人が言いました。
- 歩兵よ、埃をかぶるな! -軽騎兵は冗談を言い、その下で馬が遊んで歩兵に泥をはねかけました。
「もし私があなたをリュックサックで二回も行進させていたら、靴紐は擦り切れていたでしょう」と歩兵は袖で顔の汚れを拭きながら言った。 - そうでなければ、それは人ではなく、鳥が座っています。
「ジキン、君が敏捷だったら、君を馬に乗せてやれたらなあ」と伍長はバックパックの重みでかがみこんでいるやせた兵士について冗談を言った。
「棍棒を足の間に挟めば馬が手に入るよ」軽騎兵は答えた。

残りの歩兵は橋を急いで渡り、入り口で漏斗を形成した。 ついにすべての荷車が通過し、衝突は少なくなり、最後の大隊が橋に入った。 デニソフの戦隊の軽騎兵だけが橋の向こう側に敵に向かって残った。 敵は、反対側の山から、下から、橋から遠くに見えましたが、川が流れる窪地からは、地平線が800メートルも離れていない反対側の標高で終わっていたため、まだ見えませんでした。 前方には砂漠があり、それに沿ってあちこちで旅行中のコサックのグループが移動していました。 突然、道の反対側の丘に、青い頭巾をかぶった軍隊と大砲が現れました。 これらはフランス人でした。 コサックのパトロール隊は下り坂を小走りで去った。 デニソフの戦隊の士官全員は、部外者について話したり周囲を見回そうとしたにもかかわらず、山の上に何があるのか​​だけを考えることをやめず、敵の軍隊であると認識した地平線上の点を常に見つめていました。 午後には天気も回復し、ドナウ川とそれを囲む暗い山々に太陽が明るく沈みました。 静かで、その山からは時折角笛の音や敵の叫び声が聞こえてきました。 小規模な巡回を除いて、戦隊と敵の間には誰もいなかった。 三百尋の何もない空間が彼らと彼を隔てていた。 敵は射撃をやめ、敵の両軍を隔てる厳格で脅威的で難攻不落でとらえどころのない境界線がよりはっきりと感じられた。
「この線を一歩越えると、生者と死者を隔てる線、そして未知の苦しみと死を彷彿とさせます。 そしてそこには何があるのでしょうか? そこには誰がいますか? この野原の向こう、木々、そして太陽に照らされた屋根はあるだろうか? 誰も知りません、そして私は知りたいです。 そして、この一線を越えるのは怖いし、越えたいと思うのです。 そして、死の向こう側に何があるのか​​を知ることが避けられないのと同じように、遅かれ早かれそれを越えて一線の向こう側に何があるのか​​を見つけなければならないことをあなたは知っています。 そして彼自身も強く、健康で、陽気でイライラしており、そのような健康でイライラするほど活発な人々に囲まれています。」 したがって、たとえ彼が考えていなくても、敵の視界に入ったすべての人はそれを感じます、そしてこの感覚は、この数分間に起こるすべてのものに特別な輝きと楽しい印象の鮮明さを与えます。
敵の丘に砲弾の煙が立ち上り、砲弾が笛を吹きながら軽騎兵中隊の頭上を飛んだ。 一緒に立っていた警官たちはそれぞれの場所に向かいました。 軽騎兵たちは慎重に馬をまっすぐにし始めた。 戦隊内のすべてが沈黙した。 誰もが前方の敵と中隊の指揮官を見つめ、指示を待っていました。 また3発目の砲弾が飛んできた。 彼らが軽騎兵に向けて発砲していたことは明らかである。 しかし砲弾は均等に速く笛を吹きながら軽騎兵の頭上を飛び、背後のどこかに命中した。 軽騎兵は振り返らなかったが、まるで命令されているかのように砲弾が飛んでいく音ごとに、単調に変化に富んだ顔を持つ中隊全体が、砲弾が飛んでいる間息を殺し、あぶみで立ち上がり、再び倒れた。 兵士たちは振り向かずにお互いを横目で見つめ、仲間の印象を不思議そうに探していた。 デニソフからラッパ手まで、どの顔にも、唇と顎の近くに、闘争、苛立ち、興奮の共通の特徴が現れました。 軍曹は眉をひそめ、兵士たちを見回し、あたかも罰を与えると脅しているかのようだった。 ユンカー・ミロノフは砲弾が通過するたびにかがんだ。 ロストフは、足が触れているものの目立つグラチクの上で左脇腹に立っており、自分が優れていると確信している試験のために大勢の聴衆の前に呼び出された学生のような幸せな表情をしていた。 彼はまるで砲弾の下でいかに冷静に立っているかに注意を払うように皆に頼んでいるかのように、はっきりと明るく皆を見つめていました。 しかし、彼の顔にも、彼の意志に反して、何か新しくて厳しいものと同じ特徴が口の近くに現れました。
-そこでお辞儀をしているのは誰ですか? ユンケグ「ミグオン」! ヘクソッグ、見てください! -デニソフは叫び、立ち止まることができず、戦隊の前で馬の上で回転しました。
バスカ・デニソフの鼻の低い黒髪の顔と、引き抜かれたサーベルの柄を握る筋張った(短い指が髪の毛で覆われている)手で打ちのめされた小さな姿全体は、いつもとまったく同じだった。特に夕方、ボトルを2本飲んだ後。 彼はいつもより赤くなっただけで、酒を飲む鳥のように毛むくじゃらの頭を上に上げ、小さな足で容赦なく善良なベドウィンの脇腹に拍車を押し込み、まるで後ろに倒れるかのように、丘の反対側の側面へと疾走した。戦隊に向かってピストルを調べろとしわがれた声で叫んだ。 彼はキルスティンのところまで車で行きました。 本部の船長は、幅広で落ち着いた牝馬に乗って、デニソフに向かって速いペースで馬を走らせた。 長い口ひげを生やした参謀長は、いつものように真剣な表情で、目だけがいつもより輝いていた。
- 何? - 彼はデニソフに言った、 - 戦いにはならないだろう。 わかるでしょう、戻ります。
「彼らが何をしているのか誰にも分からない」とデニソフはつぶやいた。「ああ、G」骸骨だ! -彼は士官候補生の陽気な顔に気づいて叫びました。 - さて、待っていました。
そして彼は満足そうな笑みを浮かべ、どうやら士官候補生を見て喜んでいるように見えた。
ロストフは完全に幸せを感じた。 この時、酋長が橋の上に現れた。 デニソフは彼に向かって疾走した。
- 閣下! 攻撃させてください! 彼らを殺します。
「どんな攻撃があるんだろう」と署長はうんざりした声で言った、まるで迷惑なハエにでもされたかのように顔をしかめた。 - それで、なぜここに立っているのですか? フランカーが後退していることがわかります。 中隊を率いて戻ってください。
中隊は一人の命も失うことなく橋を渡り、銃撃を逃れた。 彼に続いて、鎖にいた第2戦隊が渡河し、最後のコサックがその側を追い払った。
パブログラード住民の2個中隊が次々に橋を渡り、山に戻った。 連隊司令官カール・ボグダノヴィッチ・シューベルトはデニソフの戦隊に車で近づき、前回のテリャニンをめぐる衝突の後、彼らは今回初めて顔を合わせたにもかかわらず、ロストフに何の注意も払わずに、ロストフからそう遠くない速度で走った。 ロストフは、今では自分が有罪であると考えている男の力で先頭に立っていると感じながら、連隊長の運動的な背中、金髪のうなじ、赤い首から目を離さなかった。 ロストフにはボグダニッチが不注意を装っているだけで、今の彼の目的は士官候補生の勇気を試すことであるように思えた。そして彼は背筋を伸ばして元気よく周りを見回した。 そのとき彼には、ボグダニッチがロストフに勇気を示すために意図的に馬に近づいているように見えた。 それから彼は、敵が今度はロストフを懲らしめるために、意図的に中隊を送り込んで決死の攻撃を仕掛けてくるだろうと考えた。 攻撃の後、彼は負傷した彼に近づき、寛大に和解の手を差し伸べると思われていた。

3.1. シソーラスの概念

シソーラス(ギリシャ語の θήσαϋροξ から - 宝、株)または表意文字辞書(ギリシャ語のアイデア - 概念、表現、アイデア、グラフフォ - 書く、記述する)から - 現代言語学: 1)一般語彙または特殊語彙の特別なタイプの辞書、これには、語彙単位間の意味論的な関係が含まれます。 2) 他の単語との意味上のつながりに基づいて単語を検索するための辞書。 3) 辞書内の単語を整理する (配列する) 特定の方法。 4) 語彙構成を整理する方法。経済的に「世界をモデル化」できるようになります。

最初の本来の意味 - 保管庫、宝物、シソーラスという用語は L.V. によって使用されました。 Shcherbaの記事「一般辞書編集の経験」(3番目の反対:シソーラス - 通常の(説明または翻訳)辞書)。 科学者は次のように書いています。「今日、シソーラスというと、ドイツの 5 つのアカデミーが共同で設立した「Thesaurus linguae latinae」を意味することがほとんどです。このプロジェクトは 1900 年に始まり、現在まで M の文字のみが省略されています。特徴的な機能 このタイプの辞書これは、特定の言語で少なくとも 1 回出現する絶対にすべての単語が含まれていること、および各単語の下に、特定の言語で利用可能なテキストからの絶対にすべての引用が示されているという事実にあります。 上記の対立 - シソーラス - 通常の(説明または翻訳)辞書 - の基礎は、「言語資料」と「言語システム」の対立です。これらの概念は、私の記事「言語現象と言語の三重の側面について」で実証しようとしました。言語学の実験についてです。」

この用語の 2 番目の意味は、P.M. 著の広く知られている辞書シソーラス「Thesaurus of English Words and Expressions」に関連しています。 Roger (Roget's Thesaurus of English Words and Phrases、1852) とその続編、O.V. Baranov の辞書。

この解釈では、シソーラスという用語は、辞書内の語彙構成を整理および配置する特定の方法を示します (用語の 3 番目の意味を参照)。

シソーラスという用語の 4 番目の意味は、経済的に「世界をモデル化する」ことを可能にする、語彙構成を組織するこの方法の普遍的な認識に関連しています。 この観点から見ると、シソーラス辞書は「科学または技術分野の語彙を体系的に並べたものであり、最も一般的な形式では、一般的な文学語彙、さらには特定の言語の語彙全体」です。

Yu.Nさんによると、 一般言語シソーラスであるカラウロバは、その見出し、セクション、ゾーン、領域の構造と関係に、アイデアの非言語的なつながりの幅広い可能性を固定し、人間の価値観の説明を保証します。

A.N. バラノフとD.O. ドブロヴォルスキーは、彼の『現代ロシア語イディオムの辞書シソーラス』の序文「編集者から」の中で、シソーラスに次の定義を与えています。つまり、他の辞書(特に、説明辞書、対訳辞書など)とは異なる特別なタイプの辞書です。言語資料の整理。 シソーラスでは、言語単位は通常の辞書のようにアルファベット順に表示されず、その意味に基づいてグループ化されます。

LP クリシンはシソーラス(表意文字辞書)を特別な種類の説明辞書、「逆に」辞書と呼んでいます。 「説明辞書で科学者が、辞書項目への「項目」が単語であり、辞書項目の内容がこの単語の意味の解釈であるとすると、表意文字辞書では「項目」は次のようになります。意味、アイデア (したがって、このタイプの辞書の名前は表意文字です)、および辞書項目の内容は、特定の意味を表す単語のリストです。 そして、説明辞書がテキストを理解するために不可欠なツールである場合、表意文字辞書はテキストの生成に使用できます。非常に多くの場合、人は特定の考えを表現したいと考えていますが、これに適した単語が見つかりません。 表意文字辞書を使用すると、これらの検索が容易になります。 シソーラスには主に 2 つのタイプがあります。

言語シソーラス - テキストの有意義な分析の結果として選択され、受け入れられた分類システムに従って体系化された自然言語単語のリストを含む辞書。

統計シソーラス - 特定のトピックに関するテキストの統計分析の結果として選択され、同じテキスト内でのこれらの単語の共起頻度に基づいて辞書エントリにグループ化された単語のリストを含む情報検索辞書。

情報検索シソーラス (IRT) は、自動処理中の情報の検索を容易にします。 IPT は、語彙単位間の意味関係を最大限に明らかにします。 IPT に関する GOST に記載されているように、「単一言語情報検索シソーラスは、1 つの自然言語の語彙に基づいて制御され変更される語彙単位の辞書であり、語彙単位間の意味論的な関係を表示し、情報の処理と取得を目的としています。」

IPT の基本単位は記述子用語です。 IPT のアルファベット順、語彙意味論的な部分は、一連の記述子記事です。

説明辞書は、特定の分野の語彙を完全に記述し、その分野でのすべての用法を記録することを目的としています。 利用可能なすべての関連ケースを記録します。 説明的な辞書の典型的な例は、V.I. 著の「生きている偉大なロシア語の説明辞書」です。 Dahl (4 巻の初版は 1863 年から 1866 年に出版されました)。 その作成者の目標は、言語を標準化することではなく、言語の方言形式を含む、偉大なロシア語の音声の多様性全体を完全に記述することでした。

各記述子辞書エントリは記述子で始まり、この記述子の同義語、および属種または結合関係によって主要な記述子に関連付けられている他の語彙単位が GOST 記事内で以下に示されています。

したがって、特に電子形式のシソーラスは、個々の主題分野を説明するための効果的なツールの 1 つです。

シソーラスが純粋な形で見つかることはほとんどありません。 実際のシソーラスでは、元のアイデアは簡略化されているか無関係ですが、潜在的に必要な情報がユーザーに追加されます。 現在最も有名なのは、Yu.N 著の「ロシア語意味辞典」です。 カラウロワ、「同名の辞書」N.Yu。 Shvedova、「ロシア語のテーマ辞典」L.G. スメホワら。

まとめ。 シソーラス用語 L.V. Shcherba は、可能であれば、特定の単語が出現するすべての文脈を記録する辞書と関連付けてこの用語を使用しました。 シソーラスの特徴は、特定の言語で少なくとも 1 回出現するすべての単語がリストされ、各単語の下にその言語で利用可能なテキストからのすべての引用が示されていることです。 シソーラス辞書の内容は言語資料であり、通常の辞書は言語資料および言語システム(L.V. Shcherba の用語)です。

この特徴は、意味の共通性または対立を示す、さまざまな種類の相互接続 (多くの場合パラダイム的 (同義または反意)) によって補完されます。 その他、各種協会。 接続 (つまり、構文接続)。

したがって、シソーラス (表意文字辞書) の役割は、主要な意味分野、その内部構造、および外部のつながりを示し、言語資料の特定の断面の意味論的構成のアイデアを与えることです。 シソーラスは言語の体系的な性質を明確に示したもので、個々の言語単位と単位のグループを結び付けるさまざまな種類の関係を確認できます。

3.2. 世界についての概念的な知識をシソーラスの形式で表現する歴史

意味の類似性、連続性、類似性に基づいて単語を配置する必要性は、観察可能な人類の思考の歴史を通じて感じられてきました。

世界についての概念的な知識をシソーラスの形で表現するというアイデアの起源をたどるには、シソーラス (表意文字辞典) の編纂の歴史に目を向けることが役立ちます。

したがって、文明の黎明期、人々が表意文字と記号の助けを借りてのみ自分の考えを文字で表現できたとき、唯一可能な辞書はおそらく、単語をテーマごとにまとめたものでした。 当時の辞書編集者にとって、現実自体に存在する関係以外に単語を分類するための別の基準を見つけることは単純に困難でした。

残念ながら、表意文字を使用していた人々が実際にそのような辞書を持っていたかどうかの証拠はありません。 私たちに知られている表意文字分類の最も古い試みの中には、ギリシャの文法学者、アレクサンドリア図書館の館長、ビザンチウムのアリストパネス(紀元前 180 年に死亡)のアティカイ・レクセイスがあります。

2世紀に。 n. e. エジプトの都市ナウクラティス出身の辞書編纂者でソフィストのジュリアス・ポルックス(本名ポリュデウケス)がギリシャ語の資料を編集した主要著作『オノマスティコン』が登場する。 Yu. Pollux はいくつかの作品を書いていますが、私たちに届いているのは「Onomasticon」だけです(Pollux Yu. Onomasticon. M.、1956)。


オノマスティコンは10冊で構成されています。 本は基本的に独立した論文であり、特定のトピックに関連する最も重要な単語が含まれています。 したがって、最初の本は神と王について語っています。 2番目は、人々、その生活、生理学的構造についてです。 3番目では、親族関係や民間関係などについてです。辞書に含まれる単語には簡単な解釈が付いています。 現代では、この辞書は 1502 年にヴェネツィアで初めて出版されました。

2世紀から3世紀の間。 n. e. 素晴らしいサンスクリット語辞典『アマラコシャ』(アマラコ社、パリ、1​​839年)が出版されました。 その著者は古代インドの詩人、文法学者、辞書編纂者であり、「ヴィクラマディティヤの王座を飾る9つの真珠の1つ」と呼ばれたアマラ・シーナです。 アマラコシャはロシア語に翻訳され、アマラの宝庫を意味します。 辞書には 10,000 語が収録されています。 単語の意味の解釈をよりよく覚えておくために、辞書の項目は詩の形式で構成されています。 すべての辞書資料は 3 冊に分かれています。 各本には複数の章が含まれており、必要に応じてその章がいくつかのセクションに分割されます。 最初の本は、空、神々、そしてそれらに直接関係するすべてのものに捧げられています。 2 番目の本には、地球、集落、植物、動物、人間に関連する単語が含まれています (最初に人間は生き物として考えられ、次に社会的存在として考えられます。著者の現代社会のカースト構造全体が私たちの目の前に現れます。司祭) 、神の受託者としての人々が最上位におり、その下に軍人や王がおり、さらに下には地主がおり、最下位には職人、手品師、使用人などがいます。) 3 冊目の本は、6 章のタイトルから明らかなように、厳密に言語に関するものです。

この辞書がヨーロッパの科学者に知られるようになったのは、18 世紀末になってからであり、その最初の部分が 1798 年にローマで出版されました。 この本は 1808 年に英国のサンスクリット学者 G.T. によって英語への翻訳付きで全文が出版されました。 コールブルック (N.T. コールブルック)。 1839 年に、A.L. によってそのフランス語訳が出版されました。 ドロンシャン(A.L. Deslongchamps)。 語彙の意味論的分類のアイデアのさらなる発展は、いわゆる世界言語の問題に関連しています。

まとめ。 最も一般的な言葉で言えば、これは語彙の表意文字による分類の伝統の発展における最初の段階です。 この段階は表意文字辞書の前史と言えます。 ここで、シソーラス辞書の現代的な分類に目を向けることをお勧めします。

説明されている作品がアルファベット辞書といかに異なるかは簡単にわかります。 アルファベット辞書において、単語の表示がアルファベットのような従来の非常に中立的な手段によって規制されている場合、表意文字辞書を構築する際には、辞書編纂者自身の世界観が決定的なものになります。

3.3. 辞書 - シソーラスの分類の原則

上ですでに示したように、シソーラスの分類を編纂するという問題は新しいものではなく、数十年にわたって国内外の多くの言語学者 (C. Marello、V.V. Morkovkin、L.P. Stupin、V.V. Dubichinsky など) の注目を集めてきました。 )。 この分野の研究の結果、これらの辞書編集作品の代替分類が作成されました。 最新の分類の 1 つは、次の基準に基づいています。 a) 語彙単位間の意味上のつながりのタイプ。 2)語彙の量。 3) 語彙の一般化。 4) 語彙素の意味の発展。 5) 語彙素の文法的および文体的修飾。 6) 語彙素の機能の実証。 7) 表現される言語の数。 8) 語彙素を意味化するために使用される記号論的手段の種類。 この分類は、O.M. によって以前に作成された分類に基づいています。 Karpova と I. Burkhanov (Burchanov I. On the Ideographic description of Stylistally and Pragmatically Relevant Aspects of Lexical Meanings. London, 1996); 分類に使用される用語は辞書編集装置に導入されます。


V.V. モルコフキン、Yu.N. カラウロフ、K.マレロ。 分類基準は O.M. によって策定されました。 カルポワ。 同時に、C. Marello は 3 種類のシソーラスを区別しています。

累積的。意味を定義せずに単語をグループ化したものです。

決定的な、単語グループの各語彙単位の解釈。

旅行者向けの二言語および多言語シソーラス (Marello C. TheThesaurus//W.D.D. 1990. V. 2. P. 1083)。

累積シソーラスは、特定の意味論的分野に属する状況において、より理解しやすく、正確で、文体的に正しい単語を見つける機会を提供するだけでなく、テーマ別コンピューター データ バンクの形成の基礎にもなります。

決定的なシソーラスには、意味の定義に加えて、語源的な情報や文学作品からの引用が含まれており、このタイプのシソーラスの直接的な百科事典的な方向性が示されています。 さらに、このタイプの辞書は、ユーザーに必要な概念体系を紹介し、概念の本質、類似点と相違点、概念のパラダイム的および統語論的な接続を説明し、場合によっては発音、文法、語形成、およびその他の可能性に関する情報を提供します。これらの概念を表す語彙単位。

旅行者向けの二言語および多言語シソーラスは、通常、数字、食べ物、交通機関、ホテルなどのテーマ別セクションに従って作成されます。 2 つ以上の言語に相当する翻訳を使用します。

既存のシソーラス辞書の種類をできるだけ完全に表示するために、複数レベルの分類が作成されます。 まず、語彙単位間の意味上のつながりの種類に応じて、シソーラスは 3 つの大きなクラスに分類されます。

1. 連想シソーラス (Yu.N. Karaulov による用語集)

2. 類似シソーラス (V.V. Morkovkin による用語解説)

3. 表意文字(イデオロギー)シソーラス(L.V. Shcherba、V.V. Morkovkin による用語。上記の 3 種類のシソーラスは、それぞれ次の種類の語彙素の意味的接続を反映しています。

1. 意味論と構文の関係、それに基づく
単語はグループまたはペアに結合され、意味論と構文という二重の関係によってその出現と存在が事前に決定されます。 単語間の意味的なつながりは、主に、文中で述語的な機能を果たす動詞と形容詞、および名詞の間で確立されます。次に例を示します。

a) 動作とそれを実行する器官(楽器)の間:手をつかむ、見る、目、泳ぐ、ボートなど。

b) 1 つの主語と主語を必要とする動作動詞の間: 吠える - 犬、隣人 - 馬など。 c) 動詞と特定の文法的付加の間。前者はそれを必要とします:chop - wood、eat - food など。

したがって、連想シソーラスは、語彙単位間に存在する意味論的および構文的なつながりに基づいて語彙単位を編成し、中心単語のグラフィック形式に従ってグループを配置する辞書シソーラスです。

2. 語彙意味論的な接続。 このタイプの接続によるグループ化は、単語の主な特徴である語彙の意味に従って行われます。 この場合、語彙文法的なつながりも考慮され、その形で単語の個々の意味が実現されます。

したがって、類推シソーラスは辞書編集的な参考書であり、そのマクロ構造の主単位は語彙意味論的なグループです。 グループは、意味論的な優位性のアルファベット順に体系化されています。

3. 主題または主題のつながり。単語が 1 つのグループに組み合わされる場合、その単語が示すオブジェクトおよびプロセスの機能の類似性または共通性によって発生します。オブジェクト
家庭用品、体の一部、衣服の種類、建物など。

したがって、表意文字シソーラスは、主題 (主題) グループの一部として語彙単位を表し、それらを世界についての概念化された知識を表すように設計された階層構造に編成する辞書編集作品です。

同じ基準の枠組み内で、タイプをさらに細分化します。 したがって、表意文字シソーラスは次の 4 種類で表されます。


実は表意文字シソーラスです。

テーマ別辞書。

体系的な辞書。

テーマ別体系辞典


表意文字シソーラス自体は特別なタイプの表意文字辞書であり、そのマクロ構造は、言語の語彙構成に重ねられたアプリオリな総観マップに従って編成されています。 他のタイプの表意文字辞書とは異なり、表意文字シソーラス自体は、一般的な語彙が辞書編集の対象となる場合でも、科学的分類法に基づいて作成された論理的で厳密に順序付けられた分類構造によって特徴付けられます (New Webster "Thesaurus. Landoll, 1991)"。

主題辞書は特殊なタイプの表意文字シソーラスであり、そのマクロ構造の主単位は語彙素を含む主題グループであり、その表示(指示語)の分類に基づいて統合され、規則への準拠の観点から考慮されます。特定のトピック。

系統辞書は、言語の語彙単位間に存在する実際の意味関係を表すことを目的とした分類構造をもつ特別なタイプの表意文字シソーラスです。 その核となる分類構造は、語彙の語彙文法的分類、言い換えれば、従属と構成の観点から記述されたパラダイム構造を表します。

テーマ別体系辞書は、テーマ別辞書と体系別辞書を組み合わせた特別なタイプの表意文字辞書です。

まとめ。 言語シソーラスの考慮された分類には、次のタイプの辞書が含まれます。 表意文字(イデオロギー)シソーラス(L.V. Shcherba および V.V. Morkovkin による用語)。 准教授 シソーラス (Yu.N. Karaulov による用語)。 次にポップをご紹介します。 シソーラスとその特徴が明らかになります。

3.4. 人気のシソーラスとその特徴

入手可能な辞書の中で最も有名なシソーラスは、この用語自体がその存在のおかげであり、英語を素材として作成されました。 これは、P.M. によって常に再版されているシソーラスです。 Roger Roget の英語の単語とフレーズのシソーラス (1852)。

英語の単語と表現のシソーラスの著者が、その時までに得られた経験を最大限に活用したことに注意することが重要です。 「単語を分類するときに私を導いた原則」と P.M. は書いています。 ロジャーは、自然史のさまざまな分野で個人を分類する際に使用されるものと同じです。 したがって、私が強調したセクションは植物学と動物学の自然の系統に対応しており、一連の単語は、自然の一連の植物と動物を結び付けるのと同じ関係によって固められています。」

午後 ロジャーは、これらの単語と呼ばれる現実の対象が適切に研究され、整理されない限り、その意味に応じた説得力のある単語の分類は不可能であると信じていました。 したがって、彼は英語の概念領域を抽象的な関係、空間、物質、精神 (心、意志、感情) の 4 つの大きなクラスに分類することから仕事を始めます。 これらのクラスはさらにいくつかの属に分割され、さらにそれらの属が一定数の種に分割されます。

P.M.の表意文字辞書の欠点の中には、 科学者たちは、ロジャーの功績として次のことを考えています。 1) 主要な概念クラスの命名法が完全に説得力を持っているわけではありません。 2) 抽象的な論理は、単語の自然なつながりよりも優先されます。 3) 使用上の相対的な不便さ (この欠点は後続の版で大幅に修正されました)。

現代ロシアの辞書編集には、辞書シソーラス (表意文字辞書) として分類されるべき辞書がいくつかあります。 たとえば、これは Yu.N のリーダーシップの下で作成されました。 カラウロワ「ロシア語意味辞典」、N.Yu編集「ロシア語意味辞典」。 Shvedova、「ロシア語のテーマ辞典」L.G. サヤコバ、D.M. カサノバとV.V. Morkovkina、「ロシア語動詞の語彙意味論的グループの辞書」編。 E.V. クズネツォワ、「ロシア語表意文字辞典」O.S. バラノワ、「ロシア語における人間の内なる世界の概念圏」V.I. Ubiyko、V.V.の指導による包括的な教育辞書「ロシア語の語彙の基礎」 モルコフキナ。

それらのいくつかを知ってみましょう。

現代ロシア語イディオムの辞書類語辞典」A.N. 編集 バラノバと D.O. Dobrovolsky には 4 つの主要な部分が含まれています。1) 概要。 2) 凡例。 3) 辞書シソーラスの本体。 4) ポインタ。 概要の目的は、シソーラスの本体の構造についての一般的なアイデアを提供することです。 すべての分類群を下位分類群および対応するパラダイム参照とともにリストします。 シソーラス辞書の本体は、辞書エントリのコレクションであり、そこに記述されているイディオムの意味に従ってグループ (分類群) とサブグループ (サブ分類群) にグループ化されています。 各記事には、現代ロシア語でのイディオムとその使用例が含まれています。 概要、凡例、索引は、前述の辞書シソーラスのサービス部分であり、ユーザーに迅速かつ効率的に作業する機会を提供します。 凡例は、イディオムの使用例が必要ない場合に使用されます。 例を除くすべての情報を再現します。 実際、これは辞書の語彙です。 語彙の単位は補題です。 この場合の補題は、イディオムを元の (辞書的な) 形式で表し、可能であれば、その重要な変形をすべて含みます。 たとえば、イディオム「stand Still」は補題マーク time、stand Still、skid in place の一部です。

辞書には 2 つのポインターが含まれています。 この本の最後には、このプロジェクトの科学的特徴を詳細に分析した「現代ロシア語観念論の辞書の理論的概念」という記事があります。

Yu.N の指導の下で作成された「ロシア語意味辞書」 カラウロワには 10,000 のロシア語が含まれており、それらは 1600 の概念グループに分類されています。 グループの識別は、説明辞書で繰り返される単語解釈の要素 (たとえば、「アクション」、「プロパティ」、「ツール」など) に基づいて行われます。

学者N.Yuの指導の下で作成された「ロシア語意味辞書」。 Shvedova は、表意文字辞書と説明辞書の両方の編纂に特徴的なわずかに異なる原則に基づいています。 まず、ここでは言語のすべての単語が 4 つのクラスに分類されます: 1) 単位を示すもの (代名詞)、2) 名前付け (概念的単語)、3) 実際の接続子 (接続詞、前置詞、接続動詞)、4) 分類 (様相単語) 、助詞、感動詞)。 次に、各クラス内で、すべての単語が品詞に従って配布されます。 第三に、各品詞内で、主題の近接性、または逆に単語の意味の対立に基づいてセットとサブセットが識別されます。

DUDEN は、左側に (さまざまなソフトウェアによる) 絵 (図面) があり、番号が付けられた部分 (最小値まで) が付いている本です。 右側には、この番号付きリストにタイトルが付いています (2 か国語の場合でも)。 例えば、鉄道の設備や駅、線路などがページ全体に描かれています。 右側には、矢、手旗信号、松葉杖などの名前が表示されます。

「ロシア語テーマ辞典」L.G. サヤコバ、D.M. カサノバとV.V. Morkovkina には 25,000 の語彙単位が含まれており、「人間」、「社会」、「自然」という 3 つの大きなクラスにグループ化され、段階的に小さなサブクラスに分岐します。 たとえば、「人間」というクラスには、「人体と生物」、「人間の生活」、「人の外見、外観」、「人の感情的な外観」などのサブクラスがあります。それぞれのサブクラスは順番にさらに具体的なものに分けられます:「人の感情世界」-「人の精神的特性」-「気質」、「性格」-「一般的な性格特性」など。 各クラスに属する単語の意味と使用法は、最も一般的なフレーズによって説明されています。 たとえば、「男」クラスのサブグループ「感情、感情の表現」にある「笑い」という単語には、陽気な笑い、楽しい笑い、子供の笑い、爆発などのこの単語との組み合わせの兆候が伴います。笑いなどに。

まとめ。 個々の主題領域を、特に電子形式で説明するための効果的なツールの 1 つはシソーラスです。

シソーラスという用語は、言語学において長い間、「世界の全体像」、「世界の言語モデル」をある程度反映する特別なタイプの辞書を指すために広く使用されてきました(Yu.N. Karaulovによる)。 「宝物」としてのシソーラスは、その意味の範囲が拡大し、新しい意味を受け取りました。 彼らはそれを、言語の豊富な語彙をすべて吸収するだけでなく、それらをある論理体系的な方法で編成する辞書と呼び始めました。 シソーラス辞書では、単語がグループに結合されます。この統合は、特定の概念を伝える特定の単語の能力に基づいて行われます。

シソーラス辞書は、言語学において、世界に関する (特定の社会の) 集合的な知識を言語形式で確実に保存する一種の普遍的なシステムであると常に考えられてきました。 他の辞書とは異なり、シソーラス辞書では、この知識が「世界の構造」についての考えを反映する構造化された形式で保存されます。

現在最も有名で人気のあるシソーラスは、英語の Roger の Thesaurus、O.V. ロシア語表意文字辞典です。 Baranova、ロシア語意味辞書 Yu.N. カラウロヴァ、学者N.Yuのロシア語意味辞典。 Shvedova、DUDEN、ロシア語主題辞典 L.G. サヤコバ、D.M. カサノバとV.V. モルコフキナ。

主題領域の概念体系 あらゆる主題領域の基礎は、この領域の概念体系です。 概念の定義: 概念とは、現実のオブジェクトや現象の性質や関係を固定することによって、一般化された形で反映する思考です。 後者(プロパティと関係)は、オブジェクトや現象のクラスと相関する一般的および特定の特徴として概念に現れます(言語辞書)


概念と用語 テキストで主題領域の概念を表現するには、用語と呼ばれる単語またはフレーズが使用されます。 主題領域の一連の用語がその用語体系を形成します。 特定の用語と、主題分野の用語体系の他の用語との関係は、定義によって指定されます。


用語の定義は? 科学、技術、芸術、社会生活などの特別な分野の特定の概念を正確に表す単語 (または単語の組み合わせ)。 || 何かを指定するために使用される特別な単語または表現。 ある環境や別の環境、職業 (ロシア語大解説辞典)


用語 - 概念の正確な名前 通常、この分野の各概念は、少なくとも 1 つの明確に理解された用語に対応しており、その意味はこの概念です。 - 伝統的な用語理論の意味での用語 用語の性質 - 概念の正確な名前 - 用語は概念に直接関連していなければならず、概念を明確に表現していなければなりません。 - 用語の意味は正確である必要があり、他の用語と意味が重複してはなりません。 - 用語の意味は文脈に依存すべきではありません。 概念を正確に表す用語は、用語理論、用語学者による研究の対象となります。


テキスト用語 主題領域の実際のテキストでは、概念を参照するために、基本用語に加えて、さまざまな言語表現を使用できます。これらをテキスト用語と呼びます。 - 構文および単語構成のオプション: 予算の受領者 - 予算受信者。 - 字句オプション – 直接償却、議論の余地のない償却。 - 文脈に応じて、この分野のさまざまな概念への参照として機能する多意味表現。たとえば、通貨という単語は、さまざまな文脈で自国通貨または外国通貨を意味することがあります。














マークが付いた記述子 ゴミ - 記述子の名前の一部 クレーン (吊り上げ装置) とクレーン (鳥) 貝殻 (構造物) - さまざまなシソーラスの比較 フレーズの好み: –蓄音機レコード vs. レコード (蓄音機) 記号と複数形: Wood (素材) Woods (森林地帯)






複数の単語の表現に基づく記述子を含める 用語を分割すると曖昧さが増します: 植物性食品 表現の意味は語順に依存します: 情報科学 - 科学情報 構成単語の 1 つがシソーラスの範囲外であるか、一般的すぎます: 最初援助記述子の関係は、その構造からは導き出されません: – 人工腎臓、難民ステータス、信号機




連想関係 活動分野 - 俳優 - 数学 - 数学者 分野 - 研究の対象 - 神経学 - 神経系 行為 - 行為者または道具 - 狩猟 - 狩人 行為 - 行為の結果 - 織物 - 織物 行為 - 目標 - 製本 - 本 因果関係 -死亡 – 葬儀 価値 – 測定単位 – 現在の強さ – アンペア 行動 – 相手方 – アレルゲン – 抗アレルギー薬など


情報検索シソーラス: 開発の段階 第 1 段階: インデクサーが任意の単語やフレーズを使用してテキストの主要なトピックを説明します 多くのテキストから得られた用語がまとめられます 意味が似ている用語の中で、最も代表的なものが選択されます 残りのいくつかは条件付き同義語、残りは削除される 特定の用語は通常は含まれません


情報検索シソーラス: 開発の技術 記述子は、文書の主なトピックを表現するために必要な用語です。 同義語は、インデクサーの作業が複雑にならないように、最も必要なものだけが含まれます (たとえば、別の文字で始まる)。主観的なインデックス付けを避けるために、用語は 1 つの用語に減らす必要があります。 階層レベル、特定の用語の包含は制限されています。


情報検索シソーラス: 開発の技術 - 2 複雑な場合、記述子にはマークとコメントが提供されます –LIV: 爆撃 – 爆撃 – 多意味用語: シソーラス (大文字) では 1 つの意味、シソーラスには適合しない、マーク!!! 従来の情報検索シソーラスは、実際の用語に基づいて構築された人工言語です




従来の IPT: 自動処理でのアプリケーション ソフトウェアの実際の言語についての知識の不足 ソフトウェアの実際の言語についての知識の不足 立法索引語彙: 立法索引語彙: – 文中 軍隊 – シソーラス内 軍事 – 文中CAPITAL – 大文字、シソーラスでは大文字のみ 提案: 各記述子に単語と用語のリストを補足する 提案: 各記述子に単語と用語のリストを補足する ただし: 多義性または異なる記述子に関連する。 ただし、多義性があるか、さまざまな記述子に関連しています。 曖昧さ回避の解決策 曖昧さ回避の解決策


従来の IPT: 自動クエリ拡張 関連に関する問題 推奨: 重みを入力 重みを入力 関係の名前を入力: オブジェクト、プロパティなど。 オブジェクト、プロパティなどの関係の名前を入力します。 結論: テキストコレクションの自動処理に特化した言語リソースを構築する方法を学ぶ必要があります。


シソーラス EUROVOC – 欧州共同体の多言語シソーラス 9 か国語のシソーラス EUROVOC のロシア語版 – ロシアの特性を反映した +5,000 の概念 多言語シソーラス – 記述子 – さまざまな言語の名前 – アスクリプト子 – 一部の言語用


ルールに基づく、EUROVOC シソーラスによる自動インデックス作成 (Hlava、Heinebach、1996) ルールの例: IF (「テクノロジー」の近く、かつ「開発」を持つ) USE コミュニティ プログラム USE 開発援助 ENDIF 40,000 ルール。 テスト: テキスト内で最も頻繁に使用される 20 個の記述子、自動的に生成 - 手動注釈と比較して完全性 42%


単語と記述子間の対応重みの確立に基づく自動インデックス付け (Steinberger et al.、2000) ステージ 1 - 統計的尺度 (カイ二乗または対数尤度) に基づいて、テキスト単語と割り当てられた記述子の間の対応関係を確立 漁業管理記述子 - 以下の単語(重量の多い順):漁業、魚類、畜産、漁業、保全、管理、船舶等 ステージ 2 自体のインデックス作成 - 重みの対数を合計するか、ベクトルのスカラー積として合計します。


フリー クエリと情報検索シソーラスに基づくクエリの組み合わせ 手動でインデックス付けされたコレクション – 相関関係の確立 ユーザーが自然言語でクエリを尋ねる クエリは、クエリと最も強く相関するシソーラス記述子によって拡張されます (Petras 2004) ;ペトラス、2005)。 たとえば、Insolvent Companies というリクエストでは、流動性、負債、企業、会社という記述子のリストを取得し、クエリを拡張することができ、実験の精度は 13% 向上しました。



情報を処理するための機械手法の開発の結果として生まれた新しい基本概念の 1 つ。特に、ある言語から別の言語に翻訳したり、科学的および技術的な情報を検索したり、自動制御システムで企業の情報モデルを作成したりする場合に発生します。 、情報システムシソーラスの概念でした。 「シソーラス」という用語は、外界についての一連の知識を意味します。これはいわゆる世界 T のシソーラスです。自然言語を使用して表現された外界のすべての概念はシソーラスを構成し、そこから民間シソーラスを区別できます。個々の概念の従属を考慮した階層的分割によって、または世界の一般的なシソーラスの部分を分離することによって。 情報検索システムにおけるシソーラスは、キーワードを使用して目的の文書を検索する際に重要な役割を果たします。 したがって、シソーラスの構築は複雑で責任のある作業です。 ただし、このタスクは自動化することもできます。

最も一般的な定義における分類は、セットの分割と順序付けです。 これらの現象またはオブジェクトに固有の共通の特徴に基づいて、オブジェクトをクラスに分散し、他のクラスを構成するオブジェクトや現象と区別することをいいます。 必要に応じて、各クラスをサブクラスに分割できます。 ルブリケーターは特別なタイプの分類です。 したがって、これらは一般規定に基づいて作成されています。
- 分類を構築するための科学的根拠。
- 現在の科学の発展レベルを反映。
- リンクと紹介のシステム、および参照と参照装置 (CCA) の存在。

ただし、ルブリケーターは、情報の流れと専門家のニーズに基づいて作成された実用的な分類です。 これが、UDC や IPC などのアプリオリな分類との違いです。

分類、特にルブリケーターの主な機能は次のとおりです。
- 情報サブシステムのテーマ別の差別化。
- 何らかの基準に基づいた情報配列の形成。
− 情報資料および出版物の体系化。
- 現在および遡及的な検索。
- ドキュメントとクエリのインデックス作成。
- 他の分類スキームとの関連。
- 規範的な機能。

これらは、特定の論理原則に従って、これらのオブジェクトの特性間の確立された関係に基づいて分類のオブジェクトである概念を分割することによって構築されます。 分類を行う際の特徴を分類基準といいます。 分類では、グループやクラスを固定し、それらの間のつながりを特定するために、演繹と帰納の方法が広く使用されています。 これは階層分類では一般的です。 分類の深さ(階層数)は目的に応じて異なります。 広く使用されているルブリケーターの 1 つは、State Rubricator of Scientific and Technical Information (GRNTI) です。

GRNTI ルブリケーターは、UDC や IPC などの他の分類と併用できるように設計されています。 ユニバーサル 10 進分類 (UDC) は 70 年以上存在していますが、その普及範囲の広さにおいては依然として同等のものはなく、世界中の多くの国で使用されています。 UDC は知識の世界全体をカバーしており、体系化とその後のさまざまな情報源の検索にうまく使用されています。

UDC に加えて、図書館書誌分類 (LBC) も実際に広く使用されています。 BBK は論理従属の原則に基づいて構築されており、アプリケーション タイプの分類を表します。
ロシア連邦では、発明を分類し、国内の発明説明集を体系化するために、機能産業原則に基づいて構築されたかなり複雑な多側面分類である国際特許分類が使用されています。 同じ技術概念は、IPC または特殊クラス (業界別)、または機能クラス (動作原理別) にも見られます。 概念の分布の分野別原則には、歴史的に確立された特定の機器および技術分野における用途に応じたオブジェクトの分類が含まれます。

SRNTI、UDC、BBK、IPCのルブリケーターの特性比較を表1に示します。

表1
SRNTI、UDC、BBK、IPCのルブリケーターの特徴

名前

構造

部門の配置の原則

パーティション構築スキーム

階層的

業界

一般的なものから具体的なものまで

階層的

テーマ別

階層的

機能別

一般的なものから具体的なものまで

科学図書館向けの LBC

階層的

業界

一般的なものから特殊なものまで、種類ごとに


したがって、ルブリケーターと分類器の主な特徴を強調することができます。
- 応用的な性質と業界志向によって特徴付けられます。
- これらは、科学技術の発展、専門家のニーズと要求に依存するオープンシステムです。
- 無機系。物体は環境内で発生し、発展し、そこから環境に入るからです。 要素はシステムの外部に独立して存在できます。 この特性は 2 番目の特性と密接に関連しています。
- 最小要素は環境に関連する概念です。 概念は定義体系を表します。
概念間のつながりは「垂直方向」(類型、全体-部分)と「水平方向」(型-型、部分-部分)の両方で生じ、システムの階層を示します。

その結果、分類とルブリケーターの構成の構造と原理により、演繹法を使用して主題分野のシソーラスを構築するプロセスを自動化することが可能になります。 演繹法を使用してシソーラスを構築するアルゴリズムを図に示します。 1.

シソーラス作成の基礎となるのは、オペレータが入力した文書、タスク、または情報検索用のアプリケーションの検索画像です。 したがって、最初のステップはアプリケーションを調査して分析することです。 最初の段階で、オペレーターは関心のあるトピックや問題、考えられるキーワードとその同義語を示します。 その結果、私たちは主題領域の表面的な理解を得ることができます。

米。 1. 演繹法を用いたシソーラス構築アルゴリズム

さらに、KS キーワードのシソーラスは演繹法を使用して作成されます。これには次のことが必要です。
- KS 配列。ユーザー自身が指定します。図 1 では MP として指定されています。
- 検索タスクから抽出された KS 配列、それぞれ MZ。

ただし、主題分野をより完全かつ深く理解するために、既存のルブリケーターと分類スキーム (GRNTI、UDC、BBK、IPC) を使用します。 対象領域を最大限にカバーするには、利用可能なすべての領域を確認する必要があります。 ルブリケーターの配列は MR を表します。 演繹検索アルゴリズムは 2 つのステップで構成されます。
1. 一般的な概念を見つける (図 2)。
2. 一般的な概念内の特定の用語を見つける (図 3)。


米。 2. 一般概念の処理

アレイから最初のルブリケーターをロードし、ユーザーがルブリケーターに入力した CS の存在を確認するサイクルを組織します。 各 KS はルブリケーター内で検索され、一般的な概念または「ネスト」と比較され、特定の用語へのリンクがあるかどうかを確認するために条件がチェックされます。 そのようなリンクが利用可能な場合、KS は特定の用語と比較されます。 リンクが見つからない場合は、次の一般的な概念に進みます。 オペレータが入力したCSのキーワードを参照すると、タスクから抽出されたCSの配列に進みます。 検証手順も同様です。一般的な概念に対応する KS を探し、次に特定の用語へのリンクを探します。


米。 3. 特定の用語の処理

問題領域を最大限に理解するには、各一般概念内で利用可能なすべての特定の用語を確認することが重要であることに注意してください。 これらのアクションの結果、KS キーワードの配列が形成されます。これは、情報または文書の検索画像を検索するタスクに対応する完全なシソーラスです。

文書の検索画像の完全なセット (それらを示しましょう) に基づいて、業界シソーラスと統合されたライブラリ分類子を作成することができます。 明らかに、 の完全なセット自体が単純なシソーラスを表します。

ただし、選択基準を使用すると、
, (1)
業界シソーラスを構築できます。 この場合、すべての業界シソーラスのセットが完全なシソーラスを形成します。
, (2)
そのセクションは、GOST の要件に従って、主要な分類子 (GRNTI、UDC、BBK、MPK) または内部の統一分類子に従って階層的に構造化できます。

シソーラスの構築と分類のプロセスを自動化することで、分散した情報リソースを扱うオペレーターの作業を可能な限り容易にすることができます。

文書の検索画像に基づいてシソーラスを構築することに加えて、提案されたアプローチは、自動文書抽象化とテキスト クラスタリングに使用できます。

文書の抽象化は、インターネットから取得した文書の価値について経営上の決定を下すために必要な信頼できる情報を専門家に提供することを目的としたタスクの 1 つです。 抽象化とは、文書情報を変換するプロセスであり、要約の準備で最高潮に達します。要約は、一次文書の主な内容を意味的に適切に表現したものであり、経済的な象徴的なデザイン、言語的および構造的特徴の恒常性によって特徴付けられ、実行することを目的としています。科学コミュニケーションシステムにおけるさまざまな情報通信機能。 文書抽象化アルゴリズムを図に示します。 4.


米。 4. 文書抽象化アルゴリズム

一般に、アルゴリズムには次の主要な段階が含まれます。
1. インターネットからダウンロードされた文書から文が抽出され、句読点を選択して配列に保存することによってデータ ウェアハウスに配置されます。
2. 各文は区切り記号を選択して単語に分割され、配列に保存されます。配列は文ごとに異なります。
3. 文ごとに、この文の単語ごとに、他の文 (前後) の単語の数を数えます。 各単語 (前後) の繰り返しの合計が、この文の重みになります。
4. 本文中の出現順に、重み係数が最大となる文章を所定数選択して抄録とする。

情報システムのシソーラスおよびテーマ別カタログを構築するための提案されたモデルは、意味検索を自動化するための理論的基礎を表し、専門家が検索作業を実行するだけでなく、自動モードで、検索の結果として得られる抽象的な文書を実行することも可能にします。インターネット上の分散型情報システム。

文学:
1.バルシコバ R.I. 科学および技術情報の分類スキーム。 教科書 手当。 - M.、1981年。 - 80 p。
2.バルシコバ R.I. 科学および技術情報の分類スキームとしてのルブリケーター。 ツールキット。 - M.、1980年。 - 38 p。
3. トルソフ A.V.、ババリキン E.P. 分散情報システムにおける主題情報要求のドメインの境界の推定。 全ロシア(国際参加)会議「情報、イノベーション、投資」、2004 年 11 月 24 ~ 25 日、ペルミ / ペルミ CSTI の資料。 - ペルミ、2004年。 - P.76-79。
4. ヤツコ V.A. 科学文書の分析と要約に関する論理言語的問題。 - アバカン: ハカス州立出版社。 大学、1996 年 - 128 ページ。

このセクションの最新資料:

無料の電気図
無料の電気図

箱に当たった後に燃え上がるが、点火しないマッチを想像してみてください。 そんな試合に何のメリットがあるのでしょうか? 演劇でも役に立ちそう…

水から水素を作る方法 アルミニウムから電気分解で水素を作る
水から水素を作る方法 アルミニウムから電気分解で水素を作る

「水素は必要なときだけ生成されるので、必要な分だけ生成することができます」とウッドール氏は大学で説明した。

SFにおける人工重力 真実を求めて
SFにおける人工重力 真実を求めて

前庭系の問題は、微小重力に長期間さらされた場合の唯一の結果ではありません。 過ごす宇宙飛行士たち…