Author: Mabrouk, Doaa Mabrouk Abd El-Fatah./ Title: Enhancing Information Retrieval through Dependency Modeling /

Search In this Thesis

العنوان

Enhancing Information Retrieval through Dependency Modeling /

المؤلف

Mabrouk, Doaa Mabrouk Abd El-Fatah.

هيئة الاعداد

باحث / دعاء مبروك عبد الفتاح مبروك

مشرف / محمد عصام خليفة

مشرف / نجوى بدر

مشرف / شيرين راضي

الموضوع

Electronic data processing.

تاريخ النشر

2019.

عدد الصفحات

106 p. :

اللغة

الإنجليزية

الدرجة

ماجستير

التخصص

Information Systems

تاريخ الإجازة

1/5/2019

مكان الإجازة

جامعة عين شمس - كلية الحاسبات والمعلومات - قسم نظم المعلومات

الفهرس

Only 14 pages are availabe for public view

from

106

from

106

Abstract

•شَـهدت نظم إسترجاع المعلومات تطوراً كبيراً مُنذ ظهورها إلى الآن ، وتِلك التطورات كانت نِتاجاً طبيعياً لما شَهِدته التكنولوجيا من تطورات فى المجالات العلمية المختلفة ومن أمثلتها معالجة البيانات ونُظم إدارة قواعد البيانات. وقد أخذت هذه النُظم أشكالاً عده وذلك وفقاً لإختلاف البيئة التى ظهرت فيها ومنها المكتبات التقليدية التى اسَتخدمت الفهارس بأشكالها المختلفة ثم ظهرت قواعد البيانات. وفى ظل إنتشار الشبكة العنكبوتية إنتشرت مُحركات البحث لتكون بِمثابة إسترجاع لما هو مُتاح على تلك الشبكة المعلوماتية . وعمليات البحث تُستخدم للحصول على المعلومات المهيكلة (Structured) فى حين أنَّ التصفح يعبرعن إكتشاف المعلومات الغير مهيكلة (Unstructured).
فى البداية تمَّ تصنيف نماذج الإسترجاع إلى نماذج البحث التقليدية (Classical Models) ومن أمثلتها نموذج البحث الثنائى (Boolean) والمعدل علمياً بأسم (Region) والذي يهتم بالبيانات شبه المنظمه (semi-structured data)، كذلك نماذج البحث المتجهه (Vector) والنماذج الإحتمالية (Probabilistic) ، ونماذج البحث الخاصة باللغة الطبيعية (Natural Language) ومن أهم المشكلات التى تواجه عملية إسترجاع المعلومات هى مشكلة الإعتمادية (Dependency) . فهناك بعض النماذج التى تفترض الإعتمادية بينما البعض الآخر من تلك النماذج يفترض عدم الإعتمادية (Independency) بين الكلمات وبعضها وهذه المشكلة قد تكون عامة وقد تكون فى بيانات مصنَّفة (classified data). وهذه
البيانات من نوع الملفات (Word) وهي تندرج تحت مسمي البيانات الغير مهيكله. ولكن في هذه الرسالة العلمية تم تحويل البيانات الغير مهيكلة الي بيانات شبه مهيكلة (Semi-structured data) وذلك لإختلاف أحجام الملفات فقد تمَّ تحويل الملفات (Word) إلى .(XML)
ولكن فى هذه الرسالة كان الإهتمام بالبيانات المصنَّفة لإيجاد الإعتمادية بين الكلمات بإستخدام نظرية ”مجموعة القوة” (Power set) وعند تطبيق هذه النظرية تم إيجاد مجموعة الكلمات الموحدة ( unique) لكل تصنيف والذى يحتوى على مجموعة من الملفات وهى (Term dependency identification) وهذه الكلمات الموحدة (TDI) قد تكون كلمة واحدة أو أكثر. ولكى يتم تنفيذ تلك النظرية فقد تم إستخدام البيانات الكلاسيكية (classical data) وهى مكونة من أربعة تصنيفات بكل تصنيف مجموعة من الملفات. ولإختبار مدى دقة تلك النظرية فقد تم إستخدام طريقتين هما (Max-No-TDI) والطريقة الآخرى (Max-Fc) .
وقد أكدت النتائج التى تم الوصول إليها بإستخدام الطريقة الأولى (Max-No-TDI) أنها قد أعطت نتائج أفضل تصل إلى 96%.