Search In this Thesis
   Search In this Thesis  
العنوان
An enhanced model for image captioning using deep learning /
المؤلف
El-Bedwehy, Samar Mohamed Handousa Ahmed.
هيئة الاعداد
باحث / سمر محمد حندوسة أحمد عبدالرازق البدويهي
مشرف / محمد الرحماوي
مشرف / طاهر توفيق حمزة
مشرف / تامر مدحت ابراهيم
مناقش / سمير الموجى
الموضوع
Computer science. Information. Deep learning.
تاريخ النشر
2023.
عدد الصفحات
online resource (138 pages) :
اللغة
الإنجليزية
الدرجة
الدكتوراه
التخصص
Computer Science Applications
تاريخ الإجازة
1/1/2023
مكان الإجازة
جامعة المنصورة - كلية الحاسبات والمعلومات - علوم الحاسب
الفهرس
Only 14 pages are availabe for public view

from 138

from 138

Abstract

احدى الطرق التى سهلت الطريقه التي نتواصل بها ونتخيل العالم هيا الانترنت ووسائل التواصل الاجتماعي بمجرد ظهور الانترنت. نظرا لان المستخدمين قاموا بإنشاء بيانات غير مرئيه عبرالانترنت, فقد كانت تنمو بسرعة. على سبيل المثال فى اليوم, يتم تحميل حوالي 300 مليون صورة على فيسبوك. على الرغم من ان فهم محتوى الصوريبدوا مهمة بسيطة, حتى بالنسبه للاطفال إلا أنها تمثل تحديا كبيرا لاجهزة الكمبيوتر. يمكن أن يساعد فى وصف الصور للمكفوفين او تعليم الاطفال. أحد استخدماته هي الفهرسه التلقائية للصور وهو أمر مهم لاسترجاع الصور على أساس المحتوى. تشير التسميه الواضحه للصور الى القدره على انشاء جمله ذات معنى نحويا بشكل تلقائي تصف محتوى الصورة. على الجانب الاخر, تم اقتراح العديد من أنظمه انشاء التقارير بمساعده الكمبيوتر استنادا الى التعليق على الصور لتبسيط عمليه الابلاغ عن الصور الطبيه تستخرج هذه الانظمه النتائج تلقائيا من الصور الطبيه وتنتج تقارير نصية بمعلومات دقيقه, تماما مثل الطبيب الماهر حيث يؤدي هذا الى تقليل الوقت المطلوب للأطباء لاستخراج المييزات يدويا من الصور قبل انشاء تقرير نصي. بالإضافه الى ذلك, فإنه يقلل من الحاجه الى مهنيين اضافيين لاعداد التقارير لان انشاء التقارير الطبيه عمليه مميكنه بالكامل وفعالة. هذه الرساله مكونه من ثلاث فصول رئيسية بعد فصل المقدمة الذي تناول مقدمة عن مجال البحث وأهميته كتقنيه جديدة, وكذلك يوضح الهدف من البحث وفى نهاية العمل يوجد فصل الملخص والأعمال المستقبليه والذي يتناول ملخص البحث المقدم وبعض المقترحات للعمل فى المستقبل ان شاء الله. أما الفصول الثلاثه الرئيسية ملخصها كالتالي : الفصل الثانى : بهذا الفصل تناول دراسه تحليلة للطرق السابقه المتعلقه بموضوع الرسالة ويشرح الفصل الطرق لتحسين النتائج من حيث الطرق التقليديه لاستخراج ميزات الصور مثلVGG16 –ResNet50 – CNN – ViT وأيضا تتطرق الى عمليات تحويل الكلمات الى متجه او (vector) والطرق القديمه منها هي BERT – LSTM – GloVe – Word2vec واستعرضنا جانب من الشبكات العصبيه الجديده التي قمنا بإستخدامها لتحسين النتائج منها SWIN-DINO-PVT-ConvNexT-XCIT وهذه المجموعه خاصه باستخراج ميزات الصور أما بالنسبه لعمليات تحويل الكلمات الى متجه فمن أمثله المودل الجديده التي استخدمناها مثل TaCL ,BioLinkBERT الفصل الثالث : بهذا الفصل تم عرض الطرق المستخدمه فى تلات تحسينات قمنا بها على نوعين مختلفين من الداتا أحدهم COCO والاخر بيانات طبيه للتسميات النسيجيه المرضيه لعينات الخزعه التنظيريه لسرطان المعدة الغدي الطريقه الاولى وهى استخراج ميزات الصور باستخدام المودل الجديده التى ذكرناها سابقا لتحسين انشاء جمله واضحه معبره عن الصورة وذلك من خلال استخدام البيانات COCO الطريقه الثانيه وهي استخراج ميزات الصور باستخدام طريقه الدمج بين اكتر من مودل حيث ان الدمج الذى قمنا به على المودل الجديده وتحسين اخر فى جانب اللغه حيث قمنا باستخدام طبقه لتضمين او تحويل الكلمات الى متجه وذلك من خلال المودل التي ذكرناها سابقا الخاصه باللغه وذلك من خلال استخدام البيانات COCO الطريقه الثالثه وهي دراسه وتحسين انشاء الجمل او التقارير الطبيه وذلك من خلال البيانات على صور سرطان المعدة وذلك من خلال مقارنه بين استخراج ميزات الصورعن طريق افضل مودل وجدناه فى الطريقه الاولى مع مودل جديد اظهر فارق بين النتيجتين وهو ConvNexT وقمنا بمقارنه النتائج مع طريقه الدمج بين اكتر من مودل لما وجدنا من نتائج افضل فى انشاء الجمل وذلك من خلال الطريقه الثانيه وعلى جانب اللغه قمنا بتحسين تمثيل الكلمات من خلال مودلBioLinkBERT 5700 الفصل الرابع : تم عرض نتائج التحسينات الثلاثه والتي تم تطبيقها على النوعين المختلفين من البيانات بحجم للصور اثناء مرحلة الاختبار اما اثناء التدريب 30000 صورة وذلك على بيانات COCO أما بالنسبه للصور الطبيه تم استخدام صور التدريب بعدد 34000 صورة و 5700 صورة أثناء الاختبار على امكانيات لابتوب RAM 32 GB + Core i7 +Nvidia RTX 2060.