Search In this Thesis
   Search In this Thesis  
العنوان
Machine learning analytics for disease prediction \
المؤلف
Ismail, Eman Ismail Sayed.
هيئة الاعداد
باحث / ايمان اسماعيل سيد
مشرف / محمد هاشم
مشرف / ولاء جاد
مناقش / ريم محمد رضا بهجت
تاريخ النشر
2023.
عدد الصفحات
131 p. :
اللغة
الإنجليزية
الدرجة
الدكتوراه
التخصص
Information Systems
تاريخ الإجازة
1/1/2023
مكان الإجازة
جامعة عين شمس - كلية الحاسبات والمعلومات - نظم المعلومات
الفهرس
Only 14 pages are availabe for public view

from 131

from 131

Abstract

كمية هائلة من البيانات الجينومية متاحة اليوم. فيصبح تحديد جينات المرض من هذه البيانات الضخمة تحديًا كبيرًا في مجال المعلوماتية الحيوية. لذلك ، فإن إدراك العلاقة بين الجينات المسببة للأمراض أمر ضروري لتطوير علاج جديد وتشخيص سريري أفضل. علاوة على ذلك ، فإن التحدي الأكبر عند التعامل مع الأمراض المعقدة. جيناتهم غير متجانسة للغاية ، مما يجعل عملية التنبؤ بجينات المرض أكثر صعوبة.
تعد اضطرابات طيف التوحد (ASD) من الأمراض المعقدة ، وهي أكثر الأمراض انتشارًا اليوم. ويمكن أن تُعزى أسباب الإصابة به إلى أسباب وراثية بنسبة 80٪ وأسباب بيئية بنسبة 20٪. وعلى الرغم من ذلك ، فإن معظم الأبحاث الحالية تهتم بالأسباب البيئية ، وأقلها تناسبًا مع الأسباب الوراثية للمرض. ASD هو مرض مرتبط بالنمو العصبي للدماغ. يمكن ملاحظة طيف التوحد في مرحلة الطفولة المبكرة ، حيث تظهر أعراض المرض عادة عند الأطفال خلال السنة الأولى من حياتهم. حاليًا ، لا يمكن تشخيص اضطراب طيف التوحد إلا بناءً على الأعراض الظاهرة بسبب نقص المعلومات في الجينات المتعلقة بالمرض.
تُستخدم تقنيات تصنيف التعلم الآلي للتنبؤ بجينات المرض باستخدام علم الوجود الجيني (GO). يساعد شرح الجينات بمصطلحات الأنطولوجيا الجينية من GO على قياس العلاقات الدلالية بينها. في هذه الأطروحة ، تم اقتراح نموذج جديد للتنبؤ الجيني باستخدام GO. يتم تقييمه باستخدام الجينات المرشحة لاضطراب طيف التوحد (ASD). تم تطبيق مقاييس التشابه الوظيفي الجيني المختلفة باستخدام مصنفات مختلفة لاكتشاف التشابه الدلالي بين جينات ASD. يتم تحليل أداء النموذج المقترح مقارنة بالتقنيات الأخرى ، والتي تعتمد على التعبير الجيني وشبكة البروتين إلى البروتين. لتصل إلى أعلى دقة بنسبة 80٪ باستخدام مصنف Random Forest (RF) للتنبؤ بجينات ASD الجديدة.
علاوة على ذلك ، يُقترح نموذج التصنيف المستند إلى المجموعة المختلطة (HEC-ASD) للتنبؤ بجينات ASD باستخدام آلات تعزيز التدرج. يستخدم النموذج المقترح أيضًا علم الوجود الجيني (GO) لبناء مصفوفة تشابه وظيفي للجينات باستخدام طريقة التشابه الجيني الهجين (HGS). يقيس HGS التشابه الدلالي بين الجينات بشكل فعال. فهو يجمع بين الطريقة القائمة على الرسم البياني ، مثل طريقة وانج مع عدد العقد الموجهة للأطفال من المصطلح الجيني من GO. بعد ذلك ، تم تكييف مصنف تعزيز التدرج الجماعي لتعزيز التنبؤ بالجينات التي تشكل نموذج تصنيف قويًا.
يتم تقييم النماذج المقترحة باستخدام قاعدة بيانات الجينات الخاصة بمبادرة أبحاث التوحد لمؤسسة Simons Foundation (SFARI). النتائج التجريبية لنموذج HEC-ASD واعدة لأنها تحسن أداء التصنيف للتنبؤ بجينات ASD. تمت مقارنة النتائج مع الأساليب الأخرى التي تستخدم شبكة تنظيم الجينات (GRN) ، أو شبكة التفاعل بين البروتين والبروتين (PPI) ، أو GO. يصل نموذج HEC-ASD إلى أعلى دقة تنبؤ بنسبة 0.88٪ باستخدام مصنفات تعلم المجموعات. يوضح أن تقنية التعلم الجماعي باستخدام تعزيز التدرج فعالة في التنبؤ بجينات اضطراب طيف التوحد.
تعد مشكلة عدم التوازن بين المجموعات من أكثر المشكلات شيوعًا في التعلم الآلي. لذلك ، يجب أن نكون على دراية بتقنيات التعامل مع البيانات غير المتوازنه لحل هذه المشكلة. تستخدم الدراسات الحديثة تقنيات مختلفة للتعلم الآلي للتنبؤ بجينات ASD التي تعاني من مشكلة مجموعة بيانات ASD غير المتوازنة. تُستخدم نماذج التنبؤ الجيني الحديثة لـ ASD لمقارنة تأثير تقنيات نقص العينات والإفراط في أخذ العينات على أداء النموذج. علاوة على ذلك ، تم اقتراح تقنية مشتركة جديدة (SMOTE-RUS) باستخدام تقنية فرط أخذ العينات الاصطناعية (SMOTE) وتقنية الاختزال العشوائي (RUS) للتعامل مع مجموعة بيانات ASD غير المتوازنة. يستخدم SMOTE-RUS لبناء نموذج فعال للتنبؤ بجينات ASD. تظهر النتائج التجريبية أن التقنية المقترحة فعالة للحصول على نموذج تنبؤ جيني أكثر قوة وتفوق النماذج الأخرى باستخدام تقنية إعادة تشكيل واحدة.
أخيرًا ، نحتاج إلى التنبؤ بأكبر عدد من الجينات المسببة للأمراض من أجل تشخيص أفضل. لذلك ، يُقترح نموذج مجموعة التراص الهجين مع فرط أخذ عينات للأقلية الاصطناعية من (Stack-SMOTE) للتنبؤ بجينات ASD. يستخدم SMOTE للتعامل مع مجموعة بيانات ASD غير المتوازنة ويستخدم وظيفة تشابه الجينات الهجينة (HGS) لقياس التشابه الدلالي بين الجينات. أولاً ، تم تقديم مصنف الغابات العشوائية المستند إلى تعزيز التدرج (GBBRF) كأسلوب تركيبي جديد لتعزيز التنبؤ بجينات ASD. علاوة على ذلك ، تم دمج المصنف GBBRF مع المصنف (RF) ، ومصنف (KNN) ، ومصنف (SVM) ، ومصنف(LR) لتشكيل نموذج Stacking-SMOTE المقترح.
n
يتم تقييم نموذج Stacking-SMOTE المقترح باستخدام قاعدة بيانات الجينات SFARI أيضًا. تحقق نتائج GBBRF دقة أعلى من استخدام المصنفات الأساسية. علاوة على ذلك ، أظهرت النتائج التجريبية أن نموذج Stacking-SMOTE المقترح يتفوق على نماذج توقع ASD الحالية بدقة 95.5٪ تقريبًا. يوضح نموذج Stacking-SMOTE المقترح أن SMOTE فعال في التعامل مع بيانات التوحد غير المتوازنة. بالتتابع ، فإن الدمج بين تعزيز التدرج ومصنف RF (GBBRF) يدعم بناء نموذج اقوى وادق (Stacking-SMOTE).