رسالة في تكنولوجيا بابل تبحث طريقة نمذجة لتصنيف البكتريا


تاريخ النشر : 10/23/2021
عدد مشاهدات هذا الموضوع : 68
تم نشر الموضوع بواسطة : وسام عماد ناجي المعموري
 
علي حسن كريم 
بحثت رسالة ماجستير في كلية تكنولوجيا المعلومات بجامعة بابل،للطالب نجاح عبد الهادي الجبوري (A modeling Approach to Classify the Bacteria Classes طريقة نمذجة لتصنيف البكتريا).بينت الدراسة أنه قد أصبح لأنظمة المعلوماتية الحيوية دور فعال وهام في السنوات الأخيرة بسبب النمو المتزايد للبيانات البيولوجية من حيث الحجم والتعقيد الوظيفي حيث أن لهذه الانظمة وظائف مختلفة بما في ذلك التخلص من القيم غير ذات الصلة،وتقليل البعدية  العالية لحجم البيانات،والتصنيف الوظيفي واكتشاف كائنات حية  بالاعتماد على خصائصها والتنبؤ بوظائف سلالات الكائنات الحية والتشخيص المبكر للأمراض وغيرها.وتهدف الدراسة إلى تصنيف البكتيريا إلى أربع فئات (Class, Order, Family, Genus). تحتوي كل فئة على اصناف فرعية في شكل تنظيم هرمي. تعتمد طرق التحليل والتصنيف على تسلسل الحمض النووي((DNA الذي يحتوي على الاحماض الاربعة adenine (A) cytosine (C) guanine (G) thymine (T)للبكتيريا كمجموعة بيانات نصية .حجم البيانات المستخدمة هي 1000 جينوم (كامل الطول).يعد اختيار تقسيم البيانات إلى مجموعة تدريب ومجموعة اختبار أمرًا ذا أهمية كبيرة في عمليات تعلم الالة،وقد يكون لنسبة مجموعة بيانات التدريب إلى مجموعة الاختبار تأثير كبير على تحسين أداء النظام وتجنب الإفراط في التجهيز. 
ويتضمن الإطار في هذه الدراسة من ثلاث مراحل رئيسية هي مرحلة المعالجة المسبقة ومرحلة المعالجة اللاحقة وبعد ذلك مرحلة التقييم لأداء النظام.وتتألف المعالجة المسبقة من تصفية مجموعة البيانات وتقليل البعدية العالية،ثم تجزئة سلاسل الحمض النووي إلى سلاسل فرعية (عينات) باستخدام الطرق الخالية من المحاذاة.المرحلة الثانية هي المعالجة اللاحقة  كعنقدة و تصنيف. تم تطبيق نمذجة الموضوع للعنقدة ومصنف Naïve Bayes للتصنيف. 
وتم اختبار البيانات من أجل تقييم اداء النظام من خلال نسبة تقسيم 70% للتدريب و 30% للاختبار.تعتبر هذه النسبة أفضل نسبة تقسيم للحصول على أعلى أداء لنموذج التصنيف المقترح بستة أحجام من قيمة الـ k من 3 الى 8 (عدد الاحماض) التي تمثل حجم العينة،كما تم تطبيقها أيضًا على نمذجة الموضوع في مرحلة  العنقدة  للحصول على نمذجة موضوع مناسب.التحدي الذي حدث في مرحلة العنقدة هو عندما تكون قيمة (k = 7,8) يقل احتمال وجود هذه العينات في العناقيد بسبب قلة وزن هذه العينات،ومن  ناحية أخرى،تزداد درجة دقة التصنيف.مع زيادة حجم العينة،حيث كانت درجة الدقة 100% في Class،و 99% في Order،و 99% في Family،و 98% في Genus،عندما تكون k = 8.