عناصر مشابهة

Machine learning approach to test the normality of the data

تفصيل البيانات البيبلوغرافية
الناشر: بيرزيت
المؤلف الرئيسي: Soboh, Hussein M.
مؤلفين آخرين: Abu Hassan, Hassan
التاريخ الميلادي:2020
الصفحات:1 - 107
رقم MD:1248772
نوع المحتوى: رسائل جامعية
اللغة:English
قواعد المعلومات:Dissertations
الدرجة العلمية:رسالة ماجستير
الجامعة:جامعة بيرزيت
الكلية:كلية الدراسات العليا
مواضيع:
رابط المحتوى:
الوصف
المستخلص:تعد اختبارات التوزيع الطبيعي (Normal distributions tests)مهمة للغاية في الاستدلال الاحصائي، والغرض منها هو معرفة ما إذا كانت البيانات مأخوذه من مجتمع توزيعه يتبع للتوزيع الطبيعي. التوزيع الطبيعي للبيانات هو شرط أساسي لعدة إحصاءات مثل: t-test, ANOVA, regression analysis. عدم تحقق هذا الشط يمكن أن يؤدي الى نتائج و قرارات خاطئة. توجد العديد من االاختبارات التي تستخدم لهذا الغرض ولكنها في اغلب الاحيان تؤدي الى نتائج متناقضة. وبعضها فعاليتها مشروطة على ظروف عدة للعينة مثل حجم العينة. الهدف الرئيس من هذا البحث هو استخدام تقنيات تعلم الالة لبناء نموذج يمكن أن يكون ذا جوده جيدة مقارنة باالاختبارات الحالية. يحاول هذا البحث إنشاء نموذج تصنيف باستخدام صفات عدة للبيانات مثل حجم العينة والانحراف والتفلطح والوسيط والنسبة المئوية للبيانات التي تقع ضمن 1 و 2 و 3 انحرافات معيارية. انحرافات معيارية و 2 و 3. للعثور على أفضل أسلوب تصنيف يناسب بياناتنا ، تم إنشاء ثلاثة نماذج باستخدام ثلاث تقنيات تصنيف: Random Forest (RF) ،Gradient Boosting Machines (GBM), and Support Vector Machines (SVM). أظهرت النتائج دقة تصنيف عالية و قيم ROC_AUC عالية للنماذج الثلاثة مع أفضلية بسيطة لصالح نموذج (RF). تمت مقارنة الاختبار الناتج من هذا البحث مع عدة اختبارات اخرى تستخدم لهذا الغرض مثل: Shapiro-Wilk (SW) , Anderson-Darling (AD) , Jarque-Bera (JB) , Shapiro-Francia (SF) , Kolmogorov-Smirnov (KS) , Cramer-von Mises (CVM)، و Lilliefors (Lillie). تمت المقارنة بأسلوب ال "Power test" باستخدام محاكاة "MonteCarlo Simulation" على 25 توزيع لا ينتمون للتوزيع الطبيعي في أحجام عينة مختلفة, وأظهرت النتائج بشكل ملحوظ القدرة الأعلى للاختبار الجديد مقارنة بالاختبارات الأخرى.