عناصر مشابهة

تقييم النمذجة الموضوعية لنصوص الصحف السعودية باستخدام خوارزمية تخصيص دركليه الكامن LDA: دراسة لغوية حاسوبية

تفصيل البيانات البيبلوغرافية
العنوان بلغة أخرى:Evaluating Topic Modeling for Saudi Newspapers Texts Using LDA: A Computational Linguistics Study
المصدر:مجلة جامعة أم القرى لعلوم اللغات وآدابها
الناشر: جامعة أم القرى
المؤلف الرئيسي: التميمي، أفراح بنت عبدالعزيز (مؤلف)
المجلد/العدد:ع29
محكمة:نعم
الدولة:السعودية
التاريخ الميلادي:2022
الصفحات:32 - 44
ISSN:1658-8126
رقم MD:1327464
نوع المحتوى: بحوث ومقالات
اللغة:Arabic
قواعد المعلومات:AraBase
مواضيع:
رابط المحتوى:
الوصف
المستخلص:تقع هذه الدراسة في مجال معالجة اللغات الطبيعية وتطبق منهج تعلم الآلة غير الموجه في تحديد الموضوعات الكامنة في نصوص الصحف العربية السعودية باستعمال أحد أهم خوارزميات النمذجة الموضوعية غير الموجهة، وهي خوارزمية تخصيص دركليه الكامن للموضوعات. وقد جمعت نصوص الصحف السعودية في مدونة بلغ مجموع نصوصها بعد تهيئتها 4781 نصًّا، تضمنت 649,734 كلمة فعلية. وأظهرت نتائج تدريب 20 نموذجًا عليها بعشر كلمات مميزة أن القيمة المثلى لعدد الموضوعات في تلك النصوص، هي 7 موضوعات، وذلك بدرجة تماسك جيدة بلغت 0.6723. وقد استدل على هذه الموضوعات من خلال كلماتها العشر ذات القيم العليا في كل موضوع. ففسرت الموضوعات على التوالي: الرقابة والتوعية، والتنمية والتطوير، والرياضة، والصحة، والاقتصاد، وشؤون محلية، وسياسة دولية. ثم قيم النموذج ذي الـ 7 موضوعات تقييمًا نوعيًّا بفحص تماسك الكلمات في الموضوع الواحد يدويا، وفحص الموضوعات بمراجعة النصوص الخمسين الأولى في كل موضوع؛ للتأكد من انتمائها لموضوعها الذي خصصته الخوارزمية لها. وقد ساعد في التقييم النوعي إجراء الخوارزمية مرة أخرى على نصوص كل موضوع من الموضوعات السبعة؛ للوصول إلى تفاصيل أكثر حول كل موضوع على حدة. وعلى الرغم من وجود بعض القصور في نتائج عملية النمذجة الموضوعية لبيانات الدراسة بتلك الخوارزمية، إلا أنه يمكن استكمال أوجه القصور ومعالجتها، واستعمالها في تحليل الخطاب بدلاً من المناهج التقليدية.

This paper is in the field of natural language processing. It applied unsupervised machine learning approach to identifying the latent topics in Saudi newspapers using one of the most important unsupervised topic modeling algorithms. This algorithm is called Latent Dirichlet Allocation (LDA). I built a corpus from Saudi newspapers, and it contained 4,781 texts after the preprocessing stage. It consisted of 649,734 tokens. The results of training 20 models with ten words showed that the optimal value for the number of topics in those texts is 7 topics. The 7-topics model got a good coherence degree of 0.6723. These topics were inferred through its ten words that had the highest probabilities on each topic. I interpreted the topics, respectively, according to the following topics: surveillance and awareness, development and improvement, sports, health, economics, domestic affairs, and international politics. The 7-topic model was evaluated qualitatively by manually reviewing the coherence of words in each topic. Also, I reviewed the first fifty texts on each topic to make sure that each of which belongs to the topic that LDA was assigned to it. The qualitative evaluation was supported by the algorithm being conducted again on the texts of each of the seven topics to access more details on each topic separately. Although there are some shortcomings in the results of the topic modeling, they can be optimized and then studied in discourse analysis instead of the traditional approaches.