تحليل النصوص باللغة العربية

نهدف في «مينينج كلاود» (MeaningCloud) إلى تقديم منتج تحليل النصوص الأكثر تقدمًا مع توفير التغطية الأوسع للغات في السوق. لهذا السبب عملنا على إطلاق العديد من الحزم الجديدة للغات قبل انتهاء عام 2019؛ وذلك بهدف زيادة التغطية التي تقدمها حزمتنا القياسية – الإنجليزية والإسبانية والفرنسية والإيطالية والبرتغالية والكتالونية – وحزمتنا الخاصة باللغات الاسكندنافية – السويدية والدنماركية والنرويجية والفنلندية.

Arabic

الحزمة الثالثة التي أطلقت هي حزمة اللغة العربية. اللغة العربية هي خامس أكثر لغة انتشارًا في العالم، فهي اللغة الرسمية في عشرين دولة، وكذلك فهي اللغة الرسمية المشتركة في ست دول أخرى. كما أنها اللغة الأولى لأكثر من 280 مليون متحدث، واللغة الثانية لعدد 250 مليون آخرين. بالإضافة لذلك، يوجد العديد من ملايين المسلمين ممن يعيشون في دول أخرى لديهم معرفة باللغة العربية لأسباب دينية.

ومن أكثر خصائصها تميزًا، انها تستخدم نظامها الخاص في الكتابة، حيث يبدأ النص من اليمين لليسار وتتصل الأحرف سويًا داخل الكلمة. بهذه الطريقة يمكن للحرف الواحد أن يأتي في 4 أشكال مختلفة. ومن المثير للاهتمام أيضًا عدم وجود حروف كبرى «Captial» في اللغة العربية. وبسبب أن الأسماء الشائعة يمكن الخلط بينها وبين الأسماء الصحيحة، فإن الأخيرة تكتب في الغالب بين قوسين أو علامتي تنصيص.

تقدم «مينينج كلاود» (MeaningCloud) الآن تغطيتها للغة العربية التي توفر الوظائف التالية:

ستمدد هذه التغطية في الإصدارات اللاحقة للمنتج اعتمادًا على متطلبات السوق. يمكنكم الحصول على مزيد من التفاصيل عبر صفحتنا الجديدة صفحة التغطية اللغوية.

إذًا، ما هذه المهام الخاصة بتحليل النصوص، وما استخداماتها؟

استخراج الموضوعات هو منتج «مينينج كلاود» (MeaningCloud) الخاص «بالاستخراج التلقائي للمعلومات المنظمة من الوثائق المقروءة بالآلة سواء كانت تلك الوثائق غير منظمة أو شبه منظمة»[1] بعبارة أخرى، فإن خاصية استخراج الموضوعات تستخرج المعلومات المحددة من مجموعات النصوص، أي شيء بداية من أسماء الأشخاص مرورًا بالأماكن أو المبالغ المالية.

هناك طرق مختلفة مستخدمة للإشارة لهذه المهمة، منها على سبيل المثال التعرف على الجهة المسماة مسبقًا والمشتقة من مهماتها الفرعية الأكثر شهرة. ومع ذلك، فإن الهدف لم يختلف: استخراج لمعلومات المنظمة من النص.

في هذه الصور يمكنكم رؤية أمثلة للجهات التي جرى التعرف عليها لهذه المقالة.

Arabic Entity Extraction types
Arabic Entity Extraction

قد يبدو الأمر في بدايته أنه مجرد العثور على الأسماء المذكورة في النص، لكن الأمر لا يقتصر على هذا. هناك طرق عدة للإشارة لنفس الشخص، الأسماء المستعارة والألقاب والصيغ المختلفة من الاسم، كل هذه الأشياء يجب أخذها في الاعتبار. في بعض الأحيان، فإن تحديد كافة الجهات المسماة في النص أكثر من كافٍ. على سبيل المثال، فإن الجهات لها أنواع مختلفة، فيمكنك قصر الاختيار على استخراج الأماكن أو الأشخاص أو المؤسسات وما إلى ذلك. يمكنك التعرف على مختلف الأنواع التي نستكشفها بواسطة حزمتنا اللغوية.

:هذه بعض السيناريوهات التي يمكن من خلالها تطبيق استخراج الموضوعات

  • الاقتراحات التلقائية للإشارة لمقالات الأخبار أو منشورات المدوّنة والنشر الدلالي
  • تحليل الانتشار وفقًا للإشارات «mentions»
  • استخراج البيانات الرئيسية

عنقدة النصوص (التجميع العنقودي) يوفر تحليلًا للمجموعة، مهمة «تجميع عنقودية لمجموعة من الأشياء بطريقة تجعل تلك الأشياء أكثر تشابهًا مع بعضها البعض (بطريقة أو أخرى) عن باقي الأشياء في المجموعات (العناقيد) الأخرى» [2]

في هذه الحالة، تكون الأشياء محل السؤال عبارة عن نصوص، ويمكن أن تساعدنا أنواع التحليل المختلفة المتوفرة في اكتشاف الأنماط فيها، إما لفرز البيانات بصريًا أو للتعرف على معلومات جديدة عنها واستخدامها لتوفير إفادات لأنواع أخرى من التحليل. ومن أحد الاستخدامات المحتملة لتجميع النصوص؛ تطبيقه على النصوص التي نصنفها باستخدام «تصنيف النصوص» لتحديد الفئات الجديدة لإضافتها إلى نموذجنا الخاص.

نستطيع أن نرى ناحية اليمين النتيجة باستخدام وضع «نمذجة المواضيع» الذي كنا لنحصل عليه لبعض النصوص التي استخدمناها لتوضيح استخراج الموضوعات.

تستخدم خاصية تجميع النصوص عامة طريقة للكشف عن المعلومات غير المعروفة مسبقًا أو الاتجاهات الجديدة في تجميعات النصوص.

Arabic Text Clustering

هناك طريقتين ممكنتين لاختبار كافة الوظائف باللغة العربية:

وإذا رقيت اشتراكك بالحزمة لمدة سنة، ستحصل على خصم قدره 50 %!. فقط اختر حزمة «اللغة العربية السنوية» في عملية الترقية. متاح فقط حتى تاريخ 31 يناير 29 فبراير 2020!

نرحب بأسئلتكم على البريد الإلكتروني support@meaningcloud.com


Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

*
*