الذكاء الاصطناعيالرئيسية

اللغة العربية والذكاء الاصطناعي.. كيف يمكن تطويرها ؟

هاشتاق عربي

سباق التكنولوجيا حول العالم بدأ في الدخول لمنعطف، هو الأخطر والأكثر تسارعا في السنوات الأخيرة، باللجوء إلى الذكاء الاصطناعي، كبديل للخورازميات، أو ربما داعم لها ومكمل، للوصول إلى أعلى قدر من العمليات الحسابية المعقدة، بل وتكوين ردود أفعال آلية، هذا السباق.. حتى الآن اللغة العربية لا تشارك فيه في المقدمة مع أرانب السباق، وليست في الخلف مع السلاحف، لكنها تعاني عدم القدرة على اللحاق بأي من الطرفين في سباق «الأرنب والسلحفاة».. فما الأسباب وراء ذلك؟!

شركات عملاقة وكبار المبرمجين تسابقوا للدخول في عالم الذكاء الاصطناعي للتطوير، واستعانوا بكبار المبرمجين حول العالم، ومنهم الكثيرون من المبرمجين العرب، الذين يتمتعون بسمعة عالمية في المجال.. ولكن بقيت اللغة العربية منسية في سباق البرمجة، وغابت عن محركات الذكاء الاصطناعي، أو تم تناسيها.

بخلاف الغياب الكامل لدعم عملية تحويل الأوامر الصوتية لنصوص في العديد من البرامج والتطبيقات، والتي تعمل بكفاءة كاملة في أغلب اللغات المنشقة من اللاتينية، بينما تظل قاصرة وواقفة في مكانها بلا تطوير فيما يتعلق باللغة العربية، رغم وجود العديد من لغات البرمجة بالعربية مثل ألف ولوغو وآر لوغو وأسس، وغيرهم من البرمجيات المبنية بالعربية، إلا أن أزمة الترميز ما تزال قائمة للغة العربية حول العالم، وسيزيد غيابها أو ضعف دعمها إلى مزيد من الاتساع للفجوة أمام الإنجليزية، مع انتشار الذكاء الاصطناعي وتطوره في غياب لغة «الضاد».

سبق الإمارات

وتقول جومانا كرم، رئيس وحدة التسويق في آيسر الشرق الأوسط ومدير تسويق التنقل الإلكتروني في آيسر أوروبا والشرق الأوسط وإفريقيا: «اللغة العربية موجودة في فضاء الذكاء الاصطناعي، ولكن لا يُحكى عنها بما فيه الكفاية ربما لأنها جزء من تطبيقات خاصة أو جهود فردية أو تحت رعاية بعض الحكومات فقط، أذكر هنا على سبيل المثال تطبيق «قلم» الأردني، وهو برنامج يساعد في كتابة نصوص عربية خالية من الأخطاء الإملائية والنحوية عبر عدة تدقيقات واقتراح مجموعة تحسينات لصياغة الكلمات والجمل، بالاستفادة من أحدث تقنيات الذكاء الاصطناعي ومعالجة اللغة العربية الفصحى».

والإمارات كانت دائماً سباقة على المستوى العربي بالاهتمام بالبرمجة والمبرمجين، وأتاحت مبادرة «مليون مبرمج عربي»، إحدى مبادرات محمد بن راشد آل مكتوم العالمية والتي أشرفت عليها مؤسسة دبي للمستقبل منذ إطلاقها عام 2017، وأتاحت الفرصة لأكثر من مليون عربي من 80 دولة حول العالم لتعلم البرمجة عبر خمس ملايين ساعة دراسة وعمل، و76 ألف ورشة تدريبية، لتشمل المبادرة 100 ألف مشروع تخرُّج ناجح، و1500 منحة للمتفوقين، محدثةً نقلة نوعية في عالم التعلم الرقمي والبرمجة، وسد فجوات الأمية الرقمية لدى الشباب العربي.

وحول ذلك الأمر، تقول جومانا كرم: «أبرز الحكومات الداعمة للّغة العربية في مجال الذكاء الاصطناعي هي الإمارات، خاصة وأنها تسعى إلى مضاعفة مساهمة الاقتصاد الرقمي في إجمالي الناتج المحلي الوطني إلى 19.4% خلال 10 أعوام (أرقام صادرة عن غرفة دبي للاقتصاد الرقمي في 2023)، لذلك ليس بالغريب أن أكبر نموذج معالجة طبيعية للغة العربية في العالم هو نموذج «نور» الذي أطلقته وحدة الذكاء الاصطناعي التابعة لمركز بحوث العلوم الرقمية والذكاء الاصطناعي أو ما يعرف بمعهد الابتكار التكنولوجي في أبوظبي، ويتضمن نموذج «نور» أكثر من 10 مليار عامل متغير عبر دمج بيانات الويب والكتب والشعر والمواد الإخبارية ومعلومات تقنية وطبعا كلها باللغة العربية».

وتنفي جومانا كوننا بعيدين عن سباق التكنولوجيا، وتقول: «نحن بالتأكيد لسنا في بداية الطريق ولكننا نعتمد على مساعدات عالمية، لن تكون اللغة العربية من أولوياتها، وربما لا نعلم كل الجهود الجبارة المحلية في هذا المجال، أعتقد أن المهم هنا إيجاد طرق للاستخدام الفعلي لما وصلنا إليه، مثل تفعيل استخدام النموذج «نور» من قبل الشركات والحكومات في مختلف المجالات لبناء أدوات جديدة وتطوير مساعدين افتراضيين بالعربية، كذلك تشجيع المبادرات الفردية وتبادل الخبرات في هذا المجال، وتوجيه الطلاب الشباب لخوض عالم الذكاء الاصطناعي بتركيز على لغتهم الأم، وليس فقط اللغة الإنجليزية الطاغية في مجال التكنولوجيا».

فاعلية

وبالفعل أصبح العرب فاعلون في مجال البرمجة، ولدنيا الكثير من الخبراء، ذوي السمعة العالمية في المجال، بأشخاصهم وليسوا بلغتهم، حيث مازالت اللغة العربية غائبة عن مجال البرمجة، التي تتحدث في الأعم باللغة الإنجليزية، ويتم فيها تجاهل الدعم للغة العربية، حتى أن بعض البرامج المعروفة في العالم غير داعمة للغة العربية، أو على الأقل تواجه صعوبات في تقديم الدعم الكافي.

فلسنوات طويلة، لم تكن أبل بأجهزتها تدعم ترميز اللغة العربية، ولم تنجح في مسعاها للوصول إلى الأسواق العربية، إلا بالاستحواذ على إحدى شركات البرمجيات في مصر، والتي نجحت في إنتاج برمجية لترجمة القوائم للغة العربية، ورغم استحواذ أبل إلا أن دعمها للغة العربية ما يزال قاصراً وغير كامل في برامجها، والدليل تطبيق المساعد الصوتي سيري الذي يغيب عنه أغلب الأوامر الصوتية باللغة العربية.

وكذلك العديد من الشركات الكبرى حول العالم يعاني مستخدموها من محدودية دعم اللغة العربية، ولعل أبرز تلك الشركات شركة أدوبي والتي يأتي تحتها مجموعة من أشهر البرامج لصناعة الصور والفيديوهات والمؤثرات الحركية والبصرية مثل «فوتوشوب – بريميير – أفتر إيفيكت»، وهذه البرامج المستخدمة على نطاق واسع مازال دعمها للغة العربي منقوصاً، بل ويفسد تجربة قطاع عريض من المتعاملين، ورغم العديد من شكاوي المستخدمين، بل وعرض بعض المبرمجين المساعدة وتطويرهم لاسكريبات مساعدة، لا حياة لمن تنادي، ولم تدمجهم أدوبي في برامجها، ومازال الدعم ضعيفاً بشكل ينغص من التجربة لمنتجي المحتوى العربي في العموم.

وليس الأمر قاصراً على أبل وحدها في غياب الدعم للغة العربية، جوجل الشركة الأكبر في مجال التكنولوجيا، بما تحتويه من كم هائل من قاعدة بيانات، ما تزال اللغة العربية غير مدعومة بشكل كامل في الأوامر الصوتية والتعرف عليها بشكل صحيح، وهو الأمر الذي أرجعه مسؤولون في مجموعة ألفا بيتا المالكة لجوجل إلى اختلاف اللهجات وتعددها بين الأقطار العربية، الأمر الذي صعب على الذكاء الاصطناعي التفهم الكامل للغة العربية، وهو أمر مردود عليه، بأن اللهجة الإنجليزية في بريطانيا نفسها تختلف فيها الأيرلندية عن الإنجليزية الأم، وبعيدة كل البعد عن اللهجة الويلزية والاستكتلندية، وكلهم داخل بريطانيا، ناهيك عن اختلاف كامل للهجة الأمريكية، بل واختلافها بين شمال أمريكا وجنوبها.. كذلك الأمر بالنسبة للألمانية والنمساوية والدنماركية وغيرها من اللغات، التي لديها العديد من اللهجات، وتتعرف عليها الأنظمة الصوتية بشكل كامل في جوجل بعكس اللغة العربية.

مدخلات

عمار طبا

وبالحديث عن الأمر يقول عمار طبا، نائب رئيس هواوي للعلاقات العامة والإعلام بمنطقة الشرق الأوسط وآسيا الوسطى: «على الرغم من أن قاموس اللغة العربية يصل إلى 13 مليون كلمة، ويتحدث بها أكثر 422 مليون شخص حول العالم ولها يوم دولي يحتفى بها وهي إحدى اللغات الرسمية للأمم المتحدة، لكن حضورها الإلكتروني ضئيل مقارنة بلغات أخرى كالإنجليزية. وبحسب آخر إحصائيات الاتحاد الدولي للاتصالات، بلغ عدد مستخدمي الإنترنت عالمياً نحو 5.3 مليارات في 2022 بنسبة انتشار 66% من سكان العالم، وهي نسبة قريبة من نسبة انتشار الإنترنت في البلدان العربية البالغة 65%، لكن نسبة انتشار الإنترنت في بلدان مجلس التعاون الخليجي بالتحديد أعلى بكثير، إذ قاربت 100% من عدد السكان القادرين عمرياً على استخدام الإنترنت. ويعتبر ذلك فرصة جيدة لتنمية تواجد اللغة العربية المستخدمة على الانترنت».

وعن الأسباب التي تأتي وراء ابتعاد اللغة العربية عن المنافسة كمحتوى بصفة عامة عبر الإنترنت، يقول عمار طبا: «يعزى ضعف توفر المحتوى العربي الرقمي الفعلي مقارنة بلغات أخرى كالإنجليزية، التي باتت لغة العالم الرقمي ومنصات الذكاء الاصطناعي، لعدة عوامل أهمهما عاملي الكم والنوعية، فنسبة حجم البيانات المتوفرة باللغة العربية على الانترنت مقارنة بالإنجليزية لا يتجاوز 3% مقارنة بنسبة 62% باللغة الانجليزية ونسبة المحتوى المتوفر على الانترنت باللغة العربية الفصحى أقل بكثير من 1% من أصل المجمل، وانتشار اللغة العامية على حساب الفصحى هو السائد حتى اليوم».

ويواصل نائب رئيس هواوي للعلاقات العامة والإعلام بمنطقة الشرق الأوسط وآسيا الوسطى، قائلاً: «مخزون اللغة الانجليزية على الانترنت نتيجة طبيعية لاعتماد هذه اللغة في البحث العلمي والآداب ومختلف مجالات العلوم والفنون، الأمر الذي لا نجد له مقابل باللغة العربية، فأغلب البحوث المتواضعة والجامعات في البلدان العربية تعتمد اللغة الانجليزية، وهذا بالنسبة للذكاء الاصطناعي يعني بأن مجموعة البيانات التي يتم البحث فيها والتدريب عليها ضئيلة جداً».

مستخدمون

وفي نهاية فبراير 2023، بلغ عدد الصفحات التي تستخدم العربية الفصحى على ويكيبيديا 8 مليون في حين قدر عدد الصفحات بالإنجليزية بحوالي 58 مليون، أي ما يزيد على 7 أضعاف، وعدد الصفحات المنشورة باللهجة المصرية يبلغ نحو ربع العدد المنشور بالعربية الفصحى. والكثير من المحتوى العربي على وسائل التواصل يتم بلهجات محلية بحتة لا يمكنها أن تكون أصولاً جيدة تضاف للمحتوى العربي على الانترنت ليتمكن الذكاء الاصطناعي من التعرف عليها واعتمادها كأصول في عملية ما يسمى تقنياً بتعلم الآلة «Machine learning»، بل إن شح المحتوى باللغة العربية الفصحى وتنوع لهجات المتوفر من المحتوى العربي على الانترنت قد تزيد من تشتت الذكاء الاصطناعي وأية محاولات لتطبيقات تستهدف التعامل معه.

وأكد عمار طبا أن دعم المحتوى العربي على الانترنت ضرورة مهمة مناطة بالجميع، مؤسسات وأفراد، لكنها بالدرجة الأولى مسؤولية الحكومات والمؤسسات المختصة كمجامع اللغة العربية التي لم ترتقِ جهودها حتى اليوم لمستجدات التكنولوجيا والعالم الرقمي المتسارعة، قائلاً: «لا شك أنه للارتقاء بمكانة اللغة العربية في عالمنا الرقمي، يجب بداية زيادة مخزون المحتوى العربي بإضافة كل ما يمكن إضافته من المراجع والأصول العلمية والأدبية والفنية وغيرها، وتاريخنا غني جداً بها، ليكون لدى الذكاء الاصطناعي والتطبيقات التي تتطلع للتعامل مع اللغة العربية كماً هائلاً من البيانات يمكن الاعتماد عليها في عملية البحث والتحليل والمقارنة واختيار المناسب من أصل كم هائل من البيانات الموحدة بلغة عربية فصحى».

وواصل طبا: «الأكثر أهمية في الأمر أن تكون هناك مراجع رقمية باللغة العربية الفصحى معتمدة على علوم الصرف والتشكيل والتصحيح الإملائي، وكذلك التدقيق النحوي، والتنبه لضرورة توفير محتوى كافة المعاجم رقمياً. وتشتمل كذلك مسؤولية المؤسسات المتخصصة على اعتماد خط قياسي واحد للغة العربية في العالم الرقمي يختزل الكثير من التشتت في مجال الخطوط. وفوق ذلك كله، تأتي في مقدمة مسؤوليات الحكومات والمؤسسات المتخصصة تفعيل مشاريع ومبادرات الترجمة للكتب والمقالات والأبحاث والمراجع القديمة والحديثة من اللغة الانجليزية وكافة اللغات الأخرى للغة العربية الفصحى حصراً. والأمر الأكثر أهمية هو التنبه للعودة لعملية إنتاج المعرفة باللغة العربية الفصحى».

وأكد طبا أنه بعد القيام بالأساسيات المذكورة، يمكن التشجيع على مبادرات النشر على وسائل التواصل الاجتماعي والمنصات الرقمية باللغة العربية الفصحى ومبادرات أخرى مثيلة يمكن قيام الشركات بها في إطار المسؤولية الاجتماعية للشركات، سيما تلك التي تعمل داخل الدول الناطقة بالعربية، معتبراً أن كل ما سبق ذكره سيزيد من رصيد المحتوى العربي الرقمي ويوسع بالتالي فرص وآفاق استفادة الذكاء الاصطناعي والتطبيقات التكنولوجية منها، قائلاً: «الأمر الذي لا جدال فيه هو أن إثراء المحتوى العربي يبدأ بردم الهوة بين الشباب واللغة العربية الفصحى، لتكون لغتهم المفضلة في كافة المجالات المستقبلية التي ستنطلق إبداعاتهم ونجاحاتهم ضمنها، وستكون رصيداً رقمياً ثرياً يمكن اعتماد الذكاء الاصطناعي والتطبيقات التكنولوجية عليه للنهوض بالمحتوى الرقمي العربي».

حجج مردودة

والحقيقة أن إرجاع أمر الضعف العربي في برامج الذكاء الاصطناعي إلى تعدد اللهجات ليس دقيقاً، أو يعد قاصراً، ومثلما أوضح عمار طبا أن الأمر يرجع في الأساس لكم المدخلات التي يتم تغذية الأنظمة بها، وهو الأمر الذي يأتي منه القصور في اللغة العربية، حيث لا يتم تغذية البرمجة بترميز وأصوات ولهجات ومخارج ألفاظ عربية بشكل كامل، وبالتالي يفتقد المنتج النهائي للدعم الكامل للغة العربية، وتظل أنظمة المساعد الشخصي المعتمدة على الذكاء الاصطناعي قاصرة في اللغة العربية، بينما تتطور في اللغات الغربية بشكل كامل.

وإذا كانت الصينية هي اللغة الأكثر استخداما في العالم بنسبة 12.3% من سكان الكوكب، فالإنجليزية والعربية يتشاركان في النسبة المئوية 5.1% من الكوكب، وكلاهما في المركز الثالث، لذلك فالأمر ليس راجعاً لعدد، لكون اللغة الفرنسية أقل كنسبة مستخدمين حول العالم، ومدعومة بشكل أكبر في الذكاء الاصطناعي والبرمجيات.

وغياب العربية أيضا ليس أزمة ترميز العربية من اليمين لليسار، والذي هو عكس اللغة الإنجليزية التي تكتب من اليسار لليمين، لأن العبرية مدعومة بشكل أكبر في البرامج التي تعاني مع العربية، والعبرية أيضا لغة تكتب من اليمين لليسار كالعربية، ومثل العربية والعبرية 10 لغات أخرى يمينية، ولا يعاني أغلبهم من غياب الدعم.. وستظل أزمة اللغة العربية في سباق التكنولوجيا الرقمية هي ضعف المدخلات، وهو الأمر الذي يحتاج لمزيد من تضافر الجهود العربية للحاق بالسباق من بدايته قبل أن يصعب الفارق كثيراً في تعويضه.

مقالات ذات صلة

زر الذهاب إلى الأعلى