ماهي معالجة اللغة الطبيعية ؟

ماهي معالجة اللغة الطبيعية ؟

معالجة اللغة الطبيعية (Natural Language Processing NLP) هي منطقة بحثية فرعية في مجال الذكاء الاصطناعي تهدف إلى أن تكون قادرة على معالجة وفهم وتحليل وتحويل اللغة الطبيعية التي ينتجها الناس. نظرًا لأنه لا يزال يحتوي على مشاكل لا يمكن حلها تمامًا ، يتم إجراء الكثير من الاستثمار والأبحاث النشطة عليها. تقلبت معالجة اللغة الطبيعية ، التي يعود تاريخها إلى الخمسينيات ، مثل مناطق الذكاء الاصطناعي الأخرى بمرور الوقت ، وقد تم تعريفها على أنها منطقة غير قابلة للحل مستدلة عدم حاجتها إلى استثمار المزيد في فترات تاريخية معينة  مع مشاكلها التي قد حاولت حلها بمنهجيات مختلفة. لكن ، مع مرور الوقت ، بدأ الباحثون في التحقيق في معالجة اللغة الطبيعية من خلال المهام الفرعية المختلفة ، ومع الابتكارات في عالم علوم الكمبيوتر والخوارزميات ، بدأ جذب الاهتمام بشدة مرة أخرى.

في الآونة الأخيرة ، بدأت معالجة اللغة الطبيعية حقبة جديدة للاستفادة من هذه التكنولوجيا ، مثل العديد من مجالات الدراسة التي أظهر التعلم العميق تأثيرها ، من خلال حصولها على حلول مذهلة (state-of-art)  و تطوير أساليب التعلم العميق التي ادخلتها  العصر الذهبي

 

خلافا للاعتقاد الشائع، معالجة اللغة الطبيعية أصعب بكثير من معالجة البيانات الرقمية ، للقيام بهذا العمل يجب على الكمبيوتر معرفة قواعد النحو، والتعابير المجازية، ومعنى العبارات في اللغة. في كثير من الأحيان، يلزم وجود سياق أو معرفة مسبقة بموضوع النص. أما في معالجة البيانات الرقمية تنتج الحلول من التعبيرات الرياضية دون الحاجة إلى مزيد من المعلومات مثل السياق.

 

على سبيل المثال، لا يمكننا أن نتوقع من الكمبيوتر أن يعرف أن الماء هو شكل سائل والجليد شكل صلب ، ولكن باستخدام الأساليب الإحصائية ، يمكننا أن نكتشف أن هذين المصطلحين قد يرتبطان ببعضهما البعض.

 

إذا وصلنا إلى سؤال لماذا تعتبر معالجة اللغة الطبيعية مهمة و حاجة بالغة، أولاً وقبل كل شيء، يجب تحليل حالة أدوات الاتصال والبيانات المنتجة. بحلول عام 2025، من المتوقع أن تكون البيانات التي سيتم إنتاجها يوميًا 463 إكسابايت (ما يعادل 212.765.957 قرص فيديو رقمي). يمكننا أن نعتقد أن معظم هذه البيانات تتكون من محتوى مكتوب أو محتوى يمكن ترجمته إلى نص (فيديو، صوت). في هذا البعد، نعلم جميعًا أنه من المستحيل بدء عملية حتى يمكن تحليل وفهم المحتوى الذي أنشأه الأشخاص بلغتهم. لهذا السبب، تظهر الحاجة لهذه التقنيات التي تجعل هذا الحجم من البيانات ذات مغزى قابل للتحليل على مختلف المستويات.

ما هي الأمثلة التي تمسها معالجة اللغة الطبيعية في حياتنا اليومية كثيرًا؟

عندما تستخدم محرك Google للبحث عن أي شيء، يجب على محرك البحث أن يفهم أولاً ما نكبته حتى يتمكن من التوصية بالإعلان المناسب لبحثك وبالتالي يمكنه تقديم الإعلانات المرتبطة بالبحث. مثال, عند البحث عن مكان ما، يمكننا اعتبار اقتراحات رحلات طيران إلى تلك الوجهة ، الإقامة هناك ، المطاعم التي يمكن زيارتها  كمثال ملموس .الى جانب ذلك   نظام فلترة الرسائل غير المرغوب فيها (spam) ، وهي أنظمة يمكنها تمييز رسائل البريد الإلكتروني العشوائية من رسائل البريد الإلكتروني الواردة كلها تتم باستخدام معالجة اللغة الطبيعية . كما المساعدين الأذكياء (smart assistance) ، الذين نستخدمهم كثيرًا في الحياة اليومية ، يفهمون ما نقول ويقدمون إجابات وحلول وفقًا لذلك.

البحث الدلالي (Semantic search)

في خوارزميات البحث الكلاسيكية ، من خلال البحث عن الكلمات الرئيسية المراد البحث عنها ، يتم سرد مصادر هذه الكلمات بواسطة خوارزميات الترتيب (ranking algorithm). يسمح البحث الدلالي بالبحث عن كلمات ذات معنى قريب من تلك الكلمات في المصادر من خلال مراعاة ليس فقط هذه الكلمات الرئيسية ولكن أيضًا معانيها. تستخدم طريقة البحث الدلالية أيضًا التلخيص وتقنيات استخراج شجرة المفاهيم الى جانب المصادر المراد البحث عنها، مما يتيح فهم المصطلحات الأكثر أهمية في تلك المصادر ويجعل نتائج البحث في المصدر تبرز في نتائج البحث عندما تتطابق الكلمات الرئيسية مع هذه المصطلحات.

ربوتات الدردشة (chatbots)

روبوتات الدردشة هي مساعدين رقميين يمكنهم التواصل مع المستخدمين بلغة طبيعية. النقطة المثالية في تطور برنامج الدردشة الآلية أن يتمكن الربوت من إجراء جميع المحادثات مع شخص بثقافة عامة عالية ، والدردشة بشكل مريح مستخدما كل ثراء اللغة , لكن مع الاسف لم نصل الى هذا الهدف بعد.

 

في الوقت الحالي، غالبًا ما يتم استخدام برامج الدردشة الآلية لتوجيه المستخدمين في مجال معين ، أو الاستماع إلى مشاكلهم أو إبلاغهم. بفضل برامج الدردشة الآلية ، يمكن تقليل الجهد المبذول في العلاقة مع العميل بشكل كبير. في تركيا ، يمكننا أن نرى أن العديد من البنوك تستخدم هذه الأنظمة بنشاط في خدمة العملاء.

 

باستخدام فهم اللغة الطبيعية في برامج الدردشة الآلية يتم تفعيل الخصائص التالية، كشف النية والحضور ، تقنيات استخراج الكلمات الرئيسية ،استخراج المعلومات التي يريد المستخدم أن يقولها في تعبيره ، والمعلومات التي يقدمها مثل الاسم الخاص ، والعلامة التجارية ، والتاريخ ، والمكان.

بعد ذلك ، يتم استخدام طرق مختلفة مثل التلخيص والبحث الدلالي لإنشاء استجابة مناسبة لبرنامج الدردشة الآلي كي يتم توليد معلومات من الموارد التي يمتلكها.

تحليل وسائل التواصل الاجتماعي (Social media analysis)

تم استبدال الوكالات التي تتبع وسائل الإعلام نيابة عن الشركات بأدوات تم تتبعها تلقائيًا نتيجة لزيادة المنشورات عبر الإنترنت والتطور الذي نشهده في معالجة اللغات الطبيعية. يمكن لهذه الأدوات جمع جميع البيانات المتعلقة بالشركة على الفور من كل من الصحف والمجلات عبر الإنترنت وتطبيقات وسائل التواصل الاجتماعي. تعتبر خوارزميات البحث الدلالية المذكورة أعلاه فعالة للغاية أيضًا أثناء جمع البيانات في اتخاذ قرارات حول البيانات ذات الصلة بالشركة ، يتم إجراء تحليلات مختلفة باستخدام تقنيات معالجة اللغة الطبيعية لتقديم هذه البيانات إلى الشركة. إليك بعض الأمثلة من هذه التحليلات:

·      استخراج النقاط الهامة التي يمكن قراءتها من قبل شخص في وقت معقول بواسطة تلخيص البيانات التي تم جمعها.

·      القيام بتحليلات مثل, الموضوع الأكثر ذكرًا الذي تم الحصول عليه من خلال تصنيف البيانات وفقًا لموضوعاتهم بأساليب تعلم غير موجهة أو موجهة, القضايا التي تم وضعها في الخلفية مقارنة بالشهر السابق، وجداول الأعمال الجديدة التي ظهرت في المقدمة هذا الشهر.

·      معلومات عن التحليل الدلالي للبيانات والمعلومات حول الموضوعات الإيجابية والسلبية في الشركة.

تحليل رضا العملاء (Customer satisfaction analysis)

يمكن أيضًا استخدام العديد من التحليلات التي ذكرناها في قسم مراقبة وسائل التواصل الاجتماعي كتحليل رضا العملاء. في تحليل رضا العملاء ، غالبًا ما تستخدم الشركات البيانات التي تعكس اتصالاتها الفردية مع عملائها جنبًا إلى جنب مع الموارد عبر الإنترنت. يمكن أن تكون هذه البيانات عبارة عن محادثات الدردشة الآلية الخاصة بالشركة ، ورسائل / طلبات الشكاوى التي يتم إرسالها إلى عنوان البريد المفتوح أو استطلاعات الرضا التي تم إجراؤها بعد الاتصال مع العميل.

تعد متابعة الاستبيانات طريقة شائعة لتتبع رضا العملاء. يُفضل عمومًا إجراء استقصاءات متعددة الخيارات لتحليل نتائج هذه البيانات تلقائيًا ، ولكن قد لا تكون هذه الاستقصاءات كافية للعميل للتعبير عن نفسه بالكامل. في هذه الحالات , تلعب تقنيات معالجة اللغة الطبيعية دورًا فعالاً في الأسئلة المفتوحة وتحليلها, ويمكن الحصول على نسخة أكثر شمولاً وتفصيلاً من المعلومات من خلال أسئلة الاستبيان متعدد الخيارات بهذه الطريقة.

في رضا العملاء ، من المهم بشكل خاص في أية فئة يكون تعليق العميل, يمكن لتقنيات معالجة اللغة الطبيعية أن تصنف على الفور كل تعليق جديد وأن تسميه مع تسميات مثل الشكر والشكاوى والطلبات. نتيجة لهذا التصنيف ، يمكن للشركة تحديد التعليقات التي تعتقد أنها يجب أن تعطى الأولوية وتحديد أولويات تنفيذها ومنع انتشار التعليقات السلبية أو زيادة دوام الانطباعات الإيجابية.

مناهج الحل لمعالجة اللغة الطبيعية (Solution Approaches for NLP)

 

معظم المشاكل في معالجة اللغة الطبيعية قد تم حلها بطرق مختلفة بمرور الوقت. لقد وجِدت المقاربات القائمة على القواعد ، وهي منهجية مستخدمة بشكل متكرر خاصة في الفترات المبكرة ، انها شائعة جدًا واستمرت لفترة طويلة جدًا. ومع ذلك ، فقد أثبت الباحثون مرارًا وتكرارًا أن ترميز المناهج المستندة إلى القواعد ليس من السهل تطويره كما يعتقد. لأن العديد من القواعد المطروحة من أجل تعريف اللغة في نمط رسمي يتعارض مع بعضها البعض في أمثلة معقدة وتبقى الحلول حلولًا محلية إلى حد كبير. لهذه الأسباب ، أصبح استخدام الأتمتة التي تقبل اللغات الرسمية  بشكل واسع. ومع ذلك ، فقد ثبت مرارا أنه لا يمكن تحقيق جميع المشاكل المتعلقة بمعالجة اللغة الطبيعية حتى مع تعريف هذه القواعد. على سبيل المثال ، لا فائدة من استخدام القواعد لحل المهام حيث تكون المعرفة السياقية مطلوبة. يتطلب التخلص من حالات عدم اليقين على المستوى المورفولوجي التي تتم مواجهتها بشكل متكرر في اللغات المضافة مثل التركية حلًا يعتمد على السياق تمامًا في الجملة. “O elmayı alın ve yerine koyun” وهو ما يعني “خذ تلك التفاحة وأعدها.” عند التحليل الورفولوجي لكلمة “ alın “. في الجملة ، تمت مصادفة أكثر من نتيجة واحدة. “alın” ، التي تحدد منطقة على وجه الإنسان وهو الجبين ،“alın”  وهو تصريف الفعل المجهول لفعل “أخذ” ، أو “alın”  وهي الترصيف الأول من فعل “أخذ” مضاف عليه لاحقت أنت\ي.  بالنسبة للغة العربية الأمثلة موجودة بكثر وذلك لكون اللغة العربية من أغنى اللغات الموجودة على الاطلاق, خاصة عدم إضافة التشكيل على الكلمات يصعب المهمة أكثر, مثال في كلمة “قدم” , والتي لها أكثر من ٢٥ معنى حسب معجم المعاني [1]. من الضروري استخدام النماذج القائمة على البيانات ، وليس القائمة على القواعد ، لحل المشكلات حيث يكون عدد هذه الاختلافات مرتفعًا جدًا ويتم تقييم الاحتمالات.

 

عندما يتعلق الأمر بالنماذج المستندة إلى البيانات ، تتضمن تقنية تعلُم الآلة الأساليب الأولى التي تتبادر إلى الذهن. هذه النماذج ، التي تهدف بشكل عام إلى إنشاء نموذج تنبؤ يعتمد على الخبرة في التعامل مع هذه البيانات، تخلق صانع قرار من خلال إنتاج نماذج إحصائية أو احتمالية على البيانات. لا تحتاج نماذج التعلم الآلي ، التي تنتج حلولًا أكثر راحة ونجاحًا من الأنظمة المستندة إلى القواعد ، إلى أي تدخل بشري أو جهد فكري من خلال تعلم البيانات بمفردها. ومع ذلك ، وفقًا للنماذج المستندة إلى القواعد ، فإن ما يعيقهم هي أنهم بحاجة إلى البيانات. لأنه مكلف للغاية للوصول إلى البيانات المرجعية (مجموعة التدريب) التي تسمى المعيار الذهبي والمشار اليها من قبل الناس. لكن يتم تقديم نماذج التعلم الآلي التي تنتج معدلات أعلى من الحلول الناجحة للمشكلات كحل واحد اليوم.

ما هي الصعوبات في حل معالجة اللغة الطبيعية؟

لذكر بعض الأمثلة التي تبين أن معالجة اللغة الطبيعية لا تزال مشكلة مفتوحة وغير محلولة تمامًا.

عدم اليقين (Ambiguity)

المشاكل التي نسميها الغموض (عدم اليقين) على مختلف المستويات تمت مواجهتها في دراسات معالجة اللغة الطبيعية. عدم اليقين هو المشكلة المتمثلة في إمكانية وجود أكثر من إجابة واحدة ولا يمكن تحديد الإجابة الصحيحة. على سبيل المثال ، اختيار الكلمات التي لها نفس المظهر في شكل كلمة ولكن لها صفات مختلفة من حيث التحليل الصرفي ، مع التحليل الصحيح في الجمل. تم إعطاء مثال على كلمة “alın” ومثال كلمة “قدم” في الفصل السابق من هذه المقالة.

ترادف المعاني (Synonym)

ظاهرة أخرى مهمة للغات الطبيعية هي أنه يمكننا التعبير عن نفس الفكرة بمصطلحات مختلفة تعتمد أيضًا على سياق معين: كبير وضخم ، يمكن أن تكون مرادفات في تعريف كائن أو بنية ، ولكن لا يمكن استبدالها في جميع السياقات. على سبيل المثال للغة التركية، الكلمتان “kafa” و “baş” مترادفتان تعني الرأس ؛

“Başımdan geçenleri biliyorsun da kafamdan geçenleri nereden bileceksin؟

  “كيف تعرف ما يدور في رأسي ، ولكن كيف تعرف يحدث في رأسي؟ “لا يمكن استخدامها بالتبادل في التعبير. لأن عبارة “baştan geçen” تشير إلى حادثة بينما “kafadan geçmek” تعبر عن فكرة.

أما بالنسبة للغة العربية فهي أغنى بكثير ولذلك حتى نصادف هذا المشكلة أكثر, مثال كلمة مدّ, كلمة مدّ لها الكثير من المعاني, وقد تتأتي بأعراب فعل مَدَّ أو اسم مَدّ.

مَدّ في سيره أي يعني مضى في سيره, مَدَّ القومُ الجيشَ أي أن القوم كانوا مَدَدًا له.

في مهام معالجة اللغة الطبيعية، يجب أن يكون النظام قادرًا على استخدام معلومات المرادفات وطرق مختلفة لتسمية نفس الكائن أو الظاهرة ، خاصة عندما يتعلق الأمر بالمهام عالية المستوى التي تحاكي الحوار البشري.

تحليل المصادقة. (Coreference Resolution)

تسمى عملية البحث عن كافة التعبيرات التي تشير إلى نفس الكيان في نص ما باسم تحليل المصادقة. تعد هذه الخطوة خطوة مهمة للعديد من مهام معالجة اللغة الطبيعية والتي تتضمن فهم اللغة الطبيعية ، مثل تلخيص المستندات والإجابة على الأسئلة واستخراج المعلومات. شهدت هذه المشكلة ، التي كانت صعبة للغاية بالنسبة لممارسي معالجة اللغة الطبيعية في السنوات الأخيرة ، انتعاشًا مع تقديم أحدث تقنيات التعلم العميق والتعلم التعزيزي. يقترح حاليًا أن معالجة اللغة الطبيعية باستخدام البنى العصبية مثل RNN (الشبكة العصبية المتكررة) و LSTM (الذاكرة طويلة المدى قصيرة المدى) أن تكون فعالة في تحسين أداء حل الهوية.

مثال في اللغة الإنكليزية :


David went to the concert. He said it was an amazing experience.

He refers to David.
It refers to the concert.

 

 

Every time I visit her, my grandma bakes me cookies.

Her refers to my grandma.

مثال في اللغة العربية:

ذهب ديفيد إلى الحفلة. قال إنها كانت تجربة مدهشة.

قال تدل على الفاعل “ديفيد”

إنها : إن-ها الـ”ها” هنا ضمير متصل يدل على “الحفلة”

 

في كل مرة أقوم بزيارة جدتي، تقومُ بخبز البسكويت.

تقومّ تدل على المفعول به “جدتي”.

مراحل معالجة اللغة الطبيعية (Stages of NLP:)

معالجة اللغة الطبيعية لديها مهام فرعية في حد ذاتها مثل مجالات الدراسات الأخرى. لا يزال كل من هذه الحقول الفرعية قيد الدراسة ولم يتم حل أي منها تقريبًا بشكل كامل. لأن اللغة هي كيان حي ولا تعتمد ببساطة على المعرفة الآنية بل تراكمها. لذلك ، لا يمكن فك تشفير اللغة إلا بفك تشفير الإدراك البشري إلى أقصى حد.

الحقول الفرعية لمعالجة اللغات الطبيعية هي لاستيعاب مجموعة واسعة من المهام ، من تحليل الصوت إلى تحليل الخطاب. ولا يسعنا إلا أن نذكر استكمال تحليل عالي المستوى من خلال أداء هذه المهام بنجاح من الأسفل إلى الأعلى.

·      علم الأصوات (Phonology): وهي المرحلة التي تفحص الأصوات التي يستخدمها الناس أثناء استخدام اللغة والارتباطات الصوتية التي تشكل اللغة.

·      المورفولوجيا (Morphology): وهي الطبقة التي تفحص هياكل الكلمات (مصدر -المحلقات أو الإضافات للكلمة)

·      بناء الجملة (Syntax): هي الطبقة التي تفحص العلاقة بين الكلمات وتسلسل الجمل.

·      الدلالي (Semantic): هي الطبقة التي تفحص معاني الكلمات والمعنى الكلي الذي تنشئه للجمل والنص عندما يجتمعون.

 

 

حقيقة أن معالجة اللغة الطبيعية تجذب الكثير من الاهتمام اليوم هو أن هذه التكنولوجيا سيتم استخدامها في جميع الأنظمة التي ستدعم الناس في المستقبل. عندما نقول آلة بشرية ، واحدة من أهم الميزات التي تحددها هي أنها يمكن أن تتواصل. بالنظر إلى أن لغة الكلام هي الجزء الأكبر من التواصل بين الناس ، يعلم الجميع أن معالجة اللغة الطبيعية ستحافظ على مكانتها بين الباحثين ومتابعي التكنولوجيا لفترة أطول.

المراجع

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>