ينتج متخصصون نماذج لغوية متطورة، تعتمد على مهارات الذكاء الاصطناعي في الكتابة، من أجل التنبوء بالكلمة التالية في نص إلكتروني ما.

إيلاف من دبي: من النماذج اللغوية الجدية التي تعتمد على الذكاء الاصطناعي نموذج GPT-2 الذي تم تصميمه ببساطة ليتنبأ بالكلمة التالية في محتوى إلكتروني، &يصل قياسه إلى 40 جيغابايت. إنه نموذج لغوي تحويلي يعتمد على 1.5 مليار معلمة، تم تصميمه والتدريب عليه بناءً على مجموعة بيانات مؤلفة من ثمانية ملايين صفحة من صفحات الشبكة العنكبوتية.

هدفه بسيط: التنبؤ بالكلمة التالية، واستنباطها من كل الكلمات السابقة في نص ما. يؤدي تنوع مجموع البيانات إلى تحقيق هذا الهدف البسيط لاحتواء مظاهر طبيعية خاصة بالعديد من المهام عبر مجالات متنوعة، وكل ذلك اعتمادًا على الذكاء الاصطناعي.

هذه النسخة تستخدم عشرة أضعاف المعلمات التي استخدمتها نسخ سابقة من هذا النموذج، وتدرّب على أكثر من عشرة أضعاف كمية البيانات المستخدمة.

عيّنات نصية اصطناعية
يعرض هذا النموذج مجموعة واسعة من المهارات، بما فيها القدرة على توليد نماذج نصية تركيبية مشروطة ذات جودة غير مسبوقة، بحيث يتم تجهيزه بتزويده بمدخلات بيانية، ودفعه إلى توفير مخرجات تتمتع بسمة الاستمرارية المطولة.

إضافة إلى ذلك، تفوق GPT-2 على نماذج اللغات الأخرى التي تم تدريبها على نطاقات محددة، مثل "ويكيبيديا" أو "الأخبار" أو "الكتب"، من دون الحاجة إلى استخدام مجموعات البيانات التدريبية الخاصة بمجال معيّن. في المهمات اللغوية المحددة، مثل الإجابة عن الأسئلة، والقراءة والفهم، والتلخيص، والترجمة، يبدأ هذا النموذج في تعلم هذه المهام من النص الأساسي، باستخدام بيانات التدريب الخاصة بالمهمة.

وفي حين أن مهمات التكرير هذه هي أبعد ما تكون عن أحدث ما توصلت إليه التقانة، فإنها تشير إلى أن هذه المهمات ربما تستفيد من التقنيات غير الخاضعة للإشراف، إذا توافرت بيانات وحسابات كافية.

يولد نموذج GPT-2 عيّنات نصية اصطناعية في استجابة لإعدادات مسبقة بمدخلات عشوائية. يقول المتخصصون إن هذا النموذج يشبه الحرباء، أي يتكيّف مع أسلوب نص التكييف ومحتواه، ما يتيح للمستخدم إنشاء عمليات واقعية ومتماسكة تتصل بموضوع من اختياره.

قريبة من الجودة الإنسانية
هذا النموذج قادر على توليد عيّنات من مجموعة متنوعة من المطالبات، تبدو قريبة من الجودة التي يصل إليها الإنسان في مثل هذه المطالبات، وتظهر التماسك على صفحة أو أكثر من النص. مع ذلك، حصلت أنماط عديدة من الفشل، كالنص المتكرر، وفشل النماذج الفكرية (نموذج يكتب أحيانًا عن حرائق تحدث تحت الماء)، والتبديل غير الطبيعي للموضوع. ينشط البحث لاستكشاف هذه الأنواع من نقاط الضعف في نماذج اللغة في حيز معالجة اللغات الطبيعية.

بشكل عام، يتطلب الأمر محاولات قليلة للحصول على عينة لغوية نصية جيدة، بعد عدد من المحاولات يعتمد على كيفية معرفة النموذج بالسياق العام.

يحقق نموذج GPT-2 الدرجات المثلى في مجموعة متنوعة من مهمات نمذجة اللغات الخاصة بالنطاق. لا يتم تدريب هذا النموذج على أي من البيانات الخاصة بأي من هذه المهمات، ويتم تقويمه فقط كاختبار نهائي. وتتفوق نماذج GPT-2 على نماذج البيانات التي يتم تدريبها على مجموعات البيانات الخاصة بالنطاق (ويكيبيديا والأخبار والكتب) عند تقويمها في مجموعات البيانات نفسها.

رصد التأثير المجتمعي
ربما تتمتع نماذج اللغة العامة بتأثير اجتماعي كبير. كما يمكن أن يكون لها العديد من التطبيقات قريبًا.

توقع المتخصصون استخدام نماذج مثل GPT-2 لإنشاء أدوات مساعدة على الكتابة، وتطويع وكلاء أكثر قدرة في إدارة أي حوار، واجتراح ترجمة غير مراقبة بين اللغات، وابتكار أنظمة أفصل للتعرف إلى الكلام.

ويعتقد المتخصصون في هذا المجال أن على الحكومات النظر في البدء في مبادرات لرصد التأثير المجتمعي ونشر تكنولوجيات الذكاء الاصطناعي بشكل أكثر منهجية، أو توسيع المبادرات الموجودة، وقياس مدى التقدم في قدرات هذه الأنظمة. إذا تم بذل الجهود المكثة في هذا المجال، فيمكن أن تسفر عن إقامة قاعدة أدلة أفضل تساهم في اتخاذ قرارات مختبرات الذكاء الاصطناعي والحكومات في ما يتعلق بقرارات النشر وسياسة الذكاء الاصطناعي على نطاق أوسع.
&
&
أعدت "إيلاف" هذا التقرير عن مدونة "أوبناي". الأصل منشور على الرابط:
https://blog.openai.com/better-language-models/#sample5