تقنية 'تجميد الخلايا العصبية' من NC State تجعل نماذج اللغة الكبيرة أكثر أماناً دون التنازل عن الأداء
طوّر باحثو جامعة ولاية كارولاينا الشمالية (NC State) تقنية تُقلّص بصورة ملحوظة من خطر توليد نماذج اللغة الكبيرة استجابات غير آمنة—والأهم من ذلك أنها تُحقق هذا الهدف دون التدهور في الأداء الذي لازم تاريخياً تحسينات السلامة في هذه النماذج. يرتكز البحث على ما أسماه الفريق بفرضية توافق السلامة السطحي (SSAH)، وهو مقرر للعرض في المؤتمر الدولي الرابع عشر لتمثيلات التعلم (ICLR 2026) المنعقد في ريو دي جانيرو بين 23 و27 أبريل.
يكشف الاكتشاف الجوهري أن آليات السلامة الحالية في نماذج اللغة الكبيرة سطحية بالمعنى الهيكلي. تتخذ النماذج الراهنة قراراً ثنائياً بالسلامة أو عدمها في مستهل عملية توليد الردود—وهو قرار يمكن تجاوزه بإعادة صياغة السياق بأسلوب بسيط. أثبت باحثو NC State أن توجيه طلب ضار للنموذج مع صياغة ذلك الطلب بإطار إيجابي كان كافياً في أغلب الحالات للتحايل على ضوابط السلامة المعيارية. هذه الهشاشة الهيكلية تعني أن توافق السلامة لا يتهاوى بفعل هجمات تقنية متطورة، بل بمجرد تلاعب لغوي مباشر في متناول أي مستخدم.
اشتمل الحل على تحديد ورسم خرائط 'الخلايا العصبية' المحددة داخل شبكات الذكاء الاصطناعي العصبية التي تتحمل المسؤولية الأكبر في القرارات الحرجة للسلامة—مكوّنات تحدد أنماط تفعيلها ما إذا كان النموذج سيمتثل لطلب ما أم يرفضه. ومن خلال 'تجميد' هذه الخلايا العصبية بصورة انتقائية أثناء الضبط الدقيق المتخصص، وجد الباحثون أن النماذج يمكن تكييفها لحالات استخدام متخصصة دون إتلاف خصائص السلامة المُكتسبة خلال التدريب الأصلي. تُعالج التقنية مباشرةً ما يُعرف بـ'ضريبة التوافق'—العقوبة الأدائية الموثقة التي ظلت على مدار سنوات ثمناً لجعل النماذج اللغوية أكثر أماناً.
بالنسبة لعمليات نشر الذكاء الاصطناعي المؤسسية في الخليج ومنطقة الشرق الأوسط وشمال أفريقيا، يتحول توافق السلامة الموثق من فضيلة نظرية إلى متطلب تنظيمي ذي التزامات امتثال فعلية. يشترط الإطار التنظيمي لمصرف الإمارات المركزي المعني بالذكاء الاصطناعي في الخدمات المالية وجود آليات في أنظمة دعم القرار المدعومة بالذكاء الاصطناعي للإشارة إلى المخرجات المحتملة الضرر قبل وصولها إلى متخذي القرار البشريين. كما تُفرز الالتزامات التنظيمية لقانون الذكاء الاصطناعي الأوروبي—ذات الصلة بالمؤسسات الخليجية العاملة في الأسواق الأوروبية أو التي تمتلك سلاسل توريد بعمق أوروبي—أطر مسؤولية تُشكّل تعرضاً مادياً عند إصدار نماذج لغوية مُنشَرة مخرجات ضارة أو تمييزية.
تُدمج Diverge طبقات تقييم السلامة عبر مجموعة منتجاتها المؤسسية، بما فيها DivergeGPT الذي يخدم قطاعات خاضعة للتنظيم كالمالية والعمليات الحكومية في الإمارات. يُمثّل أسلوب تجميد الخلايا العصبية النوع المثالي من الابتكار المعماري الذي يجعل التكييف الدقيق الحافظ للسلامة قابلاً للتطبيق على نطاق مؤسسي—مُمكِّناً عمليات نشر متخصصة في الرعاية الصحية والخدمات القانونية والامتثال المالي دون التفريط في ضمانات السلامة التي تستلزمها الصناعات الخاضعة للتنظيم.
مع تعمّق تضمين نماذج اللغة الكبيرة في سير العمل المؤسسي—مُنتقلةً من أدوات إنتاجية إلى أنظمة تشغيلية تُخبر قرارات ذات عواقب حقيقية—ستُصبح القدرة على إثبات بقاء خصائص السلامة سالمة بعد الضبط الدقيق معياراً أولياً في اختيار موردي الذكاء الاصطناعي المؤسسي. يطرح المنظمون وإدارات مخاطر المؤسسات سؤالاً متصاعداً: ليس فقط هل هذا النموذج آمن في تهيئته الأساسية، بل هل تبقى ضمانات السلامة قائمة بعد التخصيص لقطاع أو حالة استخدام بعينها؟ تُقدّم فرضية SSAH وتقنية تجميد الخلايا العصبية أحد أوائل الإجابات المُحكَّمة والمدعومة تجريبياً على هذا السؤال الأكثر أهمية تشغيلياً.
المصدر: NC State News