محرك Cloudflare الجديد Infire يخفض تكلفة استنتاج نماذج اللغة الكبيرة وزمن استجابتها
كشفت شركة Cloudflare في مايو 2026 عن ترقيات جوهرية لبنيتها التحتية للاستنتاج بالذكاء الاصطناعي، شملت إطلاق Infire — محرك تقديم نماذج اللغة الكبيرة المكتوب بلغة Rust — إلى جانب نظام Unweight الذي يضغط ملفات أوزان النماذج بنسبة 15–22 بالمئة دون أي خسارة في الدقة. جاءت هذه الإعلانات ضمن فعاليات "أسبوع الوكلاء 2026" التي نظّمتها الشركة، وتعكس توجهها الاستراتيجي لتحويل شبكتها العالمية إلى منصة رائدة لتشغيل أحمال عمل الذكاء الاصطناعي الوكيل على نطاق واسع.
يعتمد Infire على فصل مرحلة التعبئة المسبقة (prefill) عن مرحلة الترميز (decode) — إذ تُعالَج رموز الإدخال على خوادم متخصصة وفق متطلباتها الحاسوبية والذاكرية — مع آلية نقل KV-cache مخصصة تربط المرحلتين. يُضاف إلى ذلك ضغط Unweight، فيصل النظام معاً إلى تسريع ملموس في زمن أول رمز والرموز المتتالية. تُتيح هذه الكفاءة لـ Workers AI استضافة نماذج حدودية كبيرة مخصصة للوكلاء، من بينها Kimi K2.5 ونماذج الصوت الفوري.
يأتي هذا الإعلان في لحظة تبرز فيها تكاليف الاستنتاج باعتبارها التكلفة التشغيلية الجوهرية للشركات الأصيلة في الذكاء الاصطناعي. توقعت Gartner في مارس 2026 أن استنتاج نماذج اللغة الكبيرة سيرخص بأكثر من 90 بالمئة بحلول عام 2030؛ وتُشير الخطوات المعمارية لـ Cloudflare إلى أن هذا المنحنى سيتسارع أسرع مما تتوقعه التوقعات الأساسية للسوق، لا سيما للمؤسسات التي تشغّل وكلاء باستمرار على نطاق الإنتاج.
تُعاني شركات الخليج ومنطقة الشرق الأوسط وشمال أفريقيا التي تنشر تطبيقات LLM من حساسية مضاعفة تجاه زمن الاستجابة، خاصةً في حالات استخدام اللغة العربية حيث تكون أعداد الرموز للمدخل أعلى عموماً مقارنةً بالنظائر الإنجليزية. ومع ضخ كبار مزودي البنية التحتية كـ Cloudflare في بنى استنتاج عالمية أكثر كفاءة، يُتاح للمشغلين الإقليميين الوصول إلى أداء الفئة الأولى دون تكاليف رأس المال لبناء مجموعات GPU الخاصة وصيانتها.
صُمِّمت منصة DivergeGPT ومنصة نماذج اللغة الكبيرة من Diverge للتكامل مع أكثر بنى الاستنتاج كفاءةً. ومع خفض محرك Infire لتكاليف التقديم عالمياً، تتوسع اقتصاديات نشر DivergeGPT على نطاق المؤسسات — استفسارات أكثر بتكلفة أقل لكل استفسار، واستجابة أسرع ترتقي بقابلية استخدام سير العمل المؤسسية المدعومة بالذكاء الاصطناعي في منطقة الخليج.
يُشير قرار Cloudflare بنشر إيضاحات هندسية تفصيلية — تغطي خيارات البنية ونتائج الأداء والمنطق الكامن وراء فصل التعبئة المسبقة والترميز — إلى نضج سوق البنية التحتية للذكاء الاصطناعي: يتحول التنافس من قدرات النموذج إلى كفاءة الاستنتاج والاقتصاديات التشغيلية. وفي عام 2026، بات سعر الرمز التشغيلي على نطاق الإنتاج يُمثل أهمية استراتيجية تُعادل نقاط المقياس في تقييمات النماذج.
المصدر: InfoQ