”مايكروسوفت“ تُطلق نموذج ذكاء اصطناعي يُشغّل برامج ويندوز وينفّذ المهام

كشفت شركة مايكروسوفت عن نموذجها الجديد ”Large Action Model - LAM“ الذي يتميّز بقدرته على تشغيل برامج ويندوز وتنفيذ المهام بصورةٍ مستقلة.
ويُمثّل هذا النموذج نقلةً نوعيةً في عالم الذكاء الاصطناعي، حيث يتخطّى حدود معالجة النصوص ليُصبح قادراً على تنفيذ الأوامر في العالم الرقمي بشكلٍ فعلي.
وبخلاف النماذج اللغوية التقليدية مثل ”GPT-4o“ التي تُركّز على معالجة وإنشاء النصوص، يمتلك ”LAM“ القدرة على تحويل طلبات المستخدمين إلى أفعالٍ ملموسة، مثل تشغيل البرامج أو التحكّم في الأجهزة. وعلى سبيل المثال، بينما تُقدّم النماذج التقليدية تعليماتٍ نصيةً حول كيفية الشراء عبر الإنترنت، يستطيع ”LAM“ إتمام عملية الشراء بالكامل من خلال التنقّل في واجهة الموقع الإلكتروني.
وأوضحت مايكروسوفت أن تطوير ”LAM“ استغرق أربع مراحل رئيسية، هي: التدريب على تخطيط المهام وتقسيمها إلى خطواتٍ منطقية، والتعلم من نماذج متقدمة مثل ”GPT-4o“ لتحويل الخطط إلى أفعال، والاستكشاف الذاتي الذي يُمكّن النموذج من البحث عن حلولٍ جديدة، والتدريب المُستند إلى المكافآت لتحسين دقّة التنفيذ.
وفي بيئة اختبارٍ خاصة ببرنامج ”وورد“، نجح ”LAM“ في تنفيذ المهام بنسبة 71%، مُتفوّقاً على ”GPT-4o“ الذي حقّق نسبة نجاحٍ بلغت 63% دون معلوماتٍ بصرية.
كما تميّز ”LAM“ بسرعته، حيث استغرق 30 ثانيةً فقط لتنفيذ المهمة مُقارنةً بـ 86 ثانيةً لـ ”GPT-4o“. ومع ذلك، عند تزويد ”GPT-4o“ بمعلوماتٍ بصرية، ارتفعت دقّته إلى 75,5%.
واعتمد فريق مايكروسوفت على آلاف البيانات التدريبية المُستقاة من وثائق مايكروسوفت، ومقالات ”WikiHow“، وعمليات البحث عبر مُحرّك ”بينغ“. كما استخدم الفريق نموذج ”GPT-4o“ لتطوير هذه المهام إلى مهامٍ أُخرى أكثر تعقيداً.
وعلى الرغم من هذه الإنجازات، يُواجه ”LAM“ بعض التحديات، منها تنفيذ بعض الأفعال بشكلٍ خاطئ، وبعض القضايا التنظيمية التي تحتاج إلى حلول، بالإضافة إلى قيودٍ تقنيةٍ تُؤثّر في قابليّة التوسّع والتطبيق في مجالاتٍ مُختلفة.
ويرى الباحثون أن ”LAM“ يُشكّل تقدّماً هائلاً في مجال الذكاء الاصطناعي، وقد يُمهّد الطريق لتطوير ذكاءٍ اصطناعيٍّ عام ”AGI“. فبدلاً من الأنظمة التي تقتصر على فهم النصوص وإنتاجها، قد تُوفّر الشركات قريباً مُساعدين رقميين يُساعدون في تنفيذ المهام اليومية بشكلٍ فعّال.