الآلات تتحول إلى بشر خارقين من دون مساعدة! ألفا غو زيرو تثبت ذلك



نسخةٌ مطوّرةٌ من خوارزميّة الذّكاء الاصطناعيّ الخاصّة بالّلعبة تعلّم نفسها كلّ حيل لعبة غو Go، باستخدام طريقةٍ جديدةٍ لتعلّم الآلة.

لم تبقَ ألفا غو AlphaGo أفضل لاعب غو على الأرض لوقتٍ طويلٍ، فقد ظهر وحشٌ جديدٌ، نسخةٌ محدّثةٌ من برنامج غو للذّكاء الاصطناعيّ كُشِفَ عنه مؤخّرًا. تمكّنت ألفا غو زيرو في مواجهة واحد-لواحد من هزيمة البرنامج الأصليّ بنتيجة مئةٍ إلى لا شيء.

لكنّ ما يميز ألفا غو زيرو هو كيفيّة قيامها بذلك. النّسخة الأصليّة للبرنامج والنّسخة المحدّثة طُوِّرَتا بواسطة شركة ديب مايند DeepMind التّابعة لشركة ألفا بيت Alphabet، لكن في حين تعلّمت النّسخة الأصليّة من ألفا غو طريقة الّلعب عبر فهمها لبيانات مئات آلاف المباريات الّتي لعبت من قبل لاعبين محترفين، فإنّ ألفا غو زيرو بدأت بقواعد اللعبة من الصفر. تعلّمت ألفا غو زيرو الّلعبة ببساطة عبر لعبها لملايين المباريات ضدّ نفسها، مستخدمةً ما تتعلّمه في كلّ لعبةٍ حتّى تتحسّن.

يمثّل البرنامج الجديد خطوةً إلى الأمام في سبيل بناء آلاتٍ "ذكيّةٍ" حقًّا، أما ما دفع إلى هذا الاستنتاج فهو أنّ الآلات تحتاج إلى إيجاد حلول للمشاكل الصّعبة حتّى في غياب كمياتٍ كبيرةٍ من بيانات التّدريب لتتعلّم منها.

يقول ديمس هسابيس Demis Hassabis المدير التنفيذيّ ومؤسّس ديب مايند: "الشّيء المدهش هنا أنّنا لا نحتاج إلى بياناتٍ مولّدةٍ من قِبَلِ البشر بعد الآن". ويقول هسابيس أنّ الّتقنيات المستخدمة لبناء ألفا غو زيرو قويّةٌ كفايةً لتُطَبَّق في حالاتٍ من العالم الحقيقيّ، لاكتشاف مجالٍ واسعٍ من الإمكانيّات، كما في اكتشاف الأدوية وعلم المواد. البحث المكتوب حول ألفا غو زيرو نُشِر في مجلّة نيتشر Nature.

من الجدير بالذكر أنّه خلال عملية الّتعلم الذّاتيّ، تمكّنت ألفا غو زيرو من اكتشاف عددٍ من الخدع والتّقنيات الّتي طوّرها لاعبو غو عبر آلاف السنين. يقول هسابيس: "خلال بضع أيّام اكتشفت أفضل طرق الّلعب المعروفة، وفي الأيام الأخيرة تجاوزت ذلك لتوجِد طرقًا أفضل".

استحوذت غوغل Google على ديب مايند المتواجدة في لندن عام 2014. تركّز الشّركة على القيام بقفزاتٍ كبيرةٍ في مجال الّذكاء الاصطناعيّ مستخدمةً طرقًا كلعب الألعاب، المحاكاة، وتعلّم الآلة، وقد استخدمت مئاتٍ من باحثيّ الذّكاء الاصطناعيّ في سبيل تحقيق تلك الغاية. يضيف هاسيبس: "تطوير ألفا غو زيرو تضمّن خمسة عشر شخصًا، وموارد حاسوبية تقدّر بملايين الدّولارات."

تتّبع ألفا غو وألفا غو زيرو نهجًا معروفًا في تعلّم الآلة يُدعى التّعلم المعزّز Reinforcement Learning، بالإضافة إلى الشبكات العصبونية العميقة. التعلّم المعزّز مستوحىً من طريقة تعلّم الحيوانات عبر الّتجربة والتغذية العكسيّة، وقد قامت ديب مايند باستخدام التّقنية لتحقيق أداءٍ خارقٍ في ألعاب أتاري Atari بسيطةٍ.
 
عدد التشكيلات الممكنة في لوحة غو أكبر من عدد الذرات في المجرة. حقوق الصورة: www.alphagomovie.com
عدد التشكيلات الممكنة في لوحة غو أكبر من عدد الذرات في المجرة. حقوق الصورة: www.alphagomovie.com

إتقان لعبة غو يُعدّ شيئًا مبهرًا، باعتبار أنّ الّلعبة معقّدةٌ جدًّا وأنّ اللّاعبين يقومون بحركاتهم بشكلٍ بديهيٍّ. بكلماتٍ أخرى، قواعد اللعب الجيّد لا يمكن شرحها أو كتابتها ببساطة في نصٍ برمجيٍّ.

كما أنّ التعلّم المعزّز يبدو واعدًا في أتمتة برمجة الآلات في عدّة مجالاتٍ، خاصّةً حين يكون من غير العمليّ برمجتها يدويًّا. يتم حاليًّا على سبيل المثال تجربته كطريقةٍ لتعليم الروبوتات كيفية اكتشاف الأغراض غير الملائمة، وكوسيلةٍ لحفظ الطّاقة في مراكز البيانات عبر إعادة ضبط الأجهزة حالًا. يمكن ألّا توجد أمثلةٌ كثيرةٌ لتتعلّم منها الآلات في العديد من الحالات في العالم الحقيقيّ، لذلك عليها أن تتعلّم بنفسها. وهذا ما يجعل من ألفا غو زيرو مثيرةً للاهتمام.

يقول ديفيد سيلفر David Silver، الباحث الرئيسيّ في ديب مايند والبروفيسور في كلية لندن الجامعية University College London: "تمكّنا من إزالة قيود المعرفة البشرية عبر عدم استخدامنا للبيانات المولّدة من قبل البشر أو استخدام الخبرة البشريّة"، ويضيف: "فهي قادرةٌ، الآلات، على تأسيس المعرفة بنفسها انطلاقًا من المبادئ الأساسيّة."

لتحقيق تفوّق غو، بدأت ألفا غو زيرو بالّلعب ضد نفسها، وبشكلٍ عشوائيٍّ في البداية. وكما في النّسخة الأصليّة استخدمت شبكةً عصبونيّةً عميقةً وخوارزمية بحثٍ قويّةً لاختيار الحركة التّالية. لكن في ألفا غو زيرو فإنّ شبكةً عصبونيّةً واحدةً تولّت تنفيذ المهمتين معًا.

ويبدو أنّ مارتن مولر Martin Muller، الأستاذ في جامعة ألبيرتا في كندا University of Alberta والّذي ساهم بعملٍ مهمٍّ في برنامج لعب غو، يبدو معجبًا بتصميم ألفا غو زيرو ويقول أنّها أدّت إلى تقدّم التّعلّم المعزّز. يقول مولر: "البنية أبسط، لكنّها أقوى من كلّ النّسخ السّابقة".

تُعدّ ديب مايند الرّائدة في صناعة الذّكاء الاصطناعيّ، وإنجازها الأخير سيجذب الأنظار حتمًا، ويثير النّقاشات حول الوصول إلى أشكالٍ أكثر قوّةً للذّكاء الاصطناعيّ. لكن علينا أن ننظر إلى هذا الإنجاز بحذرٍ. يشير بيدرو دومينغوز Pedro Domingos،الأستاذ في جامعة واشنطن University of Washington، إلى أنّ البرنامج يحتاج إلى لعب ملايين المباريات حتّى يتمكّن من احتراف لعبة غو، وهذا يفوق عدد الألعاب التي خاضها اللاعب البشريّ الخبير. هذا يشير إلى أنّ الذّكاء الذي يستخدمه البرنامج مختلفٌ بشكلٍ أساسيٍّ.

يقول دومينغوز: "هذا تمثيلٌ رائعٌ للتقدّم في مجال التّعلّم العميق والتّعلّم المعزّز، لكنّني لم أستطع أن أجد فيه ما يشير إلى قدرة الحواسيب على التعلّم من دون المعرفة البشريّة". يضيف دومينغوز: "سيكون من المبهر حقًّا لو تمكّنت ألفا غو من هزيمة ليي سيدوال Lee Sedoal (البطل الأسطوريّ الكوريّ الجنوبيّ) وذلك بعد أن تلعب عدد مباريات يساوي ما لعبها سيدوال في مسيرته قبل أن يصبح بطلًا. ولسنا قريبين من ذلك بعد".

يقرّ سيلفر وهاسيبس بأنّ إيجاد طرقٍ للآلة حتّى تتعلّم من بياناتٍ قليلةٍ سيكون أمرًا مهمًّا في بحثهم عن إتقان الذّكاء. هذا يتضمّن تطوير طرقٍ جديدةٍ تجعل الآلات قادرةً على نقل ما تعلّمته في مجالٍ ما إلى مجالٍ آخر، أو لتتعلّم من مراقبة الآخرين (سواءً البشر أو أنظمة الذكاء الاصطناعيّ الأخرى).

على الرّغم من وجود الكثير لإنجازه، يأمل هاسيبس أنّه خلال السّنوات العشر القادمة سيلعب الذّكاء الاصطناعيّ دورًا بارزًا في حلّ العديد من المشاكل في العلم، الطّب، والمجالات الأخرى. يقول هاسيبس: "آمل أنّ هذه الأنواع من الخوارزميات، والنّسخ المستقبليّة، ستدفع حدود العلم والطّب"، ويضيف: "ربّما كلّ شيءٍ سيُصمَّم بشكلٍ جزئيٍّ ويُستكشَف بواسطة هذه الأنواع من الخوارزميات، التي تعمل بالتّرادف مع بشرٍ أذكياء جدًّا".

ليست هناك تعليقات