إذاً، في آخر مرة تحدثنا عن تمثيل لوح لعبة GO، كقائمة من الأعداد التي تمثل موضع اللوح، ويحوّل ذلك إلى مشكلة تعلم مراقب، من خلال القول بأنّ المدخل هو قائمة الأعداد هذه والناتج هو الحركة التالية التي نريد أن نقوم بها. حسناً، سنتحدث اليوم عن كيفية أخذ ذلك الحدس وتحويله إلى نظام لعب جيد بشكلٍ عام. إذاً، أول شيء يجب الانتباه إليه هو أنّه لا يوجد في لوح لعبة ما مشكلة تعلم مراقب واحدة فحسب، صحيح؟ إنّه ليس كتصنيف الصور حيث يوجد إجابة فقط لتلك الصورة. عندما تلعب لعبة طاولة هناك في الواقع عدة حركات لتقوم بها مقدماً. إذاً، هناك في الواقع هذه السلسلة المتصلة من مشاكل التعلم المراقب، ولذلك الشيء الأول الذي نفكربه بالنسبة لألعاب الطاولة، هو أنّنا نستغل تلك الخاصية. إذاً، شيئاً واحداً، فكرة واحدة هي ذا المفهوم الذي يدعى بحث الشجرة وإنّه شيءٌ ما، والذي قد قمتم به جميعكم إذا لعبتم لعبة، والذي هو.... حسناً، إذاً، سأذهب يساراً، وعندئذٍ يذهب خصمي يساراً، وثمّ أذهب يميناً ومن ثمّ أفوز، عظيم. أوه..انتظر دقيقة، لكن إذا ذهب خصمي يميناً بدلاً من يساراً فجأةّ، هذا سيءٌ جداً بالنسبة لي، إذاً، انتظر.. انتظر.. إذاً، ربما يجب ألا أذهب يساراً من البداية، ربما يجب أن أذهب يميناً أولاً، وهذه هي الفكرة من النفكير بعدة حركات مقدّمة، لنرى إن كان ذلك الموضع جيد أو سيء بالنسبة لك، ومن ثمّ تعود للأعلى نوعاً ما لتكتشف إن كان ذلك شيءُ تريد حقاً أن تقوم به. وإذاً، هذا هو بحث الشجرة، مفهموم سنستمر بالبناء عليه. الآن، إن كنت تقوم بشيءٍ ما كـ tic-tac-toe (إكس-أو) يمكنك في الواقع أن تكتب قائمة فقط من.. حسناً، سأتحرك هنا زمن ثمّ إذا ذهب خصمي إلى هناك سأتحرك هنا، إذا ذهبوا إلىهناك سأذهب إلى هنا، ويمكنك أن تكتب برنامج حاسوبي والذي هو عبارة عن سلسلة فقط من "إذا كانت البيانات هكذا"، إذا قمت بهذا وهم قاموا بهذا، عندئذٍ سأقوم بهذا، وذلك في الواقع إذا تتذكر من محاضرتين ماضيتين، حيث كيف كان برنامج tic-tac-toe الأصلي مكتوباً، والذي كان إنجازاً عظيماً في عام 1952، لكنه اليوم، ليس مثيراً للاهتمام جداً لأنّنا كل ما نفعله هو فقك كتابة هذه القائمة من "إذا كانت البيانات هكذا" ماذا يجب أن نفعل. في الواقع لا يعمل البرنامج لألعاب أكبر كالشطرنج و GO. إذاً، لدى tic-tac-toe حوالي 6000 موضع لوح، لكن الشطرنج لديها عشرة إلى خمسة وأربعين ولدى GO عشرة إلى 171. الآن إن كان عليك أن تكتب ستة آلاف من "إذا كانت البيانات هكذا" ذلك ليس سيئاً جداً، إذا كنت تحتاج أن تكتب "إذا كانت البيانات" كفاية لكل الذرات في الكون، ومن ثمّ أكثر من ذلك بكثير، بحيث يصبح مستحيل فيزيائياً لفعله. إذاً، لا يمكننا ترميز برامج GO متفوق بنفس الطريقة التي يمكننا بها ترميز برنامج tic-tac-toe متفوق، كجانب ممتع لاحظ أنّ الشريحة مكتوبة بالعديد من المراتب العشرية لـ GO ، لأنّنا في الواقع نعلم العدد الدقيق لمواضع لوح GO المشروعة، نتيجة خرجت في 2016. إذاً إذا كان لايمكننا كتابة هذه المجموعة من هذه البيانات. وهذه الشجرة طويلة جداً لنفكر بها طول طريق الفوز أو الخسارة. كيف نبني برنامج فعلاً ؟ إذاً، طريقة واحدة للقيام بذلك وهي الطريقة التي يعمل بها الأزرق القاتم والتي نستخدم بها ذكاء الإنسان لترميز شيءٍ ما يدعى دالة ذات قيمة. إذاً، ذلك ما يمكننا القول عنه إنّه جيد، إن كان لدي وزير. الوزير يعادل الكثير من النقاط، إن كان خصمي لديه وزير، عندئذٍ، يعادل ذلك أيضاً نفس العدد من النقاط، لكن إذا خسرت الوزير، عندئذٍ، يعادل هذا الكثير من النقاط لي. إذاً، ماذا يمكننا فعله لجعل ذلك محدد أكثر، هو أن نقول أنّ كل بيدق على رقعة الشطرنج يعادل عدداً ما من النقاط، والموقع جيد إن كان لدي نقاط أكثر مما لديه خصمي، وثمّ أخيراً، نضيف شيئاً ما كـ مات الشاه، إن كنت أستطيع الفوز، إنّه يعادل 20 نقطة. إذاً، إنّي أحفز حقاً المواقع التي أفوز بها. إذاً، عند بداية اللعبة على سبيل المثال، لدينا نفس الكمية من المواد. إذاً، سيكون ذك بدون موقع عند 0. إذاً، عندئذٍ، ما فعلته لأنشأ هذا الرسم البياني هو أنّنت ذهبت وحاولت أن أشغّل أحد أفضل برامج الشطرنج، وبعد عدة حركات لقد هُزِمت، ولقد كان موقعي من رقعة الشطرنج 17 سالبة نحو ما يعادل من المواد، وبالتالي فإنّ ذلك الموقع كان سيئاً جداً بالنسبة لي، وثمّ ضغطت على الزر قليلا باستخدام المواد بالنسبة لي، وثمّ ضغطت على الزر قليلا باستخدام المواد ومن ثمّ كنت قادراً على هزيمة برنامج الشطرنج وأصل إلى موضع "مات الشاه" والذي كان يعادل 200 نقطة. إذاً هذه فكرة نوعاً ما عن كيف يمكننا أن نأخذ موقع بالشطرنج ونقرنه بقيمة ليست نفس فيمة الفوز أو الخسارة، لكنه شيئاً ما يقول أنّ نوع الموقع هذا جيد، أو نوع الموقع هذا سيء، وما يدعنا هذا نقوم به الآن، هو أنّني لا أحتاج لأفكر بكل الطريق وصولاً للشجرة حتى يخسر الفائز باللعبة، بدلاً من ذلك، يمكننا أن نقطع قاعدة الشجرة كاملةً ونفكر بعدر حركات مقدماً، ومن ثمّ نرى. الآن نفعل هذا. إذا فعلت هذا. سيفعلوا ذلك، وأفكر بعدة حركات مقدماً، لأصل إلى موقع جيد، وفي الواقع هكذا يعمل الأزرق القاتم، إنّه يستخدم دالة ذات قيمة تمّ ترميزها من قبل إنسان، مع هذا الذكاء. وعندئذٍ تقوم بأفضل ما يقوم به الحواسيب. سوف نسحق بواسطة الملايين والملايين من المواقع. لنرى أي فرع من الشجرة هو أفضل للحاسوب، ولقد كان ذلك الأسلوب من البرنامج كافياً لـ garry kasparov ليصبح بطل الشطرنج. إذاً لقد جرب البشر هذه المقاربة نفسها للعبة GO . إذاً ما سنقوم به هو أخذ موقع اللوح هذا. سنرى ماهي الأشكال الجيدة أو السيئة، ومن ثمّ نجعل ذلك عدداً مجدداً، كموقع +4 هذا، أو موقع -6 هذا، لسوء الحظ، لم تعمل هذه المقاربة تماماً، ثمّة مشكلة واحدة وهي أنّك تستطيع أن تتخيل كل حجرة GO في الواقع لا تعادل الكثير لوحدها، حتى أنذها قد تعادل نفاط سالبة، إن كانت على وشك أن تُلتَقط حيثما تأتي قوة حجارة GO ، عبر هؤلاء الأشكال الذين قد تحدثنا عنهم المحاضرة الماضية، وهؤلاء الأشكال جيدين أو سيئين، لكنهم أيضاً جيدين أو سيئين فيما يتعلق بأشكال خصومهم. ويفكر لاعبي GO المحترفين بهذا، ويحددوا أحام القيمة هؤلاء، لكنه من الصعب جداً ترميز ذلك إلى مجموعة من القواعد، مجموعة من "إن كانت البيانات هكذا" والتي يمكن أن يستخدمها برنامج الحاسوب ذلك، وبشكلٍ خاص يمكننا أن نرى على الشريحة، مثال غير اعتيادي لهذا،حيث لدى GO ما يدعى بالتأثيرات غير الحلية هذه. إذاً، يمكنا أن نرى في الزاوية العلوية اليسرى، أنّه نفس الشكل وبالأبيض نقوم بنفس الحركة، لكن لأسبابٍ معقدة لنشرحها الآن، هذه حركة سيئة جداً للقيام بها في موقع اللوح على اليسار، لكن إن كان لدى الأبيض هذه الحجرة الإضافية في الزاوية المقابلة للوح. وفجأة تصبح هذه الحركة جيدة جداً للقيام بها. وإذاً يمكنك أن ترى أنّ هذه الأنواع من المواقع تجعل من الصعب جداً ترميز دالة ذات قيمة. ثاني مشكلة كبيرة بلعبة GO هي أنّ GO لديها مساحة أكبر من الإجراءات من الشطرنج، حيث كم حركة يمكنك أن تقوم بها في المرة الواحدة؟ وإذاً أول حركة يمكنك القيام بها في الشطرنج، هي 20 شيئاً مختلفاً نوعاً ما، من جميع بيادقك الثمانية، يمكنك إمّا أن تذهب مرة أو مرتين للأعلى، ومن ثمّ تستطيع أحصنك أن تذهب إلى مكانين، بينما بالنسبة إلى GO هناك 361 حركة مختلفة يمكنك أن تقوم بها بحركة البداية فقط، وإذاً، الآن إن كنت تحاول أن تفكر بعدة حركات مقدماً. يقوم هذا التأثير المركب باختلافات كبيرة. إذاً، في الشطرنج مقابل GO ، بقيام كل شخص بثلاث حركات، تلك تسعة ملايين موقع، الآن ذلك الكثير من المواقع، لكن ليس الكثير بالنسبة للحاسوب ليعالجها، بينما في GO، ثلاث حركات كلاً منها 58 تريليون حركة. إذاً أكثر بمليون مرة من الشطرنج. إذاً، تمتد شجرة GO كثيراً مما يجعل من الصعب جداً للحواسيب بأن تفكرة باالعديد من الحركات مقدماً. إذاً ما سنتحدث عنه في المرة القادمة هو أخذ مشاكل GO هذه والتي من الصعب ترميزها كدالة ذات قيمة. والشجرة هي ضخمة جداً. وسنتحدث كيف يمكننا أن نستخدم التعلم الآلي لننشأ لاعب GO ممتاز.