إذاً، قد تكون قد سمعت كثيراً مؤخراً عن الشبكات العميقة أو الشبكات العصبية أبنية التعلم العميق. ما هي هذه؟ وكيف حدثت؟ سنتحدث بشأن هذا، بدءاً من بداية ما يدعى ببحث الشبكة العصبية وتتبعه إلى حيث وصل اليوم، يمكن أن يرجع بحث الشبكة العصبية الحديث،إلى العالم النفسي Donald Hebb في أربعينيات القرن الماضي لقد اقترح Donald Hebb Hk أنّ شبكات الوحدات البسيطة تتبع قواعد تعلم بسيطة جداً، يمكن أن تتعلم فهم وصياغة أنماط معقدة جداً، أبسط قاعدة اقترحها هي: إن كان هناك وحدتين فعالتين فقط في نفس الوقت، نجعل الاتصال بينهم أقوى قليلاً، وإن لم يكونا فعّالتين في نفس الوقت، نجعله أضعف قليلاً. إذاً، لقد كان هذا مستوحى بشكلٍ كبير من أفكاره عن الخلايا العصبية الحيوية، وكيف قد تتعلم أنماط و منذ ذلك الحين لقد وجدنا فعلاً أنّ الخلايا العصبية الحيوية تحمل بعض هؤلاء القواعد البسيطة، هؤلاء القواعد الذين اقترحهم Donald Hebb يدعون اليوم بالتعلم الثقيل، إنّهم مختلفين قليلاً عمّا استخدم في التعلم المراقب، إنّهم يلعبون دوراً أكبر في التعلم المراقب. إذاً، لن نتحدث عنهم بعمق، لكن لقد كان هذا بداية لمفهومنا لشبكات الخلابا العصبية، والذي هم نماذج لوحدات بسيطة متصلة مع بعضها البعض، والتي تتعلم من خلال تغيير الأوزان بين الوحدات، الآن. تنهض الشبكات العصبية الحديثة من عمل Frank Rosenblatt والذي كان عالماً نفسياً آخر، والذي اخترع في خمسينيات القرن الماضي مايدعى بالمستقبلات. لقد كانت المستقبلات نموذج حسابي للتعلم ولقد كان مبنى مراقباً بالفعل. إذاً كان يستطيع التعلم ليتنبأ الأنماط المعطاة لها. ولقد برهن Frank Rosenblatt في خمسينيات القرن الماضي أنّ بإمكانه تدريب المستقبلات لتميّز أنماط بسيطة كالأحرف، ولقد ولّد هذا في الواقع الكثير من الإثارة في ذلك الوقت، لأنّ هذا لم يسبق له مثيل إلى حدٍّ ما. في أبحاث الذكاء الصنعي. إذاً، كيف تعمل المستقبلات، حسناً، كما قلت تتألف المستقبلات من عدة وحدات بسيطة والتي تدعى خلايا عصبية أو عقد، ونرى في الرسم البياني هذا، التخطيط الأساسي. إذاً ها هنا مايدعى بالخلايا العصبية المدخلة والتي علّمتها بـ X 1 و X 2. الآن، إن كنّا نتذكر من مناقشتنا السابقة لتصنيف شيءٍ ما، كصور الكلاب والقطط، ولقد رسمناهم بيانياً ببعدين، سيكون هذان البعدان الأعداد التي تم إدخالها X 1 و X 2، لكن بالطبع يعني ذلك أنّه بإمكاننا الحصول على الكثير من المداخل الإضافية، يمكننا الحصول على آلاف المداخل إذا أردنا، لأسباب مفاهيمية، سنبقيها بسيطة قدر المستطاع. إذاً لدينا خليتين عصبيتين مدخلتين X 1 و X 2، هاتين مدمموجتين باستخدام شيئاً ما يدعى المجموع المرجّح. إذاً، هناك بالأساس وزن لكل خلية عصبية من هذه الخلايا، ويمكن أن يككون لدى الخليىة العصبية قيمة معينة، ونضرب تلك القيمة بالوزن، ومن ثمّ نجمععهم معاً، كما ترى في الدائرة الزرقاء بعد ذلك، يمر المجموع المرجّح عبر شيءٍ ما يدعى اللاخطية. الآن، اللاخطية هو دالة غير خطية، وما تستخدمه المستقبلات، يدعى عتبة اللاخطية، وتقول بالأساس أنّه إذا كان المجموع المرجّح تحت عتبة ما، سأضع صفر، وإذا كان فوق عتبة ما، سيكون الناتج 1. إذاً، إنّه كاختصار. الآن، تتضمن خورازمية التعلم للمستقبلات ضبط الأوزان، هنا وزن 1 و في الواقع أيضاً العتبة B. إذاً بالنسبة لتعلم اقتران معين من الخلية العصبية المدخلة 0 أو 1، ويمكن أن تكون النواتج كلب أو قط على سبيل المثال. من الآن فصاعداً سأمثّل المجموع المرجّح واللاخطية أي خلية عصبية مدمجة بهذا اللون الأزرق المخضر. وسيظهر هذا في شرائح لاحقة. الآن، إن كنت تتذكر، لقد ناقشت سابقاً كيفية التعلم المراقب. لدينا مجموعة بيانات تدريبية ، والتي لديها كمثال مدخلات من صنفين، وعلى الرغم من أنّه يمكن أن يكون أكثر من صنف ، لكن لنبقيه بسيطاً، صنفين فقط، ونتعلم سطحاً يفصل المدخلات من صنف لآخر. الآن هذا النوع من المستقبلات، الذي ترونه هنا، هذا السطح هو خط، ونعلم أنّ خط، إن كنت تتذكر القليل من هندسة المرحلة الثانوية، لأنّ المجوع المرجّح يحدد خط بالأساس . إذاً، في هذه الحالة، لدينا طريقة وهي... ومن ثمّ نتحقق فيما إذا كان فوق أو تحت العتبة، وفي الواقع يُحدِث هذا السطح الخطي الفاصل هذا، حيث ينتمي كل شيء في جهة واحدة من الخط ... دعونا نقول للصنف 1. وكل شيء في الجهة الأخرى من الخط، ينتمي إلى الصنف 0. نستخدم خوارزمية تدريب إدراكية، في الواقع يمكننا أن نتعلم نوع الأسطح الفاصلة الذين تراهم هنا حيث مجموعة بيانات التدريب، ممثّلة بواسطة + ، بكونها صنف واحد. ناقص كونها الصنف الآخر. وعلى الرغم من أن المستقبلات تأتي من خمسينيات القرن الماضي فإنّ لديها في الواقع كل المكونات للشبكة العصبية الحديثة. وإذاً، كل الأبحاث الذي نشأت من ذلك الوقت، لقد بنت على هذا المبنى الأساسي، تطور مهم في مجال بحث الشبكة العصبية، الذي حدث في عام 1969، عندما قام اثنان من رواد الذكاء الصنعي miskeen Peppard بنشر كتاب يدعى المستقبلات الآن، لقد كانا مهتمين جداً بالفكرة التي اقترحها Frank Rosenblatt . ولذلك لقد قاما بالكثير من التحليل الرياضي والنظري للمستقبلات، لكن لقد أوقفت نتيجة واحدة قد برهنوها أساسياً، بحث الشبكة العصبية لعشرين عاماً، وما برهنوه هو أنّ نوع المستقبلات الذي رأيناه في شريحة سابقة، لم يتمكن من تعلم تمييز نوع معين من الأنماط. قد يكون لديك الآن، فكرة ما عن أنواع الأنماط هذه، والتي قد لا تكون قادرة على التمييز، لكن مجدداً، إنّها سهلة لترى بصرياً. كما قلت سابقاً بالنسبة للمستقبلات، فإنّ السطح الفاصل منحاز دائماً. الآن، إذا زودته بمجموعة بيانات تدريبية كهذه التي تراها في الزاوية اليمنى السفلية للشاشة، مع أطراف معادلات من أصناف علامات الزائد والناقص، منسقة كما هي. ببساطة لا يوجد هناك أي طريقة لفصل علامات الزائد وعلامات الناقص باستخدام خط واحد، ويدعى هذا النوع من المشاكل بمشكلة غير خطية قابلة للانفصال، لأنّ أطراف المعادلة للأصناف المختلفة لا يمكن فصلها بواسطة خط واحد، بما أنّ المستقبلات يمكن أن تتعلم أسطح خطية فقط، فلا يوجد أي طريقة يمكن لهذا النوع من المستقبلات أن تتعلمه لتصنف علامات الزائد وعلامات الناقص بدقة، مرتبة بهذه الطريقة. في نفس الوقت، في صنف المشكلات هذه. ومن ثمّ تحدث أسطح غير خطية قابلة للانفصال في العديد من الحالات، تحدث كلما كان للعناصر لصنف واحد إمّا شيءً واحد أو الشيء الآخر لكن ليس كلاهما. ومن الواضح أنّ ذلك يحدث في العديد من الحالات، و سيحب أحدٌ ما أن يكون التعلم الآلي قادراً على تعلم أنماط كتلك. إذاً، هذه مشكلة كبيرة للمستقبلات، ولقد خسر الناس الاهتمام بهم، وعلى الرغم من أنّهم لم يقوموا حقاً بأشياء مثيرة للاهتمام حقاً الآن. لقد تغير هذا الوضع بشكلٍ كبير في منتصف ثمانينات القرن الماضي عندما نشر عالمان إداركيان Brahma hood و McClelland كتاب يدعى معالجة التوزيع الموازي. الآن، لقد رأيت في الحالة السابقة، أنّ أبسط شكل للإدراك، هو أن يكون لدينا مدخلَين أو عدداً ما من المدخلات، التي لديها مجموع مرجّح، واللاخطية، وأنّ النواتج التي ناقشها كتاب معالجة التوزيع الموازي، كانت مستقبلات أو شبكات عصبية بصورة عامة، حيث يوجد الكثير من الطبقات المتداخلة. إذاً، هناك مجموعة من الخلايا العصبية المدخلة، تعبر هذه عبر اللالخطية، لكن ثمّ هناك تعدد من هؤلاء المجاميع وهذه اللاخطية الخاصة بهم وهذه المقادير التي يتم حسابها تلعب دور المدخلات للطبقة التالية، إذاًَ نتائجهم هي نفسهم، مجموعين، يعبروا عبر مقدار اللا خطية آخر. إذاً، ترى في الرسم البياني هذا شبكة عصبية متعددة الطبقات، حيث هناك طبقة مجاورة. تذهب المدخلات إلى مجموعان مختلفان واللاخطية. وثمّ يذهب هؤلاء إلى قصة سالمونيلا أبعد حتى، وندعوا المجاميع واللاخطية في منتصف هذه الحالة، بالطبقة المخفية. ما أظهرته معالجة التوزيع الموازي هو أنّك بإمكانك تصميم شبكات عصبية متعددة الطبقات كهذه، حيث يوجد قاعدة تعليمية حسابية فعّالة جداً يمكنها أن تتدرب أوزان الشبكات العصبية متعددة الطبقات هذه، ويمكن أن تتعلم الشبكات العصبية متعددة الطبقات هذه، أنماط كالمشاكل غير الخطية القابلة للانفصال، في الواقع، هناك نتائج تُظهِر أنّه بوحدات مخفية كافية، وطبقات مخفية يمكنهم أن يتعلموا أي دالة في العالم على الإطلاق. سيرى كيف يمكن للشبكات العصبية متعددة الطبقات أن تحل شيئاً ما فعلاً، كمشكلة غير خطية قابلة للانفصال، والتي كانت مشكلة بالنسبة للمستقبلات وحيدة الطبقة. إذاً، نعلم أنّ كلاً من المجاميع المستقلة الموزونة، اللاخطية تحدد في الأساس سطح فاصل خطي. إذاً، يمكننا أن نفكر بكلٍ من المجاميع الموزونة واللاخطية، والطبقة المخفية كإنشاء سطوحهم الفاصلة الخطية خاصتهم. إذاً، ها هنا أعلى واحد على سبيل المثال، سنقول أنّ الصنف 1 هو كل شيء فوق ، وعلى يسار الخط الأحمر، وفي القاع، سيقول أحدٌ ما أنّ صنف 1 هو كل شيء من القاع ويمين الخط الأحمر المتحول. الآن، يمكننا بشكلٍ مثير للاهتمام أن نمثل تقاطع كمجموع موزون pasteur غير خطي. تخيل ضبط كِلا الوزنين الجديدين لـ 1، ومن ثمّ قول أنّه إذا كان المجموع الموزون أقل من 2، يكون الناتج 0، وإذا كان 2 أو أكبر من 2، يكون الناتج 1، يعني ذلك أنّ الخلية العصبية الناتجة ستتنبّه فقط إذا كان كلتا الخليتين العصبيتيين المدخلتين منبّهتين. إذاً، أساسياً، ذلك مثل أخذ مناطق تقاطع الصنف 1 لكِلا الطبقتين المخفيتين، وفي هذه الحالة، إنّه تماماً ما نحتاجه لنحل المسألة غير الخطية الأقل عدة وفصل علامات الزائد عن علامات الناقص في المثال غير الخطي القابل للانفصال. الذي رأيناه سابقاً. الآن، كما ذكرت، المستقبلات الأصلية استخدمت شيئاً ما يدعى عتبة غير خطية، والتي تحولت في الأساس من 0 إلى 1، بمجرد ما يعبر المجموع الموزون المدخل، عتبة معينة، في خوارزميات شبكة عصبية حديثة، بما فيهم الخوارزميات التي كانت تستخدم في البداية، منذ ثمانينات القرن الماضي، حيث استخدمنا انعدامات خطية متمايزة، والتي هي دالة ملساء، ونستطيع في تلك الحالة أخذ مشتقها وتقليل الخطأ التدريبي بواسطة استخدام مشتقات الدوال في الأساس، التي تحول إشاراتنا. يبدو هذا معقداً، لكنه سهلٌ جداً لنفكر به بصرياً، إذا قكرنا ببعض الدوال، مثل الخطأ التدريبي زائد قيم الأوزان الذين يحددون الارتباطات في شبكتنا، عندئذٍ تحاول خوارزمية التدريب في الأساس أن تسقط عن التل وتغير الأوزان. إذاً بالنسبة لتقليل الخطأ التدريبي، ولأنّ لدينا الدوافع، فإنّنا نعلم أي طريقة ندفع بها مجموعة الخوارزميات هذه، التي تتبع المشتقات بصورة عامة. إذاً، أمّا بالنسبة لتقليل التدريب هنا، شيئاً فشيئاً، فإنّه يدعى خوارزميات النزول المتدرج. وكثيراً ما قد تسمع أيضاً، في مصطلحات التعلم الآلي مثل النزول المتدرج العشوائي SGD، والذي هو اختلاف صغير في الفكرة الأساسية هذه، ولقد كان هذا ناجحاً جداً لشبكات التدريب العصبية متعددة الطبقات. يجب أن أضيف أنّه السبب الوحيد، الذي كان ناجحاً وذلك لأنّه لقد كان هناك خدعة معينة، والتي اكتُشِفَت لتقوم بنزول متدرج أو شبكات عصبية، إذا أردت أن تحسب فقط بأي طريقة يجب أن تغير الوزن. إذاً أمّا بالنسبة لتقليل التدريب الجوي لشبكة عصبية كبيرة، في الواقع إنّها مشكلة صعبة جداً حسابياً. وقد تسمع أيضاً مصطلح إعادة النشر أو إعادة النشر التراجعي، والذي هو في الأساس طريقة حسابية سريعة جداً لتقوم بنزول متدرج، ولقد أصبح ذلك مستخدماً بشكلٍ واسع في ثمانينات القرن الماضي، وجعل الشبكات العصبية عمليةً للتدريب. الآن، لقد أحدثت الشبكات العصبية منذ البداية ولمنتصف ثمانينات القرن الماضي وخلال 2010 أو شيئاً كهذا، الكثير من الإثارة بين علماء النفس والعلماء الإدراكيين، في الواقع لقد بدوا كونهم نماذج جيدة جداً للأداء الإدراكي للإنسان، وأنواعٍ شتّى من السلوكيات التي تقوم بها الناس في المهمات النفسية، ومع ذلك لم يكونوا جيدين جداً بالنسبة لتطبيقات التعلّم الآلي الفعلي، لم يكونوا إمبراطوية الفن. ولقد اتجهت خوارزميات أخرى للقيام بشبكات عصبية أفضل مما قاموا بها في المهمات المطبّقة، مثل تمييز الصور وتحديد ما إن كانت قط أو كلب على سبيل المثال، وبسبب هذا لقد كان هناك نوع من الشتاء من بحث الشبكة العصبية المطبّقة، الذي دام عِقدَين تقريباً أو ربما أكثر بقليلٍ حتى، حيث لم تأخذ الناس الشبكات العصبية على محمل الجد، كحالة من فن خوارزميات التعلم الآلي. لقد تغيّر هذا على نحوٍ مفاجئ في بدايات 2010. ولقد كان هناك خاصةً انفجار مثير للاهتمام نوعاً ما في الشبكات العصبية في 2010. إذاً يجب أن أضيف أنّه هناك الكثير من المنافسات على أساس سنوي، في مجتمع التعلم الآلي الأكاديمي، حيث تحاول مجموعات مختلفة أن تحل مشاكل التعلم الآلي، ويتنافسون مع بعضهم البعض، بناءً على كيفية عمل خوارزمياتهم. لقد كان هناك مباراة واحدة خصوصاً، والتي تضمنت تصنيف صور وفقاً لما يظهر فيهم. إذاً لقد تحدثنا سابقاً عن تصنيف الصور كونهم إمّا كلب أو قط. هذه المباراة، والتي تدعى "شبكة أنترنت صورة" لقد كان لديها في الواقع الآلاف من الأصناف التي يمكنك أن تراها. الآن، يوجد في هذه الشريحة أشياء مثل نمر وفطر وعثّة وكل أنواع الأشياء. إذاً إنّها مهمة أصعب بكثير، إنّها ليست فقط قط أو كلب، لديها آلاف إلى حدٍ ما، بناءً على طلب آلاف الأصناف، ولقد كانت الغاية هي محاولة التنبؤ لأي صنف تنتمي الصورة له. الآن، لقد كان هناك بعض التحسن في هذه المهمة عاماً بعد عام، ربما تحسّن أفضل أداء بنسبة واحد أو اثنان في المئة، وفي عام 2012، لد حدث شيءٌ مفاجئ، لقد فازت خوارزمية شبكة عصبية في المركز الأول للمرة الأولى، في مباراة، ولقد تحسّنت بشكلٍ مفاجىء متقدمةً على أي شبكة غير عصبية مدخلة، خصوصاً الشبكة العصبية المدخلة التي قدِّمَت كفائز بالمركز الأول، ربحت بأكثر من 10 بالمئة خطاً. ثاني أفضل مدخل، والذي حصل على 25بالمئة خطاً إلى حدً ما، بدلاً من 15. الآن، لقد استخدم تالي أفضل قرن ميزات تمّ ترميزها يدوياً، والتي تمّ توجيهها لالتقاط بعض المظاهر الهامة للصور، والتمييز البصري ، استخدم خوارزميات تم ضبطها باليد والي كانت في التطوير للكثير من السنوات، بواسطة بعض الناس الأذكياء جداً، لكن الشبكة العصبية بدأت أساسياً من الصفر وتعلمت أن تهزمه بكثيرٍ من النقاط. إذاً لقد صدم هذا الناس كثيراً، حيث أنّ الشبكة العصبية التي لم تكن ذات مجال محدد، ولم تكن مضبوطة باليد فعلاً، استطاعت أن تقوم بهذا. حسناً، سنناقش في الفيديو التالي، ما الذي جعل الشبكة العصبية تقوم بذلك في هذه المنافسة، و بدأت حقاً ماقد ندعوه بثورة التعلم العميق، الذي يجري الآن.