والآن بدلاً من دراسة كتل الكتب سوف ندرس شيئاً آخر أكثر متعة ودقة وأعتقد مفاجئ. تكرار الكلمات داخل الكتب إذاً ها هنا الكتاب. وتظهر فيه كلمات مختلفة "كان" و "انتقل" و "مواضع" وهكذا. وبعضاً من هذه الكلمات شائعة جداً ويتكرر ظهورها كثيراً وبعض الكلمات نادرة أكثر. إذاً كيف سيبدو توزيع هؤلاء التكرارات. إذاً أريد أن أوضح هذا من خلال التفكير بكتاب كامل لكن أولاً فقط اقتباس صغير. إذاً ها هنا فقرة من كتابة Henri Poincare، وهو رياضي ساعد في إيجاد الشواش والديناميكيا. وهو يقوم بالكتابة، ويجب أن أذكر أنّ لدي ملف pdf لهذه الشريحة في التالية في حال كانت هذه غير قابلة للقراءة أو إن كنت تريد طباعتها وتعمل بهذا لوحدك إذاً ها هي الفقرة، لا يدرس العالم الطبيعة لأنّها نافعة: يدرسها لأنّه يبتهج فيها، ويبتهج فيها لأنّها جميلة. إن لم تكن الطبيعة جميلة لن تكون تستحق المعرفة، وإن لم تكن الطبيعة تستحق المعرفة، لن تكون الحياة تستحق العيش. إذاً دعونا نفكر كم مرة تظهر كلمات معينة هنا. إذاً كلمة "إنّها" تظهر 6 مرات مختلفة في هذه الفقرة. دعونا نرى. إن كنت أستطيع إيجادهم كلهم 1,2,3,4,5,6 إذاً هناك 6 ظهورات لكلمة "إنّها" كلمة "لن" تظهر 5 مرات مختلفة. ومن ثمّ هناك 4 كلمات تظهر 3 مرات. إذاً كلمة "الطبيعة" تظهر 3 مرات. دعونا نرى. 1،2،3 هناك 3 مثيلات لـ "الطبيعة". هناك مجموعة من الكلمات 10 منهم تظهر مرتين. ومن ثم هناك 8 كلمات تظهر مرة واحدة. إذاً لدي مجموعة من الكلمات المختلفة مع تكرارات مختلفة إذاً ما سأفعله الآن ليس أخذ الكلمات نفسهم بعين الإعتبار لكن تكرارهم فقط. إذاً هناك 6 واحدة، 5 واحدة 4 ثلاثات 8 اثنانات اعذروني 10 اثنانات وثمانية مرة واحدة إذاً ها هم عندئذٍ تكرارات الكلمات. 6 واحدة و5 4 ثلاثات وهكذا ولذلك أستطيع أن آخذ هذه البيانات هنا. وأستطيع أن أحول ذلك إلى رسم بياني. مثلاً كعد تكرار الظهورات لهذه الأعداد المختلفة. إذاً دعونا نرى ماذا يحدث إذا فعلت ذلك. إذاً أريد أن أقوم برسم بياني. هناك ظهور واحد لـ 6 إذاً الرسم البياني لـ 6 سيكون 1 هناك ظهور واحد لـ 5 و 0 ظهور لـ 4 إذاً سيبدو هذا كهذا 0 أربعة هناك 4 ثلاثات 1،2،3،4 ومن ثمّ لدينا 10 اثنانات و 8 مرة واحدة إذاً الرسم البياني هذا لقد توصل من هذه البيانات المستمدة من عد تكرارات الكلمات. إذاً ما يعنيه هذا أنّه في هذه الفقرة هناك 8 كلمات تظهر مرة واحدة. هناك 10 كلمات تظهر مرتين. 4 كلمات تظهر 3 مرات. 0 كلمة تظهر 4 مرات. وهناك كلمة واحدة تظهر 5 مرات. وكلمة واحدة تظهر 6 مرات. إذاً ما سنقوم به تالياً هو أنّ ندرس تكرارات الكلمات ليس لعدة جمل لكن لنص أكبر بكثير. إذاً سندرس تكرارات الكلمات من رواية Moby Dick. إذاً هذه رواية لـ Herman Melville. يجب أن أعترف لم أقرأها أبداً ولأكون صادقاً على الأرجح أنّي لن أفعل ذلك أبداً. لكنني قمت برسوم بيانية لتكرارات الكلمات فيها. ربما هذا ممتعٌ أكثر قليلاً. لكن على أي حال إذاً Moby Dick العدد الكلي للكلمات هو حوالي 210.000 والعدد المختلف، عدد الكلمات المختلفة هو حوالي 18.800 إذاً دعونا نفكر بما قد نتوقع هل سنرى ذلك؟ ربما معظم الكلمات مستخدمة 3 أو 4 مرات؟ أو معظم الكلمات ستكون مستخدمة مرة واحدة أو مرتين حسناً، دعونا نرى. إذاً ها هنا نتيجة الرسم البياني لتكرارات الكلمات لرواية Moby Dick. مصدر هذه البيانات سأضع معلومات هنا وسأضع رابط هذا أيضاً، على صفحة هذا الفيديو. إذاً ها هنا ماذا يقول هذا. إذاً ها هو التكرار. وبعدئذٍ هذا عدد الظهورات. إذاً يقول هذا أنّ هناك.. دعونا نرى 2، 6 شيءٌ ما أكثر من 800 كلمة تظهر فقط مرة واحدة. هناك حوالي 3000 كلمة تظهر مرتين. لا يزال هناك بعض الكلمات التي تظهر 3 مرات و 4 مرات و 5 مرات. إذاً معظم الكلمات في هذه الرواية تكرار ظهورها الأكثر شيوعاً هو 1. ومن ثمّ يهبط بسرعة جداً. إذاً عندما تقوم برسم بياني يمكنك عد عدد الظهورات ويمكنك أيضاً أن تفكر بالاحتمالات. إذاً ها هنا نفس البيانات. وكل مافعلته أنّي رسمت محاور بيانياً في الإحتمالات. إذاً ها هنا ما يقوله هذا من 18.000 أو نحو ذلك كلمة فريدة هناك كلمات مختلفة تظهر في Moby Dick يظهر نصفهم تقريباً مرة واحدة فقط. إذاً أعتقد أنّ هذا مفاجئ ومثير للإهتمام حقاً ومن ثمّ هاك حوالي 18 بالمئة منهم، تظهر كل هذه الكلمات مرتين فقط وهكذا. إذاً إنّنا نرى شيئاً ما يهبط بسرعة جداً. ولديه ذروة كبيرة جداً للقيمة الصغيرة 1 ما يبدو هذا إذا ذهبت أبعد من ذلك حسناً، دعونا نرى. إذاً ها أنا هنا أرسم بيانياً ليس أول 30، ليس 30 لكن أول 300 إذاً كم كلمة تظهر 300 مرة في هذه الرواية، أو 250 مرة، أو 260 مرة حسناً، من الواضح ليس كثيراً. ربما إنّها 0 كلمة، من الصعب معرفة ذلك. لأنّ مقياس الرسم البياني هذا، ستنخفض الأشياء كثيراً. إذاً ما سنقوم به هو أنّنا سننظر إلى الرسم البياني للوغاريتم-لوغاريتم هذا. إذاً ما سأفعله هو أنّي سآخذ لوغاريتم التكرار لوغاريتم الإحتمال وسأرسمهم بيانياً. إذاً ها هنا ما يحدث إذا فعلت ذلك إذاً هذا هو لوغاريتم التكرار. وهذا لوغاريتم الإحتمال. ويمكننا أن نرى أنّ هناك خط مستقيم من هنا إلى قيمة تقريبية جيدة جداً وإذاً لقد تعلمنا في الوحدة الماضية أنّه عندما نرى خط مستقيم كهذا نتوقع، حسناً إنّي أقول... أنّنا نرى الخط المستقيم كثيراً ولقد كنا نقوم بعد الصناديق. إذاً سنتوقع ذلك سيوصف هذا بواسطة معادلة مشابهة لمعادلة عد الصناديق تلك. وسنلقي نظرة على ذلك خلال ثانية. لكن أولاً دعني أشير إلى بعض الأشياء حول الرسم البياني هذا. إذاً مجدداً يقول هذا هنا بالأسفل أنّ هناك الكثير من الكلمات التي تظهر مرة واحدة فقط. لكن ماذا عن هذه الكلمة. هذه أكثر كلمة شائعة. لديها أكبر تكرار ودعونا نرى هذا لرواية Moby Dick ، كلمة "الـ " وإنّها تظهر 14086 مرة. إذاً لدينا الكثير من الكلمات التي تظهر مرة واحدة بالضبط ومن ثم لدينا كلمة واحدة " الـ " التي تظهر 14000 مرة أو نحو ذلك . ذلك حقاً نطاق كبير من التكرارات وأكبر يكثير من نطاق كتل الكتب الذي كان لدي سابقاً. دعونا نرى. ثاني أكثر كلمة شائعة فقط إن كنت فضولياً إنّها " هو " ومن ثمّ لدينا " و " و " a " وتظهر " من " 6414 مرة، ويمكنك أن تنظر إلى ملف البيانات وتحصل على بقية هؤلاء. إذاً هناك بضع كلمات في رواية Moby Dick وفي اللغة الإنكليزية بشكلٍ عام، التي تظهر بشكل كبير. وهذه ميزة عامة في اللغات. ومن ثم هناك الكثير والكثير والكثير من الكلمات التي تظهر بشكل نادر جداً في هذه الرواية بالتحديد مرة واحدة فقط.