Σε αυτό το βίντεο θα σας δείξω πώς να υπολογίζετε το Περιεχόμενο Πληροφορίας του Shannnon. Κατ' αρχήν, ας δούμε την αναλογία ανάμεσα στην Εντροπία του Boltzmann και στην Πληροφορία του Shannon. O Shannon πήρε την ιδέα για το να χαρακτηρίζει την πληροφορία, από τη Στατιστική Μηχανική του Boltzmann. Θυμηθείτε ότι ορίσαμε την έννοια της "μικροκατάστασης", ως μία λεπομερή διαμόρφωση των συστατικών μερών ενός συστήματος. Άρα, στο παράδειγμα του "κουλοχέρη", μία μικροκατάσταση μπορεί να είναι μία τριάδα εικόνων στην οθόνη του μηχανήματος, όπως π.χ. "μήλο, αχλάδι, κεράσι" - και μία "μακροκατάσταση" είναι μία ομάδα ή συλλογή από μικροκαταστάσεις, όπως π.χ. "τρία ίδια φρούτα" ή "ακριβώς ένα μήλο". Ο ορισμός της εντροπίας S, υπέθετε ότι όλες οι μικροκαταστάσεις είναι ισοπίθανες. Να ξανά και εξίσωση, χαραγμένη ακόμη και στην επιτύμβια πλάκα του Boltzmann (!) - που λέει ότι η εντροπία μιας συγκεκριμένης μακροκατάστασης, είναι ίση με k, τη σταθερά Boltzmann, επί τον log του W. Εδώ με τον όρο "λογάριθμος" (log) ο Boltzmann εννοούσε το φυσικό λογάριθμο, και W είναι το πλήθος των μικροκαταστάσεων που αντιστοιχούν στη συγκεκριμένη μακροκατάσταση. Η σταθερά k διαμορφώθηκε ώστε να αποδοθούν μονάδες στη σχέση αυτή. Συχνά μετριέται σε Joules ανά Kelvin, αλλά για τους σκοπούς του μαθήματος, θα υποθέσουμε ότι το k ισούται με 1. Αυτό γίνεται συχνά σε υπολογισμούς της εντροπίας, και μας δίνει την εντροπία σε διαφορετικές μονάδες, αλλά μπορούμε να το χρησιμοποιούμε για να συγκρίνουμε εντροπίες μεταξύ τους. Έτσι, για παράδειγμα, ας δούμε τον "κουλοχέρη" μας. Θυμηθείτε το κουίζ μας, όπου ρωτάγαμε πόσες μικροκαταστάσεις αντιστοιχούν στην μακροκατάσταση "νικώ", με τα "τρία ίδια φρούτα", και αυτές ήταν 5, και πόσες μικροκαταστάσεις αντιστοιχούν στη μακροκατάσταση "χάνω", και αυτές ήταν 120, άρα σύμφωνα με την εξίσωση του Boltzmann, εάν υποθέσουμε ότι το k, η σταθερά του Boltzmann, είναι 1, τότε παίρνουμε ότι η εντροπία S αυτής της μακροκατάστασης, ας την πούμε S της "μακροκατάστασης-νίκης", είναι ίση με το φυσικό λογάριθμο του 5, που είναι περίπου 1,61, και η S της "μακροκατάστασης-ήττας" είναι ίση με το φυσικό λογάριθμο του 120, που είναι περίπου 4,79,... και ο λόγος που ο Boltzmann χρησιμοποίησε το φυσικό λογάριθμο, ήταν για να παίρνει η εντροπία τιμές μέσα σε συγκεκριμένο εύρος τιμών. Συνήθως δηλαδή μιλάμε για συστήματα με έναν τεράστιο αριθμό μικροκαταστάσεων, που εμφανίζουν συγκεκριμένες μακροκαταστάσεις, και ο φυσικός λογάριθμος ήταν ένας τρόπος να μικρύνουν αυτοί οι πολύ μεγάλοι αριθμοί. Δε χρειάζεται να ανησυχείτε για τις λεπτομέρειες πάνω σ' αυτά, αλλά μπορείτε να δείτε ότι η πληροφορία - λάθος, η εντροπία κατά Boltzmann της μιας μακροκατάστασης είναι πολύ μικρότερη από την εντροπία κατά Boltzmann της άλλης μακροκατάστασης, κάτι που προβλέπαμε και διαισθητικά. Τώρα, για να επιστρέψουμε στην αναλογία που έχουμε δει, η πληροφορία κατά Shannon μιας μικροκατάστασης, είναι ένα μήνυμα - ένα σύμβολο, ένας αριθμός, μια λέξη - και η πληροφορία κατά Shannon μιας μακροκατάστασης είναι μία πηγή μηνυμάτων, το οποίο είναι ένα σύνολο πιθανών μηνυμάτων, με μία συγκεκριμένη πιθανότητα αποστολής για κάθε μήνυμα. Όπως κάναμε για την εντροπία του Boltzmann, θα υποθέσουμε εδώ ότι όλα τα μηνύματα είναι ισοπίθανα, ορίζοντας ως Μ τον αριθμό των μηνυμάτων. Μπορούμε τώρα να ορίσουμε ότι το Η, το περιεχόμενο πληροφορίας, κατά Shannon, μιας πηγής μηνυμάτων είναι ίσο με το λογάριθμο με βάση 2 του Μ, δηλαδή με το λογάριθμο με βάση 2, του αριθμού των μηνυμάτων. Ο λογάριθμος με βάση το 2, μας επιτρέπει να μετρήσουμε το περιεχόμενο πληροφορίας σε bits-ανά-μήνυμα. Ας πάρουμε το παράδειγμα ενός μωρού 1 έτους, που λέει μόνο "ντα-ντα-ντα-ντα", άρα εδώ έχουμε ένα μόνο μήνυμα, και το περιεχόμενο πληροφορίας κατά Shannon είναι ίσο με το λογάριθμο, με βάση 2, του 1. Όμως, 2 υψωμένο στη μηδενική κάνει 1, άρα το περιεχόμενο πληροφορίας εδώ είναι 0, που το προβλέπαμε και διαισθητικά - δεν υπάρχει εδώ καμιά μη προβλεψιμότητα, δεν υπάρχει καμιά έκπληξη. Τώρα, ας υποθέσουμε ότι αντί για "ντα-ντα-ντα", το μωρό μας λέει "ντα-μπα-μα", δηλαδή τρία μηνύματα. Σε αυτήν την περίπτωση, ο Μ θα ήταν ίσος με 3, και το Η θα ήταν ίσο με το λογάριθμο με βάση 2 του 3, το οποίο, σύμφωνα με το κομπιουτεράκι μου, ισούται με 1,58. Εδώ λοιπόν έχουμε λίγο περισσότερο περιεχόμενο πληροφορίας, από ό,τι όταν υπάρχει μόνο ένα μήνυμα. Στο παράδειγμά μας με το "αμερόληπτο" νόμισμα και το "κορώνα ή γράμματα", υπάρχουν δύο μηνύματα, έτσι το Η ενός αμερόληπτου νομίσματος ισούται με το λογάριθμο με βάση 2 του 2, που ισούται με 1, άρα το περιεχόμενο πληροφορίας εδώ ισούται με 1, το οποίο είναι πάντοτε το περιεχόμενο πληροφορίας όποτε έχουμε μόνο δύο ενδεχόμενα, "κορώνα" και "γράμματα" ή "0" και "1", "ναι" ή "όχι", με ίση πιθανότητα. Ένα ακόμη παράδειγμα αυτής της μορφής, είναι το περιεχόμενο πληροφορίας ενός "αμερόληπτου" ζαριού. Εδώ ο Μ είναι 6 - υπάρχουν 6 πιθανά μηνύματα, ένα για κάθε πλευρά του ζαριού, άρα το Η ισούται με το λογάριθμο με βάση 2 του 6, που ισούται περίπου με 2,58 (bits -"τμήματα" πληροφορίας). Αργότερα, θα σας πω λίγο περισσότερα, ως προς το τι σημαίνει αυτό, σε ό,τι αφορά την κωδικοποίηση ή τις μνήμες των υπολογιστών, αλλά προς το παρόν συμβαδίζει με τη διαίσθησή μας ότι εδώ έχουμε το μεγαλύτερο περιεχόμενο πληροφορίας από όσα έχουμε δει ως τώρα, γιατί υπάρχουν 6 διαφορετικά μηνύματα. Τώρα θα γράψω έναν πιο γενικό μαθηματικό τύπο. Στον προηγούμενο τύπο, υποθέταμε ότι όλα τα μηνύματα είναι ισοπίθανα, συνήθως όμως αυτό δεν συμβαίνει, δηλαδή υπάρχουν διάφορα μηνύματα με διαφορετικές πιθανότητες - έχουμε δηλ. ένα "μεροληπτικό" νόμισμα ή, πιο ρεαλιστικά, έχουμε ένα άτομο που μιλάει και οι λέξεις που βγαίνουν από το στόμα του δεν θα είναι ίσης πιθανότητας. Ένας πιο γενικός μαθηματικός τύπος - και αυτός είναι ο τύπος που πραγματικά έδωσε ο Shannon - λέει ότι: έστω Μ ο αριθμός των πιθανών μηνυμάτων. Θα αποδώσουμε μία τιμή πιθανότητας σε κάθε μήνυμα. Έτσι θα συμβολίσουμε την πιθανότητα του i-μηνύματος, ενός δηλαδή από τα Μ μηνύματα, με p με δείκτη i - αυτό είναι απλά ένα όνομα για την πιθανότητα που αποδίδεται στο μήνυμα i - και ο τύπος του Shannon λέει ότι η πιθανότητα αυτής της πηγής μηνυμάτων - αυτό είναι το σύμβολο της άθροισης - είναι αυτή, δηλαδή αθροίζουμε όλους τους διαφορετικούς - για κάθε τιμή του i - λογαρίθμους με βάση 2, της πιθανότητας του κάθε μηνύματος, επί την ίδια την πιθανότητα του κάθε μηνύματος. Άρα αυτό είναι σαν μία σταθμισμένη μέση τιμή, ως πρός την πιθανότητα. Βάζουμε το πρόσημο μείον επειδή όλες αυτές οι πιθανότητες είναι κλάσματα κάτω του 1, και ο λογάριθμος ενός τέτοιου κλάσματος είναι αρνητικός. Οπότε βάζουμε μείον για να αντισταθμίσουμε αυτό το μείον. Θα το δείτε αυτό σε κάποια παραδείγματα. Τώρα, αν δεν καταλαβαίνετε αυτόν τον τύπο, κάντε υπομονή. Θα σας δείξω πώς δουλεύει στην πράξη. Ας υποθέσουμε τώρα ότι έχουμε ένα "μεροληπτικό" νόμισμα. και ότι η πιθανότητα για "κορώνα", δεν είναι πια 1/2, αλλά ας πούμε ότι είναι 0,6, ενώ η πιθανότητα για "γράμματα" είναι 0,4. Οπότε, ποιο είναι το περιεχόμενο πληροφορίας αυτού; Ας γράψουμε το μαθηματικό τύπο: το Η, το περιεχόμενο πληροφορίας του "μεροληπτικού" νομίσματος, είναι ίσο με μείον το άθροισμα των δύο όρων, που εδώ είναι 0,6 επί τον λογάριθμο με βάση 2 του 0,6, συν 0,4 επί τον λογάριθμο με βάση 2 του 0,4, που στο κομπιουτεράκι μου βγαίνει περίπου ίσο με 0,971 "κομμάτια πληροφορίας". Άρα, έχουμε μικρότερο περιεχόμενο πληροφορίας, από ό,τι στο αμερόληπτο νόμισμα. το οποίο είχε περιεχόμενο πληροφορίας ίσο με 1 bit - "κομμάτι", και αυτό φυσικά γιατί εδώ το νόμισμα είναι πιο προβλέψιμο - είναι πιο πιθανό να έρθει "κορώνα" από ό,τι "γράμματα". Τώρα θα κάνω κάτι πιο γενικό και θα εξετάσω ένα παράδειγμα περιεχομένου πληροφορίας ενός κειμένου. Ας υποθέσουμε ότι έχω ένα κείμενο. Το ερώτημα είναι: ποιο είναι το περιεχόμενο πληροφορίας αυτού του κειμένου; Υπάρχουν, στην πράξη, διάφοροι τρόποι για να το υπολογίσουμε αυτό, και οι άνθρωποι υπολογίζουν το περιεχόμενο πληροφορίας ενός κειμένου, π.χ. ως ένα μέτρο της πολυπλοκότητας αυτού, αλλά αυτό που θα κάνω εγώ θα είναι να εξετάσω τη συχνότητα των διαφόρων λέξεων ως ένα μέτρο της πιθανότητάς τους. Για κάθε λέξη, θα γράψω τη λέξη, τη συχνότητά της, και κατόπιν, αυτό που θα ονομάσω τη "σχετική της συχνότητα". Οπότε, ας δούμε τι γίνεται: η λέξη "να"εμφανίζεται δύο φορές, στο "να ζεις ή να μην ζεις", αλλά υπάρχουν 6 λέξεις συνολικά, οπότε θα ονομάσω τη σχετική συχνότητα της λέξης αυτής 2/6, άρα μέσα στις 6 λέξεις αυτή εμφανίζεται 2 φορές. Το "ζεις" εμφανίζεται επίσης 2 φορές, το "ή" εμφανίζεται 1, το "μην" επίσης μία. Θα καταστήσουμε αυτές τις σχετικές πιθανότητες, πιθανότητες των λέξεων, κι έτσι μπορούμε να πούμε ότι το περιεχόμενο πληροφορίας αυτού του κειμένου είναι ίσο με: μείον το άθροισμα των όρων που αντιστοιχούν σε κάθε μήνυμα, δηλαδή, για κάθε λέξη, την πιθανότητά της επί το λογάριθμο με βάση 2 της πιθανότητας, και θα το υπολογίζουμε αυτό για κάθε λέξη.... Και το άθροισμα είναι τελικά ίσο με 1,9. Συνεπώς, αυτός είναι ένας τρόπος να υπολογίζουμε το περιεχόμενο πληροφορίας ενός τμήματος κειμένου - θα δούμε λίγο περισσότερα πάνω σε αυτό, στις Ασκήσεις.