existe como un misterio acerca del aprendizaje profundo y podemos decir que este misterio tiene 2 lados; tradicionalmente se piensa que las redes neuronales, que esencialmente lo que hacen es encontrar patrones de correlaciones y asociaciones, no lo hacen muy bien en tareas que están muy estructuradas como el lenguaje que tiene mucha sintáxis y reglas aparentemente o juegos de tablero que tienen muchas reglas que tienen que ser seguidas y parece ser que en verdad las redes neuronales pueden hacer este tipo de tareas y lo pueden hacer mejor que muchos otros algoritmos diseñados a mano no sabemos exactamente por qué es, pero parece ser que con el suficiente entrenamiento y datos uno puede en verdad aprender dominios muy estructurados aún cuando se busquen correlaciones y asociaciones el otro misterio de las redes profundas es por qué lo hacen tan bien; en un video anterior hablamos de lo que llamamos performance de la generalización, en forma típica no queremos modelizar con sólo algunos parámetros debido a que va a ser muy simple y no vamos a querer modelar con muchos parámetros debido a que sólo va a memorizar el conjunto de entrenamiento ahora bien muchas arquitecturas de redes neuronales profundas tienen millones o aún miles de millones de parámetros, la teoría tradicional acerca de la performance del aprendizaje de máquina, tienen demasiados parámetros y deberían quedar sobreajustados y no responder muy bien con datos que nunca antes vió; pero este no parece ser el caso; de hecho aún cuando tienen muchos muchos parámetros, millones o miles de millones, parece que nunca quedan sobreajustados, no parece que sólo memorizaran el conjunto de datos de entrenamiento y que no puedan generalizar voy a decir que no entendemos muy bien por qué sucede esto y esta pregunta es un área de investigación muy grande en la teoría del aprendizaje de máquina hoy en día, voy a decir que una diferencia entre otras clases de algoritmos y las redes neuronales profundas que se observa es que las redes neuronales profundas y las redes neuronales en general a veces no lo hacen bien con pequeños conjuntos de datos, a medida que se agregan más y más datos, parece que cada vez lo hacen mejor y mejor muchos otros algoritmos, lo hacen bien por un tiempo, pero se estancan, no lo hacen bien luego de la 2da vuelta, por así decir pero las redes profundas parece que pueden resolver con todos estos datos adicionales y cada vez hacerlo mejor y otra vez no entendemos bien por qué sucede esto y hay muchas investigaciones que se están haciendo en este campo una idea de alto nivel acerca de por qué las redes neuronales profundas lo hacen tan bien es por algo que se llama supuestos generales acerca de la clase de datos y la clase de patrones en los que estamos interesados; recuerden que, por ejemplo, les di el diagrama de una red neuronal profunda que puede reconocer caras y la forma en que las reconoce es de alto nivel y cada vez más niveles de patrones a medida que subimos en los niveles, empezando desde el comienzo hasta las características de las caras y caras hasta el final; podría ser que usar las arquitecturas de las redes neuronales profundas le estamos diciendo al algoritmo del aprendizaje de máquina que los datos que tenemos tiene alguna clase de jerarquía estructural, tiene alguna clase de jerarquía con niveles más bajos y niveles más altos en los conceptos y aún más que el concepto del nivel más bajo puede que se recombine de muchas formas para poder construir los conceptos de los niveles más altos sin embargo, otra vez, esta es una forma muy abstracta de pensar acerca de esto y no tenemos las herramientas teóricas adecuadas para entender esta clase de supuestos conceptuales para poder usarlos en nuestros algoritmos de aprendizaje de máquina usando arquitecturas profundas, es otra área de la investigación activa del aprendizaje de máquina me gustaría resumir y decir que el aprendizaje profundo es esencialmente el uso de una arquitectura de redes neuronales con muchos niveles ocultos, a veces con estructuras de conectividad entre los niveles y dentro de los niveles más muchos datos, mucho poder de cálculo a veces con uso de placas de juego aplicadas a toda clase de problemas de aprendizje de máquina y que realmente son exitosos en toda clase de problemas de aprendizaje de máquina; hemos visto las tendencias del aprendizaje profundo y en forma más general del aprendizaje de máquina con los recientes desarrollos de esa clase de algoritmos; en el próximo video vamos a hablar algo acerca de las características del aprendizaje de máquina y donde puede fallar