existe como un misterio acerca del 
aprendizaje profundo y podemos decir que

este misterio tiene 2 lados; 
tradicionalmente se piensa que las redes

neuronales, que esencialmente lo que hacen
es encontrar patrones de correlaciones y

asociaciones, no lo hacen muy bien en
tareas que están muy estructuradas como

el lenguaje que tiene mucha sintáxis y
reglas aparentemente o juegos de tablero

que tienen muchas reglas que tienen que 
ser seguidas y parece ser que en verdad

las redes neuronales pueden hacer este
tipo de tareas y lo pueden hacer mejor que

muchos otros algoritmos diseñados a mano

no sabemos exactamente por qué es, pero
parece ser que con el suficiente

entrenamiento y datos uno puede en verdad
aprender dominios muy estructurados aún

cuando se busquen correlaciones y 
asociaciones

el otro misterio de las redes profundas es
por qué lo hacen tan bien; en un video

anterior hablamos de lo que llamamos
performance de la generalización, en forma

típica no queremos modelizar con sólo 
algunos parámetros debido a que va a ser

muy simple y no vamos a querer modelar 
con muchos parámetros debido a que sólo va

a memorizar el conjunto de entrenamiento

ahora bien muchas arquitecturas de redes 
neuronales profundas tienen millones o aún

miles de millones de parámetros, la teoría
tradicional acerca de la performance del

aprendizaje de máquina, tienen demasiados
parámetros y deberían quedar

sobreajustados y no responder muy bien con
datos que nunca antes vió; pero este no

parece ser el caso; de hecho aún cuando
tienen muchos muchos parámetros, millones

o miles de millones, parece que nunca 
quedan sobreajustados, no parece que sólo

memorizaran el conjunto de datos de
entrenamiento y que no puedan generalizar

voy a decir que no entendemos muy bien por
qué sucede esto y esta pregunta es un área

de investigación muy grande en la teoría
del aprendizaje de máquina hoy en día, voy

a decir que una diferencia entre otras 
clases de algoritmos y las redes

neuronales profundas que se observa es que
las redes neuronales profundas y las redes

neuronales en general a veces no lo hacen
bien con pequeños conjuntos de datos, a

medida que se agregan más y más datos,
parece que cada vez lo hacen mejor y mejor

muchos otros algoritmos, lo hacen bien por
un tiempo, pero se estancan, no lo hacen

bien luego de la 2da vuelta, por así decir
pero las redes profundas parece que pueden

resolver con todos estos datos adicionales
y cada vez hacerlo mejor y otra vez no

entendemos bien por qué sucede esto y hay
muchas investigaciones que se están

haciendo en este campo

una idea de alto nivel acerca de por qué
las redes neuronales profundas lo hacen

tan bien es por algo que se llama

supuestos generales acerca de la clase de
datos y la clase de patrones en los que

estamos interesados; recuerden que, por
ejemplo, les di el diagrama de una red

neuronal profunda que puede reconocer
caras y la forma en que las reconoce es de

alto nivel y cada vez más niveles de
patrones a medida que subimos en los

niveles, empezando desde el comienzo hasta
las características de las caras y caras

hasta el final; podría ser que usar las
arquitecturas de las redes neuronales

profundas le estamos diciendo al algoritmo
del aprendizaje de máquina que los datos

que tenemos tiene alguna clase de 
jerarquía estructural, tiene alguna clase

de jerarquía con niveles más bajos y
niveles más altos en los conceptos y aún

más que el concepto del nivel más bajo
puede que se recombine de muchas formas

para poder construir los conceptos de los
niveles más altos

sin embargo, otra vez, esta es una forma
muy abstracta de pensar acerca de esto y

no tenemos las herramientas teóricas
adecuadas para entender esta clase de

supuestos conceptuales para poder usarlos
en nuestros algoritmos de aprendizaje de

máquina usando arquitecturas profundas, es
otra área de la investigación activa del

aprendizaje de máquina

me gustaría resumir y decir que

el aprendizaje profundo es esencialmente
el uso de una arquitectura de redes

neuronales con muchos niveles ocultos, a
veces con estructuras de conectividad

entre los niveles y dentro de los niveles
más muchos datos, mucho poder de cálculo a

veces con uso de placas de juego aplicadas
a toda clase de problemas de aprendizje de

máquina y que realmente son exitosos en
toda clase de problemas de aprendizaje de

máquina; hemos visto las tendencias del
aprendizaje profundo y en forma más

general del aprendizaje de máquina con los
recientes desarrollos de esa clase de

algoritmos; en el próximo video vamos a
hablar algo acerca de las características

del aprendizaje de máquina y donde puede
fallar