por último vamos a correr nuestro modelo
en el espacio de conducta, tenemos algunas

metas que queremos ver y sólo para 
recordarles a todos de nuevo, vamos a

mirar este experimento en blanco del 
espacio de conducta; este es el que en

verdad vamos a correr, vamos a modificar
el número de personas en el modelo y los

resultados de correrlo obtenemos algunas
salidas que se ven así, yo lo vuelco en un

excel así vemos más detalles

ahora que corrieron el modelo en el 
espacio de conducta y obtuvieron algunos

datos; si tienen excel en sus máquinas,
simplemente tienen que hacer doble click

en el archivo csv y se abrirá y lo que 
verán es algo así y yo lo voy a usar en

forma muy rápida simplemente para que vean
como se ven los datos

esperen que lo agrando un poco; ustedes 
ven que tenemos una información de

encabezado, tenemos el nombre del archivo,
el nombre del experimento, cuando fue que

corrió y acá describe cual fue el mundo,
entonces, dicho sea de paso, nuestro

experimento tiene un crecimiento de la
población, desde 50 250, no es una

densidad poblacional muy grande, pero si
tomamos a todo el mundo, en forma

constante, entonces sí la densidad de
población es grande, debido a que se

aumenta la población, mantendiendo el 
mismo espacio a medida que crece la

población

ustedes ven este número de corrida y este
número de corrida es solamente un número

único que se corresponde con esa corrida
del modelo y que devuelve esos resultados

ustedes notarán que está fuera de los 
bordes, esto es debido a que desde que

NetLogo es multinuclear y así podemos
sacarle el jugo al multinuclear en

nuestras máquinas, con cada corrida la 1ra
que termina, en el núcleo que sea se va a

escribir en este archivo, en este caso es
el núcleo 4 el que terminó 1ro, de hecho

el núcleo 1 es el último que terminó y eso
es porque el núcleo 1 fue el que estuvo

corriendo siempre en la interfaz gráfica y
debido a ello en verdad lleva más tiempo

que los otros, claro ustedes pueden 
ordenar estos datos por el número de

corrida, si así lo quieren,

en Excel y de esa manera obtendrán un 
orden, en términos de las formas de

respuesta; bueno del orden original; pero
acá tenemos todas las variables, todos los

parámetros, disculpen, que incorporamos
cuando creamos el modelo y también tenemos

los tics, que son la variable de salida, 
dicho sea de paso, en realidad no

necesitamos los tics de salida, debido a 
que NetLogo por defecto los muestra como

salida; el paso en el cual el modelo 
termina, pero yo lo agregué para

asegurarnos que lo íbamos a tener, hacerlo
más explícito

y ustedes notarán que el número de 
personas va desde 50 hasta 250

esta es una forma rápida de mirar los 
datos y es por eso que se los quise

mostrar; ahora vamos a movernos a R para
mostrarles en verdad como se pueden

resumir estos datos

antes de que empecemos a bucear en el 
código de R para resumir los datos,

hablemos un poco de por qué querríamos
resumir los datos; si recuerdan estamos

buscando los datos crudos, estamos 
buscando 10 corridas para 4 variables

diferentes de salida y eso es algo difícil
de hacer, especialmente a medida que los

datos se hacen más grandes, las variables
de entrada y salida también se hacen más

grandes y así es más simple de hacer; las
estadísticas de resumen son una forma de

caracterizar un conjunto de datos muy 
grande para entender qué es lo que está

sucediendo; no siempre funciona, si 
recuerdan el video de la distribución

completa que hice, algunas veces los
promedios pueden ser los mismos para

distribuciones muy diferentes, entonces
nos ayuda si visualizamos el patrón

completo de los datos, les voy a hablar un
poco de como lo pueden hacer en R y vamos

a hablar un poco de los gráficos, pero una
cosa que ustedes querrán hacer es calcular

el promedio y el desvío estándar de los
resultados de la salida, entonces en

nuestro caso estamos hablando de cuántos
tics llevó llegar al 100% tanto para 50

como para 100, 150 y 200 y acá calculé la
media, que es el tiempo promedio y el

desvío estándar, que es la medida que
indica cuanto varían, cuan lejos se

encuentran los otros números de esa media
la media se calcula tomando todos los

valores de los tics y dividido por el 
número total y el desvío estándar se

calcula tomando las diferencias entre cada
uno de los valores, elevándolos al

cuadrado, sumarizándolos, dividiendo por
el número de corridas que hicimos y

sacando la raíz cuadrada; esto nos indica
cuanto se dispersan los resultados de cada

corrida con respecto a la media; ustedes
no tienen por qué memorizar estas fórmulas

ya que están construídas dentro del R y 
pueden usar el R para hacer esto, así que

voy a parar y les voy a mostrar

ok pueden ver que estamos en la consola de
R, y traje esta población y este código

que escribí para analizar los datos y 
ustedes pueden usar un código muy similar

para analizar los datos de salida de su 
modelo, puedo enseñarles un poquito como

se hace esto; hay un par de cosas que 
aparecen acá y vamos a verlas 1 a 1, pero

esta no es una clase de R; yo lo uso así
que espero poder mostrarles un poco y voy

a tratar de enseñarles a medida que avanzo
pero si quieren tener una mirada más

profunda, hay muchos tutoriales muy buenos
en R; lo primero que hago es traerme esta

biblioteca hmisc y ésta es una biblioteca 
que nos brinda un tipo de cálculo que se

llama rpart, que me gusta; si por alguna 
razón, hmisc no está instalada en sus

máquinas, se usa el instalador de 
paquetes y esto les sirve para cualquier

otra biblioteca que ustedes quieran, por
alguna razón el CRAN, que es donde están

todos los paquetes para R, está caído, así
que no puedo verlos, pero normalmente lo

que hacen es obtener la lista y escribir 
el nombre del paquete y entonces instalar

esta dependencia, así como el resto de los
paquetes que quiera instalar, el hmisc,

así puedo obtener todos los paquetes en un
solo lugar; ahora que tenemos instaladas

las dependencias, porque el hmisc se basa 
en otros paquetes es que nos tenemos que

asegurar que tenemos todos los que 
necesitamos para que ese paquete pueda

correr; una vez que hice todo eso ya estoy
listo y no debería haber problemas, como

ven está cargando grid, lattice, survival;
en realidad no necestito todos estos, pero

no molesta traerlos a todos; la próxima
cosa que seguro notarán es este comando

llamado data = read.csv este es un comando
nativo del R que nos permite leer un

archivo csv y en donde se especifica el
archivo y que dice skip = 6, esto quiere

decir que va a saltearse la información 
del encabezado y va a traer todo cuando

cargue los datos y puedo ver esto en forma
rápida, puedo escribir head(DATA), que nos

permite ver los datos, las 1ras líneas de
datos y ustedes pueden ver que los datos

están todos ahí, la corrida, la variante, 
las conexiones, queda igual que como lo

vimos en excel; la siguiente línea es, 
dicho sea de paso, esta es una de esas

líneas que a veces confunde un poco a la
gente, yo les doy el código exactamente

como lo ven acá, pero ustedes necesitan
cambiar esta ruta a donde el archivo se

encuentra realmente, donde pusieron el
archivo de salida y si ustedes llaman al

modelo de forma diferente, puede que lo
hayan llamado "experimentos", algo que sea

diferente que el valor por defecto que 
escribe el NetLogo, entonces tienen que

cambiarlo también acá

esto es algo que a veces confunde a la 
gente cuando están levantando los datos,

la otra cosa que puede llegar a 
confundirlos es que los nombres de las

columnas están en un orden diferente que
el mío; en este modelo tengo esto debido a

que estamos corriendo exactamente el mismo
modelo; pero en otros casos, debemos hacer

cambios al modelo al mismo tiempo que yo
puede suceder, debido al hecho de que si

ustedes tienen sus parámetros listados en
forma diferente, entonces el orden será

diferente, una cosa que hay que verificar,
es cuando hacemos el encabezado de los

datos, verificar que coincida con los 
nombres de columnas que elegimos, en este

caso es correr, correr, variant, variant
grado, lazos por nodos, nro de personas,

nro de personas, número de infectados, 
número de infectados, decaimiento de la

enfermedad, decaimiento de la enfermedad,
pasos y últimos ticks; está todo ahí, está

todo ok, en la próxima línea, voy a correr

en R, en las PCs, perdón en la Mac, tienen
un comando que pueden correr, lo pueden

ver en sus notebooks

el próximo comando es el que usamos para
agregar los datos por el nro inicial de

personas, usando la función del promedio y
el promedio va a encontrar todos los casos

donde el nro inicial de personas es el 
mismo y entonces los promedia a los

resultados que aparecen en los renglones,
si corro esto

me va a mostrar algunos errores, debido a 
que "variant" no es un valor numérico y

entonces no puede promediarlo, pero si
miro a los resultados de esa corrida,

tengo 50, 100, 150 y 200 y entonces con un
comando puedo ver todos estos valores de

promedio que queríamos ver desde antes y
puedo hacer lo mismo con el desvío

estándar y la función que utilizo es sd en
vez de la del promedio, más allá de eso

los comandos son los mismos, dicho sea de
paso les comento que para llamar a las

cosas que están siendo agregadas como el
nro de personas, esto significa que, es la

1ra columna donde se van a cargar los
resultados agregados, nos permite verlos

ahí; ahora lo que hice luego es lo que se
llama el vínculo de la columna o cbind,

vínculo de columna, no la columna de 
flores y si hago eso

voy a combinar el nro inicial de personas
con el valor del promedio con un desvío

estándar, voy a sacar estas 3 columnas de
la fuente de datos; acá está el código

agg.mean; lo que quiero es que esta 
columna, quiero esta columna, perdón esta

columna, que es el desvío estándar y esta
columna que es el promedio, todos juntos y

corriendolo, puedo ver la salida y esta
tabla es exactamente la misma tabla,

quiero decir, con datos diferentes que la
vieja que acabamos de mirar; esto me

permite de resumir las estadísticas para
cualquiera de mis modelos y este es un

molde común que seguramente querrán usar
en muchos de sus modelos; van a cargar los

datos, van a renombrar las columnas debido
a que los nombres originales de las

columnas que NetLogo coloca no son muy
intuitivos y entonces van a agregar los

datos, usualmente usando el promedio y el
desvío estándar y así poder mirar luego

los resultados y ahora podemos ver con
claridad, que la 1ra respuesta a nuestra

pregunta, para el promedio, a medida
que la población crece, el tiempo promedio

que lo representa va para abajo

es interesante que parece que los errores
en 200 y 150 se solapan, debido a que el

de 15, 130, 148 y 21 para 148, se obtiene
127 que es eso; y como resultado de todo

esto, el promedio es estadísticamente
significativo entre 115 y 200, eso es algo

que hay que investigar, será algo tipo
como una presión sobre ellos