Download 3-Estadística descriptiva

Document related concepts

Parámetro estadístico wikipedia , lookup

Medidas de tendencia central wikipedia , lookup

Asimetría estadística wikipedia , lookup

Cuantil wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Transcript
Estadística descriptiva
Temas
• Poblaciones y muestras
• Tipos de variables y escalas de medición.
• Exploración de datos: Métodos graficos y
numéricos
• Ejemplos aplicados
• Taller
Métodos estadísticos
• Conjunto de técnicas que facilitan las labores de
colectar, resumir, resaltar, comparar y en general,
analizar la información contenida en una muestra, de
manera que sea posible generalizar adecuadamente
los hallazgos a la población de origen.
• Variables: Es una carácterística de las unidades
muestrales que varia o cambia de una unidad a otra.
• Las variables pueden ser cualitativas o cuantitativas.
Variable cualitativas y cuantitativas.
• Variable cualitativas: llamadas atributos o
categorías, no pueden medirse numéricamente.
• Variable cuantitativas: Son las que se miden
numericamente.
Clasificación de las variables
cuantitativas.
• Se pueden clasificar como discretas y continuas
• Variables discretas: una variable es discreta si entre dos
valores contiguos no existe ningún otro valor posible.
Corresponden a conteos y no tienen decimales.
• Ejemplos: precio en el taximetro, número de lechones
nacidos vivos, número de respuestas buenas en un
parcial, etc.
• Variables continuas: son variables que pueden
presentar infinitos valores entre cualquier par, sn
importar lo cercanos que se encuentren entre si.
Ejemplos: Litros de leche producidos, Espesor de la grasa
dorsal, altura a la cruz, etc
¿Que variables conoces y a que tipo corresponde?
Escalas de medición
• Son sistemas usados para registrar la información
contenida en una unidad muestral. Constituyen una
forma detallada de clasificar las variables, de acuerdo
a la cantidad de información.
Escala nominal
• Escala de medición mas débil (menos información).
• Los valores sólo indican categorías, sin que exista un
orden entre ellas.
• Es posible que las etiquetas sean numericas
Escala Ordinal
• Tienen más información, ya que existe un orden
natural entre las categorías de la escala (jerarquia).
• Sin embargo la distancia entre todos los pares de
categorías adyacentes no son iguales.
Escala numérica (de intervalo y de
razón)
• El valor asociado con cada nivel de la escala indica la
cantidad o intensidad de la carácterística medida.
• La distancia entre cualquier par de niveles adyacentes es
la misma, lo que permite hacer comparaciones.
• Si la escala posee un valor de referencia cero (escala de
razón), correspondiente a la ausencia de la característica
medida, se podrán establecer relaciones de razón.
• Esta escala permite mayor posibilidad de análisis
Escala de intervalo
Población, muestra, parámetro y
estadístico
La estadística
Estadística descriptiva
• Es la rama de la estadística que se dedica a la
presentación, organización y resumen de los datos,
usando tablas, gráficos y medidas numéricas de
resumen, que representan y resaltan las
carácterísticas esenciales de la muestra ó de la
población.
• Tres herraminetas básicas:
1. Medidas de resumen
2. Tablas
3. Gráficos
Estadística descriptiva
Medidas de resumen
• Son valores numéricos que sirven para resumir la
información contenida en un grupo de datos.
• Se dividen en:
1.
2.
3.
4.
Medidas de tendencia central
Medidas de dispersión
Medidas de forma
Medidas de posición
Medidas de tendencia central
• Caracterizan el centro de un conjunto de datos.
Representando los datos. Existen diferentes
referentes de centralidad:
• LA MEDIA:
La media
• Es la medida de tendencia central más popular y usada en
estadística descriptiva e inferencial
• La mayor debilidad de la media es la falta de robustez ante
valores extremos
¿Pero que valor representa mejor los datos?
Ejemplo práctico
• El Hato La Julita produce leche con ganado Holstein.
En el control de leche se obtuvieron los siguientes
registros productivos de 20 vacas:
Obtener la media para producción de leche y para el consumo. ¿Para que
sirven estos datos en la práctica?
La mediana
• Es el valor central de un conjunto ordenado de datos
• Por ejemplo para el conjunto de datos:
{2, 4, 5, 6, 8} la mediana es 5
Ejercicio: Calcule la mediana para {2.4, 3.7, 2.2, 5.2, 3.4}
La mayor ventaja de la mediana respecto a la media es
la robustez ante la presencia de valores extremos.
Mediana
• Compruebalo tu mismo: Calcula la mediana para el
siguiente conjunto de datos:
• {3, 5, 6, 8, 9} y {3, 5, 6, 8, 20}
• ¿Y si el número de valores es par?
• Se obtiene como el promedio de los dos valores
centrales. Ejemplo:
• {2, 6, 4, 8, 9, 12}
Estadísticos de orden
Ejercicio
• De los datos del hato La Julita
¿Cual es la mediana para la
producción de leche y el
consumo de concentrado?
¿Cual es el estadístico de
orden 3 para la producción de
leche y el consumo de
concentrado?
La moda
• El significado estadístico es similar al que le damos en
nuestra sociedad.
• Moda es lo que más se usa, lo que más se ve, lo que
aparece con más frecuencia.
• Es el valor que más se repite en un conjunto de datos.
Ejemplo: ¿cual es la moda de estos datos?
• {2, 3, 5, 12, 9, 4, 4, 2, 7, 9, 2},
• Un conjunto de datos puede tener una moda (unimodal),
dos modas (bimodal), varias modas (multimodal) ó
ninguna moda.
Compruebalo túmismo
¿Quien se atreve?
Ejercicio
• De los datos del hato la Julita:
¿cuál es la moda
producción de leche?
de
la
¿cuál es la moda del consumo
de concentrado?
Simetria
Media ponderada
• Es una media modificada, donde cada uno de los
valores tienen un peso ó ponderación especifica, de
tal manera que algunos valores pesan más que otros.
¿Que Ejemplo conocen?
Ejemplo 1
• Considere 4 asignaturas con diferentes número de
créditos
¿Quien lo hace? ¿cómo se expresa la formula?
Ejemplo2
Ejercicio práctico
¿Cual es la media de todos los años para el peso al nacer?
¿Y para las demás variables? Ejercicio para la próxima
Recorrido medio
• Es una medida de tendencia central netamente
descriptiva. Esta medida normalmente se utiliza para
calcular la temperatura media de un día cualquiera. Es
el valor que esta en medio del mínimo y el máximo
(promedio de extremos).
• Ejemplo: Cual es la temperatura medía de un dia si los
resultados de temperatura tomada cada dos horas
fueron:
• {20, 22, 24, 24.5, 25, 27, 26, 25, 25, 25, 20, 18}
Medidas de dispersión
MEDIDAS DE DISPERSIÓN
• Las medidas de dispersión indican que tan lejos o tan
cerca se encuentran los datos de una medida de
tendencia central (homogeneidad o heterogeneidad).
• Considere los siguientes datos grupos de datos:
Medidas de dispersión
• Teniendo en cuenta lo anterior, las medidas de
tendencia central no son suficiente para caracterizar
un conjunto de datos.
• Hacen falta otras medidas para calificar el grado de
dispersión de los datos.
Medidas de tendencia central y
dispersión
Varianza
• Es la más popular de las medidas de dispersión.
• Es la base de todos los métodos de estadística
inferencial.
• Se obtiene como el promedio (en poblaciones) ó el
cuasi promedio (en muestras) de la distancia
cuadratica entre cada valor y la media.
Varianza
• En el ambito investigativo usualmente no se accede
a toda la población, sino a la muestra, con base a la
cual se hace la inferencia estadística.
• ¿Puedes demostrar esto?
Varianza (consideraciones)
• Las varianzas sólo se pueden comparar entre
conjuntos de datos que tengan unidades iguales
(Ejemplo: cm, m, ºC, etc).
• A mayor varianza mayor es la dispersión de los datos.
• No es posible interpretar la varianza debido a que se
expresa en unidades al cuadrado.
• No puede ser negativa.
Ejercicio práctico: Varianza
• Calcule la varianza para el consumo y la producción de leche
en el hato la Julita.
¿Las
medidas
comparables?
son
¿cuáles son las unidades la
varianza para cada variable?
Desviación estandar
• Es la raíz cuadrada de la varianza.
• Como se expresa en las mismas unidades de la
variable puede ser usada para hacer interpretaciones
y describir los datos.
• No ofrece ninguna información adicional a la
varianza, sólo que permite una mejor interpretación.
Pregunta
Ejercicio práctico
• Determine la desviación estandar para la producción de leche y
el consumo de concentrado.
¿Cual de los dos varia más?
¿Qué unidades presentan?
Coeficiente de variación
• Es una medida de dispersión relativa
• Se expresa como el porcentaje de desviación estandar
sobre la media.
• Permite comparar la dispersión de dos grupos de
datos con diferente centro.
• Es una medida adimensional, por lo tanto permite
comparar la variabilidad de conjunto de datos con
diferentes unidades
Ejercicio práctico: CV
Determine coeficiente de variación para la producción de
leche y el consumo de concentrado.
¿cuál de los dos varia más?
¿qué unidades tiene cada uno?
Desviación Mediana
• Es una medida de dispersión donde la medida de
tendencia central es la mediana. Se determina así:
• Sólo se debe usar cuando se usa la mediana como medida
de tendencia central, no está bien combinar estadísticos.
Ejercicio: Desviación Mediana
• Determine la desviación mediana para la producción de
leche y el cosumo de alimento.
¿Hay diferencia con respecto a la
desviación estandar?
¿Pueden
compararse
desviaciones entre sí?
las
¿cuáles son las unidades de
medida?
Recorrido
• Se calcula como la diferencia entre los dos valores
extremos del conjunto de datos, indicando la distancia
entre el valor menor y el mayor.
• Por estar basada en dos valores es una medida que
contiene muy poca información respecto a otras medidas
de dispersión.
• Existe otra medida llamada rango que indica simplemente
el valor menor respecto al mayor, es decir que enmarca el
intervalo de los valores muestrales.
Ejercicio: Recorrido
• Determine el recorrido para la producción de leche y
para el consumo de concentrado.
¿cuál es el rango para la
producción de leche?
¿cuál es el rango para el
consumo de concentrado?
MEDIDAS DE FORMA
Medidas de forma
• Aunque las medidas de tendencia central y de
dispersión reflejan importantes aspectos de los datos,
estos no cubren el panorama completo en relación a
su distribución.
• Conocer la distribución permite obtener información
adicional para analizar los datos.
Medidas de forma (consideración).
• Tenga en cuenta los siguientes datos:
• Ambos conjuntos de datos estan centrados en el mismo
punto (media=9.475) y tienen la misma varianza (S=
4.26807). Sin embargo es claro que los conjuntos de
datos difieren en su concentración respecto a la media.
Coeficiente de asimetria
• Mide el grado de asimetria en la dispersión de los
datos con respecto a la media.
• Pueden tipificarse las siguientes situaciones:
Distribución simetrica (a=0), asimetria a la derecha
(a>0) y asimetria a la izquierda (a<0).
Coeficiente de asimetria
• Distribución simétrica (a=0)
• Cuando hay simetria perfecta, la media, la mediana y
la moda toman el mismo valor.
Coeficiente de asimetria
• Asimetría a la derecha (a>0)
• Cuando hay asimetría a derecha, la moda<la
mediana<la media
Coeficiente de asimetria
• Asimetría a la izquierda (a<0)
• Cuando hay asimetría a izquierda, la media<la
mediana<la moda
Ejercicio
¿Como se interpretan los resultados?
Ejercicio
• Determine el coeficiente de asimetria para la producción de
leche y para el consumo de concentrado.
¿Que podemos decir de la simetría?
Ejemplo
Ejemplo (continuación)
Coeficiente de curtosis (k)
• Evalua como es la concentración de los datos con
alrededor de la media. Indica que tan “puntiaguda”
es una distribución.
• Esta medida toma como referencia la distribución
normal, la cual es mesocúrtica.
Coeficiente de curtosis (k)
Según el coeficiente de curtosis las distribuciones
pueden ser:
Leptocúrticas (k>0): Cuando un conjunto de datos tiene
una mayor concentración alrededor de la media que la
distribución normal (mas puntiaguda).
Mesocurtica(k=0): Cuando las distribución de datos es
media alrededor de la media (como la curva normal).
Platicurtica(k<0): Cuando la distribución de datos
alrededor de la media, es menor a la existente en una
distribución normal (forma achatada, aplastada).
Coeficiente de curtosis (k)
K>0
K=0
K<0
Ejercicio
Ejercicio
• Determine el coeficiente de curtosis para la producción de
leche y para el consumo de concentrado.
¿Que podemos decir de la curtosis?
Medidas de posición
Medidas de posición
• Son medidas que permiten estimar en que punto de
la distribución de los datos se encuentra un
determinado valor.
• Cuantiles: Son la expresión más general de las
medidas de posición. El valor que toma el cuantil “X”,
es el valor que deja por debajo de si el “X” % de los
datos.
• Se debe trabajar con datos ordenados (de menor a
mayor).
Medidas de posición
Ejemplo
• Con los datos de producción determine por debajo de
que valor se encuentran el 30% de los datos (Cuantil
treinta).
Primero los debo ordenar de menor a mayor:
Quedan Así:
Ejemplo (continuación)
1. (n*X/100)=(20*30/100)=6, como es entero,
entonces:
2. Cuantil treinta={X[n*X/100] + X[(n*X/100)+1}/2
={X(6) + X(6+1)}/2 = {19.3 + 19.3}/2
=19.3
3. Interpretación: El treinta porciento de los datos
estan por debajo de 19.3 litros, por lo tanto el 30%
de los individuos del Hato la Julita producen menos
de 19.3 litros de leche por día.
Cuartiles
• Son los valores que dividen el conjunto de datos en
cuatro parte.
• Q1: Primer cuartil: es el valor por debajo del cual se
encuentran el 25% de los datos.
• Q2: Segundo cuartil: es el valor por debajo del cual
se encuentran el 5o% de los datos (corresponde a la
mediana).
• Q3: Tercer cuartil: es el valor por debajo del cual se
encuentran el 75% de los datos.
¿Y el Q4?
Ejemplo
• Con los datos de producción de leche determine el cuartil
tres (Q3).
Primero los debo ordenar de menor a mayor:
Quedan Así:
Ejemplo (continuación)
• Q3=cuantil 75, entonces:
1. (n*X/100)=(20*75/100)=15, como es entero,
entonces:
2. Cuantil treinta={X[n*X/100] + X[(n*X/100)+1}/2
={X(15) + X(15+1)}/2 = {22.4 + 22.5}/2
=22.45
3. Interpretación: El 75% de los datos estan por
debajo de 22.45 litros, por lo tanto el 75% de los
individuos del Hato la Julita producen menos de
22.45 litros de leche por día.
Deciles
• Son valores que dividen el conjunto de datos en 10
partes.
• D1: Decil uno: Es el valor por debajo del cual esta el
10% de los datos.
• D2: Decil dos: Es el valor por debajo del cual esta el
20% de los datos.
• D3 Decil tres: Es el valor por debajo del cual esta el
30% de los datos.
• …y así hasta el decil diez.
Percentil
• Divide la información en centesimas, osea en 100
partes.
• P1: Percentil 1: Es el valor por debajo del cual esta el
1% de los datos.
• P2: Percentil 2: Es el valor por debajo del cual esta el
2% de los datos.
• P3: Percentil 3: Es el valor por debajo del cual esta el
3% de los datos.
• …Y así hasta el percentil 100.
Ejemplo
• De los siguientes datos determine el decil dos
• Para A
• D2: Decil dos = Cuantil veinte =
• (n*X/100)=(9*20/100)=1.8 no es entero, entonces:
Cuantil veinte=X(|n*X/100|+1), teniendo en cuenta que: el
menor entero contenido en 1.8 es 1, Entonces:
X(1+1)= X(2) = 4 ¿cómo se interpreta?
Determine el cuartil 3
Ejercicio
• Obten las equivalencias entre las diferentes medidas
de posición,
• Por ejemplo: Mediana=Q2=D5=P50
• Calcule las seguientes medidas para el conjunto de
datos que de consumo de concentrado.
• D3
• Q2
• P20
• D5
Tablas
Tablas de frecuencias
• Son arreglos tabulares que resumen, de manera
estructurada, la información de una variable,
permitiendo visualizar su distribución.
• Si consideramos la estatura (cm) de un grupos de
estudiantes de grado séptimo, es posible tabular
cada uno de los valores de altura, indicando sus
correspondientes frecuencias de repetición, a eso se
le llama tabla de frecuencias.
• Hay dos tipos de frecuencias llamadas absolutas o
relativas que se dividen a su vez en simples ó
acumuladas.
Ejemplo
Ejemplo
• La tabla de frecuencias sería:
Es muy útil cuando hay muchas medidas que se repiten, Se usan
constantemente en genética.
Distribución de frecuencia
agrupada.
• Suponga que se mide la estatura (cm) de los bovinos
de diferentes edades, incluyendo novillas:
Como no hay ningún dato que se repite la tabla de frecuencias tendría 20 niveles
Distribución de frecuencia
agrupada.
• En estos casos se usan tablas agrupadas por
intervalos y así la información quedará reducida.
¿Cuantos intervalos se deben
tomar?
• Generalmente lo decide el analista.
• Mientras más intervalos se usen menos información
se pierde, pero la tabla puede resultar menos
informativa.
• Una propuesta popular es la de Sturges, que permite
estimar el número de intervalos con la expresión:
• K=1+3.32*log(n)
• Por lo general se recomienda usar mas de 4
intervalos y menos de 20.
Si n=20, ¿cuantos intervalos puedo tomar?
Ejemplo
• Haga una tabla de frecuencia agrupada para la
producción de leche y el consumo de concentrado.
¿En que intervalo están la mayoria de
las vacas?
Graficos
Graficos
• Son el principal instrumento del análisis exploratorio.
• Permite observar las principales características de un
conjunto de datos
• Diagrama de dispersión:
• Se contruye graficando cada valor con un punto
referenciado a un eje. El más simple corresponde a
una sola variable.
Dispersión con dos variables
• Permite observar la variación conjunta y los patrones
de variación de dos variables.
• Es posible hacer diagramas de dispersión de tres
variables (tridimensionales), pero su interpretación
es difícil.
Ejercicio
Ejercicio
• Haga el diagrama de dispersión entre el consumo de
concentrado y la producción de leche.
¿Encuentra alguna relación?
Histograma de frecuencias
• Es la representación gráfica de la tabla de
distribución de frecuencias de una variable numérica.
• En el eje horizontal se ponen los diferentes intervalos
que conforman el rango de la variable.
• En el eje vertical se presenta la frecuencia (absoluta ó
relativa) de cada intervalo.
Ejercicio
• Defina el número de intervalos y haga el histograma
de frecuencias para la producción de leche.
¿Se parece a la curva normal?
Poligono de frecuencias
• Es una presentación asociada con el histograma de
frecuencias.
• La información de cada intervalo se presenta por un
punto, el cual se localiza en el punto medio del intervalo y
en la correspondiente frecuencia
• Se unen los puntos por una linea continua
Ejercicio
• Determine el poligono de frecuencias para la
producción de leche.
¿Se parece a una curva normal?
Diagrama de barras
• Se usa para representar graficamente la tabla de
frecuencias de una variable nominal.
• Para cada categoria se usa un barra (vertical u
horizontal) que representa su frecuencia.
Ejercicio: 3 Razas de bovinos
Diagrama de sectores
• Se utiliza también para representar la tabla de
frecuencias de una variable nominal. En este tipo de
diagramas el circulo representa la totalidad de la
muestra.
• A cada categoria se le asigna un sector, cuya área es
proporcional a su frecuencia.
Ejercicio: 3 Razas de bovinos
Diagramas de cajas y bigotes
Diagramas de cajas y bigotes
• Este diagrama resume algunos aspectos esenciales de la
distribución
• La caja se extiende desde el cuartil inferior hasta el cuartil
superior (cubriendo la mitad central de la muestra).
• La línea central marca la mediana y una cruz roja marca la
media.
Diagrama de cajas y bigotes
• Si la distribución es simetrica, la media y la mediana
coinciden.
• La media estará a la derecha de la mediana en
distribuciones con asimetría a derecha y estará a la
izquierda de a mediana en distribuciones con asimetría a
izquierda.
• Los bigotes se extienden hasta los menores y mayores
valores adyacentes, es decir, los que no se alejen de la
caja más de 1.5 veces el recorrido intercuartil.
• Los valores que están entre 1.5 y 3 veces el recorrido
intercuartil, se denominan valores extremos y se
representan mediante puntos.
Diagrama de cajas y bigotes
• Los valores que están más allá de tres recorridos
intercuartiles, se denominan valores muy extremos y
se distinguen por otro simbolo (color).
A menudo se usan gráficos múltiples
para comparar grupos de datos.
Ejercicio
• Elabora el diagrama de bigotes para la producción de
leche.
¿Hay datos extremos ó muy extremos?