Download 3-Estadística descriptiva
Document related concepts
Transcript
Estadística descriptiva Temas • Poblaciones y muestras • Tipos de variables y escalas de medición. • Exploración de datos: Métodos graficos y numéricos • Ejemplos aplicados • Taller Métodos estadísticos • Conjunto de técnicas que facilitan las labores de colectar, resumir, resaltar, comparar y en general, analizar la información contenida en una muestra, de manera que sea posible generalizar adecuadamente los hallazgos a la población de origen. • Variables: Es una carácterística de las unidades muestrales que varia o cambia de una unidad a otra. • Las variables pueden ser cualitativas o cuantitativas. Variable cualitativas y cuantitativas. • Variable cualitativas: llamadas atributos o categorías, no pueden medirse numéricamente. • Variable cuantitativas: Son las que se miden numericamente. Clasificación de las variables cuantitativas. • Se pueden clasificar como discretas y continuas • Variables discretas: una variable es discreta si entre dos valores contiguos no existe ningún otro valor posible. Corresponden a conteos y no tienen decimales. • Ejemplos: precio en el taximetro, número de lechones nacidos vivos, número de respuestas buenas en un parcial, etc. • Variables continuas: son variables que pueden presentar infinitos valores entre cualquier par, sn importar lo cercanos que se encuentren entre si. Ejemplos: Litros de leche producidos, Espesor de la grasa dorsal, altura a la cruz, etc ¿Que variables conoces y a que tipo corresponde? Escalas de medición • Son sistemas usados para registrar la información contenida en una unidad muestral. Constituyen una forma detallada de clasificar las variables, de acuerdo a la cantidad de información. Escala nominal • Escala de medición mas débil (menos información). • Los valores sólo indican categorías, sin que exista un orden entre ellas. • Es posible que las etiquetas sean numericas Escala Ordinal • Tienen más información, ya que existe un orden natural entre las categorías de la escala (jerarquia). • Sin embargo la distancia entre todos los pares de categorías adyacentes no son iguales. Escala numérica (de intervalo y de razón) • El valor asociado con cada nivel de la escala indica la cantidad o intensidad de la carácterística medida. • La distancia entre cualquier par de niveles adyacentes es la misma, lo que permite hacer comparaciones. • Si la escala posee un valor de referencia cero (escala de razón), correspondiente a la ausencia de la característica medida, se podrán establecer relaciones de razón. • Esta escala permite mayor posibilidad de análisis Escala de intervalo Población, muestra, parámetro y estadístico La estadística Estadística descriptiva • Es la rama de la estadística que se dedica a la presentación, organización y resumen de los datos, usando tablas, gráficos y medidas numéricas de resumen, que representan y resaltan las carácterísticas esenciales de la muestra ó de la población. • Tres herraminetas básicas: 1. Medidas de resumen 2. Tablas 3. Gráficos Estadística descriptiva Medidas de resumen • Son valores numéricos que sirven para resumir la información contenida en un grupo de datos. • Se dividen en: 1. 2. 3. 4. Medidas de tendencia central Medidas de dispersión Medidas de forma Medidas de posición Medidas de tendencia central • Caracterizan el centro de un conjunto de datos. Representando los datos. Existen diferentes referentes de centralidad: • LA MEDIA: La media • Es la medida de tendencia central más popular y usada en estadística descriptiva e inferencial • La mayor debilidad de la media es la falta de robustez ante valores extremos ¿Pero que valor representa mejor los datos? Ejemplo práctico • El Hato La Julita produce leche con ganado Holstein. En el control de leche se obtuvieron los siguientes registros productivos de 20 vacas: Obtener la media para producción de leche y para el consumo. ¿Para que sirven estos datos en la práctica? La mediana • Es el valor central de un conjunto ordenado de datos • Por ejemplo para el conjunto de datos: {2, 4, 5, 6, 8} la mediana es 5 Ejercicio: Calcule la mediana para {2.4, 3.7, 2.2, 5.2, 3.4} La mayor ventaja de la mediana respecto a la media es la robustez ante la presencia de valores extremos. Mediana • Compruebalo tu mismo: Calcula la mediana para el siguiente conjunto de datos: • {3, 5, 6, 8, 9} y {3, 5, 6, 8, 20} • ¿Y si el número de valores es par? • Se obtiene como el promedio de los dos valores centrales. Ejemplo: • {2, 6, 4, 8, 9, 12} Estadísticos de orden Ejercicio • De los datos del hato La Julita ¿Cual es la mediana para la producción de leche y el consumo de concentrado? ¿Cual es el estadístico de orden 3 para la producción de leche y el consumo de concentrado? La moda • El significado estadístico es similar al que le damos en nuestra sociedad. • Moda es lo que más se usa, lo que más se ve, lo que aparece con más frecuencia. • Es el valor que más se repite en un conjunto de datos. Ejemplo: ¿cual es la moda de estos datos? • {2, 3, 5, 12, 9, 4, 4, 2, 7, 9, 2}, • Un conjunto de datos puede tener una moda (unimodal), dos modas (bimodal), varias modas (multimodal) ó ninguna moda. Compruebalo túmismo ¿Quien se atreve? Ejercicio • De los datos del hato la Julita: ¿cuál es la moda producción de leche? de la ¿cuál es la moda del consumo de concentrado? Simetria Media ponderada • Es una media modificada, donde cada uno de los valores tienen un peso ó ponderación especifica, de tal manera que algunos valores pesan más que otros. ¿Que Ejemplo conocen? Ejemplo 1 • Considere 4 asignaturas con diferentes número de créditos ¿Quien lo hace? ¿cómo se expresa la formula? Ejemplo2 Ejercicio práctico ¿Cual es la media de todos los años para el peso al nacer? ¿Y para las demás variables? Ejercicio para la próxima Recorrido medio • Es una medida de tendencia central netamente descriptiva. Esta medida normalmente se utiliza para calcular la temperatura media de un día cualquiera. Es el valor que esta en medio del mínimo y el máximo (promedio de extremos). • Ejemplo: Cual es la temperatura medía de un dia si los resultados de temperatura tomada cada dos horas fueron: • {20, 22, 24, 24.5, 25, 27, 26, 25, 25, 25, 20, 18} Medidas de dispersión MEDIDAS DE DISPERSIÓN • Las medidas de dispersión indican que tan lejos o tan cerca se encuentran los datos de una medida de tendencia central (homogeneidad o heterogeneidad). • Considere los siguientes datos grupos de datos: Medidas de dispersión • Teniendo en cuenta lo anterior, las medidas de tendencia central no son suficiente para caracterizar un conjunto de datos. • Hacen falta otras medidas para calificar el grado de dispersión de los datos. Medidas de tendencia central y dispersión Varianza • Es la más popular de las medidas de dispersión. • Es la base de todos los métodos de estadística inferencial. • Se obtiene como el promedio (en poblaciones) ó el cuasi promedio (en muestras) de la distancia cuadratica entre cada valor y la media. Varianza • En el ambito investigativo usualmente no se accede a toda la población, sino a la muestra, con base a la cual se hace la inferencia estadística. • ¿Puedes demostrar esto? Varianza (consideraciones) • Las varianzas sólo se pueden comparar entre conjuntos de datos que tengan unidades iguales (Ejemplo: cm, m, ºC, etc). • A mayor varianza mayor es la dispersión de los datos. • No es posible interpretar la varianza debido a que se expresa en unidades al cuadrado. • No puede ser negativa. Ejercicio práctico: Varianza • Calcule la varianza para el consumo y la producción de leche en el hato la Julita. ¿Las medidas comparables? son ¿cuáles son las unidades la varianza para cada variable? Desviación estandar • Es la raíz cuadrada de la varianza. • Como se expresa en las mismas unidades de la variable puede ser usada para hacer interpretaciones y describir los datos. • No ofrece ninguna información adicional a la varianza, sólo que permite una mejor interpretación. Pregunta Ejercicio práctico • Determine la desviación estandar para la producción de leche y el consumo de concentrado. ¿Cual de los dos varia más? ¿Qué unidades presentan? Coeficiente de variación • Es una medida de dispersión relativa • Se expresa como el porcentaje de desviación estandar sobre la media. • Permite comparar la dispersión de dos grupos de datos con diferente centro. • Es una medida adimensional, por lo tanto permite comparar la variabilidad de conjunto de datos con diferentes unidades Ejercicio práctico: CV Determine coeficiente de variación para la producción de leche y el consumo de concentrado. ¿cuál de los dos varia más? ¿qué unidades tiene cada uno? Desviación Mediana • Es una medida de dispersión donde la medida de tendencia central es la mediana. Se determina así: • Sólo se debe usar cuando se usa la mediana como medida de tendencia central, no está bien combinar estadísticos. Ejercicio: Desviación Mediana • Determine la desviación mediana para la producción de leche y el cosumo de alimento. ¿Hay diferencia con respecto a la desviación estandar? ¿Pueden compararse desviaciones entre sí? las ¿cuáles son las unidades de medida? Recorrido • Se calcula como la diferencia entre los dos valores extremos del conjunto de datos, indicando la distancia entre el valor menor y el mayor. • Por estar basada en dos valores es una medida que contiene muy poca información respecto a otras medidas de dispersión. • Existe otra medida llamada rango que indica simplemente el valor menor respecto al mayor, es decir que enmarca el intervalo de los valores muestrales. Ejercicio: Recorrido • Determine el recorrido para la producción de leche y para el consumo de concentrado. ¿cuál es el rango para la producción de leche? ¿cuál es el rango para el consumo de concentrado? MEDIDAS DE FORMA Medidas de forma • Aunque las medidas de tendencia central y de dispersión reflejan importantes aspectos de los datos, estos no cubren el panorama completo en relación a su distribución. • Conocer la distribución permite obtener información adicional para analizar los datos. Medidas de forma (consideración). • Tenga en cuenta los siguientes datos: • Ambos conjuntos de datos estan centrados en el mismo punto (media=9.475) y tienen la misma varianza (S= 4.26807). Sin embargo es claro que los conjuntos de datos difieren en su concentración respecto a la media. Coeficiente de asimetria • Mide el grado de asimetria en la dispersión de los datos con respecto a la media. • Pueden tipificarse las siguientes situaciones: Distribución simetrica (a=0), asimetria a la derecha (a>0) y asimetria a la izquierda (a<0). Coeficiente de asimetria • Distribución simétrica (a=0) • Cuando hay simetria perfecta, la media, la mediana y la moda toman el mismo valor. Coeficiente de asimetria • Asimetría a la derecha (a>0) • Cuando hay asimetría a derecha, la moda<la mediana<la media Coeficiente de asimetria • Asimetría a la izquierda (a<0) • Cuando hay asimetría a izquierda, la media<la mediana<la moda Ejercicio ¿Como se interpretan los resultados? Ejercicio • Determine el coeficiente de asimetria para la producción de leche y para el consumo de concentrado. ¿Que podemos decir de la simetría? Ejemplo Ejemplo (continuación) Coeficiente de curtosis (k) • Evalua como es la concentración de los datos con alrededor de la media. Indica que tan “puntiaguda” es una distribución. • Esta medida toma como referencia la distribución normal, la cual es mesocúrtica. Coeficiente de curtosis (k) Según el coeficiente de curtosis las distribuciones pueden ser: Leptocúrticas (k>0): Cuando un conjunto de datos tiene una mayor concentración alrededor de la media que la distribución normal (mas puntiaguda). Mesocurtica(k=0): Cuando las distribución de datos es media alrededor de la media (como la curva normal). Platicurtica(k<0): Cuando la distribución de datos alrededor de la media, es menor a la existente en una distribución normal (forma achatada, aplastada). Coeficiente de curtosis (k) K>0 K=0 K<0 Ejercicio Ejercicio • Determine el coeficiente de curtosis para la producción de leche y para el consumo de concentrado. ¿Que podemos decir de la curtosis? Medidas de posición Medidas de posición • Son medidas que permiten estimar en que punto de la distribución de los datos se encuentra un determinado valor. • Cuantiles: Son la expresión más general de las medidas de posición. El valor que toma el cuantil “X”, es el valor que deja por debajo de si el “X” % de los datos. • Se debe trabajar con datos ordenados (de menor a mayor). Medidas de posición Ejemplo • Con los datos de producción determine por debajo de que valor se encuentran el 30% de los datos (Cuantil treinta). Primero los debo ordenar de menor a mayor: Quedan Así: Ejemplo (continuación) 1. (n*X/100)=(20*30/100)=6, como es entero, entonces: 2. Cuantil treinta={X[n*X/100] + X[(n*X/100)+1}/2 ={X(6) + X(6+1)}/2 = {19.3 + 19.3}/2 =19.3 3. Interpretación: El treinta porciento de los datos estan por debajo de 19.3 litros, por lo tanto el 30% de los individuos del Hato la Julita producen menos de 19.3 litros de leche por día. Cuartiles • Son los valores que dividen el conjunto de datos en cuatro parte. • Q1: Primer cuartil: es el valor por debajo del cual se encuentran el 25% de los datos. • Q2: Segundo cuartil: es el valor por debajo del cual se encuentran el 5o% de los datos (corresponde a la mediana). • Q3: Tercer cuartil: es el valor por debajo del cual se encuentran el 75% de los datos. ¿Y el Q4? Ejemplo • Con los datos de producción de leche determine el cuartil tres (Q3). Primero los debo ordenar de menor a mayor: Quedan Así: Ejemplo (continuación) • Q3=cuantil 75, entonces: 1. (n*X/100)=(20*75/100)=15, como es entero, entonces: 2. Cuantil treinta={X[n*X/100] + X[(n*X/100)+1}/2 ={X(15) + X(15+1)}/2 = {22.4 + 22.5}/2 =22.45 3. Interpretación: El 75% de los datos estan por debajo de 22.45 litros, por lo tanto el 75% de los individuos del Hato la Julita producen menos de 22.45 litros de leche por día. Deciles • Son valores que dividen el conjunto de datos en 10 partes. • D1: Decil uno: Es el valor por debajo del cual esta el 10% de los datos. • D2: Decil dos: Es el valor por debajo del cual esta el 20% de los datos. • D3 Decil tres: Es el valor por debajo del cual esta el 30% de los datos. • …y así hasta el decil diez. Percentil • Divide la información en centesimas, osea en 100 partes. • P1: Percentil 1: Es el valor por debajo del cual esta el 1% de los datos. • P2: Percentil 2: Es el valor por debajo del cual esta el 2% de los datos. • P3: Percentil 3: Es el valor por debajo del cual esta el 3% de los datos. • …Y así hasta el percentil 100. Ejemplo • De los siguientes datos determine el decil dos • Para A • D2: Decil dos = Cuantil veinte = • (n*X/100)=(9*20/100)=1.8 no es entero, entonces: Cuantil veinte=X(|n*X/100|+1), teniendo en cuenta que: el menor entero contenido en 1.8 es 1, Entonces: X(1+1)= X(2) = 4 ¿cómo se interpreta? Determine el cuartil 3 Ejercicio • Obten las equivalencias entre las diferentes medidas de posición, • Por ejemplo: Mediana=Q2=D5=P50 • Calcule las seguientes medidas para el conjunto de datos que de consumo de concentrado. • D3 • Q2 • P20 • D5 Tablas Tablas de frecuencias • Son arreglos tabulares que resumen, de manera estructurada, la información de una variable, permitiendo visualizar su distribución. • Si consideramos la estatura (cm) de un grupos de estudiantes de grado séptimo, es posible tabular cada uno de los valores de altura, indicando sus correspondientes frecuencias de repetición, a eso se le llama tabla de frecuencias. • Hay dos tipos de frecuencias llamadas absolutas o relativas que se dividen a su vez en simples ó acumuladas. Ejemplo Ejemplo • La tabla de frecuencias sería: Es muy útil cuando hay muchas medidas que se repiten, Se usan constantemente en genética. Distribución de frecuencia agrupada. • Suponga que se mide la estatura (cm) de los bovinos de diferentes edades, incluyendo novillas: Como no hay ningún dato que se repite la tabla de frecuencias tendría 20 niveles Distribución de frecuencia agrupada. • En estos casos se usan tablas agrupadas por intervalos y así la información quedará reducida. ¿Cuantos intervalos se deben tomar? • Generalmente lo decide el analista. • Mientras más intervalos se usen menos información se pierde, pero la tabla puede resultar menos informativa. • Una propuesta popular es la de Sturges, que permite estimar el número de intervalos con la expresión: • K=1+3.32*log(n) • Por lo general se recomienda usar mas de 4 intervalos y menos de 20. Si n=20, ¿cuantos intervalos puedo tomar? Ejemplo • Haga una tabla de frecuencia agrupada para la producción de leche y el consumo de concentrado. ¿En que intervalo están la mayoria de las vacas? Graficos Graficos • Son el principal instrumento del análisis exploratorio. • Permite observar las principales características de un conjunto de datos • Diagrama de dispersión: • Se contruye graficando cada valor con un punto referenciado a un eje. El más simple corresponde a una sola variable. Dispersión con dos variables • Permite observar la variación conjunta y los patrones de variación de dos variables. • Es posible hacer diagramas de dispersión de tres variables (tridimensionales), pero su interpretación es difícil. Ejercicio Ejercicio • Haga el diagrama de dispersión entre el consumo de concentrado y la producción de leche. ¿Encuentra alguna relación? Histograma de frecuencias • Es la representación gráfica de la tabla de distribución de frecuencias de una variable numérica. • En el eje horizontal se ponen los diferentes intervalos que conforman el rango de la variable. • En el eje vertical se presenta la frecuencia (absoluta ó relativa) de cada intervalo. Ejercicio • Defina el número de intervalos y haga el histograma de frecuencias para la producción de leche. ¿Se parece a la curva normal? Poligono de frecuencias • Es una presentación asociada con el histograma de frecuencias. • La información de cada intervalo se presenta por un punto, el cual se localiza en el punto medio del intervalo y en la correspondiente frecuencia • Se unen los puntos por una linea continua Ejercicio • Determine el poligono de frecuencias para la producción de leche. ¿Se parece a una curva normal? Diagrama de barras • Se usa para representar graficamente la tabla de frecuencias de una variable nominal. • Para cada categoria se usa un barra (vertical u horizontal) que representa su frecuencia. Ejercicio: 3 Razas de bovinos Diagrama de sectores • Se utiliza también para representar la tabla de frecuencias de una variable nominal. En este tipo de diagramas el circulo representa la totalidad de la muestra. • A cada categoria se le asigna un sector, cuya área es proporcional a su frecuencia. Ejercicio: 3 Razas de bovinos Diagramas de cajas y bigotes Diagramas de cajas y bigotes • Este diagrama resume algunos aspectos esenciales de la distribución • La caja se extiende desde el cuartil inferior hasta el cuartil superior (cubriendo la mitad central de la muestra). • La línea central marca la mediana y una cruz roja marca la media. Diagrama de cajas y bigotes • Si la distribución es simetrica, la media y la mediana coinciden. • La media estará a la derecha de la mediana en distribuciones con asimetría a derecha y estará a la izquierda de a mediana en distribuciones con asimetría a izquierda. • Los bigotes se extienden hasta los menores y mayores valores adyacentes, es decir, los que no se alejen de la caja más de 1.5 veces el recorrido intercuartil. • Los valores que están entre 1.5 y 3 veces el recorrido intercuartil, se denominan valores extremos y se representan mediante puntos. Diagrama de cajas y bigotes • Los valores que están más allá de tres recorridos intercuartiles, se denominan valores muy extremos y se distinguen por otro simbolo (color). A menudo se usan gráficos múltiples para comparar grupos de datos. Ejercicio • Elabora el diagrama de bigotes para la producción de leche. ¿Hay datos extremos ó muy extremos?