Download unalmed edu com co

Document related concepts
no text concepts found
Transcript
1
CARTILLA BASE PARA
BIO-ESTADÍSTICA UNO
1. INTRODUCCIÓN
El presente documento es una recopilación de los conceptos básicos para un curso
introductorio a la estadística. La consulta de los textos de estadística para ingenieros
como el de Montgomery, Walpole & Myers, Canavos, Zar, Morris H. Degroot,…etc., o al
menos los citados en la bibliografía del curso, resulta una obligación para cualquier
estudiante comprometido con su proceso de adquisición de conocimiento y debe
constituirse en parte del método de estudio el cotejo permanente de las exposiciones de
clase con estas fuentes.
Para la asignatura las herramientas descritas aquí son la tarea a desarrollar en las
primeras dos semanas y se complementan con la introducción de los conceptos básicos
de probabilidad. Los estudiantes de este curso tienen la misión de, como mínimo,
desarrollar el taller propuesto al final de la sección de estadística descriptiva y desarrollar
Todos los ejercicios del capítulo dos del texto de Walpole & Myers (no importa cual
edición se disponga).
ESTADÍSTICA
Su nombre tiene origen en el hecho de que estás técnicas hacen parte de la matemática
empleada inicialmente para realizar la contabilidad Estatal. Es parte de la matemática
aplicada, una disciplina que provee los métodos y procedimientos para colectar,
clasificar, resumir y analizar información (datos) tomada de una población objeto de
estudio.
Actualmente, estas técnicas son parte fundamental del proceso de
investigación; son el argumento por excelencia que la investigación usa para dar
soporte a conclusiones o simplemente para convencer – si bien la estadística no
demuestra nada. El proceso de toma de decisiones en la empresa moderna tiene en la
estadística una de sus herramientas más poderosas y, en general, es el instrumento
indispensable para apoyar lo que se denomina inferencia estadística.
La estadística descriptiva Es la rama de la estadística que se dedica a la presentación,
organización y resumen de los datos, usando tablas, gráficos y estadísticos (medidas
de resumen) para representar las características esenciales de los datos en términos
fáciles de interpretar. Como su nombre lo indica, describe y con esto, extraer
conclusiones sobre el comportamiento de las variables.
La Estadística inferencial. Esta es la parte de la estadística que permite generalizar
los resultados obtenidos, a partir de los datos de una muestra, a un conjunto más grande
de individuos (una población). En otras palabras, hacer inferencia estadística es sacar
conclusiones válidas acerca de una población de elementos o medidas, basados en
_____________________________________
J.A. Rueda-Restrepo.<[email protected]>
2
información contenida en una muestra de dicha población y se hace a través de dos
actividades relacionadas: estimación y prueba de hipótesis.
Estadística
Inferencia
Descriptiva
Contraste de
Hipòtesis
Estimación
Teorìa del Muestreo
Estimación por
Intervalos
Estimación puntual
Para un
parámetro:
µ, σ, ρ
Para dos
parámetros:
µ1- µ2, σ1/σ2
Para más de
dos
parámetros
La parte de la estadística que se ocupa de los métodos para la colecta de datos se
conoce como teoría del muestreo. Esta es una herramienta de la investigación cuya
función es determinar que parte de la realidad en estudio (población o universo) debe
examinarse para la realización de Inferencias. Un error típico en este tipo de
procedimiento consiste en la consecución de muestras que no son representativas de la
población en estudio, dando como resultado estimaciones sesgadas o del todo erróneas.
La consecución de una muestra que sea representativa de la población que se estudia
es el objetivo del muestreo. Las consecuencias derivadas de errores de muestreo es la
pérdida de recursos… y la mala fama.
Cada disciplina posee sus propias técnicas de muestreo, por lo que se deja al estudiante
la tarea de identificar los esquemas de muestreos y las dificultades más comunes de las
poblaciones que estudiará en estados avanzados de su programa curricular. ¿Qué
diferencias puede vislumbrar el estudiante en los esquemas de muestreo para una
especie del reino Fungi, para el Oso de anteojos y para arvenses en un cultivo?
Definiciones iniciales
El concepto de Variable y los tipos de variables más frecuentes
Una variable es un ente matemático que se emplea para representar una cualidad de
una población o de un proceso. Es una propiedad que puede fluctuar y cuya variación es
susceptible de observarse y puede medirse. Las variables adquieren valor cuando se
relacionan con otras variables, es decir, si forman parte de una hipótesis o de una teoría.
Es una característica que interesa evaluar ya sea en un individuo o en un objeto, y que
_____________________________________
J.A. Rueda-Restrepo.<[email protected]>
3
como su nombre lo dice, cambia de un individuo a otro; si todos los individuos
observados son homogéneos para la característica en cuestión, ya no se habla de una
variable, sino de una constante, variable es lo que está siendo observado o medido. El
concepto de variable aleatoria se desprende de la imposibilidad de predecir el resultado
de cualquier observación ¡a pesar de conocer el conjunto de valores que puede tomar la
variable!
Las Variables cualitativas o atributos: no se pueden medir numéricamente (por
ejemplo: nacionalidad, color de la piel, género). Variables cuantitativas: tienen valor
numérico (edad, precio de un producto, ingresos anuales).
Cuantitativas
Cualitativas
 Peso
 Variedad o especie
 Diámetro
 Raza
 Altura
 Color
 Número de plantas
 Tipo de suelo
Variables discretas y variables continuas: Cuando se consideran las variables
cuantitativas, las discretas (cuantitativas discretas), se asocian a el número de
elementos de un conjunto; las cuantitativas continuas, se asocian a mediciones
realizadas en el sistema métrico decimal. En las primeras (cuantitativas discretas), se
tiene que entre dos valores posibles de ser observados, no existe otro valor posible de
observar, es decir, hay “saltos” entre los valores que toma la variable. En una variable
continua, entre dos valores observables siempre hay infinitos valores posibles de ser
observados. A veces se toma como regla de clasificación que las variables discretas no
pueden tomar valores que involucren cifras decimales, pero esto no siempre se cumple.
Algunas variables conceptualmente son continuas aunque el manejo que se hace de
ellas, aparentemente indica que son discretas, ejemplos: el tiempo expresado en horas,
el peso expresado en kg; en realidad las limitaciones están dadas por el instrumento de
medida.
Discretas
Continuas
 Número de huevos
 Peso
 Nacimientos en un día
 Altura
 Número de plantas (/ha)
 Tiempo
Escalas de medición
Una variable puede asumir diversas formas y, según la cantidad de información que
contenga, la medición puede ser en:
Escala Nominal: Solo distingue entre los objetos, asignando un nombre a cada objeto.
Este tipo de variables escasamente sirven para clasificar los objetos de un conjunto. Es
la escala de medición más débil, los valores de la variable simplemente indican
diferentes categorías y no existe un orden entre ellas. Ejemplo: Color, sexo, especie,
_____________________________________
J.A. Rueda-Restrepo.<[email protected]>
4
raza, nombre, materia. Una forma de evaluar si una variable es nominal, es identificar si
al representarla gráficamente se pierde información al colocar en diferentes posiciones
cada una de las categorías de la misma. Si se cumple esto, la variable no es nominal
Escala Ordinal: En este tipo de escala se halla un poco más de información que en la
anterior, se fija una clasificación entre los objetos del grupo. Aquí, se pueden establecer
relaciones de orden entre los objetos del conjunto de tal forma que se sabe cual es el
primero, el segundo,... con relación a una característica particular. No se garantiza que
la diferencia o distancia entre las categorías sea la misma. Ejemplo: Nivel de
producción (Alto, medio o bajo), orden de llegada en una carrera (primero, segundo,
tercero), evaluación nutricional, calificación (excelente, bueno, regular, malo).
Escala Interválica: Existen categorías ordenadas y las distancias o diferencias entre las
categorías son iguales, por eso se puede afirmar que la diferencia entre 5 y 6 es la
misma que entre 10 y 11, es una unidad. Una característica de esta escala de medición
es que el cero no es verdadero, es arbitrario, pues no indica ausencia de la categoría
evaluada, por lo tanto, las razones (divisiones) no son posibles aunque las diferencias sí
lo sean. Ejemplos: Cociente intelectual y la más famosa de todas, la temperatura, donde
el valor de 0°C no indica ausencia de temperatura; una ilustración de porque las razones
no son posibles se tiene al comparar las temperaturas 20°C y 40°C, numéricamente 40
es el doble de 20, pero en el caso de la temperatura no se puede afirmar que a 40°C
hace el doble de calor que a 20°C.
Escala de Razón o Proporción: Es la escala que tiene más información, aquí existen
categorías ordenadas y con igual distancia entre si, además, el cero sí es real (indica
ausencia), por lo tanto las divisiones sí son posibles. Ejemplos: Peso, altura, etcétera.
En este tipo de escala de medición se reúnen las variables continuas Cuando se estudia
el comportamiento de una variable hay que distinguir los siguientes conceptos:
Población
Es cualquier conjunto de individuos o elementos que tienen una o más características
comunes. Las características comunes no son sólo físicas, pueden ser espaciales o
temporales. Ejemplos: estudiantes matriculados en el primer semestre del 2004
(característica temporal); estudiantes del núcleo de minas (característica espacial). Si
estudiamos el precio de la vivienda en una ciudad, la población será el total de las
viviendas de dicha ciudad.
La población la constituye el conjunto de todos los valores que puede tomar una
variable aleatoria, en este caso se hablaría de población de pesos, etcétera. Desde el
punto de vista del investigador, se define como el conjunto de individuos poseedores de
la característica.
_____________________________________
J.A. Rueda-Restrepo.<[email protected]>
5
Individuo: cualquier elemento que porte información sobre el fenómeno que se estudia.
Así, si estudiamos la altura de los niños de una clase, cada estudiante es un individuo; si
estudiamos el precio de la vivienda, cada vivienda es un individuo.
Muestra. Es cualquier subconjunto de individuos o elementos seleccionado de una
población, lo ideal es que sea un subconjunto representativo de toda la población, o
sea que permita hacer generalizaciones de la misma al ser poseedor de las
características comunes de la población a la que se supone pertenece.
Las razones para trabajar con muestras son: ahorro de tiempo, ahorro de dinero, es más
práctico (facilidades operativas) y si la variable que se quiere medir implica destrucción
de la unidad experimental (análisis bromatológicos, de composición, etcétera) el trabajar
con muestras evita destruir toda la población.
Parámetro. Representan cualidades de la población y puede ser cualquier medida que
se calcule a partir de los datos de toda la población. Se representan por medio de
letras griegas (, ß, , μ, ξ, σ, χ, α…).
Estadístico o estadígrafo. Es cualquier medida de resumen que se calcule a partir de
los datos de la muestra, se considera una estimación del parámetro poblacional. Se
representan por medio de letras latinas (R, B, L, X, e, S, a…).
Tarea
Identifique y clasifique 10 variables que sean objeto de estudio en su área o programa
curricular.
 ¿Qué clase de poblaciones de muestrean?
 ¿Cómo se realiza ese muestreo o medición?
 ¿Qué se mide u observa en ellas?
 ¿Qué clases de muestras se observan o se obtienen?
 ¿Cuales instrumentos se utilizan en este proceso?
 ¿Hasta dónde se pueden extrapolar las conclusiones que se derivan?
Para las variables identificadas describa las acciones que se desarrollan antes de
obtener (y registrar) la información y el conjunto de actividades que se deben realizar
después de obtenerla.
_____________________________________
J.A. Rueda-Restrepo.<[email protected]>
6
2. ESTADÍSTICA DESCRIPTIVA.
La estadística descriptiva es la parte de la estadística que se ocupa de la presentación y
el resumen de la información y se basa en el uso de tres herramientas: medidas de
resumen (Estadígrafos), tablas y gráficos.
2.1 MEDIDAS DE RESUMEN (estadísticos o estadígrafos)
Las medidas de resumen, sintetizan la información contenida en un grupo de datos y se
dividen en: medidas de tendencia central, medidas de dispersión, medidas de forma y
medidas de posición.
2.1.1 MEDIDAS DE TENDENCIA CENTRAL.
Una medida de tendencia central es aquel valor hacia el cual converge la mayoría de los
datos, viene a ser una especie de representante del conjunto de datos, existen varias
medidas de tendencia central.
___
Media aritmética o promedio ( X ): Es la más famosa de las medidas de tendencia
central y se define como el cociente entre suma de las observaciones y el número total
de datos. Podemos definir la media muestral (estadístico) y la media poblacional
(parámetro).
Estadístico
datos agrupados
El parámetro
n
n
___
X 
~
x
i 1
n
i
___
X 
 f i *x
i 1
n
N
i

x
i 1
i
N
Mediana ( x = Me): Es el valor central de un conjunto de datos ordenados, se dice
también que es aquel valor que divide el conjunto de datos exactamente a la mitad, para
el siguiente conjunto de datos: {2, 4, 5, 6, 8}, la mediana es 5.
Para el siguiente conjunto de datos {2, 4, 5, 6, 20} también la mediana es 5.
Si se tiene un conjunto de datos par, X = {2, 4, 5, 6}. La solución es calcular la media de
los dos valores centrales. Existen dos fórmulas que facilitan el cálculo de la mediana
cuando se tienen muchos datos, pero para ver las fórmulas, primero debemos definir
que es un Estadístico de Orden.
Se define el i-ésimo estadístico de orden como el valor que toma la variable en la
observación i-ésima, es decir, la que se encuentra en el i-ésimo puesto después de
ordenar de forma ascendente los datos, así:
X(1) es el estadístico de orden 1 y correspondería al menor valor de todos.
X(2) es el estadístico de orden 2 y correspondería al segundo menor valor.
_____________________________________
J.A. Rueda-Restrepo.<[email protected]>
7
X(n) es el estadístico de orden n y correspondería al mayor valor.
Al calcular la mediana de un conjunto de datos siempre se estará en una de dos
situaciones: el conjunto de datos es impar o el conjunto de datos es par. Si el conjunto
es impar, Me = ~
x = X n 1  ; es decir, el estadístico de orden (n+1) / 2
2
~ X n 2 
Si el conjunto es par, Me = x =
 X n 1
2
2
; es decir, la media aritmética de los dos
estadísticos de orden que se hallan en el centro.
Tarea
Calcule la media y la mediana para el siguiente conjunto de datos: {3, 5, 6, 8, 9}
Repita con el siguiente conjunto de datos:
{3, 5, 6, 8, 20}
Compare los valores obtenidos y concluya.
Moda ( x̂ ): El significado estadístico de la palabra moda es similar al que le damos en
nuestra sociedad. Es el valor de la variable aleatoria que más se presenta, el que tiene
la mayor frecuencia absoluta; es simplemente el valor que más se repite. En el siguiente
conjunto de datos la moda sería 5: {2, 5, 5, 5, 6, 7, 8}. En el conjunto de datos X = {3, 5,
6, 3, 4, 3, 5, 8, 5}, se puede apreciar que hay dos modas: 3 y 5 (el conjunto es bimodal).
Un último conjunto de datos X = {2, 4, 6, 8, 9, 3, 5}, ¿cuál es la moda? Aquí vemos que
no hay moda. A partir de estos tres ejemplos se puede observar que la moda puede o no
existir y puede no ser única (datos multimodales). Y, si existe, siempre es un valor
observado en el conjunto de datos.
Media ponderada: Es un promedio aritmético en el que todas las observaciones no
tienen el mismo “peso” o importancia, un ejemplo clásico es la nota definitiva de una
asignatura, supongamos el caso de un estudiante en un curso cualquiera con las
siguientes notas:
Porcentaje (Pi)
Nota (Xi)
Parcial 1
20%
4.5
Parcial 2
40%
2.1
Parcial 3
30%
3.2
Trabajos
10%
4.6
Para calcular la nota definitiva no podríamos simplemente calcular la media aritmética de
las cuatro notas, pues le estaríamos dando el mismo “peso” a cada una de las notas, por
lo tanto calculamos la media ponderada, que permite darle “pesos” diferentes a los
valores observados.
_____________________________________
J.A. Rueda-Restrepo.<[email protected]>
8
n
__
X
p

P *X
i
i 1
i
= 3.16
n
P
i 1
i
Recorrido Medio: Esta medida de tendencia central se utiliza muy poco, una aplicación
práctica se da cuando se quiere calcular la temperatura media de un día cualquiera,
simplemente consiste en calcular la media aritmética de los valores mayor y menor.
Media Cuadrática: Cuando la variable asume valores positivos y negativos, puede ser
de interés un promedio que no tenga en cuenta lo que aporta el signo. El estadístico
indica el movimiento medio de la variable, indiferente de si subió o bajó.
𝑛
1
𝑅𝑀𝑆𝐸 = 𝑀𝑄 = √ ∑ 𝑥𝑖2
𝑛
𝑖=1
Media Armónica: Cuando los valores de una variable vienen expresados en términos de
otra que es inversamente proporcional o recíproca de la primera (precio y poder
adquisitivo, velocidad y tiempo…). Este promedio tiene en cuanta esta reciprocidad.
𝐻 = 𝑀𝐻 =
1
1 𝑛 1
∑
𝑛 𝑖=1 𝑥𝑖
=
𝑛
∑𝑛𝑖=1
1
𝑥𝑖
Media Geométrica: Cuando los valores de la variable, son positivos, su número es
pequeño, y las variaciones entre ellos son muy grandes, o cuando, más precisamente,
dichos valores ordenados se encuentran en progresión geométrica, se busca un número
que tienda a compensar dichas variaciones.
𝑛
𝑛
𝐺 = 𝑀𝐺 = √∏ 𝑥𝑖
𝑖=1
En general, para un conjunto de datos:
̅ > 𝑴𝒒
𝑴𝑯 > 𝑴𝑮 > 𝒙
Un tipo generalizada de media lo constituyen las Medias Potenciales definidas por:
𝒏
𝟏
𝒑
𝟏
𝒑
𝑴𝑷 = [ ∑ 𝒙𝒊 ] , 𝒑 ≠ 𝟎
𝒏
𝒊=𝟏
TAREA
Analizar para cada una de las escalas de medición que medidas de tendencia central
son posibles de aplicar y cuáles no.
Antes de continuar con la siguiente medida de resumen, veamos lo siguiente, se tienen
dos explotaciones A y B de cualquier producto agrícola:
_____________________________________
J.A. Rueda-Restrepo.<[email protected]>
9
Explotación
Producción Promedio
A
4 Ton/ha
B
4 Ton/ha
A simple vista podríamos decir que los conjuntos de datos que dieron origen a estas dos
medias son iguales, pero si ahora vemos los conjuntos originales, la situación es muy
diferente:
Explotación
Producción Promedio
Datos
A
4 Ton/ha
4, 4, 4
B
4 Ton/ha
0, 4, 8
Estos dos conjuntos de datos ponen en evidencia que la medida de tendencia central
por sí sola no es suficiente para describir un conjunto de datos, de ahí la importancia de
utilizar otra medida de resumen que me refleje la situación del ejercicio anterior.
2.1.2. MEDIDAS DE DISPERSIÓN
Las medidas de dispersión indican que tan cerca o que tan lejos están los datos de la
medida de tendencia central o del parámetro de centralidad. En otras palabras, indican
que tan homogéneos o heterogéneos son los datos.
Varianza: Es la más conocida de las medidas de dispersión y su análisis es la base de
todos los métodos de estadística inferencial. Podemos definir la varianza muestral
(estadístico) y la varianza poblacional (parámetro).
Estadístico
El parámetro
___



X


x
i

S 2  i 1 
n 1
n
2


 xi   


= i 1 
N
N
2
2
La diferencia en los dos denominadores radica en que, como el estadístico debe ser un
buen estimador del parámetro, al dividir por (n – 1) en la primera ecuación se consideran
el número de términos independientes (grados de libertad) y con esto se obtiene el mejor
estimador de la varianza. En la segunda expresión se asume que se han tenido en
cuenta todos los elementos de la población. Existe una fórmula operacional que hace
mucho más fácil el cálculo de la varianza, que surge de desarrollar y luego simplificar el
numerador de la fórmula anterior:
2
 n

  xi 
n
2
xi   i 1 n 

S 2  i 1
n 1
Supongamos valores de producción de mango en ton/ha: {3, 5, 6, 8, 9}
Donde la varianza muestral es: 5.7 ton2/ha (verificar el cálculo). Ahora.... ¿Qué es una
ton2 ? pues este es el problema de la varianza, ésta está dada en unidades al cuadrado,
lo cual hace que no tenga una interpretación fácil, entonces....
_____________________________________
J.A. Rueda-Restrepo.<[email protected]>
10
Desviación estándar: Es la raíz cuadrada de la varianza y por lo tanto está dada en las
unidades de medida originales de la variable aleatoria y por eso es más utilizada.
Podemos definir la desviación estándar muestral (estadístico) y la desviación estándar
poblacional (parámetro). En el ejemplo anterior la desviación estándar sería: S = 2.387
ton / ha, valor que está dado en las unidades de medida originales y por lo tanto es fácil
de entender.
Ejercicio: Se tienen los siguientes conjuntos de datos ¿en cuál de ellos hay mayor
dispersión?
A
B
Media
10 ton/ha
4 ton/ha
D. E.
2.5 ton/ha
2 ton/ha
Se podría pensar que el conjunto A tiene una mayor dispersión que el B, pero debe
recordarse la definición de medida de dispersión: es un valor que me indica que tan lejos
o cerca se encuentran los datos respecto a la medida de tendencia central, de tal
manera que si se desea saber cual de los dos conjuntos tiene una mayor dispersión, el
análisis no puede basarse exclusivamente en la D. E., debe tener en cuenta también la
media aritmética. Para hacer esta comparación se podría hacer uso de la siguiente
medida de dispersión.
Coeficiente de Variación (CV%): Esta es una medida de dispersión relativa a la media;
muy utilizada porque es adimensional y por lo tanto es muy útil para comparar la
dispersión de dos conjuntos de datos, ya sea que éstos tengan o no, la misma unidad de
medida; expresa la desviación estándar como un porcentaje de la media.
CV% =
S
_____
*100
X
Desviación Media y D. Mediana: Es una medida de dispersión donde la medida de
tendencia central de se usa como referencia: la Media o la Mediana.
Se estima por:
 x  X 
 x  Me
n
D. Media =
i 1
n
i
D. Mediana =
i 1
i
n
n
Básicamente es para variables ordinales; en general, cuando se calcule la mediana
como medida de tendencia central, lo correcto entonces será calcular la desviación
mediana.
_____________________________________
J.A. Rueda-Restrepo.<[email protected]>
11
Recorrido o Rango: Es una medida poco utilizada porque provee de muy poca
información, se calcula como la diferencia entre los dos valores extremos del conjunto de
datos, por lo tanto simplemente indica la distancia que hay entre el valor menor y el valor
mayor.
Rango = Valor mayor – Valor menor.
Tarea
Analizar para cada una de las escalas de medición que medidas de dispersión son
posibles de aplicar y cuáles no.
Ejercicio: Qué se puede decir de la producción de mango en estas dos fincas?
Media:
D. E.
A
9.475
4.26807
B
9.475
4.26807
Aparentemente son dos conjuntos de datos iguales, pero si vemos los datos originales
vamos a encontrar lo siguiente:
A = {5, 6.3, 6.9, 7.4, 9.2, 10, 12.9, 18.1}
B = {0.85, 6.05, 8.95, 9.75, 11.55, 12.05, 12.65, 13.95}
Con estos dos conjuntos se hace evidente que una medida de tendencia central junto
con una medida de dispersión, tampoco son suficientes para describir de manera
completa un conjunto de datos, hace falta algo más, veamos la siguiente medida de
resumen.
2.1.3 MEDIDAS DE FORMA.
Una medida de forma refleja cual es la forma de la función empírica de distribución de
frecuencias de los datos. Se conocen dos medidas:
Coeficiente de Asimetría (a): Indica si la distribución de frecuencias del conjunto de
datos es simétrico o no respecto a la media. Se calcula de la siguiente manera:
__ 3 
 n 

   xi  x  

  i 1 
n
 
a =

3




n

1
n

2


S



Se puede hablar de tres situaciones (no son las únicas):
 Distribución de frecuencias Simétrica: a = 0. Cuando hay simetría perfecta, la
media, la mediana y la moda toman el mismo valor.
 Sesgo a la derecha: a > 0. Cuando hay sesgo a la derecha: la moda < la mediana
< la media.
 Sesgo a la izquierda: a < 0:
_____________________________________
J.A. Rueda-Restrepo.<[email protected]>
12
Cuando hay sesgo a la izquierda, la media < la mediana < la moda.
Gráfico de dos distribuciones de frecuencias. La línea roja corresponde a una D.
Simétrica, la azul a una sesgada.
Evaluando los dos conjuntos de datos anteriores:
aA = [ 8 / 7*6 ]*[ (5-9.475)3 + (6.3-9.475)3 +...... +(18.1-9.475)3 / 4.2683]
aA = 1.3089 = Asimetría positiva o sesgo a la derecha.
aB = [8 / 7*6 ]*[(0.85-9.475)3+ (6.05-9.475)3 +....+(13.95-9.475)3 /4.2683]
aB = - 1.3089 = Asimetría negativa o sesgo a la izquierda.
Tarea: Verificar los anteriores resultados.
Ejercicio: Qué se puede decir de la producción de mango en estas dos fincas?
A
B
Media:
7
7
D. E.
3.6228
3.6228
a
0
0
Aparentemente son dos conjuntos de datos iguales, pero si vemos los datos originales
vamos a encontrar lo siguiente:
A: {0.5, 4, 6, 6.5, 7, 7.5, 8, 10, 13.5}
B: {1.5, 3.5, 4, 6, 7, 8, 10, 10.5, 12.5}
Con estos dos conjuntos se hace evidente que una medida de tendencia central junto
con una medida de dispersión y la medida de asimetría, tampoco son suficientes para
describir de manera completa un conjunto de datos, hace falta algo más.
Coeficiente de Curtosis o Curtosis (K): Evalúa como es la concentración de los datos
alrededor de la media y de las colas.
__ 4 
 n 



   xi x  
2

  i 1 
nn  1
   3n  1 

K= 

4
  n  2n  3
 n  1n  2n  3 

S
 


_____________________________________
J.A. Rueda-Restrepo.<[email protected]>
13
Situaciones posibles:
Distribución de frecuencias Mesocúrtica: K = 0
Distribución de frecuencias Leptocúrtica: K > 0
Distribución de frecuencias Platicúrtica: K < 0
Evaluando los dos conjuntos de datos anteriores:
KA: 1.235 : Leptocúrtica
KB: -1.004: Platicúrtica.
Tarea: Verificar los dos valores de Curtosis anteriores.
Gráfico de tres distribuciones de frecuencias
2.1.4 MEDIDAS DE POSICIÓN.
Son medidas que permiten estimar en que punto de la distribución de los datos, se
encuentra un determinado valor.
Cuantiles
Es el valor de la variable aleatoria que deja sobre si (o debajo de si) una proporción
definida de los datos. Es la expresión más general de medidas de posición y comprende
a todas las otras; el valor que tome el cuantil “X” es el valor que deja por debajo de sí al
“X” % de los datos. Para el cálculo de los cuantiles vamos a recurrir nuevamente a los
estadísticos de orden.
Primero se debe calcular el valor n*X (Siendo n el número de datos y “X” el cuantil
deseado), a partir del valor hallado se hace lo siguiente:
Si (nx/100) no es entero, entonces el Cuantil X = X ( [| nx/100 |] + 1 ).
Recuerde: [| |] quiere decir menor entero contenido en, lo que traduce: redondee por
debajo.
Si (nx/100) es entero, entonces el Cuantil X = {X (nx/100) + X[(nx/100) + 1] }/ 2
Importante:
Cuantil “0” = X (1) = El valor Mínimo
Cuantil “100”
= X (n) = El valor Máximo
_____________________________________
J.A. Rueda-Restrepo.<[email protected]>
14
Cuartiles
Son valores que dividen el conjunto de datos en cuatro partes.
 Q1: Primer cuartil: Es el valor por debajo del cual se encuentra el 25% de los datos.
 Q2: Segundo cuartil: Es el valor por debajo del cual se encuentra el 50% de los
datos. Equivale a la mediana.
 Q3: Tercer cuartil: Es el valor por debajo del cual se encuentra el 75% de los datos.
Deciles: Son valores que dividen el conjunto de datos en diez partes.
 D1: Decil uno: Es el valor por debajo del cual está el 10% de los datos.
 D2: Decil dos: Es el valor por debajo del cual está el 20% de los datos.
Percentiles: Son los valores que dividen la información en cien partes.
 P1: Percentil uno: Es el valor por debajo del cual está el 1% de los datos
 P2: Percentil dos: Es el valor por debajo del cual está el 2% de los datos
 P95: Percentil 95: Es el valor por debajo del cual está el 95% de los datos
Tarea
Hallar equivalencias entre las diferentes medidas de posición, ejemplo:
Mediana = Q2 = D5 = P50
Calcular todas las anteriores medidas de resumen para describir dos conjuntos de datos
tomados del capítulo uno del texto guía.
La referencia Tipificada: Si bien, no corresponde a un estadístico, propiamente dicho,
la referencia tipificada, que se calcula a cada observación de la muestra, es una medida
de la cercanía de cada observación al centroide de los datos.
𝑍𝑖 =
𝑥𝑖 − 𝑥̅
𝑠
En general, Zi pertenece al intervalo (-3.5; 3.5) en las distribuciones de probabilidad
normal, si la observación se halla cerca al promedio, Zi estará cercano a cero. Cuando
la observación es relativamente distante del valor central tenderá a estar cercano a -3.5
(valores cercanos al mínimo) o a 3.5 (para valores cercanos al máximo). Las
observaciones “extremas” tienen una referencia tipificada “grande” en valor absoluto.
2.2 TABLAS
2.2.1 Tablas de frecuencia (Distribución empírica de frecuencias)
La distribución de frecuencia es la representación estructurada, en forma de tabla, de
toda la información que se ha recogido sobre la variable que se estudia.
Variable
(Valor)
X1
Frecuencias absolutas
Simple
n1
Frecuencias relativas
Acumulada
n1
Simple
h1 = n1 / n
Acumulada
H1=h1
_____________________________________
J.A. Rueda-Restrepo.<[email protected]>
15
X2
...
Xn-1
Xn
n2
...
nn-1
Nn
n1 + n2
...
n1 + n2 +..+ nn-1
∑n
h2 = n2 / n
...
hn-1 = nn-1 / n
hn = nn / n
H2=f1 + f2
...
f1 + f2 +..+fn-1
∑h
X: Los distintos valores que puede tomar la variable.
n: El número de veces que se repite cada valor.
h: La proporción que la repetición de cada valor supone sobre el total
Veamos un ejemplo: Medimos la altura de los niños de una clase y obtenemos los
siguientes resultados (cm):
Estudiante
Estatura Estudiante
Estatura Estudiante
Estatura
Estudiante 1
1,25
Estudiante 11
1,23
Estudiante 21
1,21
Estudiante 2
1,28
Estudiante 12
1,26
Estudiante 22
1,29
Estudiante 3
1,27
Estudiante 13
1,30
Estudiante 23
1,26
Estudiante 4
1,21
Estudiante 14
1,21
Estudiante 24
1,22
Estudiante 5
1,22
Estudiante 15
1,28
Estudiante 25
1,28
Estudiante 6
1,29
Estudiante 16
1,30
Estudiante 26
1,27
Estudiante 7
1,30
Estudiante 17
1,22
Estudiante 27
1,26
Estudiante 8
1,24
Estudiante 18
1,25
Estudiante 28
1,23
Estudiante 9
1,27
Estudiante 19
1,20
Estudiante 29
1,22
Estudiante 10
1,29
Estudiante 20
1,28
Estudiante 30
1,21
Si presentamos esta información estructurada obtendríamos la siguiente tabla de
frecuencia:
Variable
(Valor)
Frecuencias absolutas
Simple
Acumulada
Frecuencias relativas
Simple
Acumulada
1,20
1
1
3,3%
3,3%
1,21
1,22
4
4
5
9
13,3%
13,3%
16,6%
30,0%
1,23
2
11
6,6%
36,6%
1,24
1,25
1,26
1,27
1,28
1,29
1,30
1
2
3
3
4
3
3
12
14
17
20
24
27
30
3,3%
6,6%
10,0%
10,0%
13,3%
10,0%
10,0%
40,0%
46,6%
56,6%
66,6%
80,0%
90,0%
100,0%
Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy
pocas veces, entonces conviene agruparlos por intervalos, ya que de otra manera
obtendríamos una tabla de frecuencia muy extensa que aportaría muy poco valor a
efectos de síntesis.
_____________________________________
J.A. Rueda-Restrepo.<[email protected]>
16
Distribuciones de frecuencia agrupada
Supongamos que medimos la estatura de los habitantes de un edificio y obtenemos los
siguientes resultados (cm):
Habitante
Estatura
Habitante
Estatura
Habitante
Estatura
Habitante 1
1,15
Habitante 11
1,53
Habitante 21
1,21
Habitante 2
1,48
Habitante 12
1,16
Habitante 22
1,59
Habitante 3
1,57
Habitante 13
1,60
Habitante 23
1,86
Habitante 4
1,71
Habitante 14
1,81
Habitante 24
1,52
Habitante 5
1,92
Habitante 15
1,98
Habitante 25
1,48
Habitante 6
1,39
Habitante 16
1,20
Habitante 26
1,37
Habitante 7
1,40
Habitante 17
1,42
Habitante 27
1,16
Habitante 8
1,64
Habitante 18
1,45
Habitante 28
1,73
Habitante 9
1,77
Habitante 19
1,20
Habitante 29
1,62
Habitante 10
1,49
Habitante 20
1,98
Habitante 30
1,01
Si presentáramos esta información en una tabla de frecuencia obtendríamos una tabla
de 30 líneas (una para cada valor), cada uno de ellos con una frecuencia absoluta de 1 y
con una frecuencia relativa del 3,3%. Esta tabla nos aportaría escasa información
En lugar de ello, preferimos agrupar los datos por intervalos, con lo que la información
queda más resumida (se pierde, por tanto, algo de información), pero es más manejable
e ilustrativa:
Tabla de distribución de frecuencias para la variable aleatoria estatura de los
estudiantes.
Estatura
Frecuencias absolutas
Frecuencias relativas
Cm
Simple
Acumulada
Simple
Acumulada
1,01 – 1,10
1
1
3,3%
3,3%
1,11 – 1,20
3
4
10,0%
13,3%
1,21 – 1,30
3
7
10,0%
23,3%
1,31 – 1,40
2
9
6,6%
30,0%
1,41 – 1,50
6
15
20,0%
50,0%
1,51 – 1,60
4
19
13,3%
63,3%
1,61 – 1,70
3
22
10,0%
73,3%
1,71 – 1,80
3
25
10,0%
83,3%
1,81 – 1,90
2
27
6,6%
90,0%
1,91 – 2,00
3
30
10,0%
100,0%
_____________________________________
J.A. Rueda-Restrepo.<[email protected]>
17
El número de intervalos en los que se agrupa la información es una decisión que debe
tomar el analista: la regla es que mientras más intervalos se utilicen menos información
se pierde, pero puede que menos representativa e informativa sea la tabla.
Se encuentran varias propuestas para esto, una es la fórmula de Sturges:
K  1  3.32 * log(n) , pero también se usa K  3 n . Se recomienda que sean menos de
20 y al menos cinco intervalos.
En una tabla de frecuencias, los percentiles (y cualquier cuantil) se calculan usando la
siguiente expresión:
i*n
  fk
100
Pi  Li 
*C
fj
P i:
L i:
fk:
fj:
C:
Es el i-ésimo percentil.
Límite inferior de la clase o intervalo de interés, esto es, la clase que supera o
iguala la proporción buscada por el percentil.
Es la suma de las frecuencias anteriores a la clase de interés.
La frecuencia absoluta de la clase de interés.
Amplitud de clase o longitud del intervalo
TAREA
Calcule a la tabla de frecuencias anterior la mediana, el percentil diez, el cuartil uno y el
percentil 95.
2.2.2 Tablas de contingencia.
En muchas ocasiones para el investigador será de interés recolectar, de manera
simultánea, en una muestra más de una cualidad o variable. Por ejemplo, se midió en
una empacadora de carnes la cantidad (concentración) de preservativos que se
requieren para que las proteínas no inicien su proceso de desnaturalización. Para esto
se evaluaron los efectos de tres tipos (marcas comerciales) de preservantes en cuatro
dosis, sobre la carne de burro, de caballo, de cerdo y de res.
Como se puede apreciar, estos resultados serán mejor evaluados si se presentan
resumidos en una tabla de doble entrada como la que se muestra a continuación.
Tabla de contingencia. Días para el inicio de la desnaturalización de la carne de caballo
Concentración (mg/k)
5
12
18
20
Marca
Rocinante
19
25
27
17
Imperial
17
28
30
24
Resplandor
12
20
22
25
_____________________________________
J.A. Rueda-Restrepo.<[email protected]>
18
Nótese que será necesaria la construcción de una tabla similar para cada tipo de carne o
construir una tabla más elaborada que muestre toda la información.
2.3 GRÁFICOS
Los gráficos son el principal instrumento de análisis exploratorio de las características de
una variable y se construyen de varios tipos, según el propósito y/o el nivel deseado
para el análisis y según el tipo de variable que se describa.
2.4 Diagrama de dispersión (continuas y discretas)
La representación en un gráfico los pares de valores de dos variables suministra
información a cerca de posibles relaciones entre las ellas, con una simple inspección a la
nube de puntos.
Ejemplo: Se tiene la siguiente información acerca de número de nemátodos en una
muestra de suelo y el contenido de materia orgánica en la misma muestra
Nemátodos
Materia
Orgánica
Nemátodos
Materia
Orgánica
7
12
15
23
4
4.2
9.8
12.5
15.7
5.8
6.7
11
13
24
4
4
11
12.5
15.9
6.8
Tarea
Dibuje el diagrama de dispersión entre las dos variables.
2.5 Diagrama de barras (variables discretas)
Se realiza graficando las frecuencias absolutas o las frecuencias relativas de la variable
(eje Y) contra los valores observados (eje X).
Se distingue del histograma por la
separación que se encuentra entre las barras, que en el histograma no existe.
2.6 Ciclograma o Diagrama de sectores (Pie chart)
Las frecuencias relativas de las categorías que se encuentran en la variable son
descritas usando el círculo como representación de la totalidad de la muestra, cada
categoría se le asigna un sector (segmento de arco) que es proporcional a esta
_____________________________________
J.A. Rueda-Restrepo.<[email protected]>
19
frecuencia. De esta forma, una categoría que tenga una frecuencia relativa de 50% le
corresponde el arco descrito por un ángulo de 180º.
¿Qué porcentaje de las ventas corresponde a los helados de manzana (apple)?
2.7
Diagrama de cajas (variables continuas y discretas) Se construyen usando la
mediana y los cuartiles. La caja tiene un par de líneas que se prolongan a 1,5 veces el
rango intercuartílico (1.5*{Q3 – Q1}). La caja la constituyen tres líneas, la primera está a
la altura del cuartil uno (Q1), la segunda es la mediana y la tercera el cuartil tres (Q3).
La grafica muestra diez el diagrama de cajas para 10 variables, la segunda gráfica
muestra la misma gráfica para una sola variable.
Diagrama de cajas y bigotes para la variable aleatoria X.
2.8 Histograma (variables continuas)
Se construye graficando las frecuencias absolutas o las frecuencias relativas de la
variable (eje Y) contra las categorías o clases en las que se dividió la misma (eje X). Se
distingue del diagrama de barras por que la separación de las barras es cero.
_____________________________________
J.A. Rueda-Restrepo.<[email protected]>
20
2.9 Ojiva (variables continuas)
Se realiza graficando las frecuencias acumuladas de la variable en estudio (eje Y) contra
los valores de la variable (punto medio del intervalo de clase {xi} en el eje X).
Tarea:
 Usando las frecuencias acumuladas de la tabla de distribución de frecuencias de
los estudiantes grafique la ojiva correspondiente.
 Identifique los procedimientos que le permitan realizar estadística descriptiva en el
programa EXCEL®
_____________________________________
J.A. Rueda-Restrepo.<[email protected]>
21
PRELIMINARES
El sumatorio o la sumatoria es un operando matemático que permite representar sumas de
muchos sumandos, n o incluso infinitos sumandos, se expresa con la letra griega sigma ( Σ ), y se
define como:
Esto se lee: "Sumatorio sobre i, desde m hasta n, de x sub-i", o bien "sumatoria de i, desde i = m a
n, de x sub-i"
La variable i es el índice de suma al que se le asigna un valor inicial llamado límite inferior, m. La
variable i recorrerá los valores enteros hasta alcanzar el límite superior, n. Necesariamente debe
cumplirse que:
Si se quiere expresar la suma de los cinco primeros números naturales se puede hacerlo de esta
forma:



es la suma de los primeros cien números.
es la suma de las diez primeras potencias de 2.
es la suma de todos los números racionales de la forma 1/k2. Esta es una suma
infinita que nunca termina; es decir, se suman todos los elementos de un conjunto
infinito.
También hay fórmulas para calcular los sumatorios más rápido. Por ejemplo, para sumar los
primeros mil números naturales no tiene mucho sentido sumar número por número, y se puede
usar una fórmula como esta:
_____________________________________
J.A. Rueda-Restrepo.<[email protected]>
22
Los operadores de suma son útiles para expresar sumas de forma analítica; esto es, representar
todos y cada de los sumandos en forma general mediante el "i-ésimo" sumando. Así, para
representar la fórmula para hallar la media aritmética de n números, se tiene la siguiente
expresión:
Algunas fórmulas de sumatoria






Algunas fórmulas relacionadas

Se puede expresar el número e, con una sumatoria:
_____________________________________
J.A. Rueda-Restrepo.<[email protected]>
23

Para calcular el número armónico:

Para calcular un subfactorial:

Para calcular cualquier integral definida, pero éste, es un método aproximado:

Éste sumatorio puede expresarse como función cuadrática:
_____________________________________
J.A. Rueda-Restrepo.<[email protected]>