Download estadística y probabilidad - rosarioprofematescarlosiii

Document related concepts

Parámetro estadístico wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Medidas de tendencia central wikipedia , lookup

Desviación típica wikipedia , lookup

Varianza wikipedia , lookup

Transcript
ESTADÍSTICA Y PROBABILIDAD
La Estadística es la parte de las Matemáticas que estudia métodos para interpretar datos
obtenidos de investigaciones o experimentos aleatorios (aquellos en los que no se puede
predecir el resultado), con el fin de extraer de ellos unas conclusiones.
La Estadística puede ser:
a) Estadística descriptiva: trata de obtener unas conclusiones a partir de ciertos datos
mediante el empleo de gráficos o la obtención de unos ciertos valores que lo
representen a todos.
b) Estadística inferencial: trata de determinar los valores que adoptarán una serie de
datos muy numerosos, que forman una población mediante el estudio de unos
cuantos de ellos extraídos de la población de una manera significativa y que formen
una muestra. La base en la que se fundamenta la estadística inferencial es el cálculo de
probabilidades.
ESTADÍSTICA DESCRIPTIVA
CONCEPTOS GENERALES
La estadística descriptiva es una ciencia que analiza series de datos (por ejemplo, edad de una
población, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc)
y trata de extraer conclusiones sobre el comportamiento de estas variables.
Las variables pueden ser de dos tipos:


Variables cualitativas o atributos: no se pueden medir numéricamente (por ejemplo:
nacionalidad, color de la piel, sexo).
Variables cuantitativas: tienen valor numérico (edad, precio de un producto, ingresos
anuales).
Las variables también se pueden clasificar en:



Variables unidimensionales: sólo recogen información sobre una característica (por
ejemplo: edad de los alumnos de una clase).
Variables bidimensionales: recogen información sobre dos características de la
población (por ejemplo: edad y altura de los alumnos de una clase).
Variables pluridimensionales: recogen información sobre tres o más características
(por ejemplo: edad, altura y peso de los alumnos de una clase).
Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas:


Discretas: si los valores que puede tomar son aislados. Por ejemplo: número de
hermanos.
Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la
velocidad de un vehículo puede ser 80,3 km/h, 94,57 km/h...etc.
Cuando se estudia el comportamiento de una variable hay que distinguir los siguientes
conceptos:
1
 Individuo: cualquier elemento que porte información sobre el fenómeno que se
estudia. Así, si estudiamos la altura de los niños de una clase, cada alumno es un
individuo; si estudiamos el precio de la vivienda, cada vivienda es un individuo.
 Población: conjunto de todos los individuos (personas, objetos, animales, etc.) que
porten información sobre el fenómeno que se estudia. Por ejemplo, si estudiamos el
precio de la vivienda en una ciudad, la población será el total de las viviendas de dicha
ciudad.
 Muestra: subconjunto que seleccionamos de la población. Así, si se estudia el precio
de la vivienda de una ciudad, lo normal será no recoger información sobre todas las
viviendas de la ciudad (sería una labor muy compleja), sino que se suele seleccionar un
subgrupo (muestra) que se entienda que es suficientemente representativo.
 Tamaño de la población o de la muestra: es el número de elementos que componen
una u otra, se designa por n.
DISTRIBUCIÓN DE FRECUENCIA
La distribución de frecuencia es la representación estructurada, en forma de tabla, de toda la
información que se ha recogido sobre la variable que se estudia.
Variable
Valor(Xi)
x
Frecuencias absolutas
Simple (fi)
Acumulada(Fi)
x
X1
X2
...
Xn
x
f1
f2
...
fn
Frecuencias relativas
Simple(hi)
Acumulada(Hi)
x
F1=f1
F2=f1 + f2
...
 fi=n
X
f1 / n
f2 / n
...
fn = fn / n
f1 / n
(f1 / n)+ (f2 / n)
...
(fi / n)
Siendo X los distintos valores que puede tomar la variable.
Siendo fi el número de veces que se repite cada valor.
Siendo (fi/n)100 el porcentaje que la repetición de cada valor supone sobre el total
En el caso de variables continuas, los datos se agrupan en intervalos, llamados intervalos de
clase [a,b).
Para representar cada intervalo en las tablas de frecuencias se utiliza la marca de clase (xi),
que es el punto medio de cada intervalo de clase
PARÁMETROS ESTADÍSTICOS
Las representaciones gráficas no siempre consiguen ofrecer una información completa de los
datos, por tanto es necesario analizar procedimientos numéricos que permitan resumir la
información del fenómeno en estudio en unos números llamados parámetros estadísticos.
Éstos se pueden clasificar en:
o
Medidas de posición : son de dos tipos:
 Medidas de posición central: informan sobre los valores medios de la serie de
datos.
 Medidas de posición no centrales: informan de cómo se distribuye el resto de
los valores de la serie.
2
o
Medidas de dispersión: Estudia la distribución de los valores de la serie, analizando si
estos se encuentran más o menos concentrados, o más o menos dispersos.
MEDIDAS DE POSICIÓN CENTRAL
Las principales medidas de posición central son las siguientes:
1) Media: es el valor medio ponderado de la serie de datos. Se pueden calcular
diversos tipos de media, siendo las más utilizadas:
a) Media aritmética: se calcula multiplicando cada valor por el número de veces
que se repite. La suma de todos estos productos se divide por el total de datos
de la muestra:
̅=
𝑿
∑𝒌
𝒊=𝟏 𝒙𝒊 𝒇𝒊
𝒏
=
𝒙𝟏 𝒇𝟏 +𝒙𝟐 𝒇𝟐 +⋯.+𝒙𝒌 𝒇𝒌
𝒏
𝑘
𝑛 = ∑ 𝑓𝑖
𝑖=1
b) Media geométrica: se eleva cada valor al número de veces que se ha repetido.
Se multiplican todo estos resultados y al producto final se le calcula la raíz "n"
(siendo "n" el total de datos de la muestra).
𝒏
𝑮 = √𝒙𝟏 𝒇𝟏 𝒙𝟐 𝒇𝟐 … 𝒙𝒌 𝒇𝒌
Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o la
media geométrica.
La media geométrica se suele utilizar en series de datos como tipos de interés anuales,
inflación, etc., donde el valor de cada año tiene un efecto multiplicativo sobre el de los años
anteriores. En todo caso, la media aritmética es la medida de posición central más utilizada.
Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la serie, por lo
que no se pierde ninguna información.
Sin embargo, presenta el problema de que su valor (tanto en el caso de la media aritmética
como geométrica) se puede ver muy influido por valores extremos, que se aparten en exceso
del resto de la serie. Estos valores anómalos podrían condicionar en gran medida el valor de la
media, perdiendo ésta representatividad.
2) Mediana: es el valor de la serie de datos que se sitúa justamente en el centro de la
muestra (un 50% de valores son inferiores y otro 50% son superiores).No
presentan el problema de estar influido por los valores extremos, pero en cambio
no utiliza en su cálculo toda la información de la serie de datos (no pondera cada
valor por el número de veces que se ha repetido).
Cálculo de la mediana:
3

𝒏
Variables discretas no agrupadas: se calcula ( ) y se construye la columna de
𝟐
las frecuencias acumuladas Fi y se observa cuál es la primera frecuencia
𝒏
acumulada que supera o iguala a , distinguiéndose dos casos:
 Si 𝐹𝑖−1 <
 Si 𝐹𝑖 =

𝑛
2
𝟐
𝑛
< 𝐹𝑖 → 𝑴𝒆 = 𝒙𝒊
2
→ 𝑴𝒆 =
𝒙𝒊 +𝒙𝒊+𝟏
𝟐
Variables agrupadas por intervalos: en este caso hay que detectar cuál es el
𝒏
intervalo mediano (el que corresponda su 𝐹𝑖 ≥ 𝟐), [𝑳𝒊−𝟏 , 𝑳𝒊 ), distinguiéndose
dos casos:
𝑛
 Si 𝐹𝑖 =
→ 𝑴𝒆 = 𝑳𝒊
2
 Si 𝐹𝑖−1 <
𝑛
< 𝐹𝑖
2
𝒏
→
𝑴𝒆 = 𝑳𝒊−𝟏 + 𝟐
− 𝑭𝒊−𝟏
𝒇𝒊
𝒄
(c= amplitud del intervalo)
3) Moda: es el valor que más se repite en la muestra, el valor de mayor frecuencia.
Cálculo de la moda:
 Variables discretas no agrupadas: se observa la columna de las frecuencias
absolutas, y el valor de la distribución al que corresponde la mayor frecuencia
será la moda. A veces aparecen distribuciones de variables con más de una
moda (bimodales, trimodales, multimodal), e incluso una distribución de
frecuencias puede presentar una moda absoluta y una relativa.
 Variables agrupadas por intervalos: en este caso hay que detectar cuál es el
intervalo o clase modal, (𝑳𝒊−𝟏 , 𝑳𝒊 ], como aquel que posea mayor frecuencia y
se aplica la fórmula:
𝑴𝒐 = 𝑳𝒊−𝟏 +
𝒇𝒊 − 𝒇𝒊−𝟏
𝒄
(𝒇𝒊 − 𝒇𝒊−𝟏 ) + (𝒇𝒊 − 𝒇𝒊+𝟏 )
MEDIDAS DE POSICIÓN NO CENTRAL (Cuantiles)
Las medidas de posición no centrales permiten conocer otros puntos característicos de la
distribución que no son los valores centrales. Entre otros indicadores, se suelen utilizar una
serie de valores que dividen la muestra en tramos iguales:
1) Cuartiles (Qi): son 3 valores que distribuyen la serie de datos, ordenada de forma
creciente o decreciente, en cuatro tramos iguales, en los que cada uno de ellos
concentra el 25% de los resultados.
2) Deciles (Di): son 9 valores que distribuyen la serie de datos, ordenada de forma
creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos
concentra el 10% de los resultados.
3) Percentileso centiles (Pi): son 99 valores que distribuyen la serie de datos, ordenada
de forma creciente o decreciente, en cien tramos iguales, en los que cada uno de ellos
concentra el 1% de los resultados.
Cálculo de los cuantiles:
4


Variables discretas no agrupadas: se calcula
𝒓𝒏
𝒒
, siendo:
r= orden del cuantil correspondiente
q= el número de intervalos con iguales frecuencias u observaciones (q=4, 10 ó 100)
n= número total de observaciones
La anterior expresión nos indica qué valor de la variable estudiada es el cuantil que nos
piden, que se corresponderá con el primer valor cuya frecuencia acumulada sea mayor
𝒓𝒏
o igual a 𝒒 . (Semejante al cálculo de la mediana)
Variables agrupadas en intervalos: (se resuelve de manera análoga al cálculo de la
mediana)
MEDIDAS DE DISPERSIÓN
Existen diversas medidas de dispersión, entre las más utilizadas podemos destacar las
siguientes:
1) Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia entre
el valor más elevado y el valor más bajo.
2) Rango intercuartílico: es la diferencia entre el cuartil tres y el uno.
𝑸 = 𝑸𝟑 − 𝑸𝟏
Viene a indicarnos el rango que ocupa el 50% de población más centrado en torno a la
media.
3) Varianza: Mide la distancia existente entre los valores de la serie y la media.
𝒔𝟐𝒏
∑𝒌𝒊=𝟏 𝒇𝒊 (𝒙𝒊 − 𝒙
̅)𝟐 ∑𝒌𝒊=𝟏 𝒇𝒊 𝒙𝟐𝒊
̅𝟐
=
=
−𝒙
𝒏
𝒏
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más
concentrados están los valores de la serie alrededor de la media. Por el contrario,
mientras mayor sea la varianza, más dispersos están.
4) Desviación típica: Se calcula como raíz cuadrada de la varianza.
𝒔𝒏 = √
∑𝒌𝒊=𝟏 𝒇𝒊 (𝒙𝒊 − 𝒙
∑𝒌 𝒇𝒊 𝒙𝟐𝒊
̅)𝟐
̅𝟐
= √ 𝒊=𝟏
−𝒙
𝒏
𝒏
La desviación típica nos informa sobre la dispersión que tienen los datos respecto a la
media, Es el parámetro de dispersión por antonomasia, junto con la media se utiliza
para caracterizar las series de datos estadísticos.
5) Cuasivarianza:
2
𝑠̂ =
2
𝑠𝑛−1
∑𝑘𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑓𝑖
=
𝑛−1
Observamos que: 𝑛 ∙ 𝑠 2 = (𝑛 − 1) ∙ 𝑠̂ 2 , por tanto:
5
𝑠2 =
𝑛−1
𝑛
2
∙ 𝑠̂ 2 Si 𝑛 → ∞ 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑠 2 = 𝑠̂ 2 = 𝑠𝑛−1
6) Cuasi-desviación típica: Se calcula como la raíz cuadrada de la cuasivarianza.
̅)2 𝑓𝑖
∑𝑘𝑖=1(𝑥𝑖 − 𝑥
𝒔̂ = 𝒔𝒏−𝟏 = √
𝑛−1
La cuasi-desviación típica muestral, 𝒔𝒏−𝟏 , parámetro que nos facilita la calculadora
gráfica, se utiliza para estimar la desviación típica poblacional (σ). Para estimar la
media poblacional (μ) se utiliza la media muestral 𝑥̅ .
7) Coeficiente de varización de Pearson: se calcula como cociente entre la desviación
típica y la media.
𝐶𝑉 =
𝑠
𝑥̅̅
(*100 en %)
Se utiliza para comparar distribuciones de medidas diferentes, siempre que sus
medidas sean positivas. Los que están más dispersos mayor tanto por ciento.
El interés del coeficiente de variación es que al ser un porcentaje permite comparar el
nivel de dispersión de dos muestras. Esto no ocurre con la desviación típica, ya que
viene expresada en las mismas unidades que los datos de la serie.
Por ejemplo, para comparar el nivel de dispersión de una serie de datos de la altura de
los alumnos de una clase y otra serie con el peso de dichos alumnos, no se puede
utilizar las desviaciones típicas (una viene vienes expresada en cm y la otra en kg). En
cambio, sus coeficientes de variación son ambos porcentajes, por lo que sí se pueden
comparar.
Utilización conjunta de la media y desviación típica
̅ : media aritmética, se encuentra aproximadamente hacia el centro de la
𝑿
distribución.
𝑺: desviación típica, nos informa sobre la dispersión que tienen los datos
respecto de la media.
En las distribuciones unimodales o ligeramente asimétricas, se verifica:
̅ − 𝒔, 𝒙
̅ + 𝒔) se encuentra aproximadamente el 68% de los
 En el intervalo (𝒙
datos.
̅ − 𝟐𝒔, 𝒙
̅ + 𝟐𝒔) se encuentra aproximadamente el 95% de los
 En el intervalo (𝒙
datos.
̅ − 𝟑𝒔, 𝒙
̅ + 𝟑𝒔) se encuentra aproximadamente el 99% de los
 En el intervalo (𝒙
datos.
6

DISTRIBUCIONES BIDIMENSIONALES
Las distribuciones bidimensionales son aquellas en las que se estudian al mismo tiempo dos
variables de cada elemento de la población: por ejemplo: peso y altura de un grupo de
estudiantes; superficie y precio de las viviendas de una ciudad; potencia y velocidad de una
gama de coches deportivos.
Para representar los datos obtenidos se utiliza una tabla de correlación:
X/Y
x1
x2
y1
f1,1
f2,1
y2
f1,2
f2,2
.....
x
x
ym-1
f1,m-1
f2,m-1
ym
f1,m
f2,m
Las "x" representan una de las variables y las "y" la otra variable. En cada intersección de una
valor de "x" y un valor de "y" se recoge el número de veces que dicho par de valores se ha
presentado conjuntamente.
Distribuciones marginales
Al analizar una distribución bidimensional, uno puede centrar su estudio en el
comportamiento de una de las variables, con independencia de cómo se comporta la otra.
Estaríamos así en el análisis de una distribución marginal.
Diagrama de dispersión o nube de puntos
Es el conjunto de puntos sobre el plano (xi,yi) de la variable estadística bidimensional.
Parámetros estadísticos en una distribución bidimensional
̅=
Media de la variable X: 𝑿
Media de la variable Y: ̅
𝒀=
∑𝒌𝒊=𝟏 𝒙𝒊 𝒇𝒊
𝒏
∑𝒌𝒊=𝟏 𝒚𝒊 𝒇𝒊
Varianza de la variable X: 𝒔𝟐𝒙 =
Varianza de la variable Y: 𝒔𝟐𝒚 =
𝒏
∑𝒌𝒊=𝟏 𝒇𝒊 (𝒙𝒊 −𝒙
̅)𝟐
𝒏
∑𝒌𝒊=𝟏 𝒇𝒊 (𝒚𝒊 −𝒚
̅)𝟐
𝒏
Covarianza de la variable (X,Y): 𝒔𝒙𝒚 =
Coeficiente de correlación lineal : 𝑟 =
=
=
∑𝒌𝒊=𝟏 𝒇𝒊 𝒙𝟐𝒊
𝒏
∑𝒌𝒊=𝟏 𝒇𝒊 𝒚𝟐𝒊
𝒏
∑𝒌𝒊=𝟏 𝒙𝒊 𝒚𝒊 𝒇𝒊
𝒏
̅𝟐
−𝒙
̅𝟐
−𝒚
̅𝒚
̅=
−𝒙
∑𝒌𝒊=𝟏(𝒙𝒊 −𝒙
̅)(𝒚𝒊 −𝒚
̅)𝒇𝒊
𝒏
𝒔𝒙𝒚
𝑠𝑥 𝑠𝑦
7
En una distribución bidimensional puede ocurrir que las dos variables guarden algún tipo de
relación entre sí.
Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy posible que
exista relación entre ambas variables: mientras más alto sea el alumno, mayor será su peso.
El coeficiente de correlación lineal mide el grado de intensidad de esta posible relación entre
las variables. Este coeficiente se aplica cuando la relación que puede existir entre las variables
es lineal (es decir, si representáramos en un gráfico los pares de valores de las dos variables la
nube de puntos se aproximaría a una recta).
No obstante, puede que exista una relación que no sea lineal, sino exponencial, parabólica,
etc. En estos casos, el coeficiente de correlación lineal mediría mal la intensidad de la relación
las variables, por lo que convendría utilizar otro tipo de coeficiente más apropiado.
Para ver, por tanto, si se puede utilizar el coeficiente de correlación lineal, lo mejor es
representar los pares de valores en un gráfico y ver la forma que describen.
Los valores que puede tomar el coeficiente de correlación "r" son: -1 < r < 1
Si "r" > 0, la correlación lineal es positiva (si sube el valor de una variable sube el de la otra).
La correlación es tanto más fuerte cuanto más se aproxime a 1.
Si "r" < 0, la correlación lineal es negativa (si sube el valor de una variable disminuye el de la
otra). La correlación negativa es tanto más fuerte cuanto más se aproxime a -1.
Si "r" = 0, no existe correlación lineal entre las variables. Aunque podría existir otro tipo de
correlación (parabólica, exponencial, etc.)
Regresión lineal
Representamos en un gráfico los pares de valores de una distribución bidimensional: la
variable "x" en el eje horizontal o eje de abscisas, y la variable "y" en el eje vertical, o eje de
ordenadas. Vemos que la nube de puntos sigue una tendencia lineal:
8
El coeficiente de correlación lineal nos permite determinar si, efectivamente, existe relación
entre las dos variables. Una vez que se concluye que sí existe relación, la regresión nos permite
definir la recta que mejor se ajusta a esta nube de puntos.
Recta de regresión de Y sobre X: 𝑦 − 𝑦̅ =
𝑠𝑥𝑦
𝑠𝑥2
(𝑥 − 𝑥̅ )
A partir de esta recta podemos conocer con cierta aproximación los valores de la variable y
(dependiente) conocidos los de la variable x (independiente).
Recta de regresión de X sobre Y: 𝑥 − 𝑥̅ =
𝑠𝑥𝑦
𝑠𝑦2
(𝑦 − 𝑦̅)
A partir de esta recta podemos conocer con cierta aproximación los valores de la variable x
(dependiente) conocidos los de la variable y (independiente).
ELABORACIÓN DE GRÁFICOS ESTADÍSTICOS
Los resultados de cualquier experimento se pueden representar gráficamente. Los principales
tipos son:
a) Diagrama de barras: se colocan en el eje de abscisas los valores de la variable
xi y en el eje de ordenadas los valores de sus frecuencias fi y dibujamos barras
de igual anchura cuya altura sea exactamente la frecuencia.
Se usa para variables cualitativas o cuantitativas discretas.
b) Histogramas: Se usan para las variables estadísticas cuantitativas continuas,
En el eje vertical se representan las frecuencias. Cuando el ancho de las barras
no es el mismo, lo que marca la frecuencia no es la altura de cada barra, sino
el área de la misma.
c) Polígono de frecuencias: Se obtienen si unimos los puntos medios de las
bases superiores de las barras en un histograma.
9
d) Polígono de frecuencias acumuladas: Si se representan las frecuencias
acumuladas (ojiva) de una tabla de datos agrupados se obtiene el histograma
de frecuencias acumuladas o su correspondiente polígono.
e) Diagrama de sectores: se obtiene dividiendo la circunferencia en tantas partes
como valores tenga la variable, de manera que el área de cada sector circular
obtenido sea proporcional a la respectiva frecuencia.
f)
Pictogramas: Es como el diagrama de barras, donde se sustituyen las barras
por un dibujo de altura proporcional a las frecuencias y que hace más intuitiva
la interpretación de los resultados.
g) Pirámide de población: Se utiliza este procedimiento para comparar las
características más relevantes de la población de un Estado, provincia, etc, y
sus variaciones en un determinado tiempo.
h) Cartogramas: Son representaciones gráficas de unidades geográficas,
diferenciadas por colores, rayas o puntos.
i)
Diagrama de cajas y bigotes (boxplot o box and whiskers ): Es un gráfico que
visualiza la mediana y los cuartiles, de manera que nos permita hacer un
análisis rápido de la manera que se distribuyen los datos de la variable
estadística. Sobre una recta se representan: el dato más pequeño, el primer
cuartil, la mediana, el tercer cuartil y el mayor dato. Se le da una forma que
recuerda a dos cajas con dos segmentos (bigotes) a izquierda y derecha. Cada
uno de estos cuatro elementos incluirá un 25% del total de los datos, por lo
que la longitud de los mismos mostrará la dispersión o acumulación de datos
en cada zona. Si alguno de estos elementos tiene mayor longitud, indicará que
los datos están más dispersos en esta gama de valores, mientras que una
menor longitud indicará que están más concentrados
10
ESTADÍSTICA INFERENCIAL
La estadística inferencial se encarga de extraer conclusiones acerca de la población a partir de
los resultados obtenidos en la muestra. (Inferir= sacar una consecuencia o deducir una cosa de
otra)
A partir de la información obtenida de la muestra, se deben obtener las conclusiones acerca de
la población de la forma más coherente posible, y además, con un cierto grado de confianza.
De entrada hay que aclarar que el concepto de población no se refiere necesariamente a
individuos, simplemente se refiere a un conjunto de datos que, en muchas ocasiones, es muy
costoso o engorroso conocer en su totalidad. En la práctica lo que hay que hacer es recabar
aleatoriamente sólo algunos de los datos, es decir, elegir una muestra, este proceso se
denomina muestreo. La buena elección de la muestra es un elemento decisivo para que pueda
representar con garantías a toda la población.
Una vez elegida la muestra pasaríamos a obtener sus parámetros: media, varianza, mediana,
cuartiles, etc.
Lo que nos interesa es cómo extrapolar los parámetros muestrales a toda la población. Los
estimadores insesgados que emplearemos son los siguientes:

̅)
Para estimar la media poblacional (μ) se utiliza la media muestral (𝒙
̅=
𝝁≈𝒙

∑𝒌𝒊=𝟏 𝒙𝒊 𝒇𝒊
𝒏
Para estimar la desviación típica poblacional (σ) se utiliza la cuasi-desviación típica
media muestral (𝒔𝒏−𝟏 )
̅ ) 𝟐 𝒇𝒊
∑𝒌
𝒊=𝟏(𝒙𝒊 −𝒙
𝝈 ≈ 𝒔𝒏−𝟏 = √
𝒏−𝟏
, siendo 𝑛 = ∑𝑘𝑖=1 𝑓𝑖
Nota: cuando se hagan los cálculos a mano, hay que tener cuidado con la cuasi-desviación
típica, ya que mientras que con la desviación típica hay dos fórmulas alternativas que son
equivalentes, no sucede lo mismo con la cuasi-desviación típica. Ahora bien, si se desea un
cálculo cómodo, se puede emplear la fórmula:
𝒌
𝟐
∑
𝒇𝒙
𝑛
𝑛
̅ 𝟐 , siendo 𝑛 = ∑𝑘𝑖=1 𝑓𝑖 ya que 𝒔𝒏−𝟏 =
𝒔𝒏−𝟏 = 𝑛−1 ∙ √ 𝒊=𝟏𝒏 𝒊 𝒊 − 𝒙
∙𝑠
𝑛−1 𝑛
La información del conjunto de datos que podríamos obtener sabiendo su media y su
desviación típica, si el número de datos es suficientemente alto, es el siguiente: en el intervalo
(𝝁 − 𝝈, 𝝁 + 𝝈) incluiría en su interior a un porcentaje sustancial del total de los datos
(aproximadamente el 73%).
11
12