Download RECOLECCION DE DATOS Y COMUNICACION DE RESULTADOS

Document related concepts

Desviación típica wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Varianza wikipedia , lookup

Parámetro estadístico wikipedia , lookup

Error estándar wikipedia , lookup

Transcript
Datos: Estadística
Conceptos claves:
• La estadística se usa para describir la variabilidad en los
datos de manera cuantitativa, y para cuantificar las
relaciones entre las variables.
• El análisis estadístico se usa para diseñar los estudios
científicos, para aumentar la consistencia, medir la
incertidumbre y producir datos robustos.
• Hay varios malentendidos que rodean las estadísticas,
incluiyendo la confusión entre términos estadísticos y el
uso del lenguaje común de términos similares.
• “Algunos estudios han demostrado que la
probabilidad de desarrollar cáncer de
pulmón es casi 20 veces mayor en los
fumadores que en los no fumadores.”
• ¿Por qué los científicos hablan usando
términos que parecen vagos? Si fumar
causa cáncer de pulmón, ¿por qué no
comunicarlo simplemente?
• Los datos científicos rara vez conducen a
conclusiones absolutas.
• No todos los fumadores mueren de cáncer
de pulmón.
• Todos los datos exhiben variabilidad, y es
el rol de las estadísticas cuantificar esta
variabilidad y permitirles a los científicos
realizar declaraciones más exactas sobre
sus datos.
La estadística en el análisis
de datos
• Se usa la estadística para modelar los patrones en los
datos, emitir juicios sobre estos, identificar las
relaciones entre las variables, e inferir sobre
poblaciones más amplias basándose en muestras de
datos más pequeñas.
RAZONES PARA ESTUDIAR UNA MUESTRA
• Costos
• Tiempo
• Disponibilidad de personal cualificado
• Posibilidad de destruir toda una población
Variables:
• A cada característica de los elementos de
una población se le llama variables.
• Ejemplos: categorías o atributos de los
elementos (individuos) estudiados (color de
ojos, sexo, tipo de sangre); datos de tipo
numérico.
• Para minimizar errores y obtener datos
más cercanos a los reales hacemos
réplicas o tomamos varias muestras.
• Cuando tenemos varias medidas para
un mismo experimento usamos la media
o promedio para estimar el valor real.
• La media aritmética o simplemente promedio
(también llamada media muestral ya que
generalmente se calcula en relación a una
muestra) se calcula de la siguiente forma: si las
observaciones de una muestra de tamaño n son
x1, x2,…,xn entonces
n
x
x 1  x 2  ...  x n i  1
X

n
n
i
Ejemplo 1
• Conjunto de N estudiantes en
campamento de verano, ¿Cuántos
pertenecen a cada una de las edades de 6
a 12 años?
• Conjunto original: 10, 14, 6, 7, 9, 15, 11,
12, 14, 11, 10, 12, 11, 7, 11, 10.
• Organizando los datos: 6, 7, 7, 9, 10, 10,
10, 11, 11, 11, 11, 12, 12, 14, 14, 15.
Ejemplo 1
• Fórmula de la media: Σ (Xi/n)
Donde Σ(sigma mayúscula/letra griega) significa
sumatoria.
X representa observaciones individuales.
n es el número de observaciones.
X = 6, 7, 7, 9, 10, 10, 10, 11, 11, 11, 11, 12, 12, 14,
14, 15/16 =170
X = 170/16
X = 10.6 años
Ejemplo 1
• ¿Cuántos niños se incluyeron en el estudio? R=16.
• Edad más frecuente: 11 años, esto es la moda (valor
presentado con mayor frecuencia en una serie de
datos)
• Si se obtiene una sola moda es unimodal, si son 2 es
bimodal y más de 2 multimodal.
• Se usa cuando es difícil o no posible realizar otros
cálculos; ej. cuando se enumeran en periódicos las
características más frecuentes de determinado sector
social.
Ejemplo 1
• ¿Cuál fue el valor encontrado en la mitad de
los datos? R=11.
• Esto es la mediana, que es el valor medio de
una secuencia ordenada de datos.
• Para obtener la mediana, se ordenan los datos
de menor a mayor, si N es par, la posición de
la mediana será entre dos valores reales, si N
es impar la posición de la mediana será un
valor de la serie.
COMPARACIÓN MEDIA-MEDIANA
• La media contiene más información porque usa los
valores de todos los datos.
• La mediana es más robusta frente a los cambios en
los datos.
• La media es más sencilla de calcular y se presta
mejor a los cálculos algebraicos.
• Deben calcularse ambas pues proporcionan
información complementaria.
13
Ejemplo 1
• Los valores de las medidas de dispersión son
mayores cuando los datos están muy
separados y son menores cuando los datos
están cercanamente agrupados.
• ¿Qué tan separados están los datos?
R=9, ya que 15-6=9. Esto se llama rango o
amplitud.
• Es fácil de calcular y sus unidades son las
mismas que las de la variable que se mide.
• Las medidas de dispersión nos permiten
valorar si el valor de la medida de tendencia
central es o no representativo.
Ejemplo 1
2
• La varianza (s) se define como las desviaciones
cuadradas medias respecto a la media, o como la
media de los cuadrados de las diferencias entre cada
valor de la variable y la media de la distribución. En
el ejemplo 1 la varianza es 6.5 años.
• La desviación estándar es la raíz cuadrada de la
varianza.
2
Pasos para calcular la varianza y la
desviación estandar:
1. Calcula la media (el promedio de los
números)
2. Por cada número resta la media y eleva
el resultado al cuadrado (la diferencia
elevada al cuadrado).
3. Ahora calcula la media de esas
diferencias al cuadrado.
4. La desviación estándar es la raíz de la
varianza.
Ejemplo 1
• ¿Qué tanto están separados los datos del
promedio o media? R=2.5 años. Esto se obtiene
con la desviación estándar (s), que expresa que
tanto se dispersan los datos en relación a la
media.
• La s es la medida de dispersión más adecuada
para la estadística descriptiva.
• El resultado para el ejemplo 1: 10.6 ± 2.5 años
quiere decir que un 68% de los niños en el
campamento tendrán una edad de 10.6 años
con 2.5 años más o menos.
• Esta forma de presentar los datos
experimentales nos dice cuánto fue la
variabilidad en los datos y por consiguiente
cuán preciso fueron los datos.
• La desviación estándar de un registro de
medidas puede ser usada para calcular
un intervalo de confiabilidad alrededor
del valor.
• Mientras menor sea la desviación estándar
más confiabilidad tenemos de que nuestros
datos están cercanos al valor real de la media.
Curva de distribución normal
•
•
La parte roja indica una desviación estandar del promedio (68% de la
población); la parte verde indica dos desviaciones estandar del promedio
(95% población); la parte verde indica tres desviaciones estandar del
promedio (99% población).
¿Por qué es esto útil? Desviaciones estandares más pequeñas reflejan datos
más agrupados. Un grupo de datos con menos valores extremos indica más
confiabilidad. La desviación estandar es por consiguiente una buena
medida de la confiabilidad del valor promedio.