Download tema 14 – estadística - Misioneras Seculares de Jesús Obrero
Document related concepts
no text concepts found
Transcript
Colegio “La Inmaculada” Misioneras Seculares de Jesús Obrero Nueva del Carmen, 35. – 47011 Valladolid. Tel: 983 29 63 91 Fax: 983 21 89 96 e-mail: [email protected] Área de Matemáticas Académicas - 4º de ESO Apuntes de Área TEMA 14 – ESTADÍSTICA Objetivos / Criterios de evaluación O.15.1 Conocer el significado y saber calcular los parámetros de centralización y dispersión O.15.2 Interpretar y utilizar los parámetros de dispersión. 1 Términos estadísticos (Página 292) Def.: Población: Es el conjunto de todos los elementos o individuos sobre los que se va a realizar un estudio estadístico. Por ejemplo, si se quiere estudiar un comportamiento en la adolescencia española, la población serían todas las personas adolescentes que viven en España. Def.: Muestra: Es la parte de la población sobre la que se realiza el estudio. Para que el estudio tenga valor estadístico, la muestra debe ser representativa de la población a la que sustituye. En el caso del estudio sobre la adolescencia española, la muestra serían las personas a quienes en concreto se va a preguntar, por ejemplo, 200 estudiantes de Madrid y Málaga en edad adolescente Def.: Carácter estadístico: Es cualquier cualidad o característica que va a ser analizada en un estudio estadístico, por ejemplo, la talla de calzado, la opción política preferida. Puede ser – Cuantitativa: si puede medirse y expresarse con números (es una variable), por ejemplo la talla de calzado. – Cualitativa: si no se puede medir con números, por ejemplo la opción política preferida. Def.:Variable estadística: es el conjunto de valores que puede tomar un carácter estadístico. Cada valor se denomina modalidad. Las variables pueden ser: – Discretas: pueden tomar valores aislados, por ejemplo el número de hijos e hijas de las familias, pueden ser 0, 1, 2, 3… pero no puede ser 2,4, porque no hay personas decimales. – Continuas: pueden tomar cualquier valor, por ejemplo la altura de una persona, que sí que puede ser decimal. 2. Frecuencias (página 293) Def.: Frecuencia Absoluta: de un valor o modalidad es la cantidad de veces que se repite. Se representa con fi. p.e. cuántas personas tienen 42 años. Def.: Frecuencia Relativa: Es el cociente entre la frecuencia Absoluta y el número total de datos (El tanto por uno de cada frecuencia absoluta). Se representa con hi Tema 14 – Estadística Colegio “La Inmaculada” Misioneras Seculares de Jesús Obrero Nueva del Carmen, 35. – 47011 Valladolid. Tel: 983 29 63 91 Fax: 983 21 89 96 e-mail: [email protected] Área de Matemáticas Académicas - 4º de ESO Apuntes de Área Def.: Frecuencia Absoluta Acumulada: de un valor o modalidad es la suma de las frecuencias absolutas de todos los valores hasta llegar a él, es decir, valores o iguales a él. Se representa como Fi. P.e. cuántas personas tienen o 42 años o menos. Def.: Frecuencia Relativa Acumulada: Es el cociente entre la frecuencia Absoluta Acumulada y el número total de datos (El tanto por uno de cada frecuencia absoluta acumulada). Se representa con Hi 3 Gráficos estadísticos (página 294) Para representar los datos estadísticos se utilizan gráficas. Estas pueden ser de varios tipos: Diagramas de barras o histograma: Sobre cada valor estadístico se dispone una barra cuya altura corresponde con la frecuencia absoluta de ese valor. Polígonos de frecuencias: Es la línea que une la parte superior de cada barra de un diagrama de barras. Diagramas de sectores: Sobre un círculo que representa la totalidad de los datos, sectores coloreados muestran las frecuencias relativas de cada valor Diagramas lineales: Son similares a los polígonos de frecuencia sin que sea necesario que aparezca la barra que representa el valor. Para presentar los datos estadísticos se utilizan las tablas de frecuencias. Tema 14 – Estadística Colegio “La Inmaculada” Misioneras Seculares de Jesús Obrero Nueva del Carmen, 35. – 47011 Valladolid. Tel: 983 29 63 91 Fax: 983 21 89 96 e-mail: [email protected] Área de Matemáticas Académicas - 4º de ESO Apuntes de Área Si las variables son continuas, o son discretas pero tienen muchos valores posibles, los datos se agrupan en “clases” o intervalos. El valor medio de cada Clase se llama marca de clase y se utiliza como valor representativo en lugar de los valores reales de la variable. Por ejemplo, para estudiar la talla de una serie de personas pueden agruparse quienes miden entre 160 y 164 cm como si midieran todas lo mismo, en este caso la marca de clase podría ser 162 cm (que es la media entre 160 y 164) y estaríamos suponiendo que todas las personas entre 160 y 164 cm miden 162 cm. En una tabla de frecuencias se disponen en columnas: Intervalo de la clase Marca de clase (xi) Frecuencia absoluta (fi) Frecuencia absoluta acumulada (Fi) Frecuencia relativa (hi) Frecuencia relativa acumulada (Hi) 4 Parámetros de centralización (Página 296) Def.: Parámetros de centralización: Son valores que resumen la muestra estadística. Suelen situarse en la parte central de la misma y pueden ser insuficientes e incluso tendenciosos debido a la poca información que aportan. Def.: Media aritmética: de una variable estadística es el cociente entre la suma de todos los valores de la misma y el número de datos existentes. Suele calcularse dividiendo el sumatorio de los productos de cada valor por su frecuencia absoluta entre la suma de todas las frecuencias absolutas. Se indica con una barra horizontal sobre el nombre de la variable. x ̄ = ∑ xi × f i ∑ fi Def.: Moda (Mo): Es el valor que más se repite en una muestra estadística. Si la distribución está agrupada en clases se habla de clase modal. Si existen dos valores que se repiten el mismo número de veces se dice que la distribución es bimodal. Def.: Mediana (M): de una variable estadística es el valor que se encuentra situado en el medio de la distribución, es decir, que el número de valores menores que él es el mismo que el número de valores mayores que él. Def.: Cuartiles (Q1, Q2 y Q3): de una variable estadística son los valores tales que el número de datos menores que ellos son, respectivamente, el 25, 50 y 75% de la muestra, y el número de valores mayores que ellos son, respectivamente, el 75, 50 y 25 % de la muestra. El segundo cuartil (Q2) coincide con la mediana. Def.: Percentil: de una variables estadística es el valor tal que el número de datos menor que él es el tanto por ciento del percentil. Son muy utilizados en pediatría. Tema 14 – Estadística Colegio “La Inmaculada” Misioneras Seculares de Jesús Obrero Nueva del Carmen, 35. – 47011 Valladolid. Tel: 983 29 63 91 Fax: 983 21 89 96 e-mail: [email protected] Área de Matemáticas Académicas - 4º de ESO Apuntes de Área 5. Parámetros de dispersión (página 298) Def.: Parámetros de dispersión: Son valores que resumen lo agrupados o dispersos de que están los valores de una muestra estadística. Su utilización, junto con los valores de centralización, mejora sustancialmente la interpretación estadística. Def.: Rango o recorrido: de una variable estadística es la diferencia entre el valor mayor y el menor. Def.: Varianza (s2): de una variable estadística es la media de los cuadrados de las desviaciones de cada valor con respecto de la media. s 2 2 ̄ 2 ∑ f i× x i ∑ f i× (xi − x) = = − x̄ 2 ∑ fi ∑ fi Def. Desviación Típica (s): de una variable estadística es la raíz cuadrada de la varianza. Def. Coeficiente de variación (CV): de una variable estadística es el cociente entre la desviación típica y la media aritmética. 𝐶𝑉 = 𝑆⁄𝑉 6. Interpretación conjunta de la media y la desviación típica En las distribuciones de datos estadísticos normales, suele ocurrir que: Entre el 65 y el 70 % de los datos se encuentran alejados de la media menos de una desviación estándar (es decir, están en el intervalo una s arriba y una s abajo de la media) Entre el 90 y el 98 % de los datos se encuentran alejados de la media menos de dos desviaciones estándar. La práctica totalidad de los datos se encuentran alejados de la media menos de tres desviaciones estándar. Def.: Datos atípicos: son aquellos que se encuentran muy alejados de la media. Si esto ocurre, se les suele eliminar para calcular la media sin ellos. A esta nueva media se la llama media truncada. Def.: Falacia: es la utilización sesgada de los datos estadísticos para dar ideas equivocadas y que no tienen justificación estadística cierta. Nuestro interés es aprender a reconocerlas y desenmascararlas. 7.Distribuciones bidimensionales (Página 300) Def.: Distribución bidimensional: es aquella en la que, a cada individuo de la población se le asignan dos valores, uno de cada variable estadística. Tema 14 – Estadística Colegio “La Inmaculada” Misioneras Seculares de Jesús Obrero Nueva del Carmen, 35. – 47011 Valladolid. Tel: 983 29 63 91 Fax: 983 21 89 96 e-mail: [email protected] Área de Matemáticas Académicas - 4º de ESO Apuntes de Área Estas dos variables pueden estar o no relacionadas una con la otra. Si su relación responde a una fórmula matemática se dice que ambas variables tienen dependencia funcional. Def.: Correlación lineal: es la relación que existe entre las dos variables de una distribución bidimensional tal que no está regulada exactamente por una función, sino que los valores de ambas se distribuyen alrededor de una recta. Esta correlación puede ser directa (cuando una variable crece la otra también) o inversa (cuando una variable crece la otra tiende a decrecer). 8. Parámetros de distribuciones bidimensionales (Página 302) Def.: Centro de gravedad: (𝑥, ̅ 𝑦̅) es el punto cuyas coordenadas son la media de cada una de las dos variables de una distribución bidimensional. Def.: Covarianza: es el parámetro que analiza la dispersión conjunta de ambas variables respecto de su centro de gravedad. Se calcula: 𝑆𝑥𝑦 = ∑(𝑥𝑖 − 𝑥̅ ) · (𝑦𝑖 − 𝑦̅) ∑ 𝑥𝑖 𝑦𝑖 = − 𝑥̅ · 𝑦̅ 𝑁 𝑁 Def.: Coeficiente de correlación lineal: es el cociente entre la covarianza y el producto de las dos desviaciones típicas de una muestra bidimensional. Su valor puede valer desde -1, que indica una fuerte correlación inversa, pasando por cero, que indica que no hay relación entre las dos variables, hasta un máximo de 1 que indica una fuerte correlación directa. Se calcula: 𝑟= 𝑆𝑥𝑦 ⁄𝑆 · 𝑆 𝑥 𝑦 Def.: Recta de regresión lineal: de Y sobre X es la ecuación de la recta punto pendiente que correspondería con la recta a la que se aproximan los datos de una distribución bidimensional y que pasa por el centro de gravedad de la muestra. La pendiente se llama coeficiente de regresión de Y sobre X 𝑦 − 𝑦̅ = 𝑆𝑥𝑦 · (𝑥 − 𝑥̅ ) 𝑆𝑥2 𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑑𝑒 𝑌 𝑠𝑜𝑏𝑟𝑒 𝑋 = Tema 14 – Estadística 𝑆𝑥𝑦 𝑆𝑥2