Download ESTADISTICA APLICADA A LA INVESTIGACION
Document related concepts
Transcript
ESTADISTICA BASICA Mtra. Verónica Belén Rodríguez Hevia [email protected] [email protected] Julio de 2011 Definición de Estadística “Es el conjunto de técnicas que se emplean para la recolección, organización, análisis e interpretación de datos.” (Kazmier, 1998:1). “El tema de la estadística moderna abarca la recolección, presentación y caracterización de información para ayudar tanto en el análisis de datos como en el proceso de toma de decisiones.” (Berenson y Levine, 1996:2) “Método de toma de decisiones frente a la incertidumbre.” (Chou, 1977:1) “Método científico de operar con los datos y de interpretarlos.” (Portus, 1994:3) “Métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos.” (Montiel y otros, 1996:2) “El análisis estadístico se usa para manipular , resumir e investigar datos con el fin de obtener información útil en la toma de decisiones.” (Hanke y Reitsch, 1997:3) Para qué sirve la estadística? La Ciencia se ocupa en general de fenómenos observables La Ciencia se desarrolla observando hechos, formulando leyes que los explican y realizando experimentos para validar o rechazar dichas leyes La Estadística se utiliza como tecnología al servicio de las ciencias donde la variabilidad y la incertidumbre forman parte de su naturaleza Ámbito de la Estadística: Casi todas las áreas del saber requieren del pensamiento estadístico. Las disciplinas de estudio que dependen ampliamente del análisis estadístico, incluyen -pero no se limitan a-, marketing, finanzas economía e investigación de operaciones. Los principios de contabilidad y gerencia financiera también se basan en principios estadísticos. Contabilidad: •Para seleccionar muestras con propósitos de auditoría. •Para comprender los derroteros de costos en contabilidad de costos. Finanzas: •Para estar al tanto de las medidas financieras en el transcurso del tiempo. •Para desarrollar formas de pronosticar valores de estas medidas en momentos futuros. Administración: •Para describir las características de los empleados dentro de una organización. •Para mejorar la calidad de los productos fabricados o de los servicios procurados por la organización. Mercadeo: •Para determinar la proporción de clientes que prefieren un producto en vez de otro y la razón de esto. •Para sacar conclusiones respecto a la estrategia de publicidad que sería más útil para el incremento de ventas de un producto. Definición La Estadística es la Ciencia de la Sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de deducir las leyes que rigen esos fenómenos, y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones. TIPOS DE ESTADÍSTICA ESTADISTICA DESCRIPTIVA : Puede definirse como aquellos métodos que incluyen la recolección, presentación y caracterización de un conjunto de datos con el fin de describir apropiadamente las diversas características de ese conjunto de datos. ESTADÍSTICA INFERENCIAL : Pueden definirse como aquellos métodos que hacen posible la estimación de una característica de una población o la toma de una decisión referente a una población, basándose solo en los resultados de la muestra. PENSAMIENTO ESTADÍSTICO “CONJUNTO DE PROCESOS DEL PENSAMIENTO QUE SE ORIENTAN A LA FORMA DE ENTENDER, ADMINISTRAR Y REDUCIR LA VARIACIÓN” (Berenson y Levine, 2001:4) “CONJUNTO DE PRINCIPIOS Y VALORES QUE PERMITEN IDENTIFICAR LOS PROCESOS, CARACTERIZARLOS, CUANTIFICARLOS, CONTROLAR Y REDUCIR SU VARIACIÓN PARA IMPLANTAR ACCIONES DE MEJORA”. (Snee, 1993) Pensamiento Estadístico Mundo “real” Pruebas de hipótesis Problema Inferencia Estimaciones Factor 1 Factor 2 Factor p Tablas y gráficos de frecuencias Descripción de los datos Indicadores de centralidad (Moda, Mediana, Media) Indicadores de dispersión (Recorrido, Varianza, Desv. Típica) Coeficientes de correlación Diseño de muestreo La inferencia estadística es el proceso que consiste en inferir una conclusión acerca de alguna medida de población (parámetro), con base a algún estadístico obtenido de una muestra aleatoria, con un cierto nivel de confianza. Las pruebas de hipótesis ayudan a este proceso. Población x s Muestra DEFINICIONES BÁSICAS UNIVERSO: Es un conjunto integrado por todos los elementos, seres u objetos que contienen las características u observaciones que se requieren en una investigación dada. POBLACIÓN: Es el conjunto integrado por todas las mediciones u observaciones del universo de interés en la investigación. Por lo tanto pueden definirse varias poblaciones en un solo universo, tantas como características a medir. MUESTRA: Es una parte (sub-conjunto) de la población, obtenida con el propósito de investigar propiedades que posee la población. Es decir, se pretende que dicho subconjunto, represente a la población a la cual se extrajo. II.- ESTADÍSTICA INFERENCIAL A) Procedimiento General de la Prueba Estadística de Hipótesis: Paso 1: Plantear las Hipótesis. Hipótesis Nula (Ho): Negación de lo declarado en la hipótesis de investigación. Hipótesis Alternativa (H 1 ) : Sentencia que se desea probar con el estudio. Pueden ser: A) Paramétricas B) No-paramétricas Paso 2: Establecer el nivel de significación (). : máxima probabilidad de rechazar la Hipótesis Nula siendo verdadera. Su valor está en proporción inversa con la importancia que tiene para el investigador aceptar como cierta una hipótesis que es falsa. Por lo tanto, es una decisión del investigador de acuerdo con el riesgo máximo que acepta correr y, por supuesto, en función de los recursos con los que cuenta. Los posibles escenarios se muestran a continuación: Tabla 2: Escenarios de la prueba de hipótesis Decisión de la prueba No rechazar Ho Rechazar Ho Situación actual o "real" en la población Ho cierta Ho falsa Decisión correcta (1-) Error tipo II () Error tipo I () Decisión correcta (1-) Paso 3: Determinar el tamaño de la muestra (n). Factores que determinan el tamaño de n: a) Grado de homogeneidad de las variables claves. b) Nivel de significación (). c) Error máximo admisible (e) d) Costo o presupuesto Paso 4: Establecer la Regla de Decisión (RD). R.D. (modelo): Si E.P. es diferente (*) mayor o (+) menor (#) que Valor tabla, se Rechaza Ho. Donde: E.P. es el valor del Estadístico de la Prueba específica que corresponde. (*) Prueba de dos extremos o dos colas.. (+) Prueba de una cola (superior). (#) Prueba de una cola (inferior). Paso 5: Recopilar los datos. Paso 6: Calcular el Estadístico de la Prueba. Paso 7: Tomar la decisión estadística. Hay o no hay evidencias, con una confianza del (1-)%, a favor de la Hipótesis de Investigación. Usando SPSS, se reduce a: Si sig. < , se rechaza la Ho. ANALISIS ESTADÌSTICO “Ciencia que recoge, ordena y analiza los datos de una muestra extraída de una determinada poblacion, para hacer inferencias de esa poblacion valiéndose del cálculo de probabilidades” (Amon, 1979) • • Nos permite: Tomar decisiones Solucionar problemas PARA QUE SIRVE EL ANÁLISIS ESTADÍSTICO Formales (Matemáticas, Física, Medicina) Deducción lógica. Ciencias Empíricas (psicología, sociología, Economía,) Generalización inductiva En las ciencias empíricas el objetivo fundamental es el de encontrar relaciones de tipo general (leyes), capaces de explicar eventos reales cuando se dan las circunstancias apropiadas. (Se descubren y verifican observando el mundo real). La generalización inductiva, intenta ir desde lo que considera que es verdad para un número reducido de observaciones hasta la afirmación de que eso mismo es verdad para el total de observaciones posibles de la misma clase. La generalización inductiva. En las ciencias empíricas las fuentes de variación existentes son numerosas y difícil de identificar, medir y controlar, por ello necesita una metodología especial que las valide: “El análisis estadístico” En situaciones aleatorias en que la misma causa puede producir cualquiera de un conjunto de resultados posibles (Respuesta al tratamiento de un paciente) es necesario recurrir al análisis estadístico para extraer conclusiones fiables. (Reducción de la incertidumbre). ANÁLISIS ESTADÍSTICO TIPOS DE VARIABLES VARIABLE : Característica que puede tomar diferentes valores dentro de un conjunto de datos. Propiedad que puede variar y cuya variación es susceptible a medirse u observarse. Sampieri. (2003:143) EJEMPLOS: Sexo, atractivo físico, la religión, la agresividad verbal, presión arterial, nivel socio económico. Las variables adquieren valor para la investigación científica cuando llegan a relacionarse con otras (formar parte de una hipótesis o una teoría). CLASIFICACIÓN DE LAS VARIABLES NOMINAL CUALITATIVA ORDINAL VARIABLE DISCRETA CUANTITATIVA CONTINUA Tipos de variables Cualitativas Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no se pueden hacer operaciones algebraicas con ellos) Nominales: Si sus valores no se pueden ordenar Ordinales: Si sus valores se pueden ordenar Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No) Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor Cuantitativas o Numéricas Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos) Discretas: Si toma valores enteros Número de hijos, Número de cigarrillos, Num. de “cumpleaños” Continuas: Si entre dos valores, son posibles infinitos valores intermedios. Altura, Presión intraocular, Dosis de medicamento administrado, NIVEL DE MEDICIÓN NOMINAL ORDINAL INTERVALO RAZON Nombra las observaciones en categorías mutuamente excluyente. Nombres o clasificaciones que se utilizan para datos en categorías distintas y separadas. Son las que clasifican las observaciones en categorías con un orden significativo. Hay orden y jerarquía Solo toman valores enteros. 0 Es Medidas en una escala numérica en la cual el valor de cero es arbitrario pero la deferencia entre valores es importante. arbitrario. Pueden tomar valores decimales dentro de un intervalo 0 Es absoluto Sexo Raza Diagnósticos Nivel Socioeconómico Bajo, medio y alto. Actitud En desacuerdo, Indeciso, De acuerdo Edad Temperatura Peso Distancias Km., pie EL PAPEL DE LOS PAQUETES DE COMPUTACIÓN EN ESTADÍSTICA SAS STATISTIC MINITAD EXCEL SPSS (STATISTICAL PACKAGE FOR THE SOCIAL SCIENCE 10.0 en Español Tipo de Investigación Descriptiva: Procura definir las cualidades de un evento. Comparativa: Persigue establecer similitudes o diferencias la presencia de una variable entre dos o mas grupos. Correlacional: Busca encontrar relaciones entre variables Explicativa: Establece la naturaleza de la relación de causalidad entre una o diversas variables independientes con una o unas variable dependiente TIPO DE INVESTIGACIÓN DESCRIPTIVA COMPARACIÓN RELACIÓN CAUSA - EFECTO TIPO DE VARIABLE PALABRAS CLAVES CLASIFICAR, CATEGORIZAR EQUIPARAR IGUALAR, CONTRASTAR COMPARAR, DIFERENCIAR, EQUIPARAR, IGUALAR, CONTRASTAR ORDINAL Y NOMINAL MODA DISTRIBUCIONES DE FRECUENCIA GRÁFICOS, HISTOGRAMAS, PASTELES 2G GRUPOS >2G GRUPOS INTERVALO Y RAZÓN MEDIA, MEDIANA, VARIANZA. DESVIACIÓN TÍPICA CURTOSIS ASIMETRÍA WILCOSON t de student KRUSKAL WALLIS FRIEDMAN ANOVA PRUEBA DE MEDIAS (TUKEY, LSD) RELACIONAR, ASOCIAR VINCULAR (UNIÓN NEXO) CHI CUADRADO, RANGOS DE SPEARMAN CORRELACIÓN DE PEARSON CONSECUENCIA CAUSA EFECTO INCIDENCIA ANÁLISIS MULTIVARIADO CORRELACIONES CANÓNIGAS FACTORES COMUNES ANÁLISI CLUSTER ANÁLISIS DISCRIMINANTES REGRESIÓN SIMPLE REGRESIÓN MÚLTIPLE RELACIÓN ENTRE ESTADÍSTICA E INVESTIGACIÓN OPERACIONES ESTADÍSTICAS CORRESPONDIENTES PROCESO DE INVESTIGACIÓN 1.Formulación PROBLEMA del Determinar si se requerirán o no procedimientos cuantitativos. 2.- Definición de VARIABLES Definir: Indicadores, función, nivel de medición y escala para cada variable. 3.- Formulación de HIPOTES Formular: Hipótesis significación. 4.- Elección del DISEÑO decidir si estudiar toda la población o sólo una muestra extraída de ella. 5.Selección INSTRUMENTOS de los nulas, hipótesis alternativas y nivel de Determinar para cada instrumento: validez, confiabilidad. 6.- Selección de la MUESTRA Determinar: el universo, la unidad muestral, el método de muestreo y el tamaño de la muestra. 7.- Selección de la Técnica de ANALISIS Determinar si la técnica será: univariable, bivariable o multivariable; descriptiva o inferencial; paramétrica o no paramétrica; para una, para dos o para más muestras. 8.- Observación 9.PROCESAMIENTO Datos de Realizar las siguientes operaciones: codificación, tabulación, programación, computación e interpretación de los datos. 10.Elaboración INFORME del Elaborar tablas y gráficos ESTADÍSTICA DESCRIPTIVA MEDIDAS DE LOCALIZACIÓN MEDIDAS DE DISPERSIÓN MEDIDAS DE FORMA MEDIDAS DE POSICIÓN DISTRIBUCIÓN DE FRECUENCIAS MEDIDAS DE TENDENCIA CENTRAL Medidas de localización Media Aritmética Se obtiene sumando todos los valores de una población o muestra y dividiendo entre el número de valores sumados. x x i n x i N Los valores extremos influyen sobre la media, y en algunos casos puede distorsionarla tanto que llega a ser indeseable como medida de tendencia central. Medidas de localización La Moda La moda de un conjunto de valores es aquel que ocurre con mayor frecuencia Si todos los valores son diferentes, no hay moda. Un conjunto de valores puede tener mas de una moda Ejemplo: ¿Cual es la moda en los siguientes datos? 12 14 09 04 12 33 23 17 33 31 12 24 09 18 16 09 25 07 15 Medidas de localización La Mediana La mediana de un conjunto finito de valores es aquel valor que divide al conjunto de números ordenados en dos partes iguales. Ninguna observación extrema en un conjunto de datos afecta a la mediana, en consecuencia, siempre que una observación extrema esté presente, es adecuado usar la mediana en lugar de la media para describir un conjunto de datos. n+1 (Par) Me = 2 Tendencia central son medidas que buscan posiciones (valores) con respecto a los cuales los datos muestran tendencia a agruparse. Media: Es la media aritmética (promedio) de los valores de una variable. Suma de los valores dividido por el tamaño muestral. Media de 2,2,3,7 es (2+2+3+7)/4=3,5 Conveniente cuando los datos se concentran simétricamente con respecto a ese valor. Muy sensible a valores extremos. Centro de gravedad de los datos Mediana: Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos. Si el número de datos es par, se elige la media de los dos datos centrales. Mediana de 1,2,4,5,6,6,8 es 5 Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5 Es conveniente cuando los datos son asimétricos. No es sensible a valores extremos. Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7! Moda: Es el/los valor/es donde la distribución de frecuencia alcanza un máximo. Un objeto pequeño se pesó con un mismo instrumento, separadamente por nueve estudiantes en una clase de ciencias. Los pesos obtenidos por cada estudiante (en gramos) se muestran a continuación: 6.2 6.0 6.0 15.3 6.1 6.3 6.2 6.15 6.2 Los estudiantes quieren determinar con la mayor precisión posible el peso real del objeto. ¿Cuál de los siguientes métodos les recomendarías usar? ___ a) Usar el número más común, que es 6.2 ___ b) Usar 6.15, puesto que es el peso más preciso ___ c) Sumar los 9 números y dividir la suma por 9 ___ d) Desechar el valor 15.3; sumar los otros 8 números y dividir por 8. Una profesora quiere cambiar la disposición de los asientos en su clase, con la esperanza de que ello incremente el número de preguntas que hacen sus alumnos. Primero, decide ver cuántas preguntas hicieron los estudiantes con la colocación actual de los asientos. Un registro del número de preguntas hechas por sus 8 estudiantes durante una clase se muestra a continuación: La profesora quiere resumir estos datos, calculando el número típico de preguntas hechas ese día. ¿Cuál de los siguientes métodos le recomendarías que usara? ___ a) Usar el número más común, que es el 2. ___ b) Sumar los 8 números y dividir por 8. ___ c) Descartar el 22, sumar los otros 7 números y dividir por 7. ___ d) Descartar el 0, sumar los otros 7 números y dividir por 7. Cuarenta estudiantes universitarios participaron en un estudio sobre el efecto del sueño sobre las puntuaciones en los exámenes. Veinte estudiantes estuvieron voluntariamente despiertos toda la noche anterior al examen (grupo que no durmió), los otros 20 estudiantes (grupo de control) se acostaron a las 11 de la noche anterior al examen. Las puntuaciones del examen se muestran en los gráficos siguientes. Cada punto representa la puntuación de un estudiante particular. Examina los dos gráficos con cuidado. Luego escoge entre las 6 posibles conclusiones que se listan a continuación aquella con la que estés más de acuerdo. ___ a) El grupo que no durmió lo hizo mejor porque ninguno de estos estudiantes puntuó por debajo de 40 y la máxima puntuación fue obtenida por un estudiante de ese grupo ___ b) El grupo que no durmió lo hizo mejor porque su promedio parece ser un poco más alto que el promedio del grupo que durmió. ___ c) No hay diferencia entre los dos grupos, porque hay un solapamiento considerable en las puntuaciones de los dos grupos. ___ d) No hay diferencia entre los dos grupos, porque la diferencia entre sus promedios es pequeña, comparada con la variación de sus puntuaciones. ___ e) El grupo que no durmió lo hizo mejor porque hubo en ese grupo más estudiantes que puntuaron 80 o por encima. ___ f) El grupo de control lo hizo mejor, porque su promedio parece ser un poco mayor que el promedio del grupo no durmió. Calificaciones de 40 estudiantes en la unidad curricular estadística I 15 12 16 10 20 14 13 16 20 13 16 11 19 15 12 16 18 14 13 12 17 16 14 17 11 14 12 19 16 19 18 15 10 13 17 13 15 17 15 14 Medidas de Dispersión La dispersión de un conjunto de observaciones se refiere a la variabilidad que presentan estas. Una medida de dispersión conlleva información respecto a la cantidad total de variabilidad presente en el conjunto de datos MEDIDAS DE DISPERSIÓN Varianza La varianza es una medida de la dispersión que emplea todos los valores de los datos. Se basa en la diferencia entre cada valor y la media. La diferencia entre cada valor del dato Xi y el promedio ( x para una muestra y µ para una población) se llama desviación respecto al promedio. Para calcular la varianza, las desviaciones respecto al promedio se elevan al cuadrado. Podemos decir que: la desviación estándar y la varianza evalúan la manera en que fluctúan los valores respecto a la media Para una muestra la desviación se expresa como: (Xi – x); para una población: (Xi - µ) MEDIDAS DE DISPERSIÓN Varianza Para una muestra que contiene n observaciones X1, X2, X3…….Xn la varianza de la muestra (representada por S2) puede escribirse: S2 = VARIANZA MUESTRAL VARIANZA POBLACIONAL ( X1 – X )2 + ( X2 – X )2 + ….........…. ( Xi – X )2 n-1 S2 = σ 2= ∑ ( Xi – X )2 n-1 ∑ ( Xi – )2 N La varianza de la muestra, es la suma de los cuadrados de las diferencias con relación a la media aritmética divida entre el tamaño de la muestra menos 1 Unidades de la varianza son al cuadrado. MEDIDAS DE DISPERSIÓN Desviación estándar Indica como se agrupa o distribuye un conjunto de datos alrededor de la media. La desviación estándar también se define como la raíz cuadrada positiva de la varianza. Desviación estándar muestra s = Desviación estándar población σ = s2 σ2 0.01 0.01 0.02 0.02 0.03 0.03 0.04 0.04 0.05 0.05 Dispersión en distribuciones ‘normales’ x s x 2s 68.5 % 0.00 0.00 95 % 150 160 170 180 190 150 160 170 180 190 Centrado en la media y a una desv. típica de distancia hay aproximadamente el 68% de las observaciones. A dos desviaciones típicas tenemos el 95% (aprox.) MEDIDAS DE DISPERSIÓN Coeficiente de variación El CV es una medida relativa de la variación. Siempre se expresa como porcentaje, no en términos de las unidades de los datos específicos. El CV mide la dispersión en los datos con relación a la media ( ) S CV = X 100 % S = Desviación estándar de un conjunto de datos numéricos X = Media aritmética o o o o Si la media es 80 y la desviación típica 20 entonces CV = 20/80=0,25 = 25% Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables. Si el peso tiene CV =30% y la altura tiene CV =10%, los individuos presentan más dispersión en peso que en altura. No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente Por ejemplo 0ºC ≠ 0ºF MEDIDAS DE DISPERSIÓN Localización Relativa valor Z Valor Z: Medida del número de desviaciones estándar que un valor se aleja de la media Zi = Xi - X S Zi = valor z del elemento X = media de la muestra S = Desviación estándar de la muestra MEDIDAS DE FORMA Se refiere a la manera como se distribuyen los datos. La distribución de los datos es simétrica o no lo es. Si no es simétrica recibe el nombre de distribución asimétrica o sesgada. Para describir la forma, solamente se deben comparar la media y la mediana. media > mediana: Sesgo positivo o a la derecha media = mediana: simetría o sesgo cero media < medina: sesgo negativo o a la izquierda Sesgo (+) Sesgo (-) Calificaciones de 40 estudiantes en la unidad curricular Estadística I 15 12 16 10 20 14 13 16 20 13 16 11 19 15 12 16 18 14 13 12 17 16 14 17 11 14 12 19 16 19 18 15 10 13 17 13 15 17 15 14 MEDIDAS DE POSICIÓN NO CENTRALES INFORMAN ACERCA DE LA POSICIÓN QUE OCUPA UN DATO DENTRO DE UNA SERIE ORDENADA EN FORMA CRECIENTE. PERCENTILES Dividen el conjunto de datos en 100 partes iguales. El percentil 90 es un valor tal que el 90% de todos los valores son menores y el 10 son mayores que el. CUARTILES Dividen el conjunto de datos en cuatro partes iguales. Se necesitan solamente tres cuartiles para dividir los datos en cuatro partes DECILES Dividen el conjunto de datos en diez partes iguales. Nueve deciles dividen las observaciones en diez partes iguales. Resumen sobre estadísticos Posición Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos entre ellos. Tendencia central Indican valores con respecto a los que los datos parecen agruparse. Media, mediana y moda Dispersión Indican la mayor o menor concentración de los datos con respecto a las medidas de centralización. Cuantiles, percentiles, deciles,... Desviación típica, coeficiente de variación, rango, varianza Forma Asimetría Apuntamiento o curtosis DISTRIBUCIÓN DE FRECUENCIAS tablas y gráficos para datos numéricos Es una tabla de resumen en la cual los datos se colocan en agrupamiento o categorías establecidas en forma conveniente de clases ordenadas numéricamente Exponen la información recogida en la muestra, de forma que no se pierda nada de información (o poca). Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad Frecuencias relativas (porcentajes): Idem, pero dividido por el total Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y numéricas DISTRIBUCIÓN DE FRECUENCIAS tablas y gráficos para datos numéricos Selección del número de clases una gran cantidad de observaciones requiere un mayor número de clases. Sin embargo una distribución de frecuencias debe tener como mínimo 5 clases, pero no mas de 15 Obtención de intervalos de clase Es conveniente que cada intervalo tenga la misma medida (o anchura). Rango ancho de Clase RANGO = datos = número de clases deseado valor máximo de los datos – valor mínimo de los DISTRIBUCIÓN DE FRECUENCIAS RELATIVAS Y FRECUENCIAS PORCENTUALES FRECUENCIA RELATIVA Se obtiene de dividir las frecuencias de cada clase entre el número total de observaciones. Frecuencia = relativa de clase Frecuencia de clase n La distribución de frecuencias porcentuales, se obtiene al multiplicar cada frecuencia relativa por 100 EJERCICIO Convertir las notas de los estudiantes en datos agrupados. 1.- Determinar el Ancho de clase 2. Transformar - Recodificar - En variables diferentes 3. Pasar la variable al cuadro: Var. Numérica Var. De resultado: 4. Asignarle nuevo nombre a la variable, con su correspondiente etiqueta y pulsar: Cambiar: 5. Valores antiguos y nuevos 6. Colocar los anchos de clase: 6. Colocar los anchos de clase: 6. Colocar los anchos de clase: Rango Del menor hasta Rango hasta Rango -------- Range Lowest through Range through Range ---------- hasta el mayor highest through 7. Una vez colocado el ancho de clase, en valor nuevo asignarle en el cuadro de diálogo: del menor hasta, el número 1. hasta el valor 2 hasta el mayor el número 3 8. Continuar - Aceptar - Observar la nueva variable creada en la “vista de variable” y en la “vista de datos” 9. Vista de variables - Valores - colocar los valores del ancho de clase y asignarle los valores 1, 2, 3. 10. Analizar - Est. Descrip. – frecuencias - gráficos - Histogramas – con curva normal – continuar – aceptar. 11. Interprete los resultados DISTRIBUCIÓN DE FRECUENCIAS tablas y gráficos para datos numéricos DIAGRAMA DE BARRAS 100 variables cuantitativas discretas y variables cualitativas. 80 Frecuencias absolutas Se construye en un plano cartesiano, colocando en el eje de las ordenadas (y), las frecuencias ordinarias absolutas (n), y situando en el eje de las abscisas (X) los valores que toma la variable. Cuando la variable es continua, lo recomendable no es un gráfico de barras sino un histograma. 90 70 60 50 40 30 20 10 0 20 40 60 Valores de la variable o Puntos medios 80 DISTRIBUCIÓN DE FRECUENCIAS tablas y gráficos para datos numéricos HISTOGRAMAS (variables continuas) Se utiliza para describir datos numéricos que están agrupados en distribuciones de frecuencia, de frecuencia relativa o de porcentaje. Un histograma es una gráfica de barras verticales que se construye en los límites de cada clase GRÁFICO 1 En el eje horizontal aparecen los puntos medios de cada intervalo de clase (marcas de clase) DISTRIBUCIÓN SEGÚN LA EDAD 10 8 6 4 2 Desv. típ. = 16,54 Media = 42,0 N = 20,00 0 20,0 EDAD 30,0 40,0 50,0 60,0 70,0 80,0 90,0 DISTRIBUCIÓN DE FRECUENCIAS tablas y gráficos para datos numéricos Cuando se comparan dos o mas conjuntos de datos, resulta imposible la construcción de histogramas en la misma gráfica. POLÍGONOS DE FRECUENCIA (v. continuas) Se construye uniendo con segmentos de recta, los puntos medios (marcas de clase) – parte superior de cada intervalo de clase. Al unir las marcas mediante líneas rectas se obtiene el polígono de frecuencia. Frecuencias absolutas 100 90 80 70 60 50 40 30 20 10 0 20 40 60 Puntos medios 80 ANÁLISIS DESCRIPTIVO SPSS PROCEDIMIENTO: Frecuencias y Descriptivos Si la variable que se desea describir es: CATEGÓRICA CUANTITATIVA Distribución de frecuencias Diagrama de Barras Diagrama de sectores Medidas de tendencia central Medidas de dispersión Forma de la distribución FRECUENCIA Informa sobre valores concreto que adopta una variable y sobre el número (y porcentaje) de veces que se repite cada uno de esos valores. Ejemplo: Abrir archivo “datos de empleados” del spss Analizar > Estadísticos Descriptivos > Frecuencia Seleccionar variable catlab (Categoría Laboral) Aceptar FRECUENCIA CUANDO UTILIZAR CADA ESTADÍSTICO PERCENTILES * Al menos con variables ordinales. Carece de sentido con variables nominales MEDIDAS DE TENDENCIA CENTRAL * Variables cuantitativas (intervalo o razón) * Puede calcularse con datos ordinales. La Mediana es un estadístico típicamente ordinal. DISPERSIÓN * Variable cuantitativa (intervalo o razón) * Puede calcularse con datos ordinales RANGO * Todo tipo de variables. Excepto nominales ASIMETRÍA CURTOSIS * Variables cuantitativas. FRECUENCIA GRAFICOS Analizar > Estadísticos Descriptivos > Frecuencia Seleccionar variable Salario ( Salario actual) Gráficos > Histograma Con curva normal DESCRIPTIVOS A Diferencia de lo que ocurre con el procedimiento “frecuencias”, quecontiene opciones para describir tanto variables categóricas como variables cuantitativas continuas, el procedimiento descriptivo está diseñado únicamente para variable cuantitativas continuas. > Analizar Estadísticos Descriptivos > Descriptivos Seleccionar variable Salini ( Salario inicial); Salario (salario actual); tiempemp (meses desde el contrato) Opciones > marcar las opciones de media, todas las dispersión y todas las de distribución (forma) ANÁLISIS DE VARIABLES CATEGÓRICAS Procedimiento: Tablas de contingencia El sexo, raza, la clase social, el lugar de procedencia, la categoría laboral, padecer o no de una enfermedad son algunos ejemplos de este tipo de variables. Son variables sobre las que únicamente es posible obtener una medida de tipo nominal (u ordinal con pocos valores). SPSS permite estudiar este tipo de variables y detectar posibles pautas de asociación de asociación entre ellas. El Son tablas de doble entrada, en la que cada una presenta un criterio de clasificación (una variable categórica) Analizar > Estad. Descrip. > Tablas de contingencia EJEMPLO Abra el archivo de datos “datos de empleados” Analizar - Est. Desc. - Tablas de contingencia - Fila: sexo; Columna: Categoría Laboral - Marcar la opción: Mostrar los gráficos de barras agrupadas 300 Tabla de contingencia Sexo * Categoría laboral Recuento Total 200 Total 258 216 474 Categoría laboral 100 Recuento Sexo Categoría laboral Administrativo Seguridad Directivo Hombre 157 27 74 Mujer 206 10 363 27 84 Administrativo Seguridad 0 Directivo Hombre Sexo Mujer Estadísticos Chi-cuadrado Establece la relación existente entre dos variables categóricas. Permite contrastar la hipótesis de que las dos variables categóricas son independientes. H0: Las variables son independientes H1: Las variables son dependientes EJEMPLO. Abra el archivo de datos “datos de empleados” Analizar - Est. Desc. - Tablas de contingencia - Fila: sexo; Columna: Categoría laboral - Estadísticos - Chi-Cuadrado Pruebas de chi-cuadrado Chi-cuadrado de Pearson Razón de verosimilitud N de casos válidos Valor 79,277a 95,463 474 gl 2 2 Sig. asintótica (bilateral) ,000 ,000 a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 12,30. El valor Chi-Cuadrado toma un valor de 79,277 y tiene asociada un nivel de significación asociado de 0,000 por lo que se rechaza la H0 de independencia Correlación entre variables ordinales: Spearman El coeficiente de correlación de spearman es también una medida de asociación lineal pero para variables ordinales: Se rechaza la hipótesis de independencia cuando el nivel crítico sea menor que el nivel de significación establecido y se concluirá que existe relación lineal significativa Analizar>correlaciones>bivariadas>spearman Correlaciones Salario inicial Rho de Spearman Salario inicial Salario actual Meses des de el contrato Coeficiente de correlación Sig. (bilateral) N Coeficiente de correlación Sig. (bilateral) N Coeficiente de correlación Sig. (bilateral) N **. La correlación es significativa al nivel 0,01 (bilateral). *. La correlación es significativa al nivel 0,05 (bilateral). 1,000 Salario actual ,826** Meses des de el contrato -,063 , 474 ,000 474 ,168 474 ,826** 1,000 ,105* ,000 474 , 474 ,023 474 -,063 ,105* 1,000 ,168 474 ,023 474 , 474 Coeficiente de correlación entre variables cuantitativas: Pearson Este coeficiente toma valores entre -1 y 1 un valor de 1 indica relación lineal perfecta positiva un valor de -1 indica relación lineal perfecta negativa. No implica causalidad. Se rechaza la hipótesis de independencia cuando el nivel crítico sea menor que el nivel de significación establecido y se concluirá que existe relación lineal significativa Analizar>correlaciones>bivariadas>pearson Correlaciones Salario inicial Salario actual Meses des de el contrato Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Salario inicial Salario actual 1,000 ,880** , ,000 474 474 ,880** 1,000 ,000 , 474 474 -,020 ,084 ,668 ,067 474 474 **. La correlación es significativa al nivel 0,01 (bilateral). Meses des de el contrato -,020 ,668 474 ,084 ,067 474 1,000 , 474 Análisis de variables de respuestas múltiples: (procedimientos) La expresión respuesta múltiple se utiliza para identificar variables en las que los sujetos pueden dar más de una respuesta, es decir, variables en las que un mismo sujeto puede tener distintos valores. Al intentar codificar VRM surge un problema: el SPSS solo permite utilizar variables con un solo código para cada caso: Se puede usar dos estrategias diferentes: a) Crear tantas variables dicotómicas como alternativa de respuestas tiene la pregunta (dicotomías múltiples) b) Crear tantas variables categóricas como respuestas distintas hayan dado los sujetos. a) Crear tantas variables dicotómicas como alternativa de respuestas tiene la pregunta (dicotomías múltiples) Ejemplo: Señale cual de los siguientes transportes ha usado durante el último mes. a) Autobús b) Metro c) Tren d) Taxi datos correspondiente a una muestra de 20 encuestados Id genero autobus metro tren taxi resp1 resp2 resp3 1 1 1 0 1 0 1 3 0 2 1 1 1 0 0 1 2 0 3 1 1 1 1 0 1 2 3 4 1 1 0 1 0 1 3 0 5 1 0 1 1 0 2 3 0 6 1 0 0 0 1 4 0 0 7 1 1 0 1 0 1 3 0 8 1 0 1 1 0 2 3 0 9 1 0 1 0 1 2 4 0 10 1 1 1 1 0 1 2 3 11 2 1 1 0 0 1 2 0 12 2 0 1 1 0 2 3 0 13 2 0 1 0 0 1 0 0 14 2 1 1 1 0 2 2 3 15 2 0 1 1 0 1 3 0 16 2 1 0 1 0 2 3 0 17 2 0 1 0 1 2 4 0 18 2 0 1 1 0 2 3 0 19 2 1 0 0 1 1 4 0 20 2 0 1 1 1 2 3 4 Analizar>Respuestas Múltiples>Definir Conjunto Para crear un conjunto se debe comenzar seleccionando las variables que se desea incluir en el conjunto y trasladar a la lista Variables del Conjunto