Download Sin título de diapositiva
Document related concepts
Transcript
ESTADÍSTICA PARA LA ADMINISTRACIÓN Saltar a la primera página Introducción a la Estadística La palabra estadística tiene 2 significados; Estadística 1; hechos numéricos sistemáticamente recolectados 2; Ciencia de recolectar, clasificar y utilizar estadísticas – (Oxford Concise Dictionary) Por ejemplo………………. Algunas definiciones de Estadistica. Rama de las matemáticas que proporciona herramientas que permiten manejar grandes cantidades de datos, convirtiendolos en información útil. Forma de decir mentiras con fundamentos matemáticos. DEFINICION: Es una ciencia, pues aplica el Método Científico al ocuparse de la recolección, organización, análisis, interpretación y presentación de datos, tanto para la deducción de conclusiones como para la toma de decisiones razonables de acuerdo a tales análisis. Introducción (cont.) La ciencia de la Estadística utiliza; · matemáticas (teoría de probabilidades) · ciencia de las computadoras (graficos and simulaciones) · filosofía Qué distingue a la Estadística de las matemáticas? · La estadística hace uso de las matemáticas Introducción (cont.) La Estadística enfatiza la VARIABILIDAD NATURAL De individuos (personas, plantas, ratas, ovejas, bombillas de luz, precios de acciones, etc). La Estadística es utilizada por: · científicos · biólogos · químicos · físicos · psicólogos · economistas Introducción (cont.) La Estadística se usa para: Informar al publico Proveer comparaciones Explicar resultados Influenciar decisiones Justificar un reclamo o afirmación Predecir futuros resultados Establecer una relación o asociación Estimar cantidades desconocidas Introducción (cont.) Los Estadísticos (personas que estudian la estadística): Entienden la idea de la variabilidad de los individuos Se toman el tiempo siendo lógicos, profundos e imparciales cuando preparan resultados y reportes Se cuidan de no sacar conclusiones que están fuera de los límites de la pregunta que debe responderse mediante la estadística UNIDAD DE ESTUDIO: Es el elemento mas pequeno al que podemos hacer referencia en un estudio estadistico. COLECTIVO: Es todo conjunto compuesto por mas de una unidad de estudio; un colectivo puede ser una MUESTRA o una POBLACION. Datos Datos son piezas de información Varias piezas de datos forman un conjunto de datos Los Datos se componen de los objetos que han sido medidos (eg personas, arboles, ratas) y los atributos que fueron registrados (edad, tamaño, ph, costo, peso, etc) objetos son aka sujetos, casos, entidades, etc Atributos son aka caracteristicas, variables, factores, etc Variables Cuando medimos los atributos de un objeto, obtenemos un valor que varía entre objetos. Por ejemplo considere las personas en esta clase como objetos y su estatura como el atributo El atributo “altura” varía entre objetos, de ahí que los atributos son mas colectivamente conocidos como variables TIPOS DE VARIABLES: DISCRETAS: Son aquellas que toman valores puntuales en una escala, ejemplo: No. de unidades producidas, No. de quintales transportados, etc. CONTINUA: Son aquellas que pueden tomar cualquier valor real en una escala, por ejemplo:Temperatura, peso, longitud, etc. Tipos de Datos Las Variables pueden ser medidas en cuatro escalas diferentes Es escencial que sea capaz de identificar las cuatro diferentes escalas de medición y ejemplos de cada una 1 Escala Nominal de Medición Los datos son medidos al nivel nominal donde cada caso es clasificado en una de un numero discreto de categorías EG Color, Partido Politico, Genero, etc 2 Escala Ordinal de Medición Los datos son medidos en una escala ordinal si las categorías implican orden EG Rango Militar, Talla de ropa, etc La diferencia entre rangos es consistente en dirección, pero no en magnitud. 3 Escala de medición de Intervalo Si las diferencias entre los valores tienen significado, los datos son medidos en la escala de Intervalo. La temperatura es el mejor ejemplo 4 Escala de medición de Ratio (rata) Los datos medidos en una escala de ratio tienen diferencias que son significativas, y relativas a algun punto real de origen o cero. eg Peso, Altura, edad, etc Esta es la escala más común de medición. Tipos de Datos (Cont.) Datos de tipo Ordinal, Intervalo y Ratio también se conocen como datos Cuantitativos Datos de tipo Nominal también son denominados datos Cualitativos Dos tipos de Estadística Estadística Descriptiva métodos de resumir grandes cantidades de datos en una forma conveniente Estadística Inferencial Métodos para extraer conclusiones (hacer inferencias) respecto a las características de una población por ejemplo……. POBLACION: Se le llama población o universo, al conjunto total de unidades de estudio que se desean investigar. MUESTRA: Es un subconjunto de una población. Se utiliza cuando la población es muy numerosa, infinita o muy difícil de examinar. MUESTRA ALEATORIA: Es cuando cada elemento tiene la misma oportunidad de ser escogido. • Muestreo aleatorio estratificado: • Muestreo aleatorio sistematico: Poblaciones Un componente esencial de entender la ciencia de la estadística es entender estos términos La población consiste en el conjunto de todas las mediciones en que el investigador está interesado Un número que describe una población se denomina un parametro por ejemplo…………... Muestras Una muestra es un subconjunto de datos de la población Un numero que describe una muestra es un estadístico por ejemplo…………... Inferencia Si tomamos una muestra y calculamos un estadístico, utilizamos ese estadístico para inferir algo respecto a la población de la cual la muestra fue extraída. EG: Comunmente, las muestras son utilizadas para inferir respecto a: Resultados de Elecciones Preferencias del consumidor Actitudes hacia aspectos sociales Se le ocurre algún otro ????? CONTENIDO Estadistica Descriptiva Regresion y Correlacion Distribuciones Control Estadistico de Procesos ESTADISTICA DESCRIPTIVA: Es la parte de la Estadística que trata solamente de describir y analizar un colectivo, sin sacar conclusiones o inferencias de un colectivo mayor, a partir de ella. La Estadística descriptiva incluye las técnicas que se relacionan con el resumen y la descripción de datos. Estos datos pueden ser representados en forma gráfica y pueden incluir análisis por computadora. ESTADISTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL MEDIDAS DE DISPERSION MEDIDAS DE ORDEN MEDIDAS DE FORMA REPRESENTACION GRAFICA MEDIDAS DE TENDENCIA CENTRAL MEDIA (ARITMETICA O PONDERADA) MODA MEDIANA MEDIDAS DE DISPERSIÓN Rango Desviacion Media Varianza Desviación Típica o standard MEDIDAS DE ORDEN Cuartiles Deciles Percentiles MEDIDAS DE FORMA Sesgo Curtosis Momentos REPRESENTACION GRAFICA Histograma de frecuencias Diagrama de Pareto Ojiva de Frecuencias Acumuladas Diagrama de Pastel Diagrama de Cajas Diagrama de Tallos y Hojas MEDIA ARITMETICA n x i 1 xi n Donde : x Media . Aritmetica xi Cada.uno.de.los.datos n Total..de..datos. EJEMPLO Edad de 15 estudiantes de universitarios 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 19 22 24 20 21 19 25 21 23 22 22 21 24 35 20 338 Media Aritmetica = 338/15 = 22.53 MEDIA PONDERADA n x wi * xi i 1 n w i 1 i Donde : x Media .Ponderada wi Factor.de.Peso xi Cada.uno.de.los .datos n Total..de..datos. EJEMPLO Produccion de Sa cos de Fe rtiliza nte dura nte una se ma na Dia 1 2 3 4 5 6 7 Ca ntida d 1500 2500 1200 5500 2000 1800 450 14950 Pe so 98 103 105 90 99 100 109 704 Media Ponderada = 97.16 Media Aritmetica = 100.57 Ca nt*Pe so 147000 257500 126000 495000 198000 180000 49050 1452550 Mediana Valor que divide la serie de datos en dos partes iguales. Si el numero de datos es impar, es el valor que está situado justo en medio. Si el número de datos es par, es el promedio aritmético de los dos datos de en medio. EJEMPLO Mediana --> 19 19 20 20 21 21 21 22 22 22 23 24 24 25 35 Moda Es el valor que mas se repite en un conjunto de datos. Puede no existir o puede existir mas de uno. EJEMPLO Moda -----> Moda -----> 19 19 20 20 21 21 21 22 22 22 23 24 24 25 35 RANGO (R) El rango de un conjunto de números es la diferencia entre el dato mayor y el dato menor de todos ellos. El rango considera solo el valor más alto y el más bajo de la distribución y deja de tomar en cuenta cualquier otra observación del conjunto de datos. Debido a que mide dos valores, el rango cambia drásticamente entre muestras de una misma población, aunque los valores que se encuentren entre el mayor y menor puedan ser muy similares. Téngase en mente también, que las distribuciones abiertas en los extremos no tienen rango, ya que no tiene valores "mayor" o "menor". R = dato mayor - dato menor EJEMPLO Hallar el rango de los siguientes de números: 5,3,8,4,7,6,12,4,3 R = 12 - 3 = 9 EJEMPLO Dato Menor Dato Mayor -------> -------> 19 19 20 20 21 21 21 22 22 22 23 24 24 25 35 Rango = 35 - 19 = 16 DESVIACION MEDIA (D.M.) La desviación media, es una medida de dispersión que involucra las diferencias (o desviaciones) entre cada uno de los valores de la distribución y su media aritmética. Para calcularla se debe restar la media aritmética a cada valor del conjunto de datos y se ignora el signo (positivo o negativo), es decir, que se toma el valor absoluto de las desviaciones; de lo contrario la suma algebraica será nula. Finalmente, se suman todas estas diferencias y se divide por el número total de la muestra. _ Desviación = di = xi - x _ D.M. = ¦ xi - x ¦ / N EJEMPLO Dato Menor -------> Dato Mayor -------> Media = 19 19 20 20 21 21 21 22 22 22 23 24 24 25 35 - 22.53 22.53 22.53 22.53 22.53 22.53 22.53 22.53 22.53 22.53 22.53 22.53 22.53 22.53 22.53 22.53 Desviacion Media = 36.67/15 = = = = = = = = = = = = = = = = 3.53 3.53 2.53 2.53 1.53 1.53 1.53 0.53 0.53 0.53 0.47 1.47 1.47 2.47 12.47 Sumatoria 36.67 2.44 DESVIACION TIPICA (s) La desviación típica es la medida de dispersión más importante, ya que los valores extremos de la distribución son influyentes en el cálculo de la misma, no así los valores que se encuentran cerca de la media aritmética, y simplemente es la raíz cuadrada de la varianza. s = (xi - x)2) /N A veces, la desviación típica viene definida por (N - 1) en el denominador en lugar de N, a esta se le llama desviación estandar, ya que el valor resultante es un estimador mejor de la desviación típica de la población. Para valores grandes (N > 30) prácticamente no hay diferencia entre la desviación típica y la estandar. EJEMPLO Dato Menor -------> Dato Mayor -------> Media = 19 19 20 20 21 21 21 22 22 22 23 24 24 25 35 - 22.53 22.53 22.53 22.53 22.53 22.53 22.53 22.53 22.53 22.53 22.53 22.53 22.53 22.53 22.53 = = = = = = = = = = = = = = = 3.53 3.53 2.53 2.53 1.53 1.53 1.53 0.53 0.53 0.53 0.47 1.47 1.47 2.47 12.47 22.53 ^2 ^2 ^2 ^2 ^2 ^2 ^2 ^2 ^2 ^2 ^2 ^2 ^2 ^2 ^2 = = = = = = = = = = = = = = = Sumatoria Varianza= 211.73/15 = Desviacion Estandar = Raiz(14.12)= 14.12 3.76 12.48 12.48 6.42 6.42 2.35 2.35 2.35 0.28 0.28 0.28 0.22 2.15 2.15 6.08 155.42 211.73 USOS DE LA DESVIACION TIPICA La desviación tipica permite determinar, con cierto grado de certeza, donde están localizados los valores de una distribución de frecuencia con relación a la media. Se puede medir con bastante precisión el porcentaje de elementos que caen dentro de rangos específicos, si la distribución de frecuencias toma la forma de una curva simétrica en forma de campana (campana de Gauss) llamada DISTRIBUCION NORMAL, en estos casos se dice que: 1. Cerca del 68% de los valores de la población caerán dentro de más o menos una desviación tipica, a partir de la media aritmética. 2. Cerca del 95% de los valores se encontrarán dentro de más o menos dos desviaciones tipica, a partir de la media aritmética. 3. Cerca del 99% de los valores estarán en un intervalo que va desde tres desviaciones tipicas después de la media. RESULTADO DEL PROCESO DE LLENADO INDUSTRIAL DE REFRESCOS (en ml) MAQUINA 1 350 347 336 385 359 368 374 391 373 345 381 380 322 331 351 363 371 369 339 384 345 354 330 347 327 365 340 349 343 366 323 333 346 342 349 332 357 350 350 355 350 355 349 350 375 388 354 329 352 344 MAQUINA 2 352 336 340 340 336 342 336 344 336 335 340 346 341 349 332 340 338 347 340 337 337 342 340 342 342 337 351 340 330 340 340 336 350 344 342 336 341 344 335 340 337 339 341 340 347 343 343 349 349 342 DATOS ORDENADOS MAQUINA 1 322 350 323 350 327 351 329 352 330 354 331 354 332 355 333 355 336 357 339 359 340 363 342 365 343 366 344 368 345 369 345 371 346 373 347 374 347 375 349 380 349 381 349 384 350 385 350 388 350 391 MAQUINA 2 330 340 332 340 335 341 335 341 336 341 336 342 336 342 336 342 336 342 336 342 337 342 337 343 337 343 337 344 338 344 339 344 340 346 340 347 340 347 340 349 340 349 340 349 340 350 340 351 340 352 MEDIDAS DE TENDENCIA CENTRAL MAQUINA 1 322 350 323 350 327 351 329 352 330 354 331 354 332 355 333 355 336 357 339 359 340 363 342 365 343 366 344 368 345 369 345 371 346 373 347 374 347 375 349 380 349 381 349 384 350 385 350 388 350 391 8500 9170 Media Aritmetica = Mediana Moda = = 17670/50 = 353.4 17670 MAQUINA 2 330 340 332 340 335 341 335 341 336 341 336 342 336 342 336 342 336 342 336 342 337 342 337 343 337 343 337 344 338 344 339 344 340 346 340 347 340 347 340 349 340 349 340 349 340 350 340 351 340 352 8433 8614 17046/50= Dato 25 + Dato 26 2.00 350 340 350 340 340.9 17046 MEDIDAS DE DISPERSION MAQUINA 1 Rango = 391 Desv. Media = MAQUINA 2 322 = 69 352 - 330 = 22 689/50 = 14 183/50 = 4 Desv. Est. = raiz(14923/50) = 17 raiz(1144/50) = 5 CONSTRUCCION DE UNA TABLA DE FRECUENCIAS MAQUINA 1 322 350 323 350 327 351 329 352 330 354 331 354 332 355 333 355 336 357 339 359 340 363 342 365 343 366 344 368 345 369 345 371 346 373 347 374 347 375 349 380 349 381 349 384 350 385 350 388 350 391 MAQUINA 2 330 340 332 340 335 341 335 341 336 341 336 342 336 342 336 342 336 342 336 342 337 342 337 343 337 343 337 344 338 344 339 344 340 346 340 347 340 347 340 349 340 349 340 349 340 350 340 351 340 352 # DE DATOS = 50 # DE CLASES O INTERVALOS = 1+3.3 * LOG (N) 6.61 Amplitud de los intervalos = Rango/# de intervalos Maquina 1 Maquina 2 10 3 o Raiz(N) 7.07 TABLA DE FRECUENCIAS L. I. 322 332 342 352 362 372 382 - MAQUINA 1 L. S. f 331 6 341 5 351 17 361 7 371 6 381 5 391 4 50 L. I. 330 333 336 339 342 345 348 351 - MAQUINA 2 L. S. f 332 2 335 2 338 11 341 15 344 11 347 3 350 4 353 2 50 L. I. 322 332 342 352 362 372 382 - L. S. 331 341 351 361 371 381 391 MAQUINA 1 Xi f 326.5 6 336.5 5 346.5 17 356.5 7 366.5 6 376.5 5 386.5 4 F 6 11 28 35 41 46 50 F% 12 22 56 70 82 92 100 50 HISTOGRAMA DE FRECUENCIAS 18 16 14 12 10 8 6 4 2 0 1 2 3 4 5 6 7 Frecuencia Acumulada OJIVA DE FRECUENCIAS 100 90 80 70 60 50 40 30 20 10 0 1 1.5 2 2.5 3 3.5 4 4.5 Intervalo 5 5.5 6 6.5 7 MEDIDAS DE ORDEN Son aquellas que nos permiten ubicar un dato de acuerdo a la posicion que ocupa dentro de la serie de datos. Nos permiten ordenar, clasificar y categorizar los datos. Tambien se conocen como fractilos porque dividen los datos en partes iguales. FRACTILOS De acuerdo al numero de partes en que se dividan los datos los fractilos pueden ser: Cuartiles: si dividen a los datos en cuatro partes iguales. Deciles: si dividen a los datos en diez partes iguales. Percentiles o Centiles: si dividen a los datos en cien partes iguales. FRACTILOS cont... Por ejemplo, los cuartiles dividen la distribucion de datos en cuatro partes iguales, cada una conteniendo el 25% de los datos. De lo anterior se deduce que, como se dijo anteriormente, si la mediana divide los datos en dos partes iguales, debe ser igual al cuartil 2, al decil 5 y al percentil 50. FRACTILOS cont... Forma de calculo: D = # de partes en que vamos a dividir los datos (para cuartiles 4, para deciles 10, para percentiles 100). F = # del fractilo a calcular, es decir, si queremos calcular el tercer cuartil, F es igual a 3, si queremos calcular el sexto decil, F es igual a 6, etc. N = # de datos en la distribucion. FRACTILES cont... Entonces, la posicion del fractilo esta dada por: F*N + (D-F) D Ejemplo: Para calcular el cuartil 3 de 50 datos: 3*50 + (4-3) 4 37.75, es decir que el tercer cuartil esta ubicado entre el dato 37 y el 38, a un 75% de la distancia entre ambos datos. EJEMPLO Para continuar con el ejemplo de las dos maquinas llenadoras, vamos a calcular los cuartiles 1 y 3 para cada maquina, entonces: D=4 N = 50 F=1y3 1*50 + (4-1) 4 13.25 para el cuartil 1 3*50 + (4-3) 4 37.75 para el cuartil 3 Esto quiere decir que el cuartil 1 se encuentra entre el dato 13 y el 14 mientras que el cuartil 3 esta entre el dato 37 y 38. MAQUINA 1 322 350 323 350 327 351 329 352 330 354 331 354 332 355 333 355 336 357 339 359 340 363 342 365 343 366 344 368 345 369 345 371 346 373 347 374 347 375 349 380 349 381 349 384 350 385 350 388 350 391 MAQUINA 2 330 340 332 340 335 341 335 341 336 341 336 342 336 342 336 342 336 342 336 342 337 342 337 343 337 343 337 344 338 344 339 344 340 346 340 347 340 347 340 349 340 349 340 349 340 350 340 351 340 352 Para la Maquina 1 el dato 13 es 343 y el 14 344 La diferencia entre estos dos datos es 1 Posicion del cuartil 1 = 13.25 Cuartil 1 = 343.25 Para la maquina 1 el dato 37 es 365 y el 38 es 366 La diferencia entre estos dos datos es 1 Posicion del cuartil 3 = 37.75 Cuartil 3 = 365.75 Maquina 2 Cuartil 1 = 337 (En este caso el dato 13 y 14 son iguales) Cuartil 3 = 343 (De igual forma, el dato 37 y 38 son iguales) OTRA MEDIDA DE DISPERSION El Rango Intercuartil es otra medida de dispersion utilizada para poder determinar el rango de valores en el que se encuentra el 50% de los datos, excluyendo el 50% que se encuentre en los extremos, es decir, 25% en el extremo superior y 25% en el extremo inferior. RANGO INTERCUARTIL El rango intercuartil es la diferencia entre el cuartil 3 y el cuartil 1: RI = Q3 - Q1 EJEMPLO Para las maquinas llenadoras: Maquina 365.75 1: - 343.25 22.5 Maquina 343 6 2: - 337 DIAGRAMA DE CAJAS Esta es una herramienta sumamente util para comparar distintos grupos de datos, ya que permite ver en una sola grafica, la tendencia central y la dispersion, asi como detectar datos atipicos o sospechosos. EJEMPLO B o xP lo t (n o ta s .S T A1 v *1 5 c ) 4 0 3 6 3 2 2 8 2 4 2 0 1 6 V A R 1 N o n -O u tlie rM a x=2 5 N o n -O u tlie rM in=1 9 7 5 % =2 4 2 5 % =2 0 M e d ia n=2 2 O u tlie rs PASOS PARA CONSTRUIR UN DIAGRAMA DE CAJAS Calcular los cuartiles 1,2 y 3. Graficar una linea para cada uno de los cuartiles. La caja queda definida por el rango intercuartil y la linea dentro de la caja identifica la mediana. Calcular el rango intercuartil (Q3 Q1) al que se denomina RI. Calcular dos valores: Valor Adyacente Superior y Valor Adyacente Inferior (VAS y VAI). Estos valores se calculan de la siguiente manera: VAS = Q3 + 1.5*RI VAI = Q1 - 1.5*RI Luego, encontrar en los datos dos valores: m y M tal que: m = max(Xi | Xi <= VAS) M = min(Xi | Xi >= VAI) Estos valores se grafican como los limites de los alambres que nos sirven para identificar datos atipicos del conjunto de datos. EJEMPLO 19 19 20 20 21 21 21 22 22 22 23 24 24 25 35 Posicion del cuartil 1 = (15*1 + 4 -1)/4 Posicion del cuartil 1 = 4.5 Cuartil 1 = 20.5 Posicion del cuartil 2 = (15*2 + 4-2)/4 Posicion del cuartil 2 = 8 Cuartil 2 = 22 (Mediana) Posicion del cuartil 3 = (15*3 + 4-3)/4 Posicion del cuartil 3 = 11.5 Cuartil 3= 23.5 Rango Intercuartil = 23.5 - 20.5 = 3 VAS = Q3 + 1.5*RI = 23.5 + 1.5*3 VAS = 28 VAI = Q1 - 1.5*RI = 20.5 - 1.5*3 VAI = 16 m = 25 M = 19 B o xP lo t (n o ta s .S T A2 v *5 0 c ) 4 0 0 3 9 0 3 8 0 3 7 0 3 6 0 3 5 0 3 4 0 3 3 0 3 2 0 3 1 0 M A Q U IN A1 M A Q U IN A2 N o n -O u tlie rM a x N o n -O u tlie rM in M e d ia n ;7 5 % 2 5 % PARETO: Forma de separar los pocos vitales de los muchos triviales, que significa en esencia analizar la causas y efectos que constituyen en el 80% de un problema y obviar el 20% que suelen ser causas triviales. Este enfatiza en la mayoría de los casos que pocas causas pueden ser provocadoras del 80% de efectos de un problema. Ejemplo: Se presenta a continuación una tabla con las causas a las que se atribuye el bajo rendimiento de los alumnos en los programas de maestria que imparte FISICC. Construya un diagrama de pareto para identificar cuales son los principales problemas que afrontan los estudiantes. TIPO DE FACTOR Preparación de la clase N/H No estudiar adecuadamente Metodología de la enseñanza Programa de la maestria Preparación del Catedrático Interes Asistencia Método de evaluar el curso Caracteristicas del trabajo(est.) Problemas familiares Material didactico Horario Economia del estudiante Transporte Bibliografia Otros Total Frecuencia Aporte por Acumulado Frecuencia Acumulada Factor % 63 63 19.69% 19.69% 41 104 12.81% 32.50% 31 135 9.69% 42.19% 28 163 8.75% 50.94% 27 190 8.44% 59.38% 27 217 8.44% 67.81% 19 236 5.94% 73.75% 13 249 4.06% 77.81% 11 260 3.44% 81.25% 9 269 2.81% 84.06% 9 278 2.81% 86.88% 9 287 2.81% 89.69% 8 295 2.50% 92.19% 7 302 2.19% 94.38% 7 309 2.19% 96.56% 11 320 3.44% 100.00% 320 100.00% Otros Bibliografia Transporte Economia del estudiante Horario Material didactico Problemas familiares Caracteristicas del trabajo(est.) Método de evaluar el curso Asistencia Interes Preparación del Catedrático Programa de la maestria Metodología de la enseñanza No estudiar adecuadamente Preparación de la clase N/H Frecuencia Diagrama de Pare de Factores que afectan el redimiento de los alumnos de FISICC 70 60 50 40 30 20 10 0 COEFICIENTE DE VARIACION (cv) La desviación tipica y la varianza son medidas de variación absoluta, es decir, miden la cantidad real de la variación presente en un conjunto de datos y dependen de la escala de medición. Para comparar la variación entre diferentes muestras de datos es conveniente usar el coeficiente de variación, el cual da la variación tipica como un porcentaje de la media aritmética. _ cv = s / x * 100 El coeficiente de variación mide la variación relativa de una muestra. APLICACIONES DE LAS MEDIDAS DE TENDENCIA CENTRAL Y DISPERSION A B C D E MEDIA 85 85 60 70 65 DESV . 18 16 22 14 12 ¿Cuál es la clase más homogénea? ¿En cuál espera que existan menos alumnos que pierdan la clase? ¿En cuál parece que hay más problemas? ¿Comparando las clases A,B y D, En cuál seguramente hay notas más altas? Media Aritmetica 85 85 60 70 65 Desviacion Estandar 18 16 22 14 12 Coeficiente de variacion 21.18 18.82 36.67 20.00 18.46 Problema: Exámenes de curso 1º. 2º. Media 90 65 Desv. 12.5 7 3º 4º 5º 6º 90 85 65 90 7.5 8 17.4 9.5 ¿Cuál cree Ud. Que fue el examen más difícil? ¿Cuál cree Ud. Que fue el más fácil? MEDIDAS DE FORMA Las medidas de forma sirven para darnos una idea respecto a la simetria y la agudez de la distribucion de los datos. Las medidas de forma mas importantes son: Sesgo Curtosis SESGO Media Moda Sesgo Desviación Si el resultado es positivo esta sesgada a la derecha Si el resultado es negativo esta sesgada a la izquierda OTRAS FORMULAS: 3*(MEDIA - MEDIANA) SESGO= DESVIACION Curtosis: También se le denomina grado de agudez, y es el grado de apuntamiento de una distribución. Existen 3 tipos: Normal o mesocurtica:Distribución no muy apuntalada ni achatada, o sea normal. Leptocurtica: Tiene apuntamiento. Platicúrtica: Más achatada que la Normal. VARIANZA (s2) La varianza de la población es similar a la desviación media, pero en este caso, para calcular la varianza sumamos el producto de las desviaciones al cuadrado por su respectiva frecuencia ( fi * di2 ) y luego dividimos esta suma entre el número total de datos. Al elevar al cuadrado cada desviación, automáticamente se hacen positivos todos los números y por tanto no es necesario tomar el valor absoluto de cada desviación, entonces tenemos: _ s = fi*(xi - x)2 N 2 Utilizando propiedades de las sumatorias, se puede calcular la varianza así: _ 2 2 s = ( fi*xi )/N - (x)2 Para valores no agrupados tómese fi = 1. AGRUPACION DE DATOS: Rango= Dato mayor -Dato menor Número de clases (K) K= 1 + 3.3. Log N (usar entre 3 y 12 intervalos como máximo) Intervalos de clase (i) i= Rango/K Número de observaciones y número de celdas recomendado: De: 20 - 50 6 celdas De: 51 - 100 7 celdas De: 101 - 200 8 Celdas De: 201 - 500 9 Celdas De: 501 - 1000 10 celdas De: 1000 en adelante 11 a 15 celdas MEDIANA L ri Mediana Donde n Fa 2 ( )*i f Me : Lri = Limite inferior de la celda donde esta la mediana n = Número total de observaciones Fa = Frecuencia acumulativa anterior a la celda donde esta la mediana FMe = Frecuencia de la celda de la mediana i = Ancho del intervalo de la celda. MODA 1 Moda Lri ( ) *i 1 2 Donde : Lri = Limite inferior de la clase modal 1 = Diferencia con la clase anterior 2 = Diferencia con la clase posterior i = Ancho del intervalo de la celda. Calculo de Medidas de Tendencia Central Intervalo Limites Aparentes Limites Reales 1 2 3 4 5 6 7 8 9 10 20 30 40 50 60 70 80 90 19 29 39 49 59 69 79 89 99 9.5 19.5 29.5 39.5 49.5 59.5 69.5 79.5 89.5 19.5 29.5 39.5 49.5 59.5 69.5 79.5 89.5 99.5 MEDIA = 4430 100 44.30 Xi 14.5 24.5 34.5 44.5 54.5 64.5 74.5 84.5 94.5 Total f F fr Fr Xi *f Xi -X (Xi - X) 2 3 14 29 22 14 10 4 2 2 100 3 17 46 68 82 92 96 98 100 0.03 0.14 0.29 0.22 0.14 0.1 0.04 0.02 0.02 1 0.03 0.17 0.46 0.68 0.82 0.92 0.96 0.98 1 43.500 343.000 1000.500 979.000 763.000 645.000 298.000 169.000 189.000 4430.000 -29.8 -19.8 -9.8 0.2 10.2 20.2 30.2 40.2 50.2 888.04 392.04 96.04 0.04 104.04 408.04 912.04 1616.04 2520.04 Total Varianza = Desviación = 28396 100 SQR(283.96) f * (Xi - X) 2 2664.12 5488.56 2785.16 0.88 1456.56 4080.4 3648.16 3232.08 5040.08 28396 283.96 16.85111 HISTOGRAMA DE FRECUENCIAS 35 30 FRECUENCIA 25 20 15 10 5 0 14.5 24.5 34.5 44.5 54.5 64.5 MARCA DE CLASE 74.5 84.5 94.5 Cálculo de la MODA 1 Moda L1 ( ) *i 1 2 29.5 (15 / 22) *10 36.32 Cálculo de la Mediana n Fa Mediana Lri ( 2 ) *i f Me 39.5 ((50 46) / 22) *10 41.32 . CUARTILES (Qj) Análogamente a la mediana, que divide en 2 partes los datos, los cuartiles son parámetros que dividen la muestra de datos en 4 partes iguales, de manera que se tiene: CUARTIL PRIMERO (Q1) Q1 = 25% de los datos y se obtienen para 1N/4. CUARTIL SEGUNDO (Q2) Q2 = 50% de los datos y se obtiene para 2N/4 = N/2. El cuartil 2 es igual a la mediana. CUARTIL TERCERO (Q3) Q3 = 75% de los datos y se obtiene para 3N/4. LA FORMULA GENERAL ES: Qj = Lri + ( (jN/4 - FaQj)/fQj) * i donde j representa el número del cuartil y jN/4 se calcula inicialmente y en base al resultado obtenido, se sustituyen en la fórmula los datos correspondientes al intervalo donde la frecuencia acumulada sea mayor o igual a dicho resultado, el cálculo de un cuartil es similar al cálculo de la mediana. DECILES (Dj) Son los valores que dividen los datos en 10 partes iguales, como los cuartiles, y se representan por: D1 = 10% de los datos y se obtiene para 1N/10, D2 = 20% de los datos y se obtiene para 2N/10, y así sucesivamente hasta: D9 = 90% de los datos y se obtiene para 9N/10. LA FORMULA GENERAL ES: Dj = Lri + ( (jN/10 - FaDj)/fDj) * i donde j representa el número del decil y se aplica análogamente al cálculo de los cuartiles. PERCENTILES (Pj) Los percentiles son parámetros que dividen a los datos en cien partes iguales y se representan por: P1 = 1% de los datos y se obtiene para 1N/100, P2 = 2% de los datos y se obtiene para 2N/100, P3 = 3% de los datos y se obtiene para 3N/100, y así sucesivamente hasta: P99 = 99% de los datos y se obtiene para 99N/100. LA FORMULA GENERAL ES: Pj = Lri + ( ( jN/100 - FaPj)/fPj) * i donde j representa el número de percentil, y se calculan análogamente a los cuartiles y deciles. Nótese que Me = Q2 = D5 = P50. EJEMPLO La siguiente tabla muestra una distribución de frecuencias de los salarios semanales de 65 empleados de una compañía: Salarios (Q) No. de empleados (fi) 50.00 - 59.99 60.00 - 69.99 70.00 - 79.99 80.00 - 89.99 90.00 - 99.99 100.00 - 109.99 110.00 - 119.99 8 10 16 14 10 5 2 N = 65 Hallar: a) Cuartil 3 (Q3). b) Decil 2 (D2). c) Percentil 5 (P5). Fa Limites reales 8 18 34 48 58 63 65 49.995 - 59.995 59.995 - 69.995 69.995 - 79.995 79.995 - 89.995 89.995 - 99.995 99.995 - 109.995 109.995 - 119.995 Solución: a) Q3 = Lri + ( (3N/4 - FaQ3)/fQ3) * i 3N/4 = 3x65/4 = 195/4 = 48.75 Se busca en las frecuencias acumuladas un número que sea mayor o igual a 48.75, en este caso nos da el intervalo 89.995 99.995, y se sustituyen en la fórmula todos los datos correspondientes a ese intervalo: Q3 = 89.995 +( (48.75 - 48)/10) * 10 = 90.75 Esto significa que el 75% de los empleados ganan un salario de Q90.75 o menos. b) D2 = Lri + ((2N/10 - FaD2)/fD2) * i 2N/10 = 2x65/10 = 130/10 = 13 D2 = 59.995 + ((13 - 8)/10) * 10 = 65.00 El 20% de los empleados ganan Q 65.00 o menos. c) P5 = Lri + ((5N/100 - FaP5)/fP5) * i 5x65/100 = 3.25 P5 = 49.995 + ((3.25 - 0)/8) * 10 = 54.06 El 5% de los empleados ganan Q 54.06 o menos. EJEMPLO Calcule la desviación media del ejemplo anterior (media aritmética = 11.0917 ton): Marcas de clase _ _ fi*xi - x 1.5917 1.0917 0.5917 0.0917 0.4083 0.9083 1.4083 1.9083 3.1834 5.4585 7.1004 1.5589 5.7162 5.4498 4.2249 1.9083 xi - x (xi) 9.5 10.0 10.5 11.0 11.5 12.0 12.5 13.0 36.6004 D.M. = 36.6004/60 = 0.61 Ton. EJEMPLO Con los datos del problema anterior, encuentre: a) varianza (s2), b) desviación típica (s), c) desviación estándar (s’), d) coeficiente de variación (V). Solución Xi fi fi * Xi 9.5 10.0 10.5 11.0 11.5 12.0 12.5 13.0 2.0 5.0 12.0 17.0 14.0 6.0 3.0 1.0 60.0 19.0 50.0 126.0 187.0 161.0 72.0 37.5 13.0 665.5 Media = Suma(fx) / n n = 60 Suma( fx) = 665.5 Media = (Xi - X)^2 2.533403 1.191736 0.350069 0.008403 0.166736 0.825069 1.983403 3.641736 665.5 60.0 fi * (Xi - X)^2 5.066806 5.958681 4.200833 0.142847 2.334306 4.950417 5.950208 3.641736 32.24583 11.091667 a) varianza (s2): Suma(fi * (xi – X)^2) s2 = 32.2458/60 = 0.537 b) desviación típica (s): s = 32.2458/60 = 0.733 c) desviación estandar (s´): s’ = 32.2458/(60 - 1) = 0.739 como puede observarse, hay una variación no significativa entre la desviación típica y la estandar. d) coeficiente de variación (V): (S/X) * 100 V = 0.733/11.0917 * 100 = 6.61% Ejemplos de uso de la Desviación típica, y Varianza Desv.St. ( f *(X n 2 Varianza ( Desv.St.) 2 i X) ) MOMENTOS Se utilizan para producir valores que sirven el cálculo de las medidas de asimetría y agudez. Existen de 3 clases: Con respecto del origen Con respecto a la media. Con respecto a cualquier punto. Datos no agrupados: Respecto al origen r x j donde r 1,2,3,.. xr N Respecto a la media mr r ( x x ) j N donde r 1,2,.. Con respecto a cualquier punto. mr r ( x A ) j N donde r 1,2,3,.. Datos agrupados: xr f j x rj para r 1 es media N r 2 segundo momento mr f j *(x j x) r N r 2,es var ianza. mr donde con f j * ( x j A) r N Coeficiente de asimetría Dado en función del momento 3 m3 a3 2 s + Asimetria positiva 0 Simétrica -Asimetria negativa. METODO DE OCHO PASOS PARA RESOLVER PROBLEMAS “UNA PERSONA VALIENTE NO ES EL QUE NO TIENE MIEDO, SINO AQUEL QUE A PESAR DEL TEMOR LO SUPERA Y SE ENFRENTA A SUS PROBLEMAS” Los problemas nunca se acaban Pero todo en la vida tiene solución y los problemas empresariales no son la excepción. Sin embargo, hay que saberlos tratar para que se resuelvan de manera efectiva y, de ser posible, para siempre. “Mil cortes en las hojas del árbol del mal equivalen a uno sólo en las raíces” Thoreau ¿Qué es un problema? SITUACIÓN EN DONDE EL RENDIMIENTO O COMPORTAMIENTO DE UN SISTEMA NO SATISFACE LAS EXPECTATIVAS. En general, podríamos decir que existe un problema cuando algo no ofrece el resultado que esperamos. Los ocho pasos • • • • • • • • Definición del problema Acción momentánea Definición del origen Acción correctiva definitiva Comprobación Estandarización Documentación Conclusiones 1. Definición del problema A) El tiempo en que ocurre B) El tipo de problema C) El síntoma presentado D) Aspectos circunstanciales E) Incluir información que no pueda ser presentada en forma de datos (gráficas y diagramas) F) Considerar cuándo, cuánto, qué, quién, dónde, etcétera) 2. Acción momentánea Es la acción para solucionar el problema temporalmente y así garantizar que, a pesar de que el problema existe, éste no va a afectar al cliente. Busque una acción momentánea a realizar para cada problema mientras lo resuelve de forma definitiva. 3. Definición del origen del problema Definir dónde exactamente se originó un problema es la clave para encontrar la solución más acertada. A) Generar lluvia de ideas: Un mismo problema puede ser visualizado de muy distintas maneras por diferentes personas. Importante: Debe realizarse en un clima de amistad. Todas las ideas son importantes. B) Elaborar diagrama de causa-efecto (Ishikawa): Relación entre un problema o resultado y las causas que lo ocasionaron. Construcción de un diagrama de causa-efecto 1) Definir el problema 2) Identificar las causas mayores ayudados por una lluvia de ideas. 3) Identificar las subcausas. 4) Ponderar las causas antes de evaluarlas 5) Evaluar las causas más probables 6) Tomar una solución. Diagrama de causa-efecto R.R. H.H. EQUIPO LIDERAZGO DESUNION EQUIPO DE COMPUTO OPORTUNIDAD RESPONSABI LIDAD IDENTIFICACION CON LA INSTITUCION CONFIANZA TELEFONOS DESIGUALDAD REL. INTERNAS ACTITUD COMUNICACIÓN INADECUADA CARGAS AUTORIDAD RIGIDA TRABAJO EXCESO DE PERSONAS ESPACIO REDUCIDO MEDIO AMBIENTE DECISIONES TIEMPOS RIGIDEZ VENTILA PROCESOS CION DEFINICIÓN OBJETIVOS CLAROS CLARIDAD INFORMACION FORMA DE TRANSMITIR METODOS DISPONIBILI DAD 4. Acción correctiva definitiva A) Actividades a realizar B) Responsables C) Involucrados D) Tiempos E) Recursos 5. Comprobación A) Tiempo de revisión B) Frecuencia C) Responsable 6. Los cambios deberán establecerse de manera Estandarización formal para asegurar su correcta aplicación en adelante. 7. Documentación Recopilar toda la información, hechos, decisiones, etcétera, que se llevaron a cabo desde que apareció el problema hasta su solución definitiva. 8. Conclusiones Aunque el problema resuelto sea el mismo, la experiencias de cada una de las personas es diferente; cada quien ve el problema desde su propia perspectiva. Compartir experiencias es una forma de aprendizaje muy enriquecedora. Probabilidad: Posibilidad de que algo llegue a suceder Frecuencia de un evento dentro de un todo (población). P= (NA/N) Donde: NA= # de veces que ocurre el evento A N= # total de posibles resultados. FORMULAS: P(AUB)= P(A) + P(B) , para sucesos mutuamente excluyentes (Si uno sucede es imposible que el otro se produzca). P(AUB)= P(A) + P(B) - P(A B) Para eventos no mutuamente excluyentes. Si A y B son eventos independientes: P(A B)= P(A)*P(B) Si los sucesos son dependientes: P(A B)= P(A)*P(B/A) PERMUTACION: Es una disposición ordenada de un conjunto de objetos. COMBINACION: Si la forma como se ordenan es irrelevante entonces se le llama combinación, (no importa el orden) DISTRIBUCIONES DE PROBABILIDAD Y FRECUENCIA Experimento: En estadistica, se denomina experimento a cualquier actividad que se realice con el fin de comprobar una hipotesis. Evento: Es el resultado de un experimento. Variables Aleatorias: Es aquella que toma valores diferentes como resultado de un experimento aleatorio TIPOS: DISCRETA: toma valores puntuales en una escala de medicion. CONTINUA: Puede tomar cualquier valor dentro de una escala de medicion o de valores. VALOR ESPERADO DE UNA VARIABLE ALEATORIA: Es un promedio pesado del valor de cada resultado posible multiplicado por la probabilidad de dicho resultado DISTRIBUCIONES DE PROBABILIDADES: Están relacionadas con las distribuciones de frecuencias, generalmente se piensa como una distribución de frecuencia teórica cuando se habla de distribución de probabilidades. TIPOS: DISCRETAS: Cuando los datos y la variable toma números limitados de valores. CONTINUAS: Cuando los datos y la variable (toma valores en un rango a utilizar) y la población se puede decir que es muy grande (infinita) DISTRIBUCIONES DISCRETAS: Entre las funciones de distribución de probabilidades que más utilizamos están: HIPERGEOMETICA BINOMIAL POISSON HIPERGEOMETICA: Se utiliza cuando la muestra de la población es finita y se toma la muestra sin reemplazo Para fines de la carrera es muy poco utilizado. LA DISTRIBUCION BINOMIAL: Se utiliza en probabilidad discreta, cuyo número de elementos es infinito, es usada cuando tenemos atributos, ejemplo: aceptable, no aceptable, éxito o fracaso, falla o no falla, etc. Esta describe resultados de un proceso de Bernoulli (este proceso dice que las probabilidades solo pueden ser p= éxito, cara, etc q=1-p, lo contrario de p. La probabilidad de este evento permanece fijo respecto al tiempo. Los eventos son estadísticamente independientes. Formula de la Binomial: P(Probabilidad de r éxitos en n ensayos)= n! r nr ( )p q r!(n r )! p= probabilidad de tener éxito q= probabilidad de no tener éxito r= # de éxitos deseados n= # de intentos hechos. DISTRIBUCION DE POISSON: Se utiliza en probabilidad discreta, se aplica a diversas situaciones que aplican la realización de observaciones por unidad de tiempo. Ejemplo contar el número de vehículos que llegan a una caseta de control, contar el número de máquinas descompuestas durante 1 día, distribución de llamadas telefónicas que llegan a un conmutador, la demanda de pacientes que necesitan servicios, etc. CARACTERISTICAS: Con el ejemplo del número de vehículos que pasan por una sola caja de una caseta de cobro, daremos las características: La media del número de vehículos que llegan por hora pico puede estimarse a partir de datos sobre tráfico que se tengan disponibles. Si dividimos la hora pico en períodos (intervalos) de un segundo cada uno, encontraremos las siguientes afirmaciones: A) La probabilidad de que exactamente un vehículo llegue a una caja por segundo es muy pequeño. B) La probabilidad de que dos o más vehículos lleguen en un intervalo de un segundo es muy pequeña. C) El número de vehículos que llegan a un intervalo dado de un segundo es independiente de que dicho intervalo se presente en la hora pico. El número de llegadas en cualquier intervalo de un segundo no depende del número de llegadas en cualquier otro intervalo de un segundo. FORMULA: P( X ) Donde: e X X! = Número medio de presentaciones por intervalos de tiempo. X= Valor de variable. FUNCIONES CONTINUAS: La más utilizada es la Normal y es sobre la cual esta soportada muchas aplicaciones. Definimos: Donde: xi= Dato x = Media Desviación Z xi x ANALISIS DE REGRESION Y CORRELACION ANALISIS DE REGRESION El término regresión, se uso por primera vez como un concepto estadístico por Sir Francis Galton. Galton hizo un estudio que mostró que, la altura de los niños de los padres altos tiende a bajarse, o "regresar", hacia la altura media de la población. El designó la palabra "regresión" como el nombre del proceso general de predecir una variable (la altura de los niños), a partir de otra (la altura de los padres). Posteriormente, los estadísticos usaron el término regresión múltiple para describir el proceso mediante el cual se usan varias variables para predecir otra. En el análisis de regresión, se desarrollará una ecuación de estimación, es decir, una fórmula matemática que relaciona las variables conocidas con la variable desconocida TIPOS DE RELACIONES DE CURVAS DE REGRESION Los análisis de regresión y correlación, están basados en la relación o asociación entre dos o más variables. La variable conocida es llamada variable independiente. La variable que se está tratando de predecir es la variable dependiente. REGRESION LINEAL La ecuación de la relación lineal es: Y = a o + a 1X Donde ao & a1 son parámetros estadísticos que se deben calcular. METODO DE MINIMOS CUADRADOS Consideremos los puntos representados por (X1,Y1), (X2,Y2), ..., (Xn,Yn). Para un valor de Xi, existirá una diferencia Di entre Yi y el valor que da la ecuación de ajuste. Cada diferencia Di, se conoce como desviación, error o residuo; la cual, puede ser positiva, negativa o cero. De todas las curvas de aproximación a una serie de datos puntuales, la curva que tiene la propiedad de que: D12 + D22 + ... + DN2 es mínimo se conoce como la mejor curva de ajuste. Así una recta con esta propiedad se llama recta de mínimos cuadrados y tiene la ecuación: Y = ao + a1X donde las constantes ao y a1 se determinan mediante el sistema de ecuaciones simultáneas: Y = ao (N) + a1 ( X) XY = ao ( X) + a1 ( X2) que son llamadas ecuaciones normales para la recta de mínimos cuadrados. Si se resuelve el sistema en forma general, entonces se obtienen las siguientes fórmulas: Formulas para calcular los valores ( y )( x ) ( x)( xy) ao 2 2 N ( x ) ( x) 2 N ( xy) ( x)( y ) a1 2 2 N ( x ) ( x ) CORRELACION La correlación, es el grado de relación que existe entre las variables, y un análisis de correlación determina en que medida una ecuación lineal o de otro tipo describe o explica de una forma adecuada la relación entre las dos variables. Si todos los valores de las variables satisfacen exactamente una ecuación, se dice que las variables están correlacionadas perfectamente o que hay correlación perfecta entre ellas. Así las áreas "A" y los radios "r" de todos los círculos están correlacionados perfectamente, puesto que A = p * r2. Las variables altura y peso de los individuos muestran cierta correlación. CORRELACION LINEAL Consideremos el diagrama de dispersión de la figura 4.3, si "Y" tiende a incrementarse cuando "X" aumenta, como en (a), la correlación se dice positiva o correlación directa. Si "Y" tiende a disminuir cuando se incrementa "X", como en (b), la correlación se dice negativa o correlación inversa. Si no hay ninguna relación entre las variables, como en (c), se dice que no hay correlación entre ellas, es decir, no están correlacionadas. r COEFICIENTE LINEAL DE CORRELACION Si se supone una relación lineal entre las dos variables, el coeficiente de correlación se calcula como: N ( xy) ( x)( y) [( N x 2 ) ( x) 2 ][ N y 2 ( y) 2 ] Donde r esta en el rango entre -1 y 1, si r=1 se dice que es una buena correlación y si r=0, no hay correlación COEFICIENTE DE DETERMINACION Al cuadrado del coeficiente de correlacion se le denomina “coeficiente de determinacion”. Aunque el mas utilizado es el coeficiente de correlacion, es el coeficiente de determinacion el que tiene un significado mas concreto. El coeficiente de determinacion representa la fraccion (o el porcentaje) de la variacion de “y” que es explicada por la variacion de “x”. Por ejemplo, si obtenemos un coeficiente de correlacion de 0.95 y lo elevamos al cuadrado obtenemos 0.9025, es decir que la variacion de la variable independiente (x) explica el 90.25% de la variacion de la variable dependiente (y). El otro 10% de la variacion de “y” es atribuible a otras causas que pueden incidir en dicha variable. EJEMPLO Los siguientes datos son las mediciones de velocidad del aire y del coeficiente de evaporación de las gotitas de combustible en una turbina de propulsión. Velocidad del aire X (cm/seg) Coeficiente de evaporación Y (mm2/seg) 20 60 100 140 180 220 260 300 340 380 0.18 0.37 0.35 0.78 0.56 0.75 1.18 1.36 1.17 1.65 Encuentre: a) la ecuación de la recta de mínimos cuadrados, b) utilice la ecuación anterior, para estimar el coeficiente de evaporación de una gotita cuando la velocidad del aire es de 190 cm/seg, c) coeficiente de correlación. SOLUCION: a) Recta de regresión "Y" sobre "X": X Y X2 Y2 XY 20 60 100 140 180 220 260 300 340 380 0.18 0.37 0.35 0.78 0.56 0.75 1.18 1.36 1.17 1.65 400 3,600 10,000 19,600 32,400 48,400 67,600 90,000 115,600 144,400 0.0324 0.1369 0.1225 0.6084 0.3136 0.5625 1.3924 1.8496 1.3689 2.7225 3.6 22.2 35.0 109.2 100.8 165.0 306.8 408.0 397.8 627.0 2,000 8.35 532,000 9.1097 2,175.4 N = 10 datos X = 2,000 X2 = 532,000 Y = 8.35 XY = 2,175.40 Sustituyendo en las ecuaciones normales: Y = ao N + a1 X XY = ao X + a1 X2 8.35 = ao 10 + a1 2,000 (1) 2,175.40 = ao 2,000 + a1 532,000 (2) Resolviendo las ecuaciones (1) y (2) en forma tenemos: ao = 0.069 ; a1 = 0.0038, sustituyendo en Y = ao + a1 X, obtenemos la ecuación de la recta de regresión de "Y" sobre "X": Y = 0.069 + 0.0038 X (3) b) para X = 190 el coeficiente de evaporación será: Y = 0.069 + 0.0038(190) = 0.79 Y = 0.79 mm2/seg simultánea c) el coeficiente de correlación es : r= 10(2,175.40) - (2,000)(8.35) = 0.95 [10(532,000)-(2,000)2][10(9.1097) - (8.35)2] El valor del coeficiente de correlación nos indica: • que la correlación es positiva, debido al signo del coeficiente, • que la relación entre X & Y es bastante buena, ya que coeficiente es bastante cercano a 1, en valor absoluto, • cuando el coeficiente es bastante cercano a que no hay correlación entre las variables X & Y. el cero, se dice d) el coeficiente de determinacion es : r^2 = 0.95 ^ 2 = 0.9025 equivalente a 90.25% El valor del coeficiente de determinacion nos indica: • Que podemos atribuir en un 90.25% la variacion de Y a la variacion de X y un 9.75% de la variacion es atribuible a otros factores que no fueron considerados en el modelo matematico. • Cuando el porcentaje es bajo, digamos abajo del 80%, debemos escoger otra variable independiente o agregar una variable mas al modelo y realizar un analisis de regresion multiple. CURVE EXPERT Es uno de tantos programas disponibles para realizar analisis de regresion y correlacion. Tiene la ventaja de tener predeterminados una gran cantidad de modelos, aparte de los que el usuario quiera definir. Es un Shareware que se encuentra disponible en internet.