Download tutorial - Web Estadistica I
Document related concepts
Transcript
1 UNIDAD 2 DISTRIBUCIÓN DE FRECUENCIAS NO AGRUPADAS EN INTERVALOS En esta unidad se presentan varios métodos que se usan con frecuencia para resumir información estadística mediante tablas y gráficos. Este tipo de resúmenes se ven a menudo en informes, artículos periodísticos y estudios investigativos; por eso es muy importante comprender cómo se elaboran y cómo interpretarlos. A manera de ejemplo consideremos lo siguiente. Esta base de datos será utilizada para ejemplificar todos los temas de este capítulo. Un ingeniero de sistemas está investigando la utilidad de tres lenguajes de diseño (1, 2 y 3) para mejorar las tareas de programación. Se pide a 50 programadores expertos que codifiquen una función estándar en el lenguaje que más utilizan de los tres, anotando el tiempo -en minutos- que requieren para hacer esa tarea. Los datos obtenidos son los siguientes: Programador 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Lenguaje de diseño usado 1 2 3 1 1 1 1 2 2 3 3 1 1 2 3 1 2 2 2 2 3 3 2 1 3 Tiempo (minutos) Programador 15 18 20 12 15 22 13 20 12 29 18 12 20 13 22 15 18 12 10 22 15 12 18 9 14 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 Lenguaje de diseño usado 1 1 1 2 3 3 3 1 1 1 2 1 2 1 2 2 2 1 1 1 3 1 1 2 1 Tiempo (minutos) 20 15 8 12 24 15 18 16 17 20 12 24 22 12 15 18 20 15 20 20 12 12 12 15 19 2 1. TABLAS DE FRECUENCIA El medio más simple para resumir un conjunto de observaciones es una tabla; el tipo de tabla que se utiliza para resumir datos se denomina distribución de frecuencias, que muestra la cantidad de elementos en cada una de varias clases que son mutuamente excluyentes (cada individuo pertenece únicamente a una categoría) y exhaustivas (cada individuo debe pertenecer a una de las categorías); el objetivo de tal distribución es proporcionar una perspectiva de los datos. La distribución de frecuencias está constituida por: Frecuencia absoluta (ni): Indica cuantos elementos pertenecen a cada clase. Frecuencia relativa (fi): Indica la proporción de artículos en cada clase, por lo tanto está dada por la razón entre la frecuencia absoluta de cada clase y el tamaño de muestra. Obviamente, si se multiplica por 100 cada valor se obtiene la distribución de frecuencias porcentuales. Como todas las modalidades son mutuamente excluyentes y exhaustivas ha de ocurrir que Eso implica que: EJEMPLO 2.1 Construir la distribución de frecuencias de la variable “lenguaje de diseño utilizado” Solución: Lenguaje de diseño Frecuencia absoluta Frecuencia relativa Porcentaje 1 23 23/50 (0.46) 46% 2 16 16/50 (0.32) 32% 3 11 11/50 (0.22) 22% Un caso en que las clases no son excluyentes y exhaustivas se da cuando una pregunta puede tener múltiples respuestas. En ese caso la suma de las frecuencias puede exceder el 100%. 3 2. GRÁFICOS Una segunda manera de resumir y presentar información consiste en la utilización de gráficos; éstos deben diseñarse de tal forma que comuniquen los patrones generales de un conjunto de observaciones de un solo vistazo, para que puedan percibirse fácilmente los hechos esenciales y compararlos con otros. Cada vez es más habitual el uso de gráficos o imágenes para representar la información obtenida. No obstante, debemos ser prudentes al confeccionar o interpretar gráficos, puesto que unas misma información se puede representar de formas muy diversas y no todas ellas son pertinentes, correctas o válidas. En este capítulo se establecerán criterios y normas mínimas que deben verificarse para construir y presentar adecuadamente los gráficos en el ámbito de la estadística descriptiva. Entonces, mencionaremos algunas consideraciones que conviene tener en cuenta al momento de realizar cualquier gráfica a fin de que la información sea transmitida de la manera más eficaz posible y sin distorsiones: El eje que represente a las frecuencias de las observaciones (generalmente el vertical) debe comenzar en cero (0), de otra manera podría dar impresiones erróneas al comparar la altura, longitud o posición de las columnas, barras o líneas que representan las frecuencias. La longitud de los espacios que representan a cada dato o intervalo (clase) en la gráfica deben ser iguales. El tipo de gráfico debe coincidir por sus características con el tipo de información o el objetivo que se persigue al representarla, de otra manera la representación gráfica se convierte en un instrumento ineficaz, que produce más confusión que otra cosa y podría ser innecesario o productor de interpretaciones equivocadas. HAY QUE TENER EN CUENTA QUE LOS GRÁFICOS ESTADÍSTICOS SE UTILIZAN POR CONCISIÓN Y FACILIDAD DE INTERPRETACIÓN; SI ESTO NO SE HA DE LOGRAR, ES MEJOR NO EMPLEARLOS. Para datos que no están agrupados se utilizan principalmente los siguientes gráficos: a. DIAGRAMA DE BARRAS: En el eje horizontal de un diagrama de barras se especifican los indicadores o nombres de cada clase y en el eje vertical se representa una escala de frecuencias, bien sea absoluta, relativa o porcentual. Posteriormente, con una barra de un ancho fijo trazada sobre cada indicador de clase se llega a la altura correspondiente a la frecuencia respectiva; las barras se separan para señalar que cada clase es una categoría independiente. Las barras también pueden trazarse horizontalmente, pero la filosofía de la gráfica es la misma. 4 LENGUAJE UTILIZADO FRECUENCIA 25 20 15 10 5 0 1 2 3 LENGUAJE DE DISEÑO USADO b. DIAGRAMA CIRCULAR O DE SECTORES: Es más apropiado para representar distribuciones de frecuencias relativas. Para trazarlo, se divide un círculo en tantas porciones como clases existan, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia relativa. El arco de cada porción se calcula usando una regla de tres simple, teniendo en cuenta que un círculo tiene 360º. Para el ejemplo que se viene manejando, el gráfico de sectores quedaría así: LENGUAJE UTILIZADO 22% 46% 1 2 3 32% Existen igualmente otros tipos de gráficas, pero la mayoría se fundamentan en las mismas bases de los diagramas reseñados. 5 TABULACIONES CRUZADAS: Si el interés principal consiste en comprender la relación entre dos variables, para resumir los datos se utiliza la tabulación cruzada; en ella, los encabezados de los márgenes izquierdo y superior definen las clases de las dos variables. Si por lo menos una de las variables es cuantitativa, deben crearse intervalos. Si ello se quiere representar gráficamente, debe utilizarse un diagrama de barras compuestas (si por lo menos una de las variables es cualitativa) o un diagrama de dispersión (si ambas variables son cuantitativas). Cuando los tamaños de las dos poblaciones son diferentes, puede ser conveniente utilizar las frecuencias relativas, ya que en otro caso podrían resultar engañosas. Todo depende de lo que se quiera mostrar. EJEMPLO 2.2. Realizar el cruce de las variables “LENGUAJE DE DISEÑO UTILIZADO” y “TIEMPO INVERTIDO”, estableciendo diferencia entre los que se demoran un cuarto de hora o menos y los que se demoran más de ese tiempo Solución: LENGUAJE DE DISEÑO 1 2 3 Total TIEMPO INVERTIDO ≤15 minutos > 15 minutos 13 10 8 8 5 6 26 24 Total 23 16 11 50 Se observa, por ejemplo, que el 56.5% de los que prefieren el lenguaje 1 necesitan 15 minutos o menos para hacer la labor, al igual que el 50% de los que prefieren el lenguaje 2 y 45.5% de los que prefieren el lenguaje 3. A continuación se presenta la gráfica correspondiente: # DE PROGRAMADORES TIEMPO INVERTIDO SEGÚN LENGUAJE DE DISEÑO 14 12 10 8 6 4 2 0 TIEMPO INVERTIDO ≤15 minutos TIEMPO INVERTIDO > 15 minutos 1 2 3 LENGUAJE DE DISEÑO 6 Finalmente, si las dos variables de interés son cuantitativas debe realizarse un diagrama de dispersión, que es una representación gráfica de la relación entre dos variables cuantitativas, en la cual cada par (xi, yi) es representado con un punto en un sistema de coordenadas bidimensional. Para representarlo, la variable independiente (si la hay) se indica en el eje X y la variable dependiente en el eje Y. Para ampliar los conocimientos en lo relacionado a representación gráfica, revisa la siguiente página web: Gráficas 3. ESTADÍSTICOS DE RESUMEN La tabla de frecuencias y la representación gráfica nos permiten tener una idea global de la distribución dentro de la población considerada; pero esta idea es más bien cualitativa y también nos interesa un resumen cuantitativo, de tal manera que sirva para estudios o conclusiones posteriores y para comparación con otras distribuciones. Su objetivo es sintetizar las características dominantes del conjunto de datos mediante el cálculo de unos números que sean representativos de la muestra o de la población. Como ya se había aclarado, las operaciones aritméticas básicas sólo tienen sentido si los datos son cuantitativos. En consecuencia, los cálculos estadísticos que se usan para datos cuantitativos no son apropiados para datos cualitativos. Las medidas de resumen pueden ser muy engañosas cuando se mezclan distintas poblaciones (o poblaciones con subgrupos muy marcados), por lo que debe tenerse mucho cuidado. Si hay más de una variable, los estadísticos de resumen pueden calcularse por separado para cada variable, excepto si lo que quiere calcularse es una medida de asociación. A continuación se presentarán las principales medidas de localización, dispersión y asociación: a. MEDIDAS DE LOCALIZACIÓN: Valores que contribuyen a la ubicación de un valor determinado en un conjunto de datos. Entre ellos están: Media aritmética (Promedio): Es la medida de localización central más empleada. Se obtiene sumando todos los valores de los datos y dividiendo el resultado entre el total de mediciones. Si los datos proceden de una muestra, el promedio se representa con X y si proceden de una población se denomina . n X X i 1 n i n La media aritmética tiene varias propiedades importantes: X i 1 N i 7 1. 2. 3. La media actúa como centro de gravedad, ya que equilibra desviaciones positivas y negativas de los datos. Es demasiado sensible a valores extremos. La suma de las desviaciones X i X de todos los valores con respecto a la media siempre será cero ( X i X ) Xi X Como X es una constante X i nX X i n Xi n 0 4. La suma de los cuadrados de las desviaciones con respecto a la media es un mínimo. 5. Para calcularse se tienen en cuenta todos los valores. 6. Es única, es decir, un conjunto de datos sólo tiene una media. Nota: Aunque una variable sea discreta, puede tener media (y en general, cualquier medida de resumen) que no sea un valor entero. Media ponderada: Se usa cuando algunos datos tienen más importancia que otros. n Xp x n i i 1 i n En otros casos puede variar la importancia de los valores de los datos; el analista debe elegir el peso que refleje mejor la importancia de cada valor en el cálculo del promedio. La media ponderada también puede utilizarse cuando se tienen datos continuos agrupados y no se conocen los datos individuales. En dicho caso se usa cada marca de clase como xi. ~ Mediana ( X ): Es el valor que supera al 50% de los datos y es superado por el 50% ~ (valor central). Para calcularla, se debe ordenar los valores de medida; la X es el valor ~ que se encuentra en el centro - si n es par, la X es el promedio de los dos valores centrales- Si unos pocos valores son extremadamente grandes o extremadamente pequeños, la media aritmética puede no ser un promedio apropiado para representar los datos. Por el contrario, la mediana no se ve afectada por valores extremos y por eso es preferida en casos donde este tipo de valores están presentes; se dice que la mediana es robusta, lo que significa que es mucho menos sensible a los datos atípicos. Cada una (media y mediana) tiene ventajas y desventajas según los datos y el objetivo perseguido; ambas medidas diferirán mucho cuando la distribución es muy asimétrica, 8 lo que sugiere heterogeneidad en los datos. Si la asimetría es grande, se prefiere la mediana. Moda (Mo): El valor de los datos que tiene mayor frecuencia. Es la única medida útil para datos cualitativos. Un conjunto de datos puede ser multimodal, unimodal o carecer de moda. Percentiles: El p-ésimo percentil es un valor tal que por lo menos un p% de los elementos tienen dicho valor o menos y, al menos, un (100 – p)% tienen este valor o más. Para calcularlos se debe organizar los datos y obtener el correspondiente al porcentaje respectivo. Cuartiles: Son simplemente percentiles específicos, resultado de dividir la distribución en cuatro partes iguales; por lo tanto, los pasos para calcular percentiles se pueden aplicar en forma directa para calcular cuartiles. Por tal razón, el cuartil 1 (Q1) equivale al percentil 25, el cuartil 2 (Q2) corresponde al percentil 50 (mediana) y el tercer cuartil (Q3) al percentil 75. b. MEDIDAS DE VARIABILIDAD O DISPERSIÓN: No siempre las medidas de localización suministran toda la información necesaria para describir adecuadamente unos datos; con las medidas de dispersión se muestra que tan esparcidos están los datos. Dos conjuntos pueden diferir tanto en tendencia central como en variabilidad, pero pueden tener medidas de tendencia central similares y ser diferentes en términos de dispersión; es por eso que una sola clase de medida es insuficiente. Un valor pequeño en una medida de dispersión indica que los datos están estrechamente agrupados alrededor de la media; entonces la media se considera representativa de los datos. Inversamente, una medida de dispersión grande indica que la media no es confiable. Se considerarán varias medidas de dispersión: Rango (R): Es la medida de dispersión más sencilla pues, como ya se había dicho, es simplemente la diferencia entre los datos mayor y menor. No es recomendable debido a que, al basarse sólo en dos de los elementos, se ve muy influenciado por valores extremos. R X máx X mín La forma más natural de medir dispersión toma la media como punto de referencia. Aparentemente lo más lógico sería calcular la diferencia de cada valor con respecto a la media (desviaciones) y promediarlos, pero, como ya se había dicho, la sumatoria de las 9 desviaciones siempre es cero; por ello se han buscado otras alternativas para calcular la dispersión. Entre ellas están: Varianza: Un método consiste en eliminar signos, empleando valores absolutos, pero esto no es lo mejor. Una segunda idea consiste en eliminar signos, pero sin emplear valores absolutos, sino elevando al cuadrado; de esa idea se deriva la varianza, que es el dato promedio de las desviaciones cuadráticas respecto a la media. La varianza de una población se representa como 2 y la varianza muestral se representa con s2 o n-12. n 2 ( xi )2 i 1 N n s2 (x X ) i 1 2 i n 1 Se puede demostrar que si la suma de los cuadrados de las desviaciones respecto al promedio de la muestra se divide entre n-1 y no entre n, la varianza resultante de la muestra es un estimador insesgado de la varianza poblacional; la explicación radica en los grados de libertad, que es el número de parámetros independientes que se necesitan para definir algo. Desviación típica o estándar: Como las unidades de la varianza son cuadradas, es difícil formarse una idea intuitiva y una interpretación de su valor numérico. Por ello es más conveniente usar su raíz cuadrada positiva para medir variabilidad, la cual se conoce como desviación estándar. Es útil para determinar capacidad de proceso (si es capaz de cumplir especificaciones) o también para crear especificaciones. Al comparar dos grupos de datos, el grupo con la menor desviación estándar tiene las observaciones más homogéneas. Sin embargo, la magnitud real de la desviación estándar depende de los valores del conjunto de datos-lo que puede ser grande para un grupo de datos puede ser pequeño para otro-; además, como la desviación estándar tiene unidades de medición, comparar las desviaciones típicas de dos cantidades no relacionadas carece de significado. La media y la desviación estándar pueden emplearse (juntas) para construir un intervalo que capture una proporción específica de las observaciones del conjunto de datos. Sin importar la forma que tenga la distribución, al menos el 75% de los valores caen en el intervalo X 2 S y al menos el 89% en X 3S . En casi todos los casos, el intervalo X 2 S abarca la mayoría de los datos; los que lo excedan pueden declararse como casos atípicos. Es más, si la distribución es simétrica y en forma de campana, aproximadamente 68% de las observaciones estarán en el intervalo X S , más o menos el 95% estarán en el intervalo X 2 S y prácticamente todas en el intervalo X 3S . Coeficiente de variación (Cv): Es una medida relativa de variabilidad, que evalúa qué tan grande es la desviación estándar en relación con la media. 10 Cv = S/X * 100 Como la desviación estándar y la media tienen las mismas unidades de medición, se cancelan y el coeficiente de variación es adimensional. Si se evalúa una sola muestra: Cv pequeño (< 0.25): Media representativa, ya que la muestra es muy homógenea; si es grande (> 0.75): la media carece de significado porque la muestra es muy heterogénea. Particularmente útil al comparar la variabilidad de dos o más grupos de datos que se expresan en diferentes unidades de medida o si la media es muy distinta (en estos casos las desviaciones estándar no son comparables). c. ESTADÍSTICOS DE ASIMETRÍA Y CURTOSIS: Además de la posición y la dispersión de un conjunto de datos, es común usar medidas de forma en la descripción. Una de estas medidas es una estadística que busca expresar la simetría (o falta de ella) que manifiestan los datos; una distribución de frecuencias es simétrica si el lado derecho de la gráfica (a partir de la media) es la imagen especular del lado izquierdo Este estadístico se llama coeficente de asimetría (ax) y está definido por la expresión: a3 1 / n ( xi X ) 3 s3 Si el valor de este coeficiente es mayor que cero entonces se dice que la distribución de los datos se encuentra sesgada a la derecha (predominan valores menores que la media), si es menor que cero entonces se dice que está sesgada a la izquierda (predominan valores mayores que la media) y si las observaciones presentan un alto grado de simetría respecto al promedio, el coeficiente asumirá valores cercanos a cero. Curva sesgada a la derecha Curva sesgada a la izquierda Si la simetría ha sido determinada, podemos preguntarnos si la curva es más o menos apuntada (larga y estrecha). Este apuntamiento habrá que medirlo comparado a cierta 11 distribución de frecuencias que consideramos normal (este el nombre que recibe la distribución de referencia). El Coeficiente de Curtosis analiza el grado de concentración que presentan los valores alrededor de la zona central de la distribución. Se definen 3 tipos de distribuciones según su grado de curtosis: Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal). Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable. Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable. EJEMPLO 2.3. Calcular los estadísticos de resumen de los tiempos para cada lenguaje de diseño. Interpretar Solución: Lenguaje de diseño 1: 15 12 15 ...... 12 19 X 15.78 minutos 23 ~ X = 15 minutos (correspondiente al dato número 12 después de ordenarlos) Moda: 12, 15 y 20 minutos (cada uno está 5 veces) Cuartil 1 (Q1) = 12 minutos Cuartil 3 (Q3) = 20 minutos Rango = 24 - 8 = 16 minutos 12 S2 (15 15.78) 2 (12 15.78) 2 ......... (19 12.78) 2 18 minutos cuadrados 22 S 18 4.24 minutos CV 4.24 * 100 26.87% 15.78 Por ser el ejemplo, se explica la manera de calcular manualmente estos estadísticos; lo lógico sería utilizar un software estadístico o por lo menos una calculadora. Trabajando de igual forma se obtienen las siguientes medidas para los diferentes lenguajes: Media (minutos) Mediana (minutos) Moda (minutos) Desviación estándar (minutos) Varianza (minutos cuadrados) Rango (minutos) Cuartil 1 (minutos) Cuartil 3 (minutos) Coeficiente de variación (%) Coeficiente de asimetría Lenguaje 1 15.78 15 12, 15 y 20 4.24 18 16 12 20 26.87 0.083 Lenguaje 2 16.06 16.5 12 y 18 3.92 15.4 12 12 18 24.41 0.000088 Lenguaje 3 18.09 18 12, 15 y 18 5.32 28.29 17 14.5 21 29.41 0.81 Lo anterior implica que el lenguaje 1 es el más rápido, ya que su media es la menor; por el contrario, el 3 es el más lento. Además, como el coeficiente de variación del lenguaje 3 es el mayor implica que, fuera de lento, presenta mayor dispersión y, por ende, mayor riesgo. Los lenguajes 1 y 2 muestran una distribución simétrica con respecto al tiempo, mientras que entre los que utilizan el lenguaje 3 predominan los tiempos inferiores a la media Una representación gráfica muy útil para resumir un conjunto de datos es el diagrama de caja. Dicho diagrama es una presentación visual que describe al mismo tiempo varias características importantes de un conjunto de datos, tales como el centro, la dispersión, el grado de simetría y la identificación de observaciones que se alejan de manera poco usual del resto de datos (datos atípicos). El diagrama de caja presenta la mediana, Q1, Q3 y los valores mínimo y máximo de los datos sobre un rectángulo, alineado horizontal o verticalmente; los extremos de ese rectángulo son los dos cuartiles (dicha diferencia es conocida como rango intercuartílico). A ambos lados del rectángulo se trazan líneas desde sus extremos hasta los límites superior e inferior, llamadas bigotes y ubicadas a ± 1.5RIC, pero si no hay 13 datos atípicos el bigote va únicamente hasta los datos máximo y mínimo. Si hay datos extremos, deben representarse. A: Límite inferior, B: Cuartil 1, C: Mediana (no necesariamente en la mitad) D: Cuartil 3, E: Límite superior La gráfica siguiente muestra los diagramas de caja de cada uno de los lenguajes: 35 30 25 20 15 10 5 Variable 1 Variable 2 Variable 3 0 La línea roja punteada indica la media. Note que en ningún caso hay valores extremos. EJERCICIOS PROPUESTOS 1. Internet World Stats presenta con regularidad las últimas estadísticas de penetración de internet en el mundo. A continuación se presentan las cifras globales por cada país de Suramérica, a diciembre de 2004: PAÍS PENETRACIÓN (%) Venezuela 9.3 Uruguay Chile Argentina Brasil Perú 34.7 25.8 14.8 10.8 10.3 Colombia 6.0 Ecuador 4.5 Bolivia 3.0 Paraguay 2.2 Hallar media, desviación estándar y coeficiente de variación. Interpretar cada uno en el contexto de los datos. 14 2. Una empresa que también fabrica transistores bipolares ofrece 65 referencias, 60 de las cuales utilizan como material el silicio, 3 utilizan germanio y las restantes son de otro material. Represente la información mediante una tabla de frecuencias y un gráfico apropiado. 3. Un fabricante de monitores prueba dos diseños de microcircuitos para determinar si producen un flujo de corriente equivalente. El departamento de ingeniería ha obtenido los siguientes datos –en amperios-: Diseño 1 Diseño 2 1.8 1.6 1.7 1.5 1.5 1.6 1.9 1.4 1.3 1.4 1.5 1.3 1.8 1.4 1.9 1.5 2.0 1.3 1.6 1.5 1.4 1.4 1.8 1.6 Con base en la media y la desviación estándar de cada diseño, establezca si hay diferencia significativa en el flujo de corriente entre los dos diseños. 4. Usted necesita comprar un componente del computador; los fabricantes A y B le ofrecen el componente. Usted conoce pruebas donde se evaluó la duración de unas muestras de cada uno de los fabricantes. Las duraciones, en meses, fueron: A: 5.8 6.3 5.7 6.2 5.9 7.2 4.9 7.1 5.3 6.0 5.7 6.0 5.8 6.0 5.7 6.2 5.9 B: 5.6 6.4 5.9 5.8 6.2 5.6 6.3 7.0 5.8 5.2 a) Por los promedios de duración, ¿cuál preferiría comprar? b) Por la dispersión de los tiempos de duración, ¿cuál implicaría un mayor riesgo en la compra? 5. En una encuesta se preguntaba lo siguiente: “De los siguientes elementos, ¿cuál es el que falla con mayor frecuencia en sus diseños de circuitos? 1: Resistencia 2: Condensador 3: Diodo 4: Transistor 5: Otro Las respuestas obtenidas fueron: 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 4 4 44455 a) ¿Qué tipo de variable se evalúa? b) Haga la tabla de frecuencias correspondiente. c) Presente la información mediante dos gráficos apropiados. 6. Se desea conocer cuánta corriente deja pasar un reóstato de campo. Para ello se midió la corriente, en amperios, que dejan pasar 80 reóstatos y se obtuvieron los siguientes datos: 15 I (Amp) n 4.3 5 4.4 8 4.5 10 4.6 12 4.7 8 4.8 10 4.9 18 5.0 6 5.1 3 Encuentre media, mediana, moda, desviación media y desviación típica. ¿Qué puede concluir de cada uno de ellos? 7. En el laboratorio se utilizan dos métodos para tomar una misma medición: El método tradicional y un método que se inventó el profesor. Con cada uno de ellos se obtienen las siguientes mediciones: Método tradicional: 7.0, 8.5, 7.6, 8.2, 8.4, 7.0, 6.5, 6.9, 7.2, 7.5, 8.3, 6.8, 7.2, 6.5, 8.0 Método nuevo: 7.5, 8.2, 8.1, 7.0, 6.2, 6.5, 7.2, 8.5, 6.0, 5.8, 7.2, 8.2, 7.0, 6.5, 7.2, 8.1 Según esas muestras, ¿cuál método es más preciso y por qué? 8. Un experimento para averiguar el tiempo de duración en horas de un componente electrónico consiste en colocar las partes en una celda de prueba y utilizarlas durante 100 horas bajo condiciones de temperatura elevada. Se prueban ocho componentes y se obtienen los siguientes tiempos de falla: 75, 63, 100+, 36, 51, 45, 80, 90 La observación 100+ indica que la unidad continúa funcionando después de 100 horas. ¿Existe alguna medida significativa de la localización de estos datos que pueda calcularse a partir de ellos? ¿Cuál es su valor numérico? 9. El tiempo de respuesta de un computador se define como el tiempo que un usuario debe esperar mientras el computador accede a la información en el disco. Un centro de datos desea comparar los tiempos de respuesta medios de sus dos unidades de discos para detectar una diferencia entre ellos, si es que existe. Para ello se seleccionaron 15 muestras aleatorias de tiempos de respuesta para cada uno; los datos, registrados en milisegundos, fueron: Disco 1: 59, 92, 54, 102, 74, 73, 60, 73, 75, 84, 47, 33, 61, 82, 58 Disco 2: 71, 38, 47, 53, 63, 48, 41, 68, 40, 60, 44, 39, 34, 75, 86 ¿Cuál es más rápido y cuál presenta menor dispersión en los tiempos de respuesta? 10. Un fabricante de monitores prueba dos diseños de microcircuitos para determinar si producen un flujo de corriente equivalente. El departamento de ingeniería ha obtenido los siguientes datos, expresados en amperios: 16 Diseño 1: 26.5, 22.6, 28.3, 25.6, 22.5, 25.9, 23.8, 32.5, 19.9, 25.4, 23.6, 28.6, 25.5, 23.9, 31.0 Diseño 2: 28.6, 23.5, 22.2, 26.8, 32.5, 18.7, 29.6, 27.2, 25.6, 23.5 Sabiendo que lo ideal es un flujo de corriente de 25 ± 3, ¿cuál diseño considera que es mejor? ¿Considera necesario analizar un nuevo diseño? ¿Qué observaciones le haría al análisis? 11. Un fabricante de componentes electrónicos se interesa en determinar el tiempo de vida de cierto tipo de batería. La que sigue es una muestra, en horas de vida: 123 116 122 110 175 126 125 111 118 117 a) Encuentre la media y la mediana de la muestra. b) ¿Cuál característica en este conjunto de datos es la responsable de la diferencia sustancial entre las dos?