Download tutorial - Web Estadistica I

Document related concepts

Parámetro estadístico wikipedia , lookup

Desviación típica wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Cuantil wikipedia , lookup

Asimetría estadística wikipedia , lookup

Transcript
1
UNIDAD 2
DISTRIBUCIÓN DE FRECUENCIAS NO AGRUPADAS EN
INTERVALOS
En esta unidad se presentan varios métodos que se usan con frecuencia para resumir
información estadística mediante tablas y gráficos. Este tipo de resúmenes se ven a
menudo en informes, artículos periodísticos y estudios investigativos; por eso es muy
importante comprender cómo se elaboran y cómo interpretarlos.
A manera de ejemplo consideremos lo siguiente. Esta base de datos será utilizada para
ejemplificar todos los temas de este capítulo.
Un ingeniero de sistemas está investigando la utilidad de tres lenguajes de diseño (1, 2 y
3) para mejorar las tareas de programación. Se pide a 50 programadores expertos que
codifiquen una función estándar en el lenguaje que más utilizan de los tres, anotando el
tiempo -en minutos- que requieren para hacer esa tarea. Los datos obtenidos son los
siguientes:
Programador
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Lenguaje
de diseño
usado
1
2
3
1
1
1
1
2
2
3
3
1
1
2
3
1
2
2
2
2
3
3
2
1
3
Tiempo
(minutos)
Programador
15
18
20
12
15
22
13
20
12
29
18
12
20
13
22
15
18
12
10
22
15
12
18
9
14
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
Lenguaje
de diseño
usado
1
1
1
2
3
3
3
1
1
1
2
1
2
1
2
2
2
1
1
1
3
1
1
2
1
Tiempo
(minutos)
20
15
8
12
24
15
18
16
17
20
12
24
22
12
15
18
20
15
20
20
12
12
12
15
19
2
1. TABLAS DE FRECUENCIA
El medio más simple para resumir un conjunto de observaciones es una tabla; el tipo de
tabla que se utiliza para resumir datos se denomina distribución de frecuencias, que
muestra la cantidad de elementos en cada una de varias clases que son mutuamente
excluyentes (cada individuo pertenece únicamente a una categoría) y exhaustivas (cada
individuo debe pertenecer a una de las categorías); el objetivo de tal distribución es
proporcionar una perspectiva de los datos.
La distribución de frecuencias está constituida por:
Frecuencia absoluta (ni): Indica cuantos elementos pertenecen a cada clase.
Frecuencia relativa (fi): Indica la proporción de artículos en cada clase, por lo tanto está
dada por la razón entre la frecuencia absoluta de cada clase y el tamaño de muestra.
Obviamente, si se multiplica por 100 cada valor se obtiene la distribución de frecuencias
porcentuales.
Como todas las modalidades son mutuamente excluyentes y exhaustivas ha de ocurrir
que
Eso implica que:
EJEMPLO 2.1
Construir la distribución de frecuencias de la variable “lenguaje de diseño utilizado”
Solución:
Lenguaje de diseño
Frecuencia absoluta
Frecuencia relativa
Porcentaje
1
23
23/50 (0.46)
46%
2
16
16/50 (0.32)
32%
3
11
11/50 (0.22)
22%
Un caso en que las clases no son excluyentes y exhaustivas se da cuando una pregunta
puede tener múltiples respuestas. En ese caso la suma de las frecuencias puede exceder
el 100%.
3
2. GRÁFICOS
Una segunda manera de resumir y presentar información consiste en la utilización de
gráficos; éstos deben diseñarse de tal forma que comuniquen los patrones generales de
un conjunto de observaciones de un solo vistazo, para que puedan percibirse fácilmente
los hechos esenciales y compararlos con otros.
Cada vez es más habitual el uso de gráficos o imágenes para representar la información
obtenida. No obstante, debemos ser prudentes al confeccionar o interpretar gráficos,
puesto que unas misma información se puede representar de formas muy diversas y no
todas ellas son pertinentes, correctas o válidas. En este capítulo se establecerán criterios
y normas mínimas que deben verificarse para construir y presentar adecuadamente los
gráficos en el ámbito de la estadística descriptiva.
Entonces, mencionaremos algunas consideraciones que conviene tener en cuenta al
momento de realizar cualquier gráfica a fin de que la información sea transmitida de la
manera más eficaz posible y sin distorsiones:



El eje que represente a las frecuencias de las observaciones (generalmente el
vertical) debe comenzar en cero (0), de otra manera podría dar impresiones erróneas
al comparar la altura, longitud o posición de las columnas, barras o líneas que
representan las frecuencias.
La longitud de los espacios que representan a cada dato o intervalo (clase) en la
gráfica deben ser iguales.
El tipo de gráfico debe coincidir por sus características con el tipo de información o
el objetivo que se persigue al representarla, de otra manera la representación gráfica
se convierte en un instrumento ineficaz, que produce más confusión que otra cosa y
podría ser innecesario o productor de interpretaciones equivocadas.
HAY QUE TENER EN CUENTA QUE LOS GRÁFICOS ESTADÍSTICOS SE
UTILIZAN POR CONCISIÓN Y FACILIDAD DE INTERPRETACIÓN; SI
ESTO NO SE HA DE LOGRAR, ES MEJOR NO EMPLEARLOS.
Para datos que no están agrupados se utilizan principalmente los siguientes gráficos:
a. DIAGRAMA DE BARRAS:
En el eje horizontal de un diagrama de barras se especifican los indicadores o nombres
de cada clase y en el eje vertical se representa una escala de frecuencias, bien sea
absoluta, relativa o porcentual. Posteriormente, con una barra de un ancho fijo trazada
sobre cada indicador de clase se llega a la altura correspondiente a la frecuencia
respectiva; las barras se separan para señalar que cada clase es una categoría
independiente.
Las barras también pueden trazarse horizontalmente, pero la filosofía de la gráfica es la
misma.
4
LENGUAJE UTILIZADO
FRECUENCIA
25
20
15
10
5
0
1
2
3
LENGUAJE DE DISEÑO USADO
b. DIAGRAMA CIRCULAR O DE SECTORES:
Es más apropiado para representar distribuciones de frecuencias relativas. Para trazarlo,
se divide un círculo en tantas porciones como clases existan, de modo que a cada clase
le corresponde un arco de círculo proporcional a su frecuencia relativa.
El arco de cada porción se calcula usando una regla de tres simple, teniendo en cuenta
que un círculo tiene 360º. Para el ejemplo que se viene manejando, el gráfico de
sectores quedaría así:
LENGUAJE UTILIZADO
22%
46%
1
2
3
32%
Existen igualmente otros tipos de gráficas, pero la mayoría se fundamentan en las
mismas bases de los diagramas reseñados.
5
TABULACIONES CRUZADAS:
Si el interés principal consiste en comprender la relación entre dos variables, para
resumir los datos se utiliza la tabulación cruzada; en ella, los encabezados de los
márgenes izquierdo y superior definen las clases de las dos variables. Si por lo menos
una de las variables es cuantitativa, deben crearse intervalos.
Si ello se quiere representar gráficamente, debe utilizarse un diagrama de barras
compuestas (si por lo menos una de las variables es cualitativa) o un diagrama de
dispersión (si ambas variables son cuantitativas).
Cuando los tamaños de las dos poblaciones son diferentes, puede ser conveniente
utilizar las frecuencias relativas, ya que en otro caso podrían resultar engañosas. Todo
depende de lo que se quiera mostrar.
EJEMPLO 2.2.
Realizar el cruce de las variables “LENGUAJE DE DISEÑO UTILIZADO” y
“TIEMPO INVERTIDO”, estableciendo diferencia entre los que se demoran un cuarto
de hora o menos y los que se demoran más de ese tiempo
Solución:
LENGUAJE DE
DISEÑO
1
2
3
Total
TIEMPO INVERTIDO
≤15 minutos
> 15 minutos
13
10
8
8
5
6
26
24
Total
23
16
11
50
Se observa, por ejemplo, que el 56.5% de los que prefieren el lenguaje 1 necesitan 15
minutos o menos para hacer la labor, al igual que el 50% de los que prefieren el
lenguaje 2 y 45.5% de los que prefieren el lenguaje 3.
A continuación se presenta la gráfica correspondiente:
# DE
PROGRAMADORES
TIEMPO INVERTIDO SEGÚN LENGUAJE
DE DISEÑO
14
12
10
8
6
4
2
0
TIEMPO
INVERTIDO ≤15
minutos
TIEMPO
INVERTIDO > 15
minutos
1
2
3
LENGUAJE DE DISEÑO
6
Finalmente, si las dos variables de interés son cuantitativas debe realizarse un diagrama
de dispersión, que es una representación gráfica de la relación entre dos variables
cuantitativas, en la cual cada par (xi, yi) es representado con un punto en un sistema de
coordenadas bidimensional. Para representarlo, la variable independiente (si la hay) se
indica en el eje X y la variable dependiente en el eje Y.
Para ampliar los conocimientos en lo relacionado a representación gráfica, revisa la
siguiente página web: Gráficas
3. ESTADÍSTICOS DE RESUMEN
La tabla de frecuencias y la representación gráfica nos permiten tener una idea global de
la distribución dentro de la población considerada; pero esta idea es más bien cualitativa
y también nos interesa un resumen cuantitativo, de tal manera que sirva para estudios o
conclusiones posteriores y para comparación con otras distribuciones. Su objetivo es
sintetizar las características dominantes del conjunto de datos mediante el cálculo de
unos números que sean representativos de la muestra o de la población.
Como ya se había aclarado, las operaciones aritméticas básicas sólo tienen sentido si los
datos son cuantitativos. En consecuencia, los cálculos estadísticos que se usan para
datos cuantitativos no son apropiados para datos cualitativos.
Las medidas de resumen pueden ser muy engañosas cuando se mezclan distintas
poblaciones (o poblaciones con subgrupos muy marcados), por lo que debe tenerse
mucho cuidado. Si hay más de una variable, los estadísticos de resumen pueden
calcularse por separado para cada variable, excepto si lo que quiere calcularse es una
medida de asociación.
A continuación se presentarán las principales medidas de localización, dispersión y
asociación:
a. MEDIDAS DE LOCALIZACIÓN: Valores que contribuyen a la ubicación de un
valor determinado en un conjunto de datos. Entre ellos están:
 Media aritmética (Promedio): Es la medida de localización central más empleada. Se
obtiene sumando todos los valores de los datos y dividiendo el resultado entre el total de
mediciones. Si los datos proceden de una muestra, el promedio se representa con X y si
proceden de una población se denomina .
n
X 
X
i 1
n
i
n
La media aritmética tiene varias propiedades importantes:

X
i 1
N
i
7
1.
2.
3.
La media actúa como centro de gravedad, ya que equilibra desviaciones positivas y
negativas de los datos.
Es demasiado sensible a valores extremos.
La suma de las desviaciones X i  X  de todos los valores con respecto a la media
siempre será cero
( X
i
 X )   Xi   X
Como X es una constante   X i  nX 
X
i
 n
Xi
n
0
4.
La suma de los cuadrados de las desviaciones con respecto a la media es un
mínimo.
5. Para calcularse se tienen en cuenta todos los valores.
6. Es única, es decir, un conjunto de datos sólo tiene una media.
Nota: Aunque una variable sea discreta, puede tener media (y en general, cualquier
medida de resumen) que no sea un valor entero.
 Media ponderada: Se usa cuando algunos datos tienen más importancia que otros.
n
Xp 
x n
i
i 1
i
n
En otros casos puede variar la importancia de los valores de los datos; el analista debe
elegir el peso que refleje mejor la importancia de cada valor en el cálculo del promedio.
La media ponderada también puede utilizarse cuando se tienen datos continuos
agrupados y no se conocen los datos individuales. En dicho caso se usa cada marca de
clase como xi.
~
 Mediana ( X ): Es el valor que supera al 50% de los datos y es superado por el 50%
~
(valor central). Para calcularla, se debe ordenar los valores de medida; la X es el valor
~
que se encuentra en el centro - si n es par, la X es el promedio de los dos valores
centrales-
Si unos pocos valores son extremadamente grandes o extremadamente pequeños, la
media aritmética puede no ser un promedio apropiado para representar los datos. Por el
contrario, la mediana no se ve afectada por valores extremos y por eso es preferida en
casos donde este tipo de valores están presentes; se dice que la mediana es robusta, lo
que significa que es mucho menos sensible a los datos atípicos.
Cada una (media y mediana) tiene ventajas y desventajas según los datos y el objetivo
perseguido; ambas medidas diferirán mucho cuando la distribución es muy asimétrica,
8
lo que sugiere heterogeneidad en los datos. Si la asimetría es grande, se prefiere la
mediana.
 Moda (Mo): El valor de los datos que tiene mayor frecuencia. Es la única medida útil
para datos cualitativos. Un conjunto de datos puede ser multimodal, unimodal o carecer
de moda.
 Percentiles: El p-ésimo percentil es un valor tal que por lo menos un p% de los
elementos tienen dicho valor o menos y, al menos, un (100 – p)% tienen este valor o
más.
Para calcularlos se debe organizar los datos y obtener el correspondiente al porcentaje
respectivo.
 Cuartiles: Son simplemente percentiles específicos, resultado de dividir la
distribución en cuatro partes iguales; por lo tanto, los pasos para calcular percentiles se
pueden aplicar en forma directa para calcular cuartiles.
Por tal razón, el cuartil 1 (Q1) equivale al percentil 25, el cuartil 2 (Q2) corresponde al
percentil 50 (mediana) y el tercer cuartil (Q3) al percentil 75.
b. MEDIDAS DE VARIABILIDAD O DISPERSIÓN: No siempre las medidas de
localización suministran toda la información necesaria para describir adecuadamente
unos datos; con las medidas de dispersión se muestra que tan esparcidos están los datos.
Dos conjuntos pueden diferir tanto en tendencia central como en variabilidad, pero
pueden tener medidas de tendencia central similares y ser diferentes en términos de
dispersión; es por eso que una sola clase de medida es insuficiente.
Un valor pequeño en una medida de dispersión indica que los datos están estrechamente
agrupados alrededor de la media; entonces la media se considera representativa de los
datos. Inversamente, una medida de dispersión grande indica que la media no es
confiable.
Se considerarán varias medidas de dispersión:
 Rango (R): Es la medida de dispersión más sencilla pues, como ya se había dicho, es
simplemente la diferencia entre los datos mayor y menor. No es recomendable debido a
que, al basarse sólo en dos de los elementos, se ve muy influenciado por valores
extremos.
R  X máx  X mín
La forma más natural de medir dispersión toma la media como punto de referencia.
Aparentemente lo más lógico sería calcular la diferencia de cada valor con respecto a la
media (desviaciones) y promediarlos, pero, como ya se había dicho, la sumatoria de las
9
desviaciones siempre es cero; por ello se han buscado otras alternativas para calcular la
dispersión. Entre ellas están:
 Varianza: Un método consiste en eliminar signos, empleando valores absolutos, pero
esto no es lo mejor. Una segunda idea consiste en eliminar signos, pero sin emplear
valores absolutos, sino elevando al cuadrado; de esa idea se deriva la varianza, que es el
dato promedio de las desviaciones cuadráticas respecto a la media. La varianza de una
población se representa como 2 y la varianza muestral se representa con s2 o n-12.
n
2 
 ( xi   )2
i 1
N
n
s2 
(x  X )
i 1
2
i
n 1
Se puede demostrar que si la suma de los cuadrados de las desviaciones respecto al
promedio de la muestra se divide entre n-1 y no entre n, la varianza resultante de la
muestra es un estimador insesgado de la varianza poblacional; la explicación radica en
los grados de libertad, que es el número de parámetros independientes que se necesitan
para definir algo.
 Desviación típica o estándar: Como las unidades de la varianza son cuadradas, es
difícil formarse una idea intuitiva y una interpretación de su valor numérico. Por ello es
más conveniente usar su raíz cuadrada positiva para medir variabilidad, la cual se
conoce como desviación estándar. Es útil para determinar capacidad de proceso (si es
capaz de cumplir especificaciones) o también para crear especificaciones.
Al comparar dos grupos de datos, el grupo con la menor desviación estándar tiene las
observaciones más homogéneas. Sin embargo, la magnitud real de la desviación
estándar depende de los valores del conjunto de datos-lo que puede ser grande para un
grupo de datos puede ser pequeño para otro-; además, como la desviación estándar tiene
unidades de medición, comparar las desviaciones típicas de dos cantidades no
relacionadas carece de significado.
La media y la desviación estándar pueden emplearse (juntas) para construir un intervalo
que capture una proporción específica de las observaciones del conjunto de datos. Sin
importar la forma que tenga la distribución, al menos el 75% de los valores caen en el
intervalo X  2 S y al menos el 89% en X  3S . En casi todos los casos, el intervalo
X  2 S abarca la mayoría de los datos; los que lo excedan pueden declararse como
casos atípicos. Es más, si la distribución es simétrica y en forma de campana,
aproximadamente 68% de las observaciones estarán en el intervalo X  S , más o
menos el 95% estarán en el intervalo X  2 S y prácticamente todas en el intervalo
X  3S .
 Coeficiente de variación (Cv): Es una medida relativa de variabilidad, que evalúa qué
tan grande es la desviación estándar en relación con la media.
10
Cv = S/X * 100
Como la desviación estándar y la media tienen las mismas unidades de medición, se
cancelan y el coeficiente de variación es adimensional.
Si se evalúa una sola muestra: Cv pequeño (< 0.25): Media representativa, ya que la
muestra es muy homógenea; si es grande (> 0.75): la media carece de significado
porque la muestra es muy heterogénea.
Particularmente útil al comparar la variabilidad de dos o más grupos de datos que se
expresan en diferentes unidades de medida o si la media es muy distinta (en estos casos
las desviaciones estándar no son comparables).
c. ESTADÍSTICOS DE ASIMETRÍA Y CURTOSIS: Además de la posición y la
dispersión de un conjunto de datos, es común usar medidas de forma en la descripción.
Una de estas medidas es una estadística que busca expresar la simetría (o falta de ella)
que manifiestan los datos; una distribución de frecuencias es simétrica si el lado derecho
de la gráfica (a partir de la media) es la imagen especular del lado izquierdo
Este estadístico se llama coeficente de asimetría (ax) y está definido por la expresión:
a3 
1 / n ( xi  X ) 3
s3
Si el valor de este coeficiente es mayor que cero entonces se dice que la distribución de
los datos se encuentra sesgada a la derecha (predominan valores menores que la media),
si es menor que cero entonces se dice que está sesgada a la izquierda (predominan
valores mayores que la media) y si las observaciones presentan un alto grado de simetría
respecto al promedio, el coeficiente asumirá valores cercanos a cero.
Curva sesgada a la derecha
Curva sesgada a la izquierda
Si la simetría ha sido determinada, podemos preguntarnos si la curva es más o menos
apuntada (larga y estrecha). Este apuntamiento habrá que medirlo comparado a cierta
11
distribución de frecuencias que consideramos normal (este el nombre que recibe la
distribución de referencia).
El Coeficiente de Curtosis analiza el grado de concentración que presentan los valores
alrededor de la zona central de la distribución.
Se definen 3 tipos de distribuciones según su grado de curtosis:
Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los
valores centrales de la variable (el mismo que presenta una distribución normal).
Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los
valores centrales de la variable.
Distribución platicúrtica: presenta un reducido grado de concentración alrededor de
los valores centrales de la variable.
EJEMPLO 2.3.
Calcular los estadísticos de resumen de los tiempos para cada lenguaje de diseño.
Interpretar
Solución:
Lenguaje de diseño 1:
15  12  15  ......  12  19
X 
 15.78 minutos
23
~
X = 15 minutos (correspondiente al dato número 12 después de ordenarlos)
Moda: 12, 15 y 20 minutos (cada uno está 5 veces)
Cuartil 1 (Q1) = 12 minutos
Cuartil 3 (Q3) = 20 minutos
Rango = 24 - 8 = 16 minutos
12
S2 
(15  15.78) 2  (12  15.78) 2  .........  (19  12.78) 2
 18 minutos cuadrados
22
S  18  4.24 minutos
CV 
4.24
* 100  26.87%
15.78
Por ser el ejemplo, se explica la manera de calcular manualmente estos estadísticos; lo
lógico sería utilizar un software estadístico o por lo menos una calculadora.
Trabajando de igual forma se obtienen las siguientes medidas para los diferentes
lenguajes:
Media (minutos)
Mediana (minutos)
Moda (minutos)
Desviación estándar (minutos)
Varianza (minutos cuadrados)
Rango (minutos)
Cuartil 1 (minutos)
Cuartil 3 (minutos)
Coeficiente de variación (%)
Coeficiente de asimetría
Lenguaje 1
15.78
15
12, 15 y 20
4.24
18
16
12
20
26.87
0.083
Lenguaje 2
16.06
16.5
12 y 18
3.92
15.4
12
12
18
24.41
0.000088
Lenguaje 3
18.09
18
12, 15 y 18
5.32
28.29
17
14.5
21
29.41
0.81
Lo anterior implica que el lenguaje 1 es el más rápido, ya que su media es la menor; por
el contrario, el 3 es el más lento.
Además, como el coeficiente de variación del lenguaje 3 es el mayor implica que, fuera
de lento, presenta mayor dispersión y, por ende, mayor riesgo.
Los lenguajes 1 y 2 muestran una distribución simétrica con respecto al tiempo,
mientras que entre los que utilizan el lenguaje 3 predominan los tiempos inferiores a la
media
Una representación gráfica muy útil para resumir un conjunto de datos es el diagrama
de caja. Dicho diagrama es una presentación visual que describe al mismo tiempo
varias características importantes de un conjunto de datos, tales como el centro, la
dispersión, el grado de simetría y la identificación de observaciones que se alejan de
manera poco usual del resto de datos (datos atípicos).
El diagrama de caja presenta la mediana, Q1, Q3 y los valores mínimo y máximo de los
datos sobre un rectángulo, alineado horizontal o verticalmente; los extremos de ese
rectángulo son los dos cuartiles (dicha diferencia es conocida como rango
intercuartílico). A ambos lados del rectángulo se trazan líneas desde sus extremos hasta
los límites superior e inferior, llamadas bigotes y ubicadas a ± 1.5RIC, pero si no hay
13
datos atípicos el bigote va únicamente hasta los datos máximo y mínimo. Si hay datos
extremos, deben representarse.
A: Límite inferior, B: Cuartil 1, C: Mediana (no necesariamente en la mitad)
D: Cuartil 3, E: Límite superior
La gráfica siguiente muestra los diagramas de caja de cada uno de los lenguajes:
35
30
25
20
15
10
5
Variable 1
Variable 2
Variable 3
0
La línea roja punteada indica la media. Note que en ningún caso hay valores extremos.
EJERCICIOS PROPUESTOS
1. Internet World Stats presenta con regularidad las últimas estadísticas de penetración
de internet en el mundo. A continuación se presentan las cifras globales por cada
país de Suramérica, a diciembre de 2004:
PAÍS
PENETRACIÓN
(%)
Venezuela
9.3
Uruguay
Chile
Argentina
Brasil
Perú
34.7
25.8
14.8
10.8
10.3
Colombia
6.0
Ecuador
4.5
Bolivia
3.0
Paraguay
2.2
Hallar media, desviación estándar y coeficiente de variación. Interpretar cada uno en
el contexto de los datos.
14
2. Una empresa que también fabrica transistores bipolares ofrece 65 referencias, 60 de
las cuales utilizan como material el silicio, 3 utilizan germanio y las restantes son de
otro material. Represente la información mediante una tabla de frecuencias y un
gráfico apropiado.
3. Un fabricante de monitores prueba dos diseños de microcircuitos para determinar si
producen un flujo de corriente equivalente. El departamento de ingeniería ha
obtenido los siguientes datos –en amperios-:
Diseño 1
Diseño 2
1.8
1.6
1.7
1.5
1.5
1.6
1.9
1.4
1.3
1.4
1.5
1.3
1.8
1.4
1.9
1.5
2.0
1.3
1.6
1.5
1.4
1.4
1.8
1.6
Con base en la media y la desviación estándar de cada diseño, establezca si hay
diferencia significativa en el flujo de corriente entre los dos diseños.
4. Usted necesita comprar un componente del computador; los fabricantes A y B le
ofrecen el componente. Usted conoce pruebas donde se evaluó la duración de unas
muestras de cada uno de los fabricantes. Las duraciones, en meses, fueron:
A:
5.8
6.3
5.7
6.2
5.9
7.2
4.9
7.1
5.3
6.0
5.7
6.0
5.8
6.0
5.7
6.2
5.9
B:
5.6
6.4
5.9
5.8
6.2
5.6
6.3
7.0
5.8
5.2
a) Por los promedios de duración, ¿cuál preferiría comprar?
b) Por la dispersión de los tiempos de duración, ¿cuál implicaría un mayor riesgo
en la compra?
5. En una encuesta se preguntaba lo siguiente: “De los siguientes elementos, ¿cuál es el
que falla con mayor frecuencia en sus diseños de circuitos?
1: Resistencia
2: Condensador
3: Diodo
4: Transistor
5: Otro
Las respuestas obtenidas fueron: 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 4 4
44455
a) ¿Qué tipo de variable se evalúa?
b) Haga la tabla de frecuencias correspondiente.
c) Presente la información mediante dos gráficos apropiados.
6. Se desea conocer cuánta corriente deja pasar un reóstato de campo. Para ello se midió
la corriente, en amperios, que dejan pasar 80 reóstatos y se obtuvieron los siguientes
datos:
15
I (Amp)
n
4.3
5
4.4
8
4.5
10
4.6
12
4.7
8
4.8
10
4.9
18
5.0
6
5.1
3
Encuentre media, mediana, moda, desviación media y desviación típica. ¿Qué puede
concluir de cada uno de ellos?
7. En el laboratorio se utilizan dos métodos para tomar una misma medición: El método
tradicional y un método que se inventó el profesor. Con cada uno de ellos se
obtienen las siguientes mediciones:
Método tradicional: 7.0, 8.5, 7.6, 8.2, 8.4, 7.0, 6.5, 6.9, 7.2, 7.5, 8.3, 6.8, 7.2, 6.5, 8.0
Método nuevo: 7.5, 8.2, 8.1, 7.0, 6.2, 6.5, 7.2, 8.5, 6.0, 5.8, 7.2, 8.2, 7.0, 6.5,
7.2, 8.1
Según esas muestras, ¿cuál método es más preciso y por qué?
8. Un experimento para averiguar el tiempo de duración en horas de un componente
electrónico consiste en colocar las partes en una celda de prueba y utilizarlas durante
100 horas bajo condiciones de temperatura elevada. Se prueban ocho componentes y
se obtienen los siguientes tiempos de falla:
75, 63, 100+, 36, 51, 45, 80, 90
La observación 100+ indica que la unidad continúa funcionando después de 100
horas. ¿Existe alguna medida significativa de la localización de estos datos que
pueda calcularse a partir de ellos? ¿Cuál es su valor numérico?
9. El tiempo de respuesta de un computador se define como el tiempo que un usuario
debe esperar mientras el computador accede a la información en el disco. Un centro
de datos desea comparar los tiempos de respuesta medios de sus dos unidades de
discos para detectar una diferencia entre ellos, si es que existe. Para ello se
seleccionaron 15 muestras aleatorias de tiempos de respuesta para cada uno; los
datos, registrados en milisegundos, fueron:
Disco 1: 59, 92, 54, 102, 74, 73, 60, 73, 75, 84, 47, 33, 61, 82, 58
Disco 2: 71, 38, 47, 53, 63, 48, 41, 68, 40, 60, 44, 39, 34, 75, 86
¿Cuál es más rápido y cuál presenta menor dispersión en los tiempos de respuesta?
10. Un fabricante de monitores prueba dos diseños de microcircuitos para determinar si
producen un flujo de corriente equivalente. El departamento de ingeniería ha
obtenido los siguientes datos, expresados en amperios:
16
Diseño 1: 26.5, 22.6, 28.3, 25.6, 22.5, 25.9, 23.8, 32.5, 19.9, 25.4, 23.6, 28.6, 25.5,
23.9, 31.0
Diseño 2: 28.6, 23.5, 22.2, 26.8, 32.5, 18.7, 29.6, 27.2, 25.6, 23.5
Sabiendo que lo ideal es un flujo de corriente de 25 ± 3, ¿cuál diseño considera que
es mejor? ¿Considera necesario analizar un nuevo diseño? ¿Qué observaciones le
haría al análisis?
11. Un fabricante de componentes electrónicos se interesa en determinar el tiempo de
vida de cierto tipo de batería. La que sigue es una muestra, en horas de vida:
123 116 122 110 175 126 125 111 118 117
a) Encuentre la media y la mediana de la muestra.
b) ¿Cuál característica en este conjunto de datos es la responsable de la diferencia
sustancial entre las dos?