Download estadistica y probabilidad

Document related concepts
no text concepts found
Transcript
La estadística es una ciencia que surgió para llevar la contabilidad del Estado (de ahí
viene su nombre).
En el siglo XX se desarrollaron sus técnicas y se separó de las matemáticas, pasando a
ser una ciencia con entidad propia. En los medios de comunicación frecuentemente
encontramos estadísticas. En medicina se necesitan medios estadísticos para probar
nuevos medicamentos. En todo estudio científico, tras la recogida de datos, se utilizan
pruebas estadísticas que permitan dar un resultado de esos datos. La estadística, hoy en
día, se ve potenciada por las prestaciones de la tecnología informática.
Para llevar a cabo un análisis o estudio estadístico. Lo primero que hay que hacer es
recoger datos.
Al conjunto de todos los elementos que forman nuestro estudio le llamaremos
POBLACIÓN, pero evidentemente casi nunca podemos estudiar toda la POBLACIÓN
y cogemos un subconjunto de la POBLACIÓN . Llamaremos MUESTRA al
subconjunto, extraído de la POBLACIÓN, del cual podemos obtener características que
ampliaremos a toda la POBLACIÓN. Y a cada elemento de la Población o Muestra, le
llamaremos INDIVIDUO. Por tanto el resultado del estudio estadístico dependerá mucho
de la muestra elegida. Por ejemplo, un inspector de educación ( de nuestra comunidad)
investiga cómo funcionan algunos institutos de nuestra comunidad elegidos al azar. El
conjunto de todos los institutos de nuestra comunidad es la población, los institutos
elegidos formarían la muestra y cada instituto es un individuo.
Las características que estudiamos de una población la definiremos por medio de
variables estadísticas. Dentro de las variables estadísticas podemos diferenciar :
1. Variables cuantitativas : son aquellas que se expresan mediante números
y estas pueden ser :
a. Discretas : Solo toman valores aislados ( por ejemplo nº de alumnos de
cada clase: 18, 20, 24, …)
b. Continuas: pueden tomar todos los valores de un intervalo (tiempo en
realizar una prueba :1 hora , 45 min, 1hora 2min 25seg …)
2. Cualitativa : cuando describen una cualidad y no se puede expresar
numéricamente.
( el color del pelo: rubio, castaño, pelirrojo, azul ….)
PROCESO QUE SE SIGUE EN ESTADÍSTICA
1º
2º
3º
4º
-
¿Qué queremos estudiar? ¿Para qué?
Selección de las variables que se van a analizar
Recolección de datos
Organización y exposición de datos
1
EL PAPEL DE LAS MUESTRAS
En el proceso que se sique en estadística después de los dos primeros paso (decidir lo
que queremos estudiar y perfilar la variables) , muchas veces es necesario recurrir a las
muestras para la recolección de datos. Veamos cuándo y cómo
 CUÁNDO HAY QUE RECURRIR A UNA MUESTRA
Hay algunos casos que es aconsejable o incluso imprescindible :
o Cuándo la población es muy numerosa.
Ej: Si deseamos conocer a quien votaran en unas elecciones por
comunidad
o Cuando la población es difícil de controlar
Ej: el número de veces al mes que cada cliente acude a unos grandes
almacenes
o Cuando el estudio de las variables es muy caro o destructivo
Ej; tiempo que dura una batería del coche
 CÓMO SELECCIONAMOS LAS MUESTRAS
La selección de una buena muestra no es nada fácil. Pero para que la muestra sea
válida debemos asegurarnos que:
o Se selecciona al azar y que todos los individuos tienen la misma
probabilidad de ser elegidos.
o El tamaño de la muestra importa, pero es sorprendente que si la muestra
está bien cogida las conclusiones suelen ser bastante válidas.
 Las conclusiones que se extraen para la población a partir de una muestra serán
aproximadas con un margen de error
Hacer los ejercicios 1,2 y 3 de la pág 261 de vuestro libro de texto
Una vez de recoger los datos, hay que organizarlos y esto se hace por medio de una
tabla de frecuencias (ya que un dato se puede repetir más de una vez) .
Si la variable toma pocos valores confeccionamos una tabla con datos aislados
Ejemplo : en un examen de ocho preguntas en esta clase , estudiamos el nº de respuestas
correctas . El resultado es : 3,5,6,7,7,7,6,6,5,8,8,3,2,2,2,1,0,0,5,0,6,3,5,6,7,8,4,4,1,1,5,6
Recuento
0
III
1
III
2
III
3
III
4
II
5 IIII
6 IIII I
7 IIII
8
III
TABLA DE FRECUENCIAS
xi
fi
0
3
1
3
2
3
3
3
4
2
5
5
6
6
7
4
8
3
2
Si la variable es continua o bien, siendo discreta , toma muchos valores distintos
agrupamos los datos en intervalos (con decimales para que no haya duda a que
intervalo pertenece cada dato) todos los intervalos tendrán la misma amplitud.
Ejemplo :
Se ha tomado el tiempo en los cien metros lisos a los miembros de un club de atletismo
. Estos son los resultados :
11,62 ; 12,03 ; 12,15 ; 11,54 ; 10,95 ; 11,56 ; 11,08 ;11,38 ; 12,08 ; 11,73 ;
12,11 ; 11,52 ; 11,72 ; 11,23 ; 11,66 ; 10,87 ; 11,32 ; 11,58 ; 12,01 ; 11,06
Vamos a hacer una tabla de frecuencias con los intervalos (10,805 ; 11,075)
(11,075 ; 11,345) (11,345 ; 11,615) (11,615 ; 11,885) (11,885 ; 12,155)
Vemos que la amplitud del intervalo es 11,345 – 11,075 = 0,27 y para todos los
intervalos es la misma
Recuento
(10,805 ; 11,075) III
(11,075 ; 11,345) III
(11,345 ; 11,615) IIII
(11,615 ; 11,885) IIII
(11,885 ; 12,155) IIII
TABLA DE FRECUENCIAS
Intervalo
fi
(10,805 ; 11,075)
3
(11,075 ; 11,345)
3
(11,345 ; 11,615)
5
(11,615 ; 11,885)
4
(11,885 ; 12,155)
5
Además de la frecuencia absoluta, estudiaremos las frecuencias relativas , los porcentajes
y las frecuencias acumuladas
Frecuencia relativa de un valor: Es la proporción de veces que se presenta, es decir, es la
𝒇
relación entre la frecuencia absoluta y el número total de individuos 𝒇𝒓𝒆𝒍𝒂𝒕𝒊𝒗𝒂 = 𝑵𝒊
donde N es el número total de individuos de la muestra.
Porcentaje o frecuencia porcentual : Se calcula multiplicando la frecuencia relativa por
100
TABLA DE FRECUENCIAS
Intervalo
fi fr
(10,805 ; 11,075) 3 3/20 =0,15
(11,075 ; 11,345) 3 3/20 =0,15
(11,345 ; 11,615) 5 5/20 =0,25
(11,615 ; 11,885) 4 4/20 =0,2
(11,885 ; 12,155) 5 5/20 =0,25
Total
20 1
%
15
15
25
20
25
100
3
Frecuencia acumulada:Es la suma de su frecuencia con las frecuencias de los valores
anteriores ( para calcular la frecuencia acumulada tiene que estar la variable ordenada de
menor a mayor).
En el primer ejemplo de las respuestas correctas en un examen de 8 preguntas en la clase
de 32 alumnos tendremos
TABLA DE FRECUENCIAS
xi fi
facumulada
0
3
3
1
3
3+3=6
2
3
6+3=9
3
3
9+3=12
4
2
12+2=14
5
5
14+5=19
6
6
19+6=25
7
4
25+4=29
8
3
29+3=32
facumulada (3) =12 significa que hay 12 alumnos que han contestado bien 3 preguntas o
menos
La representación de los datos se realiza utilizando la gráfica o diagrama más adecuado
en cada momento y son:
DIAGRAMA DE BARRAS
Se utiliza para representar datos de variables estadísticas discretas o datos de variables
cualitativas
El gráfico anterior representa el número de alumnos ( de una clase de 35) que han
aprobado todo ( 20 alumnos) , el número de alumnos que han suspendido una (7
alumnos) , el número de alumnos con dos suspensas (5 alumnos), con tres suspensas (0
alumnos), con cuatro suspensas (1 alumno), con cinco suspensas (1 alumno), con seis
suspensas (0 alumnos) y con siete suspensas(1 alumno).
4
HISTOGRAMA DE FRECUENCIAS
El histograma se utiliza para distribuciones de variable continua y para variables
discretas con muchos valores (ya que se utilizaran intervalos) . Por eso se utilizan
retángulos cuya base son de la longitud o amplitud de los intervalos
POLÍGONO DE FRECUENCIAS
Se utiliza en los mismos casos que el histograma. Se construye uniendo los puntos
medios de los lados superiores de los rectángulos del histograma, prolongando al
principio y al final hasta llegar al eje. Suaviza los escalones que produce el histograma.
Las pirámides de población están formadas por dos histograma, uno para hombres y otro
para mujeres ,situados con el eje de la variable de edad en el eje vertical (ya que esta
variable es común a los dos histogramas).
5
DIAGRAMAS DE SECTORES
En un diagrama de sectores el ángulo de cada sector es proporcional a la frecuencia
correspondiente. Se puede utilizar para todo tipo de variables. Este tipo de diagrama es
adecuado para mostrar la evolución a lo largo del tiempo de la variable estudiada.
Hacer ejercicios 4,5, 6 pág 261 y 7, 8 y 9 pág 262
6
PARÁMETROS ESTADÍSTICOS
MEDIDAS DE CENTRALIZACIÓN
Si utilizamos tablas de frecuencia tendremos:
𝑛 = 𝑓1 + 𝑓2 + 𝑓3 + ⋯ + 𝑓𝑛 = ∑ 𝑓𝑖
̅=
𝒙
∑ 𝒇 𝒊 𝒙𝒊
𝒇𝒊
MEDIDAS DE DISPERSIÓN
Recorrido: es la diferencia entre el dato mayor y el dato menor. Tambien se denomina
rango
7
Desviación media : es la media de las distancias de los datos a la media.
Si utilizamos tablas de frecuencia tendremos :
𝑫𝑴 =
∑ 𝒇𝒊 · |𝒙𝒊 − 𝒙
̅|
∑ 𝒇𝒊
Varianza : es la media de los cuadrados de las distancias de los datos a la media
Y esta fórmula es equivalente a la siguiente
∑ 𝑥𝑖2
𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 =
− 𝑥̅ 2
𝑛
Si utilizamos tablas de frecuencia tendremos :
∑ 𝒇𝒊 (𝒙𝒊 − 𝒙
̅)𝟐 ∑ 𝒇𝒊 𝒙𝟐𝒊
̅𝟐
𝒗𝒂𝒓𝒊𝒂𝒏𝒛𝒂 =
=
− 𝒙
∑ 𝒇𝒊
∑ 𝒇𝒊
Desviación típica: es la raíz cuadrada de la varianza
∑ 𝑥2
𝜎 = √𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 = √ 𝑖 − 𝑥̅ 2
𝑛
Si utilizamos tablas de frecuencia tendremos :
∑ 𝒇𝒊 (𝒙𝒊 − 𝒙
∑ 𝒇𝒊 𝒙𝟐𝒊
̅) 𝟐
̅𝟐
𝝈 = √𝒗𝒂𝒓𝒊𝒂𝒏𝒛𝒂 = √
=√
− 𝒙
∑ 𝒇𝒊
∑ 𝒇𝒊
TABLAS CON DATOS AGRUPADOS EN INTERVALOS
Cuando tenemos los datos agrupados en intervalos , a cada intervalo se le asigna su
valor central llamado marca de clase y así obtendremos una tabla de frecuencias y
calcularemos los parámetros igual que anteriormente
8
Ejemplo:
58+50
X1=
2
pesos
(50,58)
(58,66)
(66-74)
= 54
personas
6
20
4
X2 =
66+58
2
= 62
X3=
74+66
2
xi
54
62
70
fi
6
20
4
= 70
Para comparar la dispersión de dos poblaciones heterogéneas, se define el coeficiente de
variación como la relación entre la desviación típica y la media
𝐶𝑉 =
𝜎
𝑥̅
El resultado se da a veces en tanto por ciento CV=0,07 es el 7%
PARÁMETROS DE POSICIÓN
Son la mediana y los cuartiles. Se llaman parámetros de posición porque cada uno de
ellos ocupa un lugar.
El primer cuartil Q1 es el valor de la variable que deja por debajo de él a un cuarto de
la población.
El tercer cuartil Q3 es el valor de la variable que deja por encima de él a un cuarto de
la población.
EL DIAGRAMA DE CAJA Y BIGOTES SE UTILIZA PARA REPRESENTAR LOS
PARÁMETROS DE POSICIÓN.
Se representa en una escala los posibles datos y dibujamos un rectángulo entre el Q1 y el
Q3 señalando la mediana y los bigotes se extienden a la totalidad de los datos
Ejemplo : dada la distribución 2, 2, 3, 6, 7, 8, 8, 9,10,11
Q1=3 ; Me=7,5 y Q3=9
____|___|___|___|___|___|___|___|___|___|___|___|_______
1 2 3
4 5 6 7 8 9 10 11 12
Q1
Me
Q3
La mediana fue estudiada en los parámetros de centralización. Si el número de individuos
era impar por ejemplo 11 se dividía 11/2 =5,5 y el individuo que ocupaba el lugar 6 era la
mediana. Si el número de individuos era par por ejemplo 14 se dividía 14/2=7 y se hacía
la media entre el valor de individuo 7 y el 8
9
CÁLCULO DE PROBABILIDADES
 Conceptos básicos
Todos los días aparecen en nuestra vida hechos que tienen que ver con la
probabilidad. Si jugamos al parchís, intuimos que más o menos una de cada 6 veces
saldrá un 5, con lo que podremos sacar una ficha con la que jugaremos.
La probabilidad es una medida que nos da el grado de confianza que podemos
tener en que ocurra un suceso.
Para estudiar la probabilidad debemos familiarizarnos con algunos conceptos.
Ejemplo : imaginemos que tenemos una urna con 5 bolas : 2 blancas, 2 rojas y 1
negra . Metemos la mano en la urna, extraemos una bola y miramos el color
(experimento aleatorio:el resultado depende del azar). Hay tres caso posibles : ‘que
la bola se blanca (B)’ , ‘que la bola sea negra (N) ‘ o ‘que la bola sea roja (R)’ .
Espacio muestral : es el conjunto de todos los casos posibles : {B,R,N} . Es seguro
que la bola que sacamos sea B,R o N . Por eso al espacio muestral se le llama
también Suceso Seguro.
Sucesos son los subconjuntos del espacio muestral. En nuestro ejemplo los sucesos
posibles son {B}, {R}, {N},{B,R}, {B,N},{R,N} Y {B,R,N}
Ejemplos:
1.- Experimento: sacamos una carta de la baraja española (40 cartas) y miramos el
palo . El espacio muestral es {oros,copas,espadas, bastos}
2.- Experimento lanzamos a la vez dos monedas iguales y observamos lo que sale
Espacio muestral es {CC,CX,XX}
Ya hemos dicho que la probabilidad es una medida y se expresa mediante un
número comprendido entre el 0 y el 1. P(espacio muestral)=1
Cuando un experimento se repite muchas veces la probabilidad coincide con f r
Si podemos predecir la probabilidad de un suceso simple se llama experiencia
regular y de lo contrario e llama experiencia irregular
Ley de Laplace
Si realizamos una experiencia regular donde la probabilidad de que se dé un suceso
elemental es 1/n (siendo ‘n’ el número de sucesos elementales) entonces
10
P(S) =
𝑛ú𝑚𝑒𝑟𝑜𝑠 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑙𝑒𝑠 𝑎 𝑆
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠
Ejemplo1:
En nuestro experimento 1
P(sacar oros )= 10/40 = 1 /4
Ejemplo 2: En una caja hay 20 clavos buenos y 7 defectuosos . Calcular la
probabilidad de que al extraer un clavo sea defectuoso
P(defectuoso) = 7/27
Ejemplo 3: lanzamos un dado y sumamos sus puntuaciones
Los posibles resultados son {2,3,4,5,6,7,8,9,10,11,12} pero estos sucesos no son
equiprobables (misma probabilidad) ya que el 2 solo saldrá cuando salgan dos 1 y el
7 saldrá muchas más veces
+
1
2
3
4
5
6
1
2
3
4
5
6
7
2
3
4
5
6
7
8
3
4
5
6
7
8
9
4
5
6
7
8
9
10
P(la suma sea 7) =
5
6
7
8
9
10
11
6
7
8
9
10
11
12
𝑛ú𝑚𝑒𝑟𝑜𝑠 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑒𝑛 𝑞𝑢𝑒 𝑙𝑎 𝑠𝑢𝑚𝑎 𝑒𝑠 7
𝑛ú𝑚𝑒𝑟𝑜𝑠 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠
=
6
36
=
1
6
Experiencias compuestas
Para estudiar las experiencias compuestas es muy útil el diagrama de árbol
Ejemplo: Una urna contiene 26 bolas negras y 26 bolas rojas. Se saca una bola , se
mira el color y se vuelve a introducir a la bolsa ¿Cuál es la probabilidad de que una
sea roja y la otra negra?
P(RN o NR)=
P(RN)+P(NR)= 1 / 4 + 1 / 4 = 1 / 2
HACER EJERCICIOS DEL LIBRO 8,9 PÁG 294 Y 13,14 PÁGINA 295
11