Download A / B - IHMC Public Cmaps (2)

Document related concepts

Intervalo de confianza wikipedia , lookup

Muestra estadística wikipedia , lookup

Estadístico muestral wikipedia , lookup

Distribución t de Student wikipedia , lookup

Varianza wikipedia , lookup

Transcript
Universidad Privada “San Pedro”
Cursos doctorales de
Metodología de la Investigación
Empleo de la Estadística Descriptiva e
Inferencial, en el diseño, procesamiento
y análisis de investigaciones científicas.
Dr. René Suárez Martínez MsM PhD
Profesor Titular Consultante
ISCM-H Fac Calixto García, IPK, ENSAP,
INSAT
ESTADÍSTICA
Nos instruye sobre la manera adecuada de:
recoger, procesar, validar presentar y
analizar datos de la realidad, teniendo
presente la variabilidad inherente en ellos.
DESCRIPTIVA
INFERENCIAL
LA ESTADÍSTICA:

Contribuye a la formulación de leyes acerca del
hombre, la sociedad o el ambiente, mediante el
estudio y registro de hechos o fenómenos
observados o experimentados en dicha realidad.
Permitiendo confirmar o rechazar tales leyes.

Se vale esencialmente de modelos científicos de
tipo determinista o aleatorio (estocástico).

Constituye una de las tecnologías más útiles
cuando la variabilidad y la incertidumbre forman
parte de los eventos o fenómenos que se
investigan.
Puede ser definida como:
• Sistematización,
recogida,
ordenación
y
presentación de los datos referentes a un
fenómeno
que
presenta
variabilidad
o
incertidumbre para su estudio metódico, con
objeto de
• deducir las leyes que rigen esos fenómenos,
• y poder de esa forma hacer previsiones sobre
los mismos, tomar decisiones u obtener
conclusiones.
Estadística Descriptiva: Trata la
organización, presentación y síntesis de la
información.
Estadística Inferencial: Permite sacar
conclusiones aplicables a una población
más amplia que la muestra estudiada.
Estadística Descriptiva:
Su empleo permite resumir o caracterizar
los elementos esenciales de un universo
mediante el cálculo de determinadas
medidas:
VARIABLES
Cualitativas, emplean
tasas, razones,
proporciones
porcentajes
Cuantitativas, emplean
medidas de tendencia
central, variabilidad y
posición relativa
LA ESTADÍSTICA INTERVIENE EN EL:
Plantear
hipótesis
Diseñar
experimento
Obtener
conclusiones
Recoger datos
y analizarlos

Plantear hipótesis sobre una población
 Los trabajadores que fuman más ausencia al trabajo que los no fumadores
 ¿En qué sentido? ¿Mayor número? ¿Tiempo medio?

Decidir qué datos recoger (diseño de experimentos)
– Qué individuos pertenecerán al estudio (muestras)
 Fumadores y no fumadores en edad laboral.
 Criterios de exclusión ¿Cómo se eligen? ¿Descartamos los que padecen
enfermedades crónicas?
– Qué datos recoger de los mismos (variables)
 Número de bajas
 Tiempo de duración de cada baja
 ¿Sexo? ¿Sector laboral? ¿Otros factores?

Recoger los datos (muestreo)
– ¿Estratificado? ¿Sistemáticamente?

Describir (resumir) los datos obtenidos
 tiempo medio de baja en fumadores y no (estadísticos)
 % de bajas por fumadores y sexo (frecuencias), gráficos,...

Realizar una inferencia sobre la población
 Los fumadores están de baja al menos 10 días/año más de media que los no
fumadores.
–
Cuantificar la confianza en la inferencia
– Nivel de confianza del 95%
– Significación del contraste: p=2%
ASPECTOS A TOMAR EN CUENTA
Descriptiva
Inferencial
• Formulación de las hipótesis
• Variables imprescindibles a incluir
• Control de errores y sesgos
• Seguir el diseño
• Procesar adecuadamente los datos
• Analizarlos convenientemente
El azar y la probabilidades
Azar: Agregado de factores o causas complejas,
parcialmente desconocidas.
Probabilidad: Medida con variación desde 0 hasta
1, del grado de creencia de una
hipótesis o afirmación.
Media
Media aritmética de los datos (suma de los valores
observados dividido por el tamaño muestral).
La media es como el centro de gravedad.
La MEDIA es la medida de tendencia central
más informativa, ya que tiene en cuenta el valor
de todas las observaciones, sin embargo tiene
unos INCONVENIENTES
Inconvenientes
Poco representativa cuando existen valores
extremos.
 No se debería utilizar en variables cualitativas
ordinales
 En estos casos usar la MEDIANA que da mejor
información
Mediana
Valor que divide en dos partes iguales el número de
observaciones (n). Para calcular una mediana se
ordenan las observaciones de menor a mayor:
Si n es impar, la mediana es la observación
situada en el orden (n+1)/2, es decir, el dato central.
Mediana
Como hemos dicho, la mediana es más
representativa que la media en distribuciones con
valores extremos. Las variables ordinales pueden
describirse a través de la mediana, ya que la
mediana no tiene en cuenta el valor del dato,
sino su orden.
Moda
Valor de la observación que ocurre con mayor
frecuencia. Si todos los valores son distintos,
no hay moda. También puede haber más
de una moda.
Escala Nominal
Define un atributo en el que no hay un orden de
gradación implícito.
Ejemplo: Estado civil
Ciudad de nacimiento
•Atributos diferentes entre sí
•Los atributos son nombres
•A los nombres le podemos asignar número
Escala Nominal
Estado civil:Casado, Soltero, Viudo, Divorciado
1•
Casado,
3•
Viudo,
2•
Soltero,
4•
Divorciado
Escala Binaria
Caso especial de la escala ordinal en que el
atributo puede tomar solo dos valores.
Ejemplo:
• Sexo
• Curado y no curados
• Fumador o no
Sexo: Masculino 1•Femenino 2•
Escala Ordinal
Cuando al rasgo estudiado se le puede asignar
una relación de orden.
Ejemplo.
• Nivel económico
• Grado de escolaridad
• Evolución de la enfermedad
Evolución de la enfermedad
Curado 1•Mejorado 2•Empeorado 3•
Variable
Toda característica medida en un estudio, se
realice su medición en números (por ejemplo
edad, altura) o en términos de categorías (por
ejemplo sexo, presencia o ausencia de una
enfermedad).
Recoger tantas variables como sean necesarias
y tan pocas como sea posible.
Tipos de variables en el
Protocolo
Ejemplo de estudio de una vacuna antigripal:
Variable principal o de respuesta: Diagnóstico
de Neumonía.
Variables de control: Hábito de fumar, enfermedad
asociada, etc.
Variables descriptoras: Sexo, edad, raza, estado
civil
Variables
Variable explicativa o variable independiente:
Describe la intervención realizada por el
investigador y se la considera la causa del
fenómeno observado.
Variable dependiente: Describe el resultado de
la intervención
Variables
Pueden expresarse en forma de:
•Número
•Proporción
•Razón
Número. Proporción. Razón.
Número: 265 pacientes con HTA
Proporción: 35 HTA renal de 265 HTA observados
35/265= 0.13
(Numerador incluido en el denominador)
Razón: Razón de mujeres /hombres que ingresan por
HTA es de 1:3. (El denominador no
contiene al numerador).
ACOPIO DE LA INFORMACIÓN
PLANEAMIENTO
Diseño Formulario
EJECUCIÓN
Trascripción y revisión
PROCESAMIENTO
Verificación confección Base
datos. Edición Validación
DISEÑO DEL FORMULARIO. PREGUNTAS
Características
Abiertas Cerradas
Establecen categorías
NO
SI
Posibilidad de expresión
personal más amplia
SI
NO
Advertencias para preguntas abiertas
Procurar que el individuo llene intuitivamente
Tipo de respuesta : Alfanumérica casillas abiertas
Ejemplos
SEXO (M mas F Fem : |__|
Se puede emplear aun en aquellos casos que se trate de
respuestas numéricas con decimales. No olvidar punto
decimal y unidad de medida
(sin decimales)
Talla : |__|__|__| cm.
(con decimales)
Peso : |__|__|__|.|__| Kg.
El Cuaderno de Recogida de Datos
Tipo de respuesta : - Una sola elección
- Múltiple elección
Formato : Casillas cerradas ( )
Una sola elección
De todas las categorías solo es posible escoger una
Ejemplos:
Sexo: Masculino 1
Femenino  2
Presencia de Eventos Adversos: Si 1
Curso para los investigadores clínicos
No  2
PREGUNTAS CERRADAS
Ejemplo:
Variable que mide el tiempo de evolución de una enfermedad
(no hay restricción en el protocolo) y tiene como respuesta:
1. - Entre 10 y 20 años 1
2. - Entre 20 y 30 años  2
Problemas:
 ¿ Qué sucede si un individuo tiene menos de 10 años o más
de 30 ?
¿ Qué sucede si un individuo tiene 20 años ?
Tipo de respuesta : - Una sola elección
- Múltiple elección
Formato : Casillas cerradas ( )
Múltiple elección
De todas las categorías es posible elegir más de una
Ejemplos
Síntomas: Dolor 1
Prurito 2
Fiebre 3
Dolor Si 1
No  2
Prurito Si 1
No  2
Fiebre Si 1
No  2
 No dejar preguntas en blanco
 Letra legible
 Respaldo del dato en la historia clínica
 Instrucciones para la corrección de datos
 Tachar el dato con una línea horizontal,
 Anotar el nuevo dato al lado,
33
 Escribir fecha de la rectificación
Edad : |3|5|
 Escribir iniciales del investigador
 No olvidar datos retrospectivos
 Verificar cada página del CRD
Curso para los investigadores clínicos
12/3/01 GJR
INSTRUCCIONES PARA:
COMPLETAMIENTO DE LOS CRDs
REVISION DE LOS CRDs
CORRECCION DE LOS CRDs
DIAGRAMA DE FLUJO
CALENDARIO DE RECOGIDA DE DATOS
Curso para los investigadores clínicos
Errores aleatorios
Realidad
Conclusión
del ensayo
a es mejor
que b
a es mejor
que b
Correcto
Error tipo II
a no es mejor Falso negat.
que b
(riesgo )
a no es mejor
que b
Error tipo I
Falso posit.
(riesgo )
Correcto
Errores aleatorios
Riesgo  (p) = Probabilidad de cometer error
de tipo 1
Riesgo  = Probabilidad de cometer error de tipo 2
1-  = probabilidad de que si a es superior a b el
estudio concluya correctamente que así es.
Este valor es el poder estadístico del ensayo e indica la probabilidad que tenemos de detectar una diferencia si esta existe en realidad.
Formulación de hipótesis
•Comparación de eficacia clínica de 2 ttos. a y b
( Toda diferencia observable entre la eficacia de
ambos tratamientos es debida simplemente al azar
o a la variabilidad biológica, ya que el efecto de
los tratamientos en estudio no difiere
sustancialmente de uno a otro.)
HO: tto a = tto b (Hipótesis Nula)
Formulación de hipótesis
Ha: tto a difiere del tto b
(Aparte de la variabilidad, los dos grupos
estudiados difieren además en otro factor o
característica, que es el efecto del tratamiento
en estudio.)
Formulación de hipótesis
Si la diferencia entre los ttos. es grande de habla
de diferencia estadísticamente significativa.
Se mide en términos de probabilidad, p.
Nivel de significación (nivel ): Determina la
evidencia que se que se aceptará en contra de HO
para rechazarla. (entre 0.01 y 0.05) p<0.05
significa que la probabilidad de que la diferencia
observada sea debida al azar es pequeña.
Sesgos
Es la presencia de ERROR SISTEMATICO
en una investigación que resulta de una
estimación incorrecta de los hechos analizados.
Es una interferencia o un factor que tiende a producir resultados o interpretaciones que se apartan
sistemáticamente de los verdaderos.
Tipos de Sesgos
Sesgo introducido por el investigador:
 Sesgo de medición (equipo de medición, cambio
de método de medición, etc)
 Sesgo de selección (Ej. en diagnóstico, en la selección, de no respuesta)
 Sesgo de publicación (Ej. Publicación de resultados positivos, sesgo de referencia)
Muestreo
Abarca los distintos procedimientos para extraer muestras de
poblaciones con el objeto de conocer sus características.
Tipos de Muestreos
Muestreo
Probabilístico o Aleatorio
No Probabilístico
Muestreo Aleatorio
Los elementos de la muestra se toman aleatoriamente de la
población y con probabilidades conocidas.
Con este tipo de muestras es que se posibilita llevar a cabo los
objetivos de la inferencia estadística.
Permite medir en términos de probabilidades el riesgo de
efectuar inferencias erróneas.
Tipos
Muestreo Simple Aleatorio: Aquel en el que cada individuo de
la poblacion tiene las mismas posibilidades de salir en la
muestra.
Muestreo Sistemático: En el que se elige un individuo al azar y
a partir de él, a intervalos constantes, se eligen los demás hasta
completar la muestra.
Muestreo estratificado: En él se divide la población en clases o
estratos y se escoge, aleatoriamente, un número de individuos de
cada estrato proporcional al número de componentes de cada
estrato.
Muestreo por conglomerados: Se eligen al azar unidades más
amplias (conglomerados) donde de clasifican los elementos de
la población.
Notaciones
Parámetros Estadísticos
Poblacional Muestrales
es
x


p
q=1-p
p̂s
q̂
Distribuciones Muestrales
Consideremos todas las muestras de tamaño N que se pueden
extraer aleatoriamente de una población. Si para cada muestra
calculamos un estadístico, se puede obtener una distribución
muestral para el mismo.
En cada distribución muestral se puede calcular la media,
desviación estándar, etc.
La desviación estándar de la distribución muestral de un
estadístico se conoce como error típico del estadístico.
Distribución la Media Muestral
(Varianza conocida)
Si una variable aleatoria X sigue una distribución N( , ) donde
 y  son conocidos entonces la media muestral de una muestra
de tamaño n, sigue una distribución N (  , n ) .
x ~ N (  ,
n)
Por consiguiente la variable aleatoria Z definida por:
x
Z
~ N (0,1)
 n
Ejemplo
La altura de los estudiantes de una población se distribuye según
una normal de media 167cm y desviación típica 3,2cm.
Si se toma una muestra de 10 estudiantes. Calculemos la
probabilidad de que la media muestral sea menor que 165 cm.
Sea X  altura en cm y x  media de las alturas de 10 estudiante s,
entonces :
3,2
x ~ N (165,
)  N (165,1.01)
10
P( x  165)  P(
x  167 165  167

)  P( z  1.97)  0.024
1.01
1.01
Distribución la Media Muestral
(Varianza desconocida)
Sea una muestra aleatoria de una variable aleatoria X, de
tamaño n, si X tiene distribución normal N( , ) entonces la
variable aleatoria T definida:
x
( x   )2
T
~ t (n  1) donde s 
n 1
s n
Distribución Muestral de la
Varianza
Si S2 es la varianza insesgada de una muestra aleatoria de
tamaño n de la variable X y esta se distribuye N(, )
entonces:
 n21

n  1S 2

2
~  2 n  1.
Distribución asintótica de la
media muestral
Las medias de las muestras de tamaño n extraídas de una
población de parámetros  y  conocidos, siguen una
distribución:
x ~ N ( ,
siempre que n  30.

n
)
Distribución Muestral de
Proporciones
Las proporciones muestrales de todas las muestras de tamaño n
extraídas de una población en la que la probabilidad de éxito de
un suceso es p, se ajustan a una normal:
pq
pˆ ~ N ( p,
)
n
siempre que n  30.
Ejemplo
Una fábrica de pasteles fabrica, en su producción habitual, un 3%
de pasteles defectuosos. Un cliente recibe un pedido de 500
pasteles de la fábrica. ¿Cuál es la probabilidad de que encuentre
más del 4% de pasteles defectuosos?
3
97
Sea A  Pastel defectuoso , entonces : p 
,q 
y n  500.
100
100
Por tanto las proporcion es muestrales siguen una distribuci ón :

3 97

3
ˆp ~ N 
, 100 100
 100
500




  N (0.03,0.076)



Ejemplo (continuación)
La probabilidad pedida es que la proporción de pasteles
defectuosos en la muestra sea mayor del 4%, es decir:
0.04  0.03 

P( pˆ  0.04)  P z 
  P( z  1.32)  0.093
0.0076 

Estimación de Parámetros
La teoría muestral se utiliza para obtener información sobre
las muestras extraídas aleatoriamente de una población.
El problema que aborda la estimación de parámetros, es
inferir información sobre una población a partir de una
muestra extraída de la misma.
Los parámetros poblacionales se estiman a partir de los
correspodientes estadísticos muestrales.
Tipo de Estimaciones
Puntuales
Estimación Insesgada: Si la media o valor esperado del
estadístico coincide con el parámetro correspondiente de la
población.
Estimación Eficiente: Si las distribuciones muestrales de
dos estadígrafos tienen la misma esperanza (o media), aquel
que tenga menor error de estimación (varianza) será el más
eficiente de ambos.
Estimaciones Insesgadas
Parámetr Estimacione
o
s

x
n

p
s
(x  x)
i 1
i
n 1
p̂
2
Estimación por Intervalos
La estimación puntual no provee información de la
incertidumbre del resultado.
La incertidumbre se produce por la dispersión de la
distribución muestral del estimador.
La incertidumbre se expresa cuantitativamente mediante un
intervalo que tenga una probabilidad especificada de
contener el valor verdadero del parámetro.
Este intervalo recibe el nombre de intervalo de confianza.
Intervalos de Probabilidad
En una variable normal cualquiera con parámetros  y 
se cumple:
1. En el intervalo ( - ;  + ) está el 68,26 % de la
población.
2. En el intervalo ( -2 ;  +2 ) está el 95.44 % de la
población.
3. En el intervalo ( -3 ;  +3 ) está el 99.74 % de la
población.
Dado un porcentaje del N%, siempre es posible encontrar un
intervalo simétrico respecto de la media de forma que dicho
intervalo contenga al N% de población.
Se denomina intervalo de probabilidad o confianza a aquel
intervalo para el cual hay una seguridad del N% de que los
parámetros muestrales se encuentren en dicho intervalo.
Denominamos nivel de confianza al número:
N
1 
100
Donde  es el nivel de significación.
Ejemplo
Si queremos que el 88 % de la población esté en el
intervalo, el nivel de confianza sería:
1 
88
 0.88
100
Nivel de Confianza
y el nivel de significac ión,
  1  0.88  0.12
Nivel de Significación
Intervalo de probabilidad para
la media de una variable
normal
Si la población sigue una distribución normal con parámetros
 desconocido y  conocida entonces si tomamos una
muestra de tamaño n sabemos que :
x
z
~ N (0,1)
 n
tenemos que z depende de  , pero no su distribuci ón.
A continuaci ón buscamos dos valores de z que cumplan :
P( z 2  z  z 2 )  1  
Para buscarz
2
P( z 2  z  z 2 )  1  

P( z  z 2 )  1 

2
y P( z  z 2 ) 

2
Se obtienen de las tablas de la
distribución normal estándar.
De la relación :


x
P( z 2  z  z 2 )  1    P  z 2 
 z 2   1  
 n


Se obtiene :
P( x  z 2 

n
   x  z 2 

n
) 1
El intervalo indicado es el intervalo de confianza con un nivel de
confianza del (1-) por ciento de la media.
Ejemplo
Supongamos que la media muestral de una muestra de 9
elementos es de 15.4 y su desviación estándar es 2.3 y queremos
calcular el intervalo de confianza del 95% para la media
poblacional:
  0.05  z 2  z0.025  1.96 entonces :
2.3
LI  15.4  1.96 
 15.4  1.51  13.89
9
2.3
LS  15.4  1.96 
 15.4  1.51  16.91
9
Por tanto, hay un 95% de probabilid ad de que la media esté en
el intervalo calculado.
Intervalo de probabilidad para
la media de una variable
normal
Sea X una variable aleatoria normal con parámetros  y 
desconocidos. Si se obtiene una muestra de tamaño n,
entonces el intervalo de confianza del (1-)% de la media
muestral es:
s
s 

, x  t 2, n 1 
 x  t 2, n 1 

n
n

donde t 2, n 1 el percentil  2 de la distribuci ón t de Student
con n  1 grados de libertad.
Ejemplo
Supongamos que la media muestral de una muestra de 9
elementos es de 15.4 y su desviación estándar muestral es 2.1 y
queremos calcular el intervalo de confianza del 95% para la
media poblacional:
  0.05  t 2, n 1  t0.025,8  2.31 entonces :
2.1
LI  15.4  2.31 
 15.4  1.62  13.78
9
2.1
LS  15.4  2.31 
 15.4  1.62  17.02
9
Intervalo de probabilidad para
la varianza de una variable
normal
Sea X una variable aleatoria normal con parámetros  y 
desconocidos. Si se obtiene una muestra de tamaño n,
entonces el intervalo de confianza del (1-)% de la varianza
muestral es:
 (n  1)  s 2 (n  1)  s 2 


, 2
2
  (n  1) 

(
n

1
)

2
1


2


donde 2 2 (n  1) y 12 2 (n  1) son los percentile s
 2 y 1 -  2 de la distribuci ón  2 (n  1).
Ejemplo
Un productor de fertilizantes, para controlar el buen embolsado
de sus productos, pesa 15 bolsas del mismo, obteniendo una
desviación típica de 0,50 kg. ¿Qué varianza puede inferirse con
un 98% de confianza que tendrá la producción total?
  0.02  2 2 (n  1)   02.01 (14)  29.1
 12 2 (n  1)   02.99 (14)  4.66 entonces :
14  0.25
LI 
 0.12
29.1
14  0.25
LS 
 0.75
4.66
Por tanto, hay un 98% de probabilid ad de que la varianza esté en
el intervalo calculado.
Intervalo de probabilidad para
p
El intervalo de confianza con nivel de confianza 1- para la
proporción poblacional desconocida p es:

pˆ  qˆ
pˆ  qˆ 
 pˆ - z 2 

; pˆ  z 2 


n
n


Nota: Para aplicar este resultado, las muestras deben ser
de tamaño n  30 . Se utiliza la distribución muestral de
las proporciones.
Ejemplo
En 40 lanzamientos de una moneda se obtuvieron 24 caras. Hallar
el intervalo de confianza del 95% para la proporción de caras que
debe obtenerse en un número ilimitado de lanzamientos de una
moneda.
  0.05  z 2  z0.025  1.96
24
pˆ 
 0.6, qˆ  0.4 entonces :
40
LI  0.6  1.96  0.6  0.4 40  0.6  0.15  0.45
LS  0.6  1.96  0.6  0.4 40  0.6  0.15  0.75
Por tanto, hay un 95% de probabilid ad de que la proporción de caras
esté en el intervalo calculado.
Conclusiones
Para hallar una estimación por intervalo de confianza de un
parámetro poblacional se siguen los siguientes pasos:
1. Fijar el coeficiente de confianza que se desea en la
estimación.
2. Calcular los estadísticos necesarios y determinar la
distribución en el muestreo que tiene el estadístico
empleado.
3. Buscar el percentil que se necesita.
4. Utilizar las fórmulas.
Conceptos Básicos
de Probabilidades
Definiciones
Experimento Aleatorio: Experimento cuyo resultado no se puede
predecir con certeza. Ejemplo: Lanzar un dado.
Espacio Muestral: El conjunto de todos los sucesos posibles.
Ejemplo: {1, 2, 3, 4, 5, 6}. Se denota con la letra griega .
Suceso Elemental: A cada elemento que forma parte del espacio
muestral. Ejemplo: Que salga 2.
Evento o suceso aleatorio: Un subconjunto del espacio muestral.
Ejemplo: Que salga un número par.
Suceso Imposible: Al que no tiene ningun elemento y lo
representaremos por . Ejemplo: Que salga un 7.
Suceso Seguro:Al formado por todos los posibles resultados.
Ejemplo: Que salga un número entre 1 y 6.
Operaciones con sucesos
Igualdad de sucesos: Dos sucesos A y B son iguales si están
compuestos por los mismos elementos. Lo expresaremos por
A = B.
Intersección de sucesos: Llamaremos suceso intersección
de los sucesos A y B, y lo representaremos por AB, al
suceso: ocurren A y B a la vez.
Unión de sucesos:Llamaremos suceso unión de los sucesos
A y B y se representa por AB al suceso: ocurre A o bien
ocurre B o bien ocurren ambos a la vez.
Suceso contrario de otro: Dado un suceso A, llamaremos
suceso contrario de A y se representa por A , al suceso que
tiene por elementos a todos aquellos que no pertenecen a A.
Ejemplo
Sea el experimento aleatorio lanzar un dado.
A= {2,4,6}, suceso aleatorio “que salga un número par”.
B={1,2,3}, suceso aleatorio “que salga un número menor o
igual que 4”.
Entonces:
AB={2,4}.
A  {1,3,5}.
AB={1,2,3,4,6}.
B  {4,5,6}.
Definición clásica de
Probabilidad
Si realizamos un experimento aleatorio en el que hay n sucesos
elementales, todos igualmente probables, entonces si A es un
suceso, la probabilidad de que ocurra el suceso A es:
número de casos favorables al suceso A
P( A) 
número de casos posibles
Ejemplo
Si lanzamos un dado normal al aire y consideramos el suceso
A = “sale par”, la probabilidad de ocurrencia de A
calcularía:
Casos posibles hay 6, pues ={1, 2, 3, 4, 5, 6}.
Casos favorables al suceso A son 3 pues A={2, 4, 6}.
Por tanto:
3 1
P( A)    0.5
6 2
se
Limitaciones
El inconveniente que plantea la definición de anterior es que
necesariamente los sucesos elementales tienen que tener la
misma probabilidad de ocurrir.
Además, se define el término probabilidad en términos de
igualmente probables.
Definición Axiomática
Sea  un espacio muestral y A un evento cualquiera de . Se
define como probabilidad P a una función definida sobre los
subconjuntos de  que cumple los siguientes axiomas:
1. 0  P( A)  1, A  .
2. P()  1.
3. Si A1 ,, An son mutuamente excluyente s, P( Ai  A j )  0
n
n
i 1
i 1
entonces P( Ai )   P( Ai ), Ai  .
Propiedades
1. P( A )  1  P( A), A  .
2. P(  )  0.
3. Si A y B son dos sucesos entonces :
P( A  B)  P( A)  P( B)  P( A  B).
Probabilidad Condicional
Sean A, B dos sucesos tales que P(B) > 0.
La probabilidad de A condicionada a la ocurrencia de B, se define
como:
P( A  B)
P( A / B) 
P( B)
Regla de multiplicación :
P(AB)= P(A / B)P(A)=P(B / A)P(A).
Sucesos Independientes
El suceso A es independiente de B, si la P(A) no depende de
la aparición de B, es decir:
P( A / B)  P( A)
Propiedades:
Si A y B son independientes y P(A)>0, P(B)>0 entonces:
1.
P(A  B) = P(A)P(B).
2. P(A B) = P(A) + P(B) - P(A)P(B).
Ejemplo
Un grupo de estudiantes consta de 60 muchachas y 40 muchachos,
de ellos 40 de ellos (24 muchachas y 16 muchachos) usan
espejuelos. Si se elije al azar un estudiante, ¿cuál es la
probabilidad de usar espejuelos y cuál es la probabilidad de usar
espejuelos dado que salió un muchacho?
A= Usar espejuelos, B= Ser un muchacho y A  B= Ser un
muchacho y usar espejuelos.
40
P( A) 
 0.4
100
P( A  B) 16 100
P( A / B) 

 0.4
P( B)
40 100
Usar espejuelos no depende de que el sexo sea masculino; estos
dos sucesos son independientes.
Ley de la Probabillidad Total
Sea  un espacio muestral, A1, …, An subconjuntos de  que
cumplen las siguientes propiedades:
1. P( Ai )  0, i  1,..., n.
2. Ai  A j   , i  j.
n
3.
 A  .
i
i 1
entonces
n
P( A)   P( Ai )P( A / Ai )
i 1
Ejemplo
En un colegio se imparten solo los idiomas inglés y francés. El
80% de los alumnos estudian inglés y el resto francés. El 30% de
los alumnos de ingles son socios del club musical del colegio y de
los que estudian francés son socios de dicho club el 40 %. Se elige
un alumno al azar. Calcular la probabilidad de que pertenezca al
club musical.
Sean :
A1  " estudiar inglés ", A2  " estudiar francés " y
B  " pertenecer al club "
tenemos que calcular P( B). Usando el teorema anterior :
P( B)  P( A1 )  P( B / A1 )  P( A2 )  P( B / A1 )

80 30
20 40
8




 0.32
100 100 100 100 25
Teorema de Bayes
Tomando en cuenta las condiciones anteriores se cumple que:
P Ak / A 
P( Ak ) P( A / Ak )
n
 P( A ) P( A / A )
i 1
i
i
Si las cosas que pueden ocurrir las tenemos clasificadas en los
sucesos Ai de los cuales conocemos sus probabilidades P(Ai), y
se observa un suceso A, la fórmula de Bayes nos da las
probabilidades de los sucesos Ai , ajustadas o modificadas por A.
Variables Aleatorias
Variables que pueden tomar diferentes valores y el valor
tomado es totalmente al azar.
Tipos
Discretas: Solo toman valores enteros y un número finito de
ellos.
Continuas: Pueden tomar tanto valores enteros como
fraccionarios y un número infinito de ellos.
Función de Probabilidad
Es la ley que asocia a cada valor de la variable aleatoria X
su probabilidad.
Se define P( x)  P( X  x)
Función de Distribución
Es la ley que asocia a cada valor de la variable aleatoria X,
la probabilidad acumulada de este valor .
Se define: F ( x)  P( X  x)
Propiedades:
1. 0  F ( x)  1.
2. F ( x) es una función creciente de x.
Función de probabilidad
discreta
Características:
1. Es generada por una variable aleatoria discreta.
2. p( xi )  0.
3.
 p( x )  1.
i
Función de Distribución Discreta
Siendo X una variable aleatoria discreta, se define:
k
k
i 0
i 0
F ( xk )  P( X  xk )   P( X  xi )   p( xi )
Propiedad:
b
P(a  X  b)   P( X  xk )
k a
Ejemplo
En una bolsa hay bolas numeradas : 9 bolas con un 1 , 5 con un 2 y
6 con un 3 . Sacamos una bola y vemos que número tienen.
xi
Pi
1
9/20
2
5/20
3
6/20
xi
Fi
1
9/20
2
14/20
3
20/20
Función de Probabilidad
Función de Distribución
Otras características
Media de una variable aleatoria discreta:
  E( x)   xi  P( xi )
Varianza de una variable aleatoria discreta:
 2   ( xi   )2  P( xi )
Distribución Continua
Función de densidad f(x): cuando en un histograma de
frecuencias relativas de una variable continua aumentamos el nº de
clases, vemos que el polígono de frecuencias relativas se acerca a
una función f(x) que llamaremos función de densidad y cumple las
siguientes propiedades :
f x   0

 f x  dx  1 área encerrada bajo la curva de la función.

b
 f x  dx  P(a  x  b)
a
área bajo la curva correspond iente al intervalo.
Función de Distribución Continua
Definición:
x
F ( x)  P(  X  x) 
 f ( y)dy

b
P(a  X  b)   f ( x)dx  F (b)  F (a )
a
Propiedades:
1. F ()  0 y F ()  1.
2. 0  F ( x)  1 x.
3. F es una función creciente.
Otras características
Media de una variable aleatoria continua:

   x  f ( x)dx

Varianza de una variable aleatoria continua:

 2   ( x   ) 2  f ( x)dx

Análisis de Varianza
Propósito
Esta técnica permite la comparación de la media de varios
grupos de una variable cuantitativa. Se trata de una
generalización de la t de Student para dos muestras
independientes.
En general, se tendrá una variable nominal (independiente)
que formará los grupos a comparar y una cuantitativa continua
(dependiente) cuyo valor medio se comparará en los grupos.
Estrategia de Solución
Una forma de comparar las medias en cada grupo es comparar
la variación de la media entre los grupos con la variación de
las unidades dentro de los grupos.
¿Es la variación de la media entre los grupos mayor que la
variabilidad detro de los grupos?
Fuentes de Variación
1. La mayor parte de la variación es debida a las variaciones
inherente que existe entre los individuos
2. Parte de la variación es del efecto de los tratamientos.
Los pacientes que
reciben el mismo
tratamiento
Los que reciben
diferentes
tratamientos
Generan
Variaciones dentro
del grupo
Variaciones entre los
grupos
Midiendo la Variación
Variación dentro
de los grupos
La variación
entre grupos
=
Variación de
los sujetos
(azar)
=
Variación de
los sujetos
(azar)
+
Variación por el
efecto de los
tratamientos
Supuestos del modelo
Independencia: Cada conjunto de datos son muestras
aleatorias de poblaciones por tanto todas las variables y las
observaciones son independientes entre sí.
Normalidad: Cada una de las poblaciones de las cuales
provienen las muestras deben estar normalmente distribuidas.
Homocedasticidad: La varianza de las poblaciones de donde
proceden las muestras deben ser homogéneas, iguales.
Notaciones
Estudiamos k grupos clasificados de acuerdo a los niveles 1,2...
k del factor. En cada nivel tenemos n1, n2, ... nk observaciones
independientes y obtenidas de forma aleatoria. Si designamos de
forma general cada observación como yij, el subíndice i indica el
grupo al que pertenece, j es el número de la observación dentro
de ese grupo.
Si juntamos todas las observaciones N=n1+n2+...+nk,
calculamos la media global que vamos a denominar y .
También podemos calcular la media dentro de cada uno de los k
grupos. La media para el grupo i la designamos como y i .
Estructura de los datos
1
2
Y11
Y21
Y12
Y22


…
k
…
Yk1
…
Yk 2
…
Categorías
Observaciones

Y1n1 Yn2 2
… Y
kn k
Y1.
Y2.
…
Yk .
Total
Y1.
Y2.
…
Yk .
Media
Plantamiento de las hipótesis
H 0 : 1   2     k
H1 :  i   j
(No todas las i son iguales.)
Estimadores
El ANOVA se define como un proceso mediante el cual la
variación total se descompone en componentes atribuibles a
diferentes fuentes
Suma de cuadrado total :
k
k
ni
SCtotal   ( yij  y.. ) 2 donde y.. 
i 1 j 1
k
ni
2
k
ni
y
i 1
k
SCtotal   ( yij  yi. )   ( yi.  y.. )
i 1 j 1
Suma de Cuadrado
dentro del grupo
i.
2
i 1 j 1
Suma de Cuadrado
entre los grupos
Suma de cuadrado dentro de grupo: Es la desviación al
cuadrado de cada observación del grupo con relación a su
media. También se conoce con el nombre de cuadrado
residual o error.
Suma de cuadrado entre grupos: Es la suma de las
desviaciones al cuadrado de la media particular de cada
grupo con respecto a la media total.
Suma de
cuadrado total
=
Suma de
+
cuadrado dentro
Suma de
cuadrado entre
Para estimar las varianzas, es necesarios dividir los términos
entre sus grados de libertad, dando como resultado el
cuadrado medio.
k
SCtotal

N 1
ni
 ( y
i 1 j 1
ij
2
k
 yi. )
N k

ni
 ( y
i 1 j 1
i.
2
 y.. )
k 1
Cuadrado
Medio Total
Cuadrado
Medio Entre
Cuadrado
Medio Entre
CMtotal
CMentre
CMentre
Test Estadístico
Bajo H0 , el cuadrado medio entre y dentro deben ser
prácticamente iguales.
Si hubiese efecto de algún tratamiento, el cuadrado medio
entre grupos sería mayor que el cuadrado medio dentro.
Se construye entonces el estadístico:
CMentre
F

CMdentro
1, bajo la hipótesis nula
>1, si difieren las medias
Distribución del test
El estadígrafo de prueba es una razón de varianzas y, bajo
la hipótesis nula sigue una distribución F de Fisher.
CMentre
F
~ F (k  1, N  k )
CMdentro
G.L de CMentre
G.L de CMdentro
La regla de desición en este caso es:
Rechazar H0 si la F calculada > F tabulada.
Tabla ANOVA
Fuente
Suma de
de
Cuadrados
Variación
Entre
Grupos
k
ni
 ( y
ij
i 1 j 1
GL
2
 yi. )
k-1
SCE
k 1
N-k
SCD
N k
N-1
SCT
N 1
N k
Dentro
de
Grupos
Total
k
ni
 ( y
i.
i 1 j 1
2
 y.. )
k 1
k
ni
 ( y
i 1 j 1
ij
Cuadrado Razón de
Medio
Varianza
s
2
 y.. )
N 1
CME
CMD
Ejemplo
En un experimento para comparar los efectos de tres tratamientos
alimentarios en niños menores de un año, un grupo de 10 niños se
alimentó con leche materna (LM), otro con fórmula basal (FB) y
el siguiente con fórmula de leche con nucleótidos suplementarios
(FNS). Después de 4 semanas se midieron los niveles de unidad
de lipoproteínas en mg/dl. Los resultados fueron los siguientes:
LM
56
63
45
41
71
60
78
50
68
62
FB
40
48
60
38
28
44
66
22
45
54
FNS
71
57
64
44
73
50
79
67
84
61
Tabla ANOVA
Fuente
Suma de
de
Cuadrados
Variación
Entre
2245.4
Grupos
GL
2
Cuadrado Razón de
Medio
Varianza
s
1122.7
Dentro
de
Grupos
Total
4274.9
27
158.330
6520.4
29
224.84
7.091
Regla de Decisión
Fijando un nivel de significac ión del 5%, tenemos que :
Fcalculada  7.091  3.35  F (2,27)
Por tanto, se rechaza la hipótesis de igualdad de medias.
Conclusiones
Lo que nos permite concluir de que existe diferencias entre
los niveles de lipoproteínas que generan los tres regímenes
alimentarios comparados.
Gran parte de la variación total observada en los datos puede
ser atribuida al efecto de los tratamientos con un nivel de
confiabilidad del 95%.