Download Estadística social fundamental

Document related concepts

Parámetro estadístico wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Distribución de Gumbel wikipedia , lookup

Distribución normal wikipedia , lookup

Error estándar wikipedia , lookup

Transcript
SECCIÓN 6
Comenzamos: 11: 10 am
Descanso:
Mitad de Clase (Preguntas)
Terminamos : 12: 50 am
SECCIÓN 7
Comenzamos: 16: 10
Descanso:
Mitad de Clase (Preguntas)
Terminamos : 17: 50
¿PREGUNTAS?
• Tomemos lista de asistencia
• Para los nuevos: La página del curso es:
http://estadisticasocialf.wordpress.com/
• Espero que hayan leído el libro de Darrell Huff
• Lecturas de fundamento matemático y muestra aleatoria (FEM Fotocopiadora)
• RECORDEMOS: Parcial el 12 de septiembre.
• Horario de atención definitivo: Miércoles 12:30 -14:00, Cafetería
de FEM.
• Preparar unos datos para desviación estándar…
ADMINISTRATIVO - MONITORES
En este semestre tendremos al menos ocho horas de monitorias para las
asignaturas:
Probabilidad y Estadística Fundamental
Bioestadística Fundamental
Estadística Social Fundamental
Los encargados y los horarios de las monitorias son:
Martes y jueves de 11:00-13:00. Salón 404-206. Luisa Fernanda Parra
Arboleda
Miércoles y Viernes de 14:00-16:00. Salón 404-206. Luis Guillermo Leal Ayala
Curva de
distribución de
frecuencias
Rango
Desviación
estándar
Varianza
Estandarización
Distribución normal
Distribución sesgada
Tasas
Datos atípicos
Algo de realidad
Definición: La muestra no representa la población de estudio. Se tiene que
tener en cuenta que es un error sistemático. Su presencia provoca falta de
validez | exactitud.
Nosotros ya habíamos definido la consecuencia: ERROR DE MUESTREO.
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 118
Curva de distribución de frecuencias: Es sustituto de un histograma o
polígono de frecuencias donde reemplazamos estos gráficos con una
curva suavizada. El área bajo la curva representa el numero total de
sujetos en la población y es igual a una proporción de 1.00 a un
porcentaje de 100 por ciento.
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 118
Curva de distribución de frecuencias: Es sustituto de un histograma o
polígono de frecuencias donde reemplazamos estos gráficos con una
curva suavizada. El área bajo la curva representa el numero total de
sujetos en la población y es igual a una proporción de 1.00 a un
porcentaje de 100 por ciento.
¿CURVA SUAVIZADA?
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 118
Curva de distribución de frecuencias: Es sustituto de un histograma o
polígono de frecuencias donde reemplazamos estos gráficos con una
curva suavizada. El área bajo la curva representa el numero total de
sujetos en la población y es igual a una proporción de 1.00 a un
porcentaje de 100 por ciento. ¿Qué nos quieren decir?
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 118
Curva de distribución de frecuencias: Es sustituto de un histograma o
polígono de frecuencias donde reemplazamos estos gráficos con una
curva suavizada. El área bajo la curva representa el numero total de
sujetos en la población y es igual a una proporción de 1.00 a un
porcentaje de 100 por ciento.
Simplemente observamos que el área bajo de la curva es algo que se
puede particionar muy intuitivamente por medio de los cuantiles, lo que
nos permite identificar las diferentes partes de la muestra.
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 118-119
Distribución normal: Curva de distribución de frecuencias donde la media,
la mediana y la moda de una variable son iguales entre sí y la
distribución de las puntuaciones tiene forma de campana.
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 118-119
Distribución normal: Curva de distribución de frecuencias donde la media,
la mediana y la moda de una variable son iguales entre sí y la
distribución de las puntuaciones tiene forma de campana.
NOMBRES: Campana de Gauss
Segunda ley de Laplace
Distribución normal bivariante
¿Por qué le llamamos “normal”?
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 118-119
Distribución normal: Curva de distribución de frecuencias donde la media,
la mediana y la moda de una variable son iguales entre sí y la
distribución de las puntuaciones tiene forma de campana.
HISTORIA: Moivre : The doctrine of Chances
Gauss : Theoria motus corporum coelestium in sectionibus
conicis solem ambientium
Laplace: Central limit theorem
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 118-119
Distribución normal: Curva de distribución de frecuencias donde la media,
la mediana y la moda de una variable son iguales entre sí y la
distribución de las puntuaciones tiene forma de campana.
EJEMPLOS: La muerte de los humanos en un cierto país.
El tiempo medio en realizar una misma tarea por parte de los
empleados.
El tiempo en el que los estudiantes llegan al salón.(Ustedes)
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 118-119
Distribución normal: Curva de distribución de frecuencias donde la media,
la mediana y la moda de una variable son iguales entre sí y la
distribución de las puntuaciones tiene forma de campana.
FORMULA MATEMÁTICA:
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 119-120
Distribución sesgada: ???
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 119-120
Distribución sesgada: Curva de distribución de frecuencias en la cual la
media, la mediana y la moda de una variable son desiguales y algunos
de los sujetos tienen puntuaciones sumamente altas o bajas.
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 119-120
Distribución sesgada: Curva de distribución de frecuencias en la cual la
media, la mediana y la moda de una variable son desiguales y algunos
de los sujetos tienen puntuaciones sumamente altas o bajas.
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 119-120
Distribución sesgada: Curva de distribución de frecuencias en la cual la
media, la mediana y la moda de una variable son desiguales y algunos
de los sujetos tienen puntuaciones sumamente altas o bajas.
Sesgo a la derecha (Positivo)
Sesgo a la izquierda (Negativa)
Tiene puntuaciones extremas en el
extremo positivo de la distribución.
Tiene puntuaciones extremas en el
extremo negativo de la distribución.
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 119-120
Distribución sesgada: Curva de distribución de frecuencias en la cual la
media, la mediana y la moda de una variable son desiguales y algunos
de los sujetos tienen puntuaciones sumamente altas o bajas.
Sesgo a la derecha (Positivo)
Sesgo a la izquierda (Negativa)
Tiene puntuaciones extremas en el
extremo positivo de la distribución.
Tiene puntuaciones extremas en el
extremo negativo de la distribución.
¿Consecuencias?
¿Consecuencias?
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 119-120
Distribución sesgada: Curva de distribución de frecuencias en la cual la
media, la mediana y la moda de una variable son desiguales y algunos
de los sujetos tienen puntuaciones sumamente altas o bajas.
Sesgo a la derecha (Positivo)
Sesgo a la izquierda (Negativa)
Tiene puntuaciones extremas en el
extremo positivo de la distribución.
Tiene puntuaciones extremas en el
extremo negativo de la distribución.
¿Consecuencias?
¿Consecuencias?
La media es más alta que la moda y La media es más baja que la moda
la mediana
y la mediana
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 119-120
Puntuación de CI
.
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 119-120
Calificaciones de examen de
estudiantes de último año.
i.e. La mayoría de los estudiantes
de último año obtiene altas
puntuaciones, pero pocos se quedan
en la dirección negativa.
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 119-120
El ingreso familiar en Estados
Unidos
i.e. La mayoría de las familias
ganan bastante dinero, pero pocas
son sumamente ricas.
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 119-120
Número de celulares por persona.
La media es uno generalmente.
Estatura entre los miembros de una
sola familia con vinculo sanguíneo.
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 119-120
Puntuaciones en una escala de
depresión.
Promedio de los estudiantes en el
colegio.
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 119-120
EJEMPLOS…
Taller 1…
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 119-120
Distribución bimodal de pesos de
hombres y mujeres de la misma
edad.
Distribución bimodal de las edades
de las personas que entran al
doctorado.
TALLER 1…
Encontrar una distribución
trimodal.
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 137
Estadístico o parámetro de dispersión: Son estadísticos (parámetros) que
describen cómo se dispersan las puntuaciones de una variable de
intervalo/razón a lo largo de su distribución.
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 137
Estadístico o parámetro de dispersión: Son estadísticos (parámetros) que
describen cómo se dispersan las puntuaciones de una variable de
intervalo/razón a lo largo de su distribución.
Dispersión: Forma en que se dispersan las puntuaciones de una variable de
intervalo0razoón de menor a myoar y la forma de la distribución entre éstas.
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales. Segunda
Edición. Página 137
Estadístico o parámetro de dispersión: Son estadísticos (parámetros) que
describen cómo se dispersan las puntuaciones de una variable de
intervalo/razón a lo largo de su distribución.
Dispersión: Forma en que se dispersan las puntuaciones de una variable de
intervalo0razoón de menor a myoar y la forma de la distribución entre éstas.
Simétrica
Leptocúritca
Mono modal
Asimétrica
Mesocúritca
Bimodal
Platicúrtica
Trimodal
BIBLIOGRAFÍA: EL LIBRO COMPLICA ESTOS TERMINOS…NO REMITIRSE AL LIBRO.
Rango (Estadística): Diferencia entre el valor mínimo y el valor máximo.
Intervalo de la muestra: Intervalo cerrado o abierto que muestra en que
valores se encuentra la muestra o población.
BIBLIOGRAFÍA: EL LIBRO COMPLICA ESTOS TERMINOS…NO REMITIRSE AL LIBRO.
Rango (Estadística): Diferencia entre el valor mínimo y el valor máximo.
Intervalo de la muestra: Intervalo cerrado o abierto que muestra en que
valores se encuentra la muestra o población.
¿DIFERENCIA ENTRE INTERVALO CERRADO O ABIERTO?
BIBLIOGRAFÍA: EL LIBRO COMPLICA ESTOS TERMINOS…NO REMITIRSE AL LIBRO.
Rango (Estadística): Diferencia entre el valor mínimo y el valor máximo.
Intervalo de la muestra: Intervalo cerrado o abierto que muestra en que
valores se encuentra la muestra o población.
Calculemos el rango e intervalo
1. Ordenar los datos de la distribución de menor a mayor.
2. Identificar las puntuaciones mínima y máxima. (Intervalo de la muestra)
3. Identificar el valor de la unidad de redondeo
4. Rango= (dato máximo – dato mínimo) + valor de redondeo.
BIBLIOGRAFÍA: EL LIBRO COMPLICA ESTOS TERMINOS…NO REMITIRSE AL LIBRO.
Rango (Estadística): Diferencia entre el valor mínimo y el valor máximo.
Intervalo de la muestra: Intervalo cerrado o abierto que muestra en que
valores se encuentra la muestra o población.
ESTATURA DE LAS PERSONAS
1.75
1.84
1.62
1.68
1.75
1.74
1.78
1.65
1.64
1.73
BIBLIOGRAFÍA: EL LIBRO COMPLICA ESTOS TERMINOS…NO REMITIRSE AL LIBRO.
Rango (Estadística): Diferencia entre el valor mínimo y el valor máximo.
Intervalo de la muestra: Intervalo cerrado o abierto que muestra en que
valores se encuentra la muestra o población.
ESTATURA DE LAS PERSONAS
1.75
1.84
1.62
1.68
1.75
1.74
1.78
1.65
Dato máximo: 1.84 ; Dato mínimo: 1.62 ; Unidad de redondeo: 0.005
1.64
1.73
BIBLIOGRAFÍA: EL LIBRO COMPLICA ESTOS TERMINOS…NO REMITIRSE AL LIBRO.
Rango (Estadística): Diferencia entre el valor mínimo y el valor máximo.
Intervalo de la muestra: Intervalo cerrado o abierto que muestra en que
valores se encuentra la muestra o población.
ESTATURA DE LAS PERSONAS
1.75
1.84
1.62
1.68
1.75
1.74
1.78
1.65
1.64
Dato máximo: 1.84 ; Dato mínimo: 1.62 ; Unidad de redondeo: 0.005
OJO: Las unidades de redondeo tienen generalmente dos lados.
1.73
BIBLIOGRAFÍA: EL LIBRO COMPLICA ESTOS TERMINOS…NO REMITIRSE AL LIBRO.
Rango (Estadística): Diferencia entre el valor mínimo y el valor máximo.
Intervalo de la muestra: Intervalo cerrado o abierto que muestra en que
valores se encuentra la muestra o población.
ESTATURA DE LAS PERSONAS
1.75
1.84
1.62
1.68
1.75
1.74
1.78
1.65
1.64
1.73
Dato máximo: 1.84 ; Dato mínimo: 1.62 ; Unidad de redondeo: 0.01 (0.005 c/u lado)
Intervalo : Cerrado [1.62, 1.84]
; Rango: (1.84 – 1.62) + 0.01 = 0.23
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales.
Segunda Edición. Página 140-148
Puntuación de desviación: Indica cuánto es que una puntuación individial
difiere o «se desvía» de la media
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales.
Segunda Edición. Página 140-148
Puntuación de desviación: Indica cuánto es que una puntuación individual
difiere o «se desvía» de la media.
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales.
Segunda Edición. Página 140-148
Varianza: Es la variación promedio de las puntuaciones en una distribución.
Básicamente esto nos ayuda a mirar si es leptocúritca, mesocúritca o
platicúrtica.
Desviación estándar: Describe la forma en que las puntuaciones de una
variable de intervalo/razón se dispersan por la distribución en relación
con la puntuación media. Es la raíz cuadrada de la varianza.
NOTA: Entre más grande sea el valor de estos términos, la muestra o
población esta más dispersa.
COMO CALCULAR (VARIANZA):
POBLACIONAL
𝑛
𝑖=1(𝑥𝑖
𝜎=
− 𝑥)2
𝑛
MUESTRAL
𝜎=
𝑛
𝑖=1(𝑥𝑖
− 𝑥)2
𝑛−1
COMO CALCULAR (desviación estandar):
POBLACIONAL
𝑆=
𝑛
𝑖=1(𝑥𝑖
𝑛
− 𝑥)2
MUESTRAL
𝑆=
𝑛
𝑖=1(𝑥𝑖
− 𝑥)2
𝑛−1
Desviación mayor que
la media, ¿Sesgo?
Valores extremos
afectan la media
Distribución sesgada
1. Sesgo de selección
2. Curva de distribución
3. Distribución normal
4. Distribución sesgada
5. Rango
6. Desviación estándar y
varianza.
Preparar datos de
estandarización…
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales.
Segunda Edición. Página 148-149
Datos estandarizados: Nos permite mirar a cuantas desviaciones estándar
se encuentra un dato de la media del grupo.
Calcule de una puntuación estandarizada
𝑥−𝑥
𝑍𝑥 =
𝑆𝑥
𝑍𝑥 = Número de desviaciones estándar que se desvia de la media.
𝑥 = Una variable de intervalo/razon
𝑥 = La media de x
𝑆𝑥 = La desviación estándar de X
BIBLIOGRAFÍA: Ritchey, Ferris J. Estadística para las ciencias sociales.
Segunda Edición. Página 148-149
Nota: Si podemos asumir que los datos se comportan normal tenemos
resultados interesantes. Ley de los grandes números
PROBLEMA: Ellickson y cols. (2003) examinaron la conducta de fumar en
adolescentes y la subsiguiente conducta después de fumar.
Supongamos que los siguientes datos don de una muestra de
fumadores de 16 a 20 años de edad.
𝑌 = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑖𝑔𝑎𝑟𝑟𝑖𝑙𝑙𝑜𝑠 𝑓𝑢𝑚𝑎𝑑𝑜𝑠 𝑝𝑜𝑟 𝑑í𝑎.
𝑌 = 15 𝑐𝑖𝑔𝑎𝑟𝑟𝑖𝑙𝑙𝑜𝑠 ; 𝑆𝑦 = 5 𝑐𝑖𝑔𝑎𝑟𝑟𝑖𝑙𝑙𝑜𝑠
¿Quién destaca como fumador?
TABLERO
Bob= 17 ; Spencer=30 ; Sonya=4 ; Chuck=20
Generalmente
nunca sabemos
muchos sobre lo
que estudiar
Pero podemos
utilizar sus mismo
datos para saber
que es «normal»
para ellos y que no
lo es.
Objetivos neutralizados
(muertes)
Número de enfermedades
(AIDS)
Estatura de personas
(Islas del pacífico)
Salario (África)
COMPUTADOR
CONCLUSIONES
1.
2.
3.
4.
5.
6.
Colombia tiene un dato estandarizado de 0.7 desviaciones.
Tiene mayor población que el 50% de los paises del mundo.
Puede que tenga mayor ejercito que el 50% del mundo.
Tal vez tenga más presupuesto que el resto del mundo?
Tal vez posea más recursos naturales que el 50% del mundo?
Etc…
Tasa: Razón o proporción en la que se define un tiempo de ocurrencia.
Tasa: Razón o proporción en la que se define un tiempo de ocurrencia.
No de nacidos vivos periodo
Número de nacidos en Colombia en el año 2013
Tasa de natalidad bruta para el año 2013
Tasa: Razón o proporción en la que se define un tiempo de ocurrencia.
No de nacidos vivos periodo
Número de nacidos en Colombia en el año 2013
Tasa de natalidad bruta para el año 2013
Mujeres entre 15 y 50 años en el periodo
Número de mujeres con posibilidad de dar a luz en Colombia en el año
2013
Tasa de fertilidad bruta para el año 2013
Datos atípicos: es una observación que es numéricamente distante
del resto de los datos. Generalmente uno la clasifica cuando
esta a 3 desviaciones típicas de la media.
Datos atípicos: es una observación que es numéricamente distante
del resto de los datos. Generalmente uno la clasifica cuando
esta a 3 desviaciones típicas de la media.
Rango intercuartílico: es una medida de variabilidad de la mediana.
Se define como la diferencia entre el tercer cuartil (𝑄3 ) y el
primer cuartil (𝑄1 ) .
𝑅𝑄 = 𝑄3 − 𝑄1
Datos atípicos:
Un valor atípico leve será aquel que:
< 𝑄1 − 1.5 ∗ 𝑄𝑅
Ó
> 𝑄3 + 1.5 ∗ 𝑄𝑅
Un valor atípico extremo será aquel que:
< 𝑄1 − 3 ∗ 𝑄𝑅
Ó
> 𝑄3 + 3 ∗ 𝑄𝑅
Muestra aleatoria
Se encuentra valores
atípicos
Con el método se
eliminan los datos
Se crean nuevos
estadísticos
Se encuentran valores
atípicos
28
24
26
27
26
26
25
26
24
29
26
25
23
26
26
26
23
26
24
26
25
32
24
26
25
24
25
23
27
26
24
25
25
21
23
26
25
24
26
27
25
24
25
27
28
24
28
26
26
26
24
26
23
23
22
25
26
25
26
26
24
26
26
25
27
26
27
24
26
24
TALLER 1 , 2
Realizar el proceso de datos atípicos para los siguientes problemas:
*Habitantes por departamento (A-M) Apellidos
*Habitantes para los diferentes países del mundo (N-Z) Apellidos
PRÓXIMA CLASE (SEMANA)
Temas
Gráficas y tablas de dos variables
Correlación
Mapas factoriales
Lecturas
(Fotocopiadora-FEM) Runyon, Richard. Haber, Audrey.
Fundamentals of behavioral Statistics. Capitulo 8
(117-130)
(Opcional)Ritchey, Ferris. Estadística para las ciencias
sociales. Capitulo 509-522