Download UNIVERSIDAD SALESIANA DE BOLIVIA
Document related concepts
no text concepts found
Transcript
UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 1 UNIVERSIDAD SALESIANA DE BOLIVIA CONTADURÍA PÚBLICA Y SISTEMAS DOSSIER GESTIÓN II – 2016 ESTADISTICA I QUINTO SEMESTRE PARALELOS: 5A1 5C1 Lic. Jorge Troche Luna ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna 2 ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 3 NDICE EL PAPEL DE LA ESTADISTICA REPRESENTACIONES GRAFICAS MEDIDAS DE POSICION MEDIDAS DE DISPERSION ANALISIS BIVARIANTES PROBABILIDADES ANALISIS COMBINATORIO Y PERMUTACIONES BIBLIOGRAFIA Estadística descriptiva “ Luis Zapata”. Estadística “Murray/ Spiegel Serie Shawn” Estadística – Tópicos de estadística descriptiva y probabilidades “Maximo Mitak” Estadística descriptiva “Chungara”. Estadística descriptiva “Rufino Molla”. Probabilidades de “Paul Meyer”. Probabilidades de “Rufino Moya”. Estadística y Probabilidades serie Schaum ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 4 EL PAPEL DE LA ESTADISTICA Estadística.Es una ciencia parte de la matemática teórica aplicada que permite el manejo de información con el objetivo de describir y tomar decisiones. Se divide en dos grandes áreas: a) Estadística Descriptiva b) Estadística Inferencial a) Estadística Descriptiva.- La estadística descriptiva proporciona un conjunto de técnicas y métodos para la recolección, organización, resumen, análisis e interpretación de los datos con el objetivo principal de describir a una población o un conjunto de datos, por medio de cuadro, tablas e indicadores. b) Estadística Inferencial.- La estadística proporciona un conjunto de métodos y técnicas teóricas basadas en la estadística descriptiva y las probabilidades para inferir, estimar, proyectar, pronosticar con el objetivo principal de la toma de decisiones. Población.- es un conjunto de personas, animales, objetos u observaciones que tienen al menos una característica en común y debe estar bien definida en tiempo y espacio. Ejemplo: Censo.- Es el recuento de todos los elementos de la población. Parámetro (θ).- Es una medida obtenida con todos los elementos de la población. Muestra ( ).- Es un subconjunto de la población que debe ser representativa, es decir debe tener un tamaño adecuado y debe ser obtenido mediante técnicas de muestreo puesto que la representatividad que debe tener de garantizar las características y estructuras de la población. GRAFICA: ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 5 Tipos de muestreo.- Existen varias técnicas de muestreo como ser el muestreo aleatorio simple, el muestreo por conglomerado, el muestreo estratificado, el muestreo sistemático, entre los principales muestreos probabilísticos y los muestreos por cuotas o conveniencia entre los muestreos no probabilísticos Los muestreos probabilísticos se caracterizan por ser obtenidos mediante métodos aleatorios. Muestreo aleatorio simple: El procedimiento empleado es el siguiente: 1. Se asigna un número a cada individuo de la población 2. A través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que estamos manejando es muy grande. Ejemplo: formar el equipo de fútbol de la universidad seleccionando 11 boletas de una urna con el nombre de todos los alumnos de la universidad. Muestreo aleatorio sistemático: ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 6 Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número elegido al azar, y los elementos que integran la muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n−1)k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra: k= N/n. El número i que empleamos como punto de partida será un número al azar entre 1 y k Muestreo aleatorio estratificado: Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc.). Muestreo aleatorio por conglomerados: Los métodos presentados hasta ahora están pensados para seleccionar directamente los elementos de la población, es decir, que las unidades muéstrales son los elementos de la población. En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias, los departamentos universitarios, una caja de determinado producto, etc., son conglomerados naturales. Muestreo por cuotas: También denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buen conocimiento de los estratos de la población y/o de los individuos más "representativos" "adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél. ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 7 En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de individuos que reúnen unas determinadas condiciones. Ejemplo: 20 individuos de 25 a 40 años, de sexo femenino y residentes en Gijón. Una vez determinada la cuota se eligen los primeros que se encuentren que cumplan esas características. Este método se utiliza mucho en las encuestas de opinión. Muestreo opinático o intencional: Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusión en la muestra de grupos supuestamente típicos. Es muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto. Estimador (Ô).Es una medida obtenida únicamente por los valores de la muestra. Ejemplo: PARAMETROS: Media Poblacional Varianza poblacional Tamaño de la Población Proporción poblacional ESTIMADORES: Media muestral Varianza muestral Tamaño de muestra Proporción muestral Variables Observables.- TIPOS DE VARIABLES CUALITATIVAS NOMINALES ORDINALES CUANTITATIVAS DISCRETAS CONTINUAS Son características o atributos de los elementos de la población de la población que pueden ser medidas. Variables Observables Cualitativas.ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 8 Son atributos no numéricos de los elementos de la población y se dividen en variables observables cualitativas nominal. Que se caracterizan por no tener un orden preestablecido y las variables observables cualitativas ordinales que se caracterizan por tener un orden preestablecido. Ejemplo.- Variables observables cuantitativas.Son características de la población numéricas que cuantifican únicamente cada uno de ellos. Se clasifican en cuantitativas Discretas que se caracterizan en tomar valores aislados y enteros. Las variables observables cuantitativas continuas que se caracterizan por tomar cualquier valor dentro de un intervalo. Ejemplo: Organización y representación de datos.Ejemplo: ℙ: Mujeres casadas de la zona de Achachicala 𝕩: nº de hijos X (1) = x (Amanda Flores) = 2 X (2) = 4 X (6) = 2 X (10) = 1 X (3) = 3 X (7) = 2 X (11) = 0 X (4) = 0 X (8) = 3 X (12) = 5 X (5) = 1 X (9) = 2 X (13) = 4 ESTADISTICA I ------------------------------------------------------Lic. Conjunto de datos Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 9 Distribuciones de Frecuencia.Son tablas o arreglos divididos en clases o intervalos que permiten resumir de forma ordenada un conjunto de datos o serie de datos. a) Para variables cualitativas o cuantitativas discretas. CLASES (K) VARIABLE X(1) X(2) X(3) : X(k) CONTEO FRECUENCIA n(1) n(2) n(3) : n(k) Donde: n: total de las observaciones o tamaño de muestra. Frecuencia Absoluta.Numero de veces que se repite la clase o intervalo CONTEO Nº DE HIJOS ( ) K=G ESTADISTICA I 0 1 2 3 4 5 TOTAL I_ I_I ⊟I I_ I_ I ------------------------------------------------------Lic. Nº DE MUJERES ( ) 2 3 6 2 2 1 16 Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 10 CUADRO Nº 1 DISTRIBUCION MUJERES CASADAS DE LA ZONA DE ACHACHICALA SEGÚN EL NÚMERO DE HIJOS CONTEO Nº DE HIJOS ( ) 0 1 2 3 4 5 TOTAL I_ I_I ⊟I I_ I_ I Nº DE MUJERES 2 3 6 2 2 1 16 FUENTE: Sub Alcaldia Zona Norte b) Para Variables Cuantitativas Continuas CLASES (K) INTERVALO : - CONTEO FRECUENCIA n(1) n(2) n(3) : n(k) Donde: : Límite o extremo inferior de la clase i Límite o extremo superior de la clase i Si el = = Se dice que la distribución tiene extremos o limites reales, donde cualquier valor x (j) Se evalúa considerando: = Se dice que la distribución tiene limites o extremos aparentes, donde cualquier valor x(j) Se evalúa considerando: Ejemplo: Distribución estudiantes según nota final de calculo. ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 11 EXTREMOS REALES NOTA FINAL 20 – 30 30 – 42 42 – 51 51 – 60 60 – 80 80 - 95 TOTALES K=G CONTEO Nº DE ESTUDIANTES ( ) I_I ⊟⊟ ⊟ ⊟⊟⊟⊟ ⊟⊟⊟⊟⊟⊟⊟⊟⊟ I_I ⊟⊟I_ ⊟I 3 10 25 43 12 6 N = 99 5 ≤ K ≤ 15 Ejemplo: Distribución de personas según edad EXTREMOS APARENTES INTERVALO 10 – 19 20 – 29 30 – 39 40 – 49 50 – 59 TOTALES Nº PERSONAS ( ) 6 10 30 15 6 n = 67 EXTREMOS REALES 9.5 – 19.5 19.5 – 29.5 29.5 – 39.5 39.5 – 49.5 49.5 – 59.5 Ejemplo: Distribución de estudiantes según estatura (mt.) EXTREMOS REALES 1.40 – 1.44 1.44 – 1.52 1.52 – 1.55 1.55 – 1.60 1.60 – 1.63 1.63 – 1.69 1.69 – 1.80 TOTALES Nº Est. 4 9 15 23 18 14 7 90 % 0.044 0.1 0.167 0.256 0.2 0.156 0.078 1.001 4 13 28 51 69 83 90 0.44 0.144 0.311 0.567 0.767 0.923 1.00 90 86 77 62 39 21 7 1.001 0.957 0.857 0.069 0.434 0.234 0.078 4.4 10 16.7 25.6 20 15.6 7.8 % 4.4 14.4 31.1 56.7 76.7 93.3 100.1 % 100.1 95.7 85.7 69 43.4 23.4 7.8 0.04 0.08 0.03 0.05 0.03 0.06 0.11 Frecuencias Relativas ( ).Representa la proporción de observaciones de la clase (i) y se define: ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 12 Donde: Frecuencias acumuladas (menor q).Frecuencias acumuladas absolutas ( ).Representa el numero de observaciones menor a la clase (i) y se define como: Frecuencias acumuladas relativas ( ).Representa la proporción de observaciones menor o la clase (i) Frecuencias des acumuladas (mayor que).Frecuencias des acumuladas absolutas ( ).- Representa el nº de observaciones mayor a la clase (i) y se define: Frecuencias des acumuladas absolutas ( ).Representa el nº de observaciones mayor a la clase (i) y se define: ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 13 Frecuencias porcentuales.- Notación matemática.N (1.40 ≤ X < 1.44) = 4 P (1.60 ≤ X < 1.63) = 0.2 N (X <1.60) = 51 P (X < 1.52) = 0.144 N (X ≥ 1.52) = 77 P (X ≥1.63)=0.234 P% (1.69≤X<1.80)=7.8% P% (X<1.60)= 56.7% Ancho de clase ( ) o Amplitud de clase.Es el tamaño de la clase (i) y se define como el extremo inferior. b a) q q = (1.62-1.60) = 12 N (x≤1.62)=4+9+15+23+12 = 63 Ejemplo: ¿Qué proporción de estudiantes tienen una estatura ≥ a 1.57mt. ? P (x≥1.57)=? 0.078+0.156+0.2+ b b) ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 14 q q = (1.60-1.57) = 13.8 P (x≥1.57)= 0.078+0.156+0.2+0.153 = 0.587 ¿Qué % est. (1.49 y 1.64)? q = (1.52-1.44) = q = (1.69-1.64) = = 0.44 = 0.12 Método para construir una distribución de frecuencias de anchos iguales de variable continúa. 1) Recorrido ( ) 2) Nº de Intervalos (K) n: total de observaciones o tamaño de muestra 3) Ancho de clase ( ) Tomar en cuenta que: 5≤X≤15 Ejemplo: ℙ: empleados públicos 𝕏: ingreso n :30 : 1500 (Salario mas bajo) :8300(Salario mas alto) 1) 2) 3) ESTADISTICA I =8300-1500=6800 =5.477 =6 = 1242 ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- INGRESO 1500 - 2742 2742 – 3984 3984 – 5226 5226 – 6468 6468 – 7710 7710 - 9852 TOTALES CONTEO I_I ⊟ I_ ⊟⊟I_ □ I_I I Nº EMPLEADOS PUBLICOS ( ) 3 7 12 4 3 1 N = 30 15 2121 3363 4605 5847 7089 8781 Ejemplo: Dada la siguiente distribución de anchos iguales y extremos reales, completar dicha frecuencia EXTREMOS REALES 20 – 25 25 – 30 30 – 35 35 - 40 40 - 45 TOTALES Nº Personas 20 20 80 50 30 n =200 0.1 0.1 0.4 0.25 0.15 20 40 120 170 200 200 180 160 80 30 22.5 27.5 32.5 37.5 42.5 1. 2. 3. 4. 5. 6. 7. 8. Representante de clase o marca de clase.Es el valor mas representativo de la clase (i); para una variable discreta es la misma variable para una variable continua se define como: ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 16 Representaciones graficas.Nos permiten observar la estructura de la información o el comportamiento a simple vista. Diagramas de barras.Son representaciones en el plano cartesiano para variables cualitativas y cuantitativas discretas donde en el eje de las abscisas se ubica la variable y en el eje de las coordenadas con barras proporcionales a dichas frecuencias. Frecuencias ( ) Ejemplo: Distribución de estudiantes según numero de materias aprobadas el anterior semestre. Nº DE MATERIAS APROBADAS ( ) 1 2 3 4 5 6 TOTAL Nº DE ESTUDIANTES ( ) 2 8 12 15 24 18 79 Diagrama de barras de frecuencia absoluta será: ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 17 Diagramas reales de áreas o histogramas.Son representaciones graficas en el plano cartesiano para variables cuantitativas continuas donde en el eje de las coordenadas “x” se encuentran los limites reales de la distribución y en el eje “y” las alturas con rectángulos proporcionales a la frecuencia con base en el ancho de clase. ALTURA ( ) Ejemplo: Distribución de jugadores de un equipo de La Paz según edad. EDAD 18 – 20 20 – 24 24 – 26 26 – 27 27 - 32 32 – 40 TOTALES Nº JUGADORES 4 5 10 8 4 4 n =35 2 4 2 1 5 8 2 1.25 5 8 0.8 0.5 Polígonos de frecuencia.Son representaciones graficas en el plano cartesiano de una poligonal generada por la unión de los pares ordenados ( )o( ) si la variable es discreta y ( ) si la variable es continua. ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 18 NOTA: En caso de que la distribución tenga anchos iguales las alturas ( ) pueden ser sustituidas por las frecuencia absolutas ( ). Diagramas Circulares o tortas.Son representaciones graficas para variables cualitativas y cuantitativas discretas mediante sectores circulares de tal manera que el ángulo es proporcional. ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 19 Ejemplo: Distribución de empresas según razón social RAZON SOCIAL ( ) Nº DE EMPRESAS ( ) SRL. 10 51 SA. 40 205 LTDA. 15 77 SC. 5 27 TOTAL n =70 Diagramas de frecuencia acumulada y des acumulada.a) Para variables discretas % % Ejemplo: Distribución de estudiantes según número de más asistencias a clase. ESTADISTICA I Nº DE INASISTENCIA ESTUDIANTES 0 1 2 3 4 5 TOTALES 12 15 10 6 4 3 50 ------------------------------------------------------Lic. % 0.24 0.3 0.2 0.12 0.08 0.06 1 0.24 0.54 0.74 0.86 0.94 1 24 54 74 86 94 100 Jorge Justo Troche Luna % 100 76 46 26 14 6 ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 20 Construyendo un diagrama de frecuencia acumulada porcentual tenemos: P% (X≤2)=74% P% (X≥4)=14% b) Para variables continuas u ojivas.NOTA: Los extremos para representaciones graficas deben ser reales. Ejemplo.Distribución de empresas según ingreso mensual en miles de dólares. INGRESO - Nº EMPRESAS 1–3 14 14 120 3–5 5–8 25 42 39 81 106 81 8 – 12 32 113 39 12 - 15 TOTALES 7 n =120 120 7 Estadígrafo.Es una medida que depende únicamente de los valores obtenidos en una muestra. Ejemplo: Si ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 21 Condiciones que debe cumplir un estadígrafo.1. Debe estar bien definido es decir no debe ser ambiguo porque debe ser interpretado. 2. Deben intervenir la mayoría de las observaciones, mejor si todas. 3. Debe prestarse al cálculo. 4. No debe ser valores extremos. Tipos de estadígrafo.De acuerdo a su naturaleza existen: Estadígrafos o medidas de posición. Estadígrafos o medidas de dispersión. Estadígrafos o medidas de asimetría. Estadígrafos o medidas de curtosis. Estadígrafos o medidas de correlación. Estadígrafos o medidas de regresión. Estadígrafos o medidas de concentración. ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 22 MEDIDAS DE POSICION Definición.Son medidas que representan a un conjunto de datos también denominados promedios. Media aritmética(x o x͞ ).Es el promedio mas conocido y el mas representativo si la distribución es simétrica o casi simétrica del conjunto de los datos y se define como: Serie de datos no agrupados SD Distribución de frecuencias o datos agrupados DF Ejemplo: X: Nº de materias asignadas en este semestre. 5, 4, 6, 6, 3 (Serie de datos) Ejemplo: Distribución de personas según edad. EDAD 20 – 25 25 – 30 30 – 35 35 – 40 40 - 45 TOTALES Nº PERSONAS 20 32 64 42 12 170 22.5 27.5 32.5 37.5 42.5 450 880 2080 1575 510 5495 5 5 5 5 5 -2 -1 0 1 2 -40 -32 0 42 24 -6 Propiedades.1. La M(x) de una constante es la misma constante. 2. La M( ) = CM(x) 3. La M (x ± y) = M(x) ± M(y) 4. a) b) 5. Si Entonces: Comprobando la propiedad 4 ene l primer ejemplo: (5-4.8) + (4-4.8) + (6-4.8) + (6-4.8) + (3-4.8) = 0 ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 23 Comprobando la propiedad en el segundo ejemplo: Si = C=5 y T=32.5 5(-0.035)+ 32.5 = 32.32 Media aritmética ponderada.Si es un conjunto de datos donde respectivamente, entonces: son los pesos o ponderaciones de los Ejemplo: Un estudiante obtuvo las siguientes calificaciones primer parcial 80%, segundo parcial 60%, y el examen final 35%cuyas ponderaciones son: primer parcial 20%, segundo parcial 35%, y el final 45% = 100%. Ejemplo.En la universidad salesiana existe 3 paralelos de cálculo cuyos promedios son: PARALELOS A B C TOTALES Nº ESTUDIANTES 50 20 80 150 60 80 55 Hallar el promedio o la media aritmética de la materia Calculo I Ejemplo.El salario promedio de una empresa de los trabajadores es bs.2640, el salario promedio de las mujeres es bs.2490 y el de salario promedio de los hombres es bs.2700. = 2490 = 2700 Que porcentaje son hombres y porcentaje son mujeres. M: Porcentaje mujeres H: Porcentaje hombres ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 24 264000-249000 = 210H • H son 71.43% • M son 28.57% Mediana Me (x).Es el valor que divide a un conjunto de datos ordenados en dos partes iguales Ejemplo: Me (x) Para serie de datos si Si n es impar Si n es par Ejemplo: X: nota primer parcial 72, 40, 58, 63, 80, 25 N=6 25, 40, 58, 63, 72, 80 Para distribuciones de frecuencia Si la variable es discreta Si la variable es continua Donde: La clase que contiene a la mediana es aquella que primero sobrepasa al valor en la columna de las frecuencias acumuladas absolutas en Ejemplo.Nº HIJOS 0 1 2 3 4 5 TOTALES ESTADISTICA I ------------------------------------------------------Lic. Nº DE MUJERES 6 12 18 32 15 3 86 6 18 36 68 83 86 Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 25 Ejemplo: Dada la distribución: GANANCIA - Nº E. 1000 - 2000 2000 – 3000 3000 – 5000 5000 – 7000 7000 – 10000 10000 – o mas TOTALES 2 8 21 43 25 10 109 2 10 31 74 99 109 1000 1000 2000 2000 3000 ∞ 0.002 0.008 0.011 0.022 0.008 Moda (Mo).Es el valor que mas se repite Ejemplo: X: Nº de materias aprobadas 3, 6, 2, 4, 6, 5, 6, 7… Cuando existen dos se llama bimodal para distribuciones de frecuencia Si la variable es discreta En el ejemplo Si la variable es continua la moda Donde La clase que contiene a la es aquella cuyo es máximo La mayoría de las empresas tienen una ganancia de 5880bs. Momentos ordinarios de orden.Si r=0 S.D. Si r≠0 Si r=0 D.F. Si r≠0 ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 26 En general Si r= -1 = media armónica ( ) Si r= 0 = media geométrica ( ) Si r= 1 = media aritmética ( ) Si r= 2 = media cuadrática ( ) a)Media aritmética: se calcula multiplicando cada valor por el número de veces que se repite. La suma de todos estos productos se divide por el total de datos de la muestra: b) Media geométrica: se eleva cada valor al número de veces que se ha repetido. Se multiplican todo estos resultados y al producto fiinal se le calcula la raíz "n" (siendo "n" el total de datos de la muestra). Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o la media geométrica. La media geométrica se suele utilizar en series de datos como tipos de interés anuales, inflación, etc., donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores. En todo caso, la media aritmética es la medida de posición central más utilizada. Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la serie, por lo que no se pierde ninguna información. Sin embargo, presenta el problema de que su valor (tanto en el caso de la media aritmética como geométrica) se puede ver muy influido por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anómalos podrían condicionar en gran medida el valor de la media, perdiendo ésta representatividad. Luego: S.D. Media Armónica D.F. S.D. Media Geométrica D.F. ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 27 SD Media Aritmética D.F. S.D. Media Cuadrática D.F. Ejemplo: Gasto en pasajes 3, 8, 2, 5 General: 3.45 ≤ 3.94 ≤4.5 ≤5.049 Relación empírica.Si un conjunto de datos tiene distribución simétrica o casi simétrica entonces: Ejemplo.Distribución de empresas según ganancia (en miles $us). GANANCIA 1–3 3–5 5–7 7–9 9 - 11 TOTALES Nº EMP. 3 6 12 9 2 32 2 4 6 8 10 6 24 72 72 20 194 3 9 21 30 32 2 2 2 2 2 1.5 1.5 2 1.125 0.2 6.325 0.903 3.612 9.338 8.128 2 23.981 12 96 432 576 200 Media aritmética.- ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 28 Mediana.- Moda.- Medida de posición no central fractiles.Estas medidas dividen a la población en partes iguales y sirven para clasificar a un individuo dentro de una determinada muestra o población (mismo concepto que la mediana) Cuartiles.Medidas de localización que divide a la población en cuatro partes iguales (Q1, Q2 y Q3). Q1: Valor de la distribución que deja el 75% de los valores por encima Q2: Valor de la variable que deja el 50% de los valores de la variable por encima (coincide con la mediana) Q3: Valor de la variable que deja el 25% de los valores de la variable por encima Deciles.Medidas de localización que divide a la población en diez partes iguales dk = Decil k-simo es aquel valor de la variable que deja a su izquierda el k·10 % de la distribución. Percentiles.Medidas de localización que divide a la población en cien partes iguales. El primer percentil supera al uno por ciento de los valores y es superado por el noventa y nueve por ciento restante. Pk = Percentil k-ésimo es aquel valor que deja a su izquierda el K*1% de la distribución Reflexiones sobre las medidas de posición central.a) La media, la mediana y la moda coinciden en toda distribución simétrica o normal b) La media aritmética es la medida de posición que más se utiliza pues normalmente es la que mejor representa los datos, al intervenir todos ellos en su deter minación. Por otra parte permite la aplicación del cálculo de probabilidades. Ahora bien, tiene el inconveniente de que en el caso de que ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 29 exista una gran diferencia entre los valores extremos pierda gran parte de su utilidad al estar afectada por ellos. Por ello en este caso es más conveniente el uso de la mediana. c) Un promedio puede actuar como medida de tendencia central solamente si existe una cantidad considerable de concentración en la distribución de frecuencias, es decir, que la variación no es demasiado grande. d) Un promedio sirve como una medida útil de localización para comparar dos o más distribuciones de frecuencias solamente si las que se comparan tienen aproximadamente la misma forma. Medidas de dispersión.Hasta el momento hemos estudiado los valores centrales de la distribución, pero también es importante conocer si los valores en general están cerca o alejados de estos valores centrales, para ver si estos valores son o no son representativos. Es por esto por lo que surge la necesidad de estudiar medidas de dispersión. Los momentos son valores específicos de la distribución y van íntimamente ligados a las medidas de dispersión y se hallan con la siguiente fórmula: Momentos de orden r Momentos respecto al origen ( Momentos respecto ala media El momento de orden r es el promedio de las desviaciones de los valores de una variable, con respecto al origen o a la media, elevadas a la potencia r. Relación entre momentos: m0 = a0 a1= media m1= 0 Desviación media.Mide el grado de dispersión de un conjunto de datos con respecto ala media aritmética es decir mide la distancia promedio entre los valores observados y su media, se define como la DM(x). Ejemplo: 𝕏: Edad 19,22,25,23 Tiene una diferencia de 1 año,75. Desviación mediana.- ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 30 Desviación estándar ( ).(Desviación típica) La desviación típica es la mejor medida de dispersión y la más empleada. Cuando las distribuciones de frecuencias se aproximan a una distribución simétrica o normal entonces se verifica una propiedad muy importante que consiste, en que aproximadamente: El 68% de los valores de la variable están comprendidos entre x±s El 95% de los valores de la variable están comprendidos entre x ± 2s El 99% de los valores de la variable están comprendidos entre x ± 3s Ejemplo: Varianza ( ).Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatorio de las diferencias al cuadrado entre cada valor y la media, multiplicadas por el número de veces que se ha repetido cada valor. El sumatorio obtenido se divide por el tamaño de la muestra. La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados están los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, más dispersos están. Propiedades.1. 2. 3. 4. Ejemplo.ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 31 Distribución de estudiantes según peso corporal (Kg) PESO CORPORAL 40 – 45 45 - 50 50 – 55 55 – 60 60 – 65 65 - 70 TOTALES Nº EST. 4 10 18 22 12 4 70 42.5 47.5 52.5 57.5 57.5 62.5 67.5 170 475 945 1265 750 270 3875 51.428 78.57 51.48 47.146 85.716 48.572 362.858 661.21 617.32 146.92 101.03 612.27 589.81 2728.56 7225 22562.5 49612.5 72737.5 46875 18225 217237.5 Mediante la propiedad 4.- En el ejemplo: T=57.5 C=5 Luego: Coeficiente de variación.El coeficiente de variación es la relación entre la desviación típica de una muestra y su media. El coeficiente de variación se suele expresar en porcentajes: El coeficiente de variación permite comparar las dispersiones de dos distribuciones distintas, siempre que sus medias sean positivas. ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 32 Se calcula para cada una de las distribuciones y los valores que se obtienen se comparan entre sí. La mayor dispersión corresponderá al valor del coeficiente de variación mayor. Ejemplo.Una distribución tiene x = 140 y σ = 28.28 y otra x = 150 y σ = 24. ¿Cuál de las dos presenta mayor dispersión? La primera distribución presenta mayor dispersión . Desviación intercuartil o Rango Intercuartil.Es la diferencia entre los cuartiles 3 y 1. Es decir, es el rango del 50\% de las observaciones centrales, las más representativas de la masa de datos. Tiene la propiedad de ser muy resistente a valores extremos. DIC = Q3-Q1 ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 33 Relaciones empíricas.- Mejores medidas.MEDIDAS POSICION CENTRAL DISPERSION SIMETRICA ASIMETRICA Q Variable estandarizada.Se define como: : De variable a variable Es decir: : a valor a valor Coeficiente de simetría.Cuantifica el grado de asimetría que presenta la muestra. Se define como el promedio de los cubos de las desviaciones en torno a la media, dividido por la desviación standard elevada también al cubo. La fórmula es: Si los datos presentan una cola larga hacia la derecha, el coeficiente de simetría es positivo. Si presentan una cola larga hacia la hacia la izquierda, el coeficiente de simetría es negativo. Si hay simetría, el coeficiente es cercano a cero. Ejemplo: coeficiente de simetría ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 34 El signo positivo del coeficiente de simetría de la muestra 1 indica que tiene sesgo hacia la derecha. El coeficiente de simetría de la muestra 2 indica que no tiene sesgo. La muestra 3 tiene sesgo hacia la izquierda. Coeficiente de curtosis.Cuantifica el hecho que la masa de datos presenta una forma de campana (mesocúrtica), una forma más bien puntiaguda en la parte central (leptocúrtica) o muy plana (platicúrtica). El coeficiente de curtosis se define como el promedio de las desviaciones elevadas a la cuarta potencia, respecto de la media, dividido por la desviación standard elevado a la cuarta. A todo esto se le resta el número 3. La fórmula es Los datos con forma de campana (mesocúrticos) tienen un coeficiente de curtosis cercano a cero. Si son leptocúrticos o con forma puntiaguda, el coeficiente es negativo. Si son planos o platicúrticos, su coeficiente de curtosis es positivo. Ejemplo.- Coeficiente de curtosis Los primeros dos conjuntos aparecen con forma lepticúrtica (puntiagudos), mientras el de la muestra 3 aparece con forma platicúrtica (más plano). Eso se puede apreciar por el hecho que las tres barras más grandes, en el histograma correspondiente a este tercer conjunto, tienen alturas similares. Si se comparan con los histogramas de los primeros dos conjuntos, hay más diferencia entre la barra más alta y las que le siguen. ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 35 Análisis bivariante.Distribuciones bidimensionales.En algunos experimentos las medidas que se obtienen son dobles, pertenecientes a dos variables distintas, a las que llamaremos X e Y respectivamente. Este tipo de estudios es muy frecuente. Daremos algunos ejemplos: Comparación entre mortalidad y natalidad Ídem entre extensión y población de diversos países. Diferencias de renta entre la población en general y los titulados universitarios. Pruebas pretest y postest. Influencia de la latitud en la temperatura media. Ídem de las horas de estudio en la calificación en una asignatura. Etc. Tipos de variables Las dos variables que se comparan pueden ser de igual naturaleza, ambas nominales u ordinales o de intervalo, o de distinta, lo que da lugar a muchos casos posibles, que es imposible estudiarlos todos en este curso. Incluimos algunos ejemplos: Tablas simples de comparación de dos datos cuantitativos En estos casos cada par de valores representa a un sujeto o medición. Se representan mediante gráficos de dispersión XY Distribuciones de frecuencia bivariantes.a) Tablas de doble entrada: En ellas la X y la Y pueden ser de naturaleza muy distinta, por lo que se disponen en tabla de doble entrada. Cuando existen frecuencias, es el mejor método, pues permite tratar una variable por ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 36 columnas y otra por filas. La siguiente tabla muestra la distribución de las llamadas telefónicas con origen o destino en los cuatro hijos de una pareja. Estas tablas de doble entrada con frecuencias admiten una representación gráfica muy intuitiva mediante barras (columnas) ordenadas en varios conjuntos mediante tres ejes. Tipos de frecuencias en una distribución bidimensional.Para aclarar las definiciones de los tipos de frecuencias usaremos la siguiente tabla: Frecuencias conjuntas.Se representan por nij, y son las frecuencias incluidas en la tabla primitiva de entrada. Los subíndices i y j representan la fila y columna en la que está situada la frecuencia.Así, en la tabla n13 = 7 y n34 = 13 Llamaremos N a la suma total de estas frecuencias. En el ejemplo, N es 109. Representaremos este hecho mediante un sumatorio doble sin índices, para no complicar las fórmulas: Al conjunto de las frecuencias conjuntas lo denominaremos como Distribución conjunta de las dos variables. Frecuencias marginales.Llamaremos frecuencia marginal de un valor de X, a la que le corresponde a ese valor si no tenemos en cuenta la existencia de Y. En la práctica coincide con la suma de todas las frecuencias contenidas en la fila correspondiente a ese valor. En la tabla del ejemplo, la frecuencia marginal de B es 26, suma de las frecuencias de la segunda fila. La frecuencia marginal de la fila i se representará por ni* De la misma forma se define la frecuencia marginal en la variable Y, como la que tendría si no se tuviera en cuenta la X, o la suma de la columna correspondiente. En el ejemplo, la frecuencia marginal de Marzo es n*3 = 20 ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 37 Frecuencias condicionadas.Son las frecuencias que posee una variable si sólo consideramos un valor (o varios) de la otra variable. En la práctica se traduce a considerar sólo una fila o sólo una columna, según el valor elegido. Las frecuencias condicionadas se representan con este símbolo: nx/y, que se puede leer como Frecuencia de x condicionada por y. En la tabla del ejemplo, la distribución de X condicionada a Marzo es la columna A=7, B=6, C=7. Las frecuencias condicionadas son más representativas si se convierten en proporciones o porcentajes. Medidas en una distribución bidimensional.Al existir dos variables X e Y, las medidas también son dobles. Así, consideraremos las siguientes: Media de X.Tiene la misma definición que en el caso unidimensional. Viene dada por la fórmula si los datos están aislados y por esta otra si están agrupados. Media de la Y.Se define de forma similar: y para agrupados (Las siguientes definiciones las desarrollaremos sólo para aislados, pues su traducción es fácil) Varianzas y desviaciones típicas.También serán dobles: La varianza de X será y su desviación típica sx será la raíz cuadrada de esa expresión. En el caso de Y la definición es similar: Covarianza.Esta medida es muy interesante. Mide el paralelismo existente entre ambas variables (en función sólo de los datos presentes en la tabla). Si la covarianza es grande, manifestará la existencia de un cierto paralelismo o dependencia (en sentido estadístico) entre X e Y. Si es pequeña, indicará que ambas variables se comportan de manera más independiente. Su definición es: y puede ser positiva, cero o negativa. ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 38 El significado de la varianza es el siguiente: Si en el numerador la mayoría de los productos son positivos, será porque las diferencias de X y de Y tienen el mismo signo. Eso significa que para X mayor que la media, la Y también lo es, y al contrario, a valores pequeños de X le corresponden pequeños en Y. Por tanto, los productos serán mayoritariamente positivos y la varianza crecerá. Una varianza positiva y alejada del valor cero indica un cierto paralelismo entre X e Y, en el que a valores mayores de X le corresponden los mayores en Y. Si los productos son mayoritariamente negativos, es que las diferencias tienen distintos signos, por lo que Una varianza negativa y alejada del cero indica un paralelismo inverso, en el que a valores pequeños de X le corresponden valores grandes de Y, y a la inversa. Por último, si están muy repartidos los productos positivos y negativos, es que apenas existe paralelismo, y la varianza se acercará a cero. El problema de la varianza es que carece de un valor máximo, por lo que es difícil juzgar si la correspondencia entre las dos variables es la mejor posible. Coeficiente de correlación.Como en el caso de una variable, la covarianza no es adecuada para establecer comparaciones entre medidas muy diferentes, además del inconveniente de no tener un valor máximo, lo que impide valorar el grado de paralelismo existente en los datos. Para normalizar la covarianza procederemos como en el Coeficiente de Variación: dividiremos dicha covarianza entre las dos desviaciones típicas (de X y de Y respectivamente). Al resultado le daremos el nombre de Coeficiente de correlación y lo representaremos por r. El coeficiente r también recibe el nombre de Coeficiente de Pearson o también Coeficiente de correlación producto-momento. También se puede demostrar que este coeficiente es en realidad la covarianza del conjunto si expresamos los datos en medidas típicas z (ver sesión 3). El valor de r oscila entre -1 y +1, y mide el paralelismo o correlación entre X e Y. Si sus valores se acercan a 1 o a -1, diremos que existe correlación fuerte, y está cerca del cero, débil. Podemos desarrollar más estos comentarios mediante una tabla: Se deben evitar interpretaciones erróneas del coeficiente r. Seleccionamos las más frecuentes: La dependencia es sólo matemática: no supone relación causa-efecto. Las causas nunca son tan simples y pueden existir, pero respecto a una tercera variable. Se deben evitar demasiados adjetivos como correlación regular, media, pues el significado exacto de r depende de cada experimento en concreto. Si la relación entre datos es de tipo curvilíneo, el coeficiente r pierde representatividad. A veces, si existe asimetría, r no puede acercarse al 1. ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 39 PROBABILIDADES La probabilidad y la estadística son, sin duda, las ramas de las Matemáticas que están en mayor auge en este siglo, y tienen una tremenda aplicabilidad en todos los aspectos y ciencias, especialmente en las Ciencias Sociales, puesto que aquellas variables que influyen en dichas ciencias, económicas, demográficas, suelen tener carácter aleatorio, es decir, no son deterministas, y se fundamentan en predicciones a partir de datos conocidos. Todo aquello que implique predicción nos lleva al terreno de la probabilidad. Experimentos aleatorios.En todos los aspectos de la vida a veces nos encontramos con acontecimientos predeterminados, es decir, tales que podemos decir el resultado de dichos acontecimientos antes de que finalice o incluso de que comience. Tal es el caso de: 1. Tirar una piedra desde un edificio (sabemos que se caerá). 2. Calentar un cazo de agua (sabemos que la temperatura sube). 3. Golpear una pelota (sabemos que se va a mover, e incluso conociendo fuerzas que actúan, etc., Podemos conocer precisamente donde caerá ). Tales acontecimientos o experimentos de los que podemos predecir el resultado antes de que se realicen se denominan experimentos deterministas. Sin embargo, analicemos otro tipo de experimentos, mucho mas interesantes desde el punto de vista matemático: Imaginemos que lanzamos un dado al aire (normal, de 6 caras y no trucado). .Podemos predecir el resultado que vamos a obtener?. Evidentemente no. Este es un experimento que no es determinista. A este tipo de experimentos, en los cuales no se puede predecir el resultado antes de realizar el experimento se les denomina experimentos aleatorios. Otros ejemplos de experimentos aleatorios pueden ser: Tirar una moneda al aire y observar que lado cae hacia arriba, rellenar una quiniela de futbol, jugar una partida de póker y, en general, cualquier juego en el que intervenga el azar. Ejemplo: 1. .Cual es el espacio muestral asociado al experimento de lanzar un dado normal al aire y observar la cara que queda hacia arriba?. Evidentemente, en este caso hay 6 posibles resultados (6 sucesos elementales) y el espacio muestral estará formado por: E={1,2,3,4,5,6}. 2. .Y en el caso del lanzamiento de una moneda? Entonces E={C,X} Evento o suceso.Llamaremos suceso aleatorio a cualquier subconjunto del espacio muestral. El concepto de suceso es fundamental en probabilidad. Dicho de forma simple, un suceso de un experimento aleatorio es cualquier cosa que se nos ocurra afirmar sobre dicho experimento. Así, si tiramos una moneda dos veces, serían sucesos todos los siguientes: 1. Sale al menos una cara. ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 40 2. Salen mas caras que cruces. 3. La moneda cae de canto. 4. No sale ninguna cruz. Llamaremos suceso imposible al que no tiene ningún elemento y lo representaremos por . Llamaremos suceso seguro al formado por todos los posibles resultados (es decir, al espacio muestral). Llamaremos espacio de sucesos y lo representaremos por S, al conjunto de todos los sucesos aleatorios. Ejemplo: De cuantas maneras posibles se puede elegir a un presidente y un secretario de un grupo de 7 personas. A, B, C, D, E, F, G Ω = {(A,B);(A,C);(A,D);(A,E);(A,F);(A,G)} Ejemplo: Una moneda tiene dos lados cara (c)y sello (s). Se lanza la moneda. Halar el espacio muestral. a) Una vez Ω = {c, s } b) Dos veces Ω = {cc, cs, ss,} c) Tres veces Ω = {ccc, ccs, css, csc, scc, ssc, sss} Ejemplo: Se tira una moneda 3 veces. Calcular la probabilidad de obtener alguna cara. Los problemas de este tipo, en los que se pide la probabilidad de obtener “alguna” cosa, se suelen resolver muy bien por paso al complementario. En este caso concreto, A = “obtener alguna cara”. = “no obtener ninguna cara”= “obtener 3 cruces”. Entonces, p(A) = , pues hay 8 casos posibles (2·2·2!,haz el diagrama de árbol!) y solo uno favorable (XXX, 3 cruces), por tanto: Tipos de conjuntos.Extensión Comprensión Diagrama de ven A= {a, e, i, o, u} extensión A= {x∖ x es una vocal} comprensión Diagrama de ven ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 41 Método del árbol.- Ω= = = es un producto cartesiano a) Hasta que salga cara Ω = {c, sc, ssc, sssc, ssssc,…,} b) Hasta que saldo dos caras Ω = {cc, scc, csc, sscc, scsc,…,} Definición axiomática.Las definiciones anteriores son netamente empíricas o experimentales, sin embargo después de establecer una forma de determinar la probabilidad experimentalmente, se pueden deducir leyes o propiedades de la probabilidad en forma lógica o computacional bajo ciertas suposiciones llamados axiomas de la probabilidad. La probabilidad de un evento A se define como el número P(A), tal que cumple con los siguientes axiomas: AXIOMA 1: La probabilidad P(A) de cualquier evento no debe ser menor que cero ni mayor que uno: 0 < P(A) < 1 AXIOMA 2: P(S) = 1 AXIOMA 3: Si A y B son dos eventos mutuamente exclusivos (A Ç B = Æ ), entonces: P (A È B) = P(A) + P(B) Toda la teoría elemental de la probabilidad está construida sobre las bases de estos tres simples axiomas. Si el espacio muestral es infinito, debemos reemplazar el axioma 3 por el AXIOMA 4: Si A1, A2, … son eventos mutuamente exclusivos, entonces tenemos que P(A1 È A2 È …) = P(Al) + P(A2) +…+ Teoremas.Además de P(E) = 1, P( ) = 0, 0 P(A) 1, tenemos: 1) Si A B = (A y B se excluyen mutuamente) entonces: P(A B) = P(A) + P(B) 2) P(A) + P(Ac) = 1 3) Si A B entonces P(A B) = P(A) + P(B) - P(A B) ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 42 4) Si A y B son eventos independientes ( la ocurrencia de A no influye en la ocurrencia de B), entonces P(A B) = P(A) • P(B) 5) Si A y B son eventos dependientes (la ocurrencia de A influye en la ocurrencia de B), entonces P(A B) = P(A) • P(B/A) P(B/A) es la probabilidad del evento B, sabiendo que ha ocurrido A. Ejemplo: María y José son dos amigos la probabilidad que María asista a clases es 0.8 y José 0.65 y la probabilidad de que ambos asistan a clases es 0.53. DATOS: M: asista a clases María J: asista a clases José P(M)=0.8 P(J)=0.65 P(M∩J)=0.53 a) Cual es la probabilidad que María no asista. P(M)=1 – P(M) = 1 – 0.8 =0.2 b) Cual es la probabilidad que solo asista José. P(J∩ )= P(J) – P(M∩J) = 0.65 – 0.53 =0.12 c) Cual es la probabilidad que ninguno asista. P( ∩ )= 1 – P(M∩J) = 1 - [P(M)+P(J) - P(M∩J)] = 1 - [(0.8+0.65) – 0.53] = 0.08 ANALISIS COMBINATORIO Y PERMUTACIONES ¿Qué diferencia hay? Normalmente usamos la palabra "combinación" descuidadamente, sin pensar en si el orden de las cosas es importante. En otras palabras: "Mi ensalada de frutas es una combinación de manzanas, uvas y bananas": no importa en qué orden pusimos las frutas, podría ser "bananas, uvas y manzanas" o "uvas, manzanas y bananas", es la misma ensalada. "La combinación de la cerradura es 472": ahora sí importa el orden. "724" no funcionaría, ni "247". Tiene que ser exactamente 4-7-2. ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 43 Así que en matemáticas usamos un lenguaje más preciso: Si el orden no importa, es una combinación. Si el orden sí importa es una permutación. Con otras palabras: Una permutación es una combinación ordenada. Permutaciones.Hay dos tipos de permutaciones: Se permite repetir: como la cerradura de arriba, podría ser "333". Sin repetición: por ejemplo los tres primeros en una carrera. No puedes quedar primero y segundo a la vez. Permutaciones con repetición.Son las más fáciles de calcular. Si tienes n cosas para elegir y eliges r de ellas, las permutaciones posibles son: n × n × ... (r veces) = nr (Porque hay n posibilidades para la primera elección, DESPUÉS hay n posibilidades para la segunda elección, y así.) Por ejemplo en la cerradura de arriba, hay 10 números para elegir (0,1,...,9) y eliges 3 de ellos: 10 × 10 × ... (3 veces) = 103 = 1000 permutaciones Así que la fórmula es simplemente: nr donde n es el número de cosas que puedes elegir, y eliges r de ellas (Se puede repetir, el orden importa) Permutaciones sin repetición.En este caso, se reduce el número de opciones en cada paso. Por ejemplo, ¿cómo podrías ordenar 16 bolas de billar? Después de elegir por ejemplo la "14" no puedes ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 44 elegirla otra vez. Así que tu primera elección tiene 16 posibilidades, y tu siguiente elección tiene 15 posibilidades, después 14, 13, etc. Y el total de permutaciones sería: 16 × 15 × 14 × 13 ... = 20,922,789,888,000 Pero a lo mejor no quieres elegirlas todas, sólo 3 de ellas, así que sería solamente: 16 × 15 × 14 = 3360 Es decir, hay 3,360 maneras diferentes de elegir 3 bolas de billar de entre 16. ¿Pero cómo lo escribimos matemáticamente? Respuesta: usamos la "función factorial" La función factorial (símbolo: !) significa que se multiplican números descendentes. Ejemplos: 4! = 4 × 3 × 2 × 1 = 24 7! = 7 × 6 × 5 × 4 × 3 × 2 × 1 = 5040 1! = 1 Nota: en general se está de acuerdo en que 0! = 1. Puede que parezca curioso que no multiplicar ningún número dé 1, pero ayuda a simplificar muchas ecuaciones. Así que si quieres elegir todas las bolas de billar las permutaciones serían: 16! = 20,922,789,888,000 Pero si sólo quieres elegir 3, tienes que dejar de multiplicar después de 14. ¿Cómo lo escribimos? Hay un buen truco... dividimos entre 13!... 16 × 15 × 14 × 13 × 12 ... = 16 × 15 × 14 = 3360 13 × 12 ... ¿Lo ves? 16! / 13! = 16 × 15 × 14 La fórmula se escribe: ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 45 donde n es el número de cosas que puedes elegir, y eliges r de ellas (No se puede repetir, el orden importa) Ejemplo: Nuestro "ejemplo de elegir en orden 3 bolas de 16" sería: 16! 16! = (16-3)! 20,922,789,888,000 = 13! = 3360 6,227,020,800 ¿De cuántas maneras se pueden dar primer y segundo premio entre 10 personas? 10! 10! = (10-2)! 3,628,800 = 8! = 90 40,320 (que es lo mismo que: 10 × 9 = 90) Notación En lugar de escribir toda la fórmula, la gente usa otras notaciones como: Combinaciones.También hay dos tipos de combinaciones (recuerda que ahora el orden no importa): Se puede repetir: como monedas en tu bolsillo (5,5,5,10,10) Sin repetición: como números de lotería (2,14,15,27,30,33) Combinaciones con repetición.En realidad son las más difíciles de explicar, así que las dejamos para luego. ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 46 Combinaciones sin repetición.Así funciona la lotería. Los números se eligen de uno en uno, y si tienes los números de la suerte (da igual el orden) ¡entonces has ganado! La manera más fácil de explicarlo es: imaginemos que el orden sí importa (permutaciones), después lo cambiamos para que el orden no importe. Volviendo a las bolas de billar, digamos que queremos saber qué 3 bolas se eligieron, no el orden. Ya sabemos que 3 de 16 dan 3360 permutaciones. Pero muchas de ellas son iguales para nosotros, porque no nos importa el orden. Por ejemplo, digamos que se tomaron las bolas 1, 2 y 3. Las posibilidades son: El orden importa 1 2 1 3 2 1 2 3 3 1 3 2 El orden no importa 3 2 3 1 2 1 123 Así que las permutaciones son 6 veces más posibilidades. De hecho hay una manera fácil de saber de cuántas maneras "1 2 3" se pueden ordenar, y ya la sabemos. La respuesta es: 3! = 3 × 2 × 1 = 6 (Otro ejemplo: 4 cosas se pueden ordenar de 4! = 4 × 3 × 2 × 1 = 24 maneras distintas, ¡prueba tú mismo!) Así que sólo tenemos que ajustar nuestra fórmula de permutaciones para reducir por las maneras de ordenar los objetos elegidos (porque no nos interesa ordenarlos): Esta fórmula es tan importante que normalmente se la escribe con grandes paréntesis, así: ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 47 donde n es el número de cosas que puedes elegir, y eliges r de ellas (No se puede repetir, el orden no importa) Y se la llama "coeficiente binomial". Notación Además de los "grandes paréntesis", la gente también usa estas notaciones: Ejemplo: Entonces, nuestro ejemplo de bolas de billar (ahora sin orden) es: 16! 16! 20,922,789,888,000 = 3!(16-3)! = 3!×13! = 560 6×6,227,020,800 O lo puedes hacer así: 16×15×14 3360 = 3×2×1 = 560 6 Es interesante darse cuenta de que la fórmula es bonita y simétrica: Con otras palabras, elegir 3 bolas de 16 da las mismas combinaciones que elegir 13 bolas de 16. 16! 16! 16! = 3!(16-3)! = 13!(16-13)! = 560 3!×13! Triángulo de Pascal.ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 48 Puedes usar el triángulo de Pascal para calcular valores. Baja a la fila "n" (la de arriba es n=0), y ve a la derecha "r" posiciones, ese valor es la respuesta. Aquí tienes un trozo de la fila 16: 1 1 1 14 91 364 ... 15 105 455 1365 ... 16 120 560 1820 4368 ... Combinaciones con repetición.Ejemplo: Digamos que tenemos cinco sabores de helado: banana, chocolate, limón, fresa y vainilla. Puedes tomar 3 paladas. ¿Cuántas variaciones hay? Vamos a usar letras para los sabores: {b, c, l, f, v}. Algunos ejemplos son {c, c, c} (3 de chocolate) {b, l, v} (uno de banana, uno de limón y uno de vainilla) {b, v, v} (uno de banana, dos de vainilla) (Y para dejarlo claro: hay n=5 cosas para elegir, y eliges r=3 de ellas. El orden no importa, ¡y sí puedes repetir!) Bien, no puedo decirte directamente cómo se calcula, pero te voy a enseñar una técnica especial para que lo averigües tú mismo. Imagina que el helado está en contenedores, podrías decir "sáltate el primero, después 3 paladas, después sáltate los 3 contenedores siguientes" ¡y acabarás con 3 paladas de chocolate! Entonces es como si ordenaras a un robot que te trajera helado, pero no cambia nada, tendrás lo que quieres. Ahora puedes escribirlo como (la flecha es saltar, el círculo es tomar) Entonces los tres ejemplos de arriba se pueden escribir así: {c, c, c} (3 de chocolate): {b, l, v} (uno de banana, uno de limón y uno de vainilla): {b, v, v} (uno de banana, dos de vainilla): entonces ya no nos tenemos que preocupar por diferentes sabores, ahora tenemos un problema más simple para resolver: "de cuántas maneras puedes ordenar flechas y círculos" ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 49 Fíjate en que siempre hay 3 círculos (3 paladas de helado) y 4 flechas (tenemos que movernos 4 veces para ir del contenedor 1º al 5º). Así que (en general) hay r + (n-1) posiciones, y queremos que r de ellas tengan círculos. Esto es como decir "tenemos r + (n-1) bolas de billar y queremos elegir r de ellas". Es decir, es como el problema de elegir bolas de billar, pero con números un poco distintos. Lo podrías escribir así: donde n es el número de cosas que puedes elegir, y eliges r de ellas (Se puede repetir, el orden no importa) Es interesante pensar que podríamos habernos fijado en flechas en vez de círculos, y entonces habríamos dicho "tenemos r + (n-1) posiciones y queremos que (n-1) tengan flechas", y la respuesta sería la misma... ¿Qué pasa con nuestro ejemplo, cuál es la respuesta? (5+3-1)! 7! 5040 = 3!(5-1)! = 3!×4! = 35 6×24 Definición empírica “a posteriori” o frecuencial.- La definición clásica se ve limitada a situaciones en las que hay un número finito de resultados igualmente probables. Por desgracia, hay situaciones prácticas que no son de este tipo y la definición de Laplace no se puede aplicar. Por ejemplo, si se pregunta por la probabilidad de que un paciente se cure mediante cierto tratamiento médico, o la probabilidad de que una determinada máquina produzca artículos defectuosos, entonces no hay forma de introducir resultados igualmente probables. Por ello se necesita un concepto más general de probabilidad. Una forma de dar respuesta a estas preguntas es obtener algunos datos empíricos en un intento por estimar las probabilidades. Supongamos que efectuamos un experimento n veces y que en esta serie de n ensayos el evento Aocurre exactamente r veces, entonces la frecuencia relativa del evento es ,o sea, ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 50 Si continuamos calculando esta frecuencia relativa cada cierto número de ensayos, a medida que aumentamos n, las frecuencias relativas correspondientes serán más estables; es decir; tienden a ser casi las mismas; en este caso decimos que el experimento muestra regularidad estadística o estabilidad de las frecuencias relativas. Esto se ilustra en la siguiente tabla, de una moneda lanzada al aire 1000 veces. # de # de lanzamientos caras Frecuencia Frecuencia relativa acumulada Frecuencia acumulada relativa 1 - 100 52 0.52 52 0.520 100 - 200 53 0.53 105 0.525 200 - 300 52 0.52 157 0.523 300 - 400 47 0.47 204 0.510 400 - 500 51 0.51 255 0.510 500 - 600 53 0.53 308 0.513 600 - 700 48 0.48 356 0.509 700 - 800 46 0.46 402 0.503 800 - 900 52 0.52 454 0.504 900 -1000 54 0.54 508 0.508 Total: 1000 508 0.508 En un total de 1000 lanzamientos ocurrieron 508 caras, es decir la frecuencia relativa es aproximadamente 0.50. Tres investigadores realizaron experimentos y obtuvieron los siguientes resultados ESTADISTICA I Investigador Número de lanzamientos Número caras Buffon 4040 2048 0.5069 K. Pearson 12000 6019 0.5016 K. Pearson 24000 12012 0.5005 ------------------------------------------------------Lic. de Frecuencia relativa Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- 51 La mayoría de experimentos aleatorios de importancia práctica tienen estabilidad, por esto podemos sospechar que prácticamente será cierto que la frecuencia relativa de un evento E en un gran número de ensayos es aproximadamente igual a un determinado número P(E), o sea, la probabilidad del evento E es Obsérvese que este número es una propiedad que no depende solamente de E, sino que se refiere a un cierto espacio muestra S y a un experimento aleatorio. Entonces, decir que el evento E tiene probabilidad P(E) significa que si efectuamos el experimento muchas veces, es prácticamente cierto que la frecuencia relativa de E, fr(E) es aproximadamente igual a P(E). Cuando se usa la definición frecuencial, es importante tomar en cuenta los siguientes aspectos: i. ii. La probabilidad obtenida de esta manera es únicamente una estimación del valor real. Cuanto mayor sea el número de ensayos, tanto mejor será la estimación de la probabilidad; es decir, a mayor número de ensayos mejor será la estimación. iii. La probabilidad es propia de sólo un conjunto de condiciones idénticas a aquéllas en las que se obtuvieron los datos, o sea, la validez de emplear esta definición depende de que las condiciones en que se realizó el experimento sean repetidas idénticamente. Probabilidad condicional.Para dos eventos cualesquiera A y B en un espacio muestra S, tales que P(A) > 0 con P(A) ¹ 0, la probabilidad del evento B dado el evento A, se define por . En esta sección examinaremos como la probabilidad de ciertos eventos depende o se ve influida por la ocurrencia de otros. Para ello veremos algunos ejemplos. Ejemplo: Se seleccionan dos semillas aleatoriamente, una por una, de una bolsa que contiene 10 semillas de flores rojas y 5 de flores blancas. ¿Cuál es la probabilidad de que: a. La primera semilla sea roja? b. La segunda semilla sea blanca dado que la primera fue roja? Solución: ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna ----------------------------------- UNIVERSIDAD SALESIANA DE BOLIVIA ----------------------------------------------------------------------------------------- a. La probabilidad de que la primera semilla sea roja es 52 , puesto que hay 10 semillas de flores rojas de un total de 15. Escrito con notación de probabilidad tenemos: b. La probabilidad de que la segunda semilla sea blanca se ve influida por lo que salió primero, es decir esta probabilidad está sujeta a una condición, la de que la primera semilla sea roja. Este tipo de probabilidad se le llama probabilidad condicional y se denota por , y se lee: la probabilidad de B2 dado R1. Esta probabilidad restantes. , puesto que todavía hay 5 semillas blancas en un total de 14 Veamos la situación en un diagrama de árbol: Probabilidad conjunta.La que da la probabilidad de la intersección de dos eventos. La tabla de probabilidad conjunta proporciona un resumen de la información de probabilidad. ESTADISTICA I ------------------------------------------------------Lic. Jorge Justo Troche Luna -----------------------------------