Download 5.4 Dependencia estadística
Document related concepts
no text concepts found
Transcript
1 TEMA 1. INTRODUCCIÓN. CONCEPTOS BÁSICOS Hasta el s. XIX la estadística se usaba para las informaciones socioeconómicas de la realidad de un Estado. Los estados recababan datos, especialmente renta y población, para recaudar impuestos y mantener el ejército. Hoy es algo más amplio y útil en múltiples ciencias y áreas del conocimiento humano. Podemos definir estadística como “ciencia con base matemática que principalmente se ocupa de la recolección, análisis e interpretación de datos con objeto de detectar comportamientos regulares en fenómenos de tipo aleatorio y hacer más efectiva la toma de decisiones." Se utiliza en múltiples áreas del conocimiento humano: ciencias naturales, bioestadística, ciencias sociales, socioestadística, estadística económica, etc.). La estadística se divide en dos grandes apartados: a) Estadística Descriptiva: se encarga de la recolección, clasificación y descripción de datos muestrales o poblacionales, para su interpretación y análisis. b) Estadística Inferencial o Inferencia Estadística: Se ocupa de la generación de los modelos y leyes a partir de datos procedentes de un determinado subconjunto de individuos o muestra. Estas dos ramas son complementarias y entre ambas se obtiene información suficiente para prever un posible escenario futuro para poder tomar decisiones oportunas. La utilización de la estadística para el análisis del sector turístico: Tanto los analistas como los gestores de empresas y/o actividades turísticas, como los de cualquier otro sector de la economía deben saber “captar la realidad” de los fenómenos para posicionarse, tomar decisiones y para predecir la evolución futura de los mismos. La forma más común de “captar la realidad” es recoger de forma agrupada y más o menos sistemática la información disponible sobre los fenómenos que se tratan de investigar, examinando las reiteraciones para la búsqueda de fenómenos estables, en el sentido de no ocasionales y previsibles o repetibles. 1.2. Historia Desde los comienzos de la civilización han existido formas sencillas de estadística, se usaban representaciones gráficas y otros símbolos en pieles, rocas, paredes de cuevas… para recontar personas y animales. En el antiguo Egipto se encuentran los primeros registros estadísticos formales. Según el historiador griego Heródoto, los faraones recopilaron en el 3050 a.C. muchos datos sobre la población y riqueza del país para preparar la construcción de las pirámides. En las civilizaciones mesopotámicas se usaban tablillas de arcilla para recopilar los datos sobre producción agrícola y géneros vendidos o intercambiados En Israel se encuentran, en libros bíblicos de Números y Crónicas, dos censos de población y datos sobre el bienestar material de tribus judías. Otras civilizaciones usaban también censos de población pero fueron los romanos quienes mejor usaron los recursos de la estadística. Cada cinco años hacían censos de población, se anotaban nacimientos, defunciones, matrimonios, recuentos de ganado y riquezas. 2 Pero en la Edad Media el número de operaciones estadísticas descendió notablemente, destacando solo el Capitulare de Villis y el Domesday Book. En el s. XV Alonso de Quintanilla, por encargo de los Reyes Católicos, elabora el primer censo de España. S XVI y XVII: revolución en los métodos estadísticos debidos a los descubrimientos científicos y desarrollo del comercio. Interés por la estadística demográfica. Por eso a principios del s XVI se empieza a registrar los nacimientos, matrimonios y defunciones en Francia e Inglaterra. S XVII: avances importantes. En Universidades alemanas se enseña Aritmética Política, descripción numérica de hechos de interés para la Administración Pública. Autores: Petty y Graunt. Otros matemáticos, Pascal o Fermat, determinaron las reglas que controlan los juegos de azar, sentando las bases de la teoría de la probabilidad. S XVIII: inicio del estudio de la estadística desde un punto de vista matemático. Bernoulli y Moivre; Teoría de los errores de Cotes y Simpson; reglas de combinatoria de Laplace. En España se elaboran los primeros censos (1749, Ensenada; 1787, Floridablanca). Los actuales censos de periodicidad decenal, en 1860. S XIX: mayor impulso de la estadística: teoría de las errores de observación de Laplace y Gauss; teoría de los mínimos cuadrados des Gauss, Legendre y Adrain. Método de correlación, de Gaston, para medir la influencia relativa de los factores sobre las variables. Base del coeficiente de correlación de Pearson, entre otros. Se empieza a usar la teoría de la probabilidad en las ciencias sociales. Quételet introduce la noción del “hombre promedio” para entender los fenómenos sociales complejos como la criminalidad, número de matrimonios o suicidios. S XX: la estadística pasa a ser una ciencia con entidad propia que permite desarrollar herramientas para resolver problemas de diversa índole (salud pública, asuntos económicos, sociales…) En la actualidad se usa por las empresas para comprender mejor los datos que recibe y tomar decisiones. 1.3. Los conceptos estadísticos fundamentales Individuo, población y muestra. Población: Conjunto de elementos, individuos o entes sobre el que van a recaer las observaciones o la realización del estudio. [Ej.: conjunto de clientes del hotel Plaza de Madrid durante el mes de enero de 2002 (sitio concreto y en una fecha determinada).] Estos conjuntos de elementos son de distinta naturaleza: personas, hogares, edificios, tornillos, hoteles… Puede ser de dos tipos: a) Finita: los elementos pueden ser numerados o descritos completamente (ej: censo electoral de la CCAA) b) Infinita: no es posible determinar el número concreto de elementos que la compone (ej: número de billetes vendidos por las agencias de viajes a nivel mundial) 3 Individuo o Unidad de Investigación: Las poblaciones están compuestas por individuos, entes observables que no tienen por qué ser una persona. Puede ser un objeto, un ser vivo o algo abstracto. Las investigaciones estadísticas pueden ser: a) Censales: se estudian las características de interés en todos los individuos de la población. b) Muestrales: el estudio sólo afecta a un subconjunto de los individuos de la población. Muestra: Cualquier subconjunto de individuos pertenecientes a una población determinada. En estadística, tienen interés las muestras que son representativas de la población, de tal forma que puedan inferirse conclusiones sobre el conjunto del colectivo o población investigada. Para ello las muestras tienen que ser representativas. Para diseñar una muestra representativa de esta población, debemos tener en cuenta las “posibles diferencias” que pudieran ejercer determinadas características de la población sobre nuestra variable de interés (como el motivo y duración de la visita de los clientes del hotel, etc.). Al elegir la muestra, debemos procurar que estén representados adecuadamente los distintos subconjuntos de la población. Representatividad de una muestra: Concepto estadístico que indica si los resultados extraídos de la misma son o no utilizables para inferirlos a la población. EJEMPLO: población: un conjunto de visitantes al Museo del Prado en junio del 2005; Individuo: cada uno de esos visitantes; muestra: por ejemplo, la selección de los 10 primeros visitantes que entraron cada día a partir de las 11 y de las 13 horas. Si tenemos 30 días de apertura del museo y encuestamos a 20 individuos cada día, tendremos una muestra de 600 individuos elegidos al azar. Esta muestra es suficientemente grande para extraer conclusiones estadísticas generales, de forma que, si en la muestra seleccionada hay un 30% de extranjeros y 70% de nacionales, podemos inferir ambas proporciones al colectivo y decir que el 30% de visitantes del Prado durante el mes de referencia era extranjero, evitando con ello el difícil trabajo de entrevistar a todos los visitantes. Parámetro, variable y atributo Parámetros: Valor representativo de la población que el investigador desea estudiar. (Ej.: la nacionalidad de los visitantes a un museo). Las características poblacionales de los parámetros, pueden ser: -Variables: característica poblacional susceptible de tomar valores numéricos, es decir, que admite unidades de medida.(Ej.: años de edad, renta anual en euros, etc.) Dos tipos de variables: a) Variables Discretas: toman valores aislados (números naturales) y que no pueden tomar ningún valor intermedio entre dos consecutivos fijados. (ej: número de estrellas de un hotel, número de hijos de una familia) b) Variables Continuas: toman infinitos valores (números reales) en un intervalo dado, de modo que pueden tomar cualquier valor intermedio en su rango de variación. (ej: distancia del hotel a la playa) 4 Los dos tipos de variables pueden agruparse construyendo intervalos, entre cuyos valores extremos se ubican las diferentes observaciones registradas. Pero solo las continuas pueden ser objeto de categorización mediante intervalos. - Atributos: cuando las características de los individuos no son susceptibles de medirse numéricamente. (Ej.: color del pelo, profesión, estado civil, sexo etc.) Presentan modalidades o categorías, como por ej., sexo puede adoptar las modalidades de hombre o mujer. Los atributos pueden clasificarse en: a) Ordinales: los que sugieren una ordenación, secuencia o progresión natural esperable. Ej.: el grado de satisfacción con el trato recibido (excelente, bueno, regular, malo). b) Nominales: son los que sólo admiten una ordenación alfabética o casual. Ej.: estado civil, nacionalidad de un turista, etc. El atributo más simple es el que sólo presenta dos modalidades. Ej.: presencia/ausencia, favorable/desfavorable, etc. 1.4. La investigación estadística: Etapas de toda investigación estadística: -Definición de los objetivos perseguidos con la investigación: es la fase más importante. Se definen los parámetros poblacionales que se van a investigar (ej: gasto medio de los veraneantes en Gandia) -Recogida de datos: dos formas: ENCUESTA CENSAL (preguntando a todos los individuos que componen la población. Uso excepcional); ENCUESTA MUESTRAL (Uso general. Más ventajas: coste reducido, corto periodo de ejecución, mejor control de la calidad de datos) -Descripción y estimación de parámetros poblacionales: en la investigación censal, la investigación finaliza con la descripción de las características poblacionales con tablas y gráficos. En la investigación muestral solo hay estimaciones de los parámetros. TEMA 2.- FUENTES DE INFORMACION ESTADISTICAS DE INTERES PARA EL SECTOR TURISTICO. 2.1 INTRODUCCION Para hacer una presentación del conjunto de la información disponible para el análisis del turismo hay que tener en cuenta algunos datos relativos a la importancia de la actividad turística en España. España es un país receptor de visitantes extranjeros. Ocupa el segundo lugar en el ranking mundial, por ingresos y por número de turistas. Uno de los destinos preferidos por los europeos (80%). La industria turística en el PIB español supone más de un 10%, genera unos 2 millones de puestos de trabajo (12% del empleo total) 5 -En 2008 recibió 99,1 millones de visitantes extranjeros. El 59% de ellos eran turistas y el resto excursionistas. -Meses estivales concentran la mayor parte de llegadas (35%) -Más del 60% de los turistas internacionales eran de Reino Unido, Alemania y Francia. 93,5% era de países europeos. -Vías de acceso, 2009: 81,5% por aeropuertos; 14,6 % por carretera; el resto por ferrocarril y puertos. 35% durante el verano. Además también hay turistas españoles: -Según la estadística FAMILITUR, en 2008- 168,8 millones de viajes. 93% de esos viajes tenían como destino España. -Pernoctaciones de residentes en España en 2008: 780,9 millones -Estacionalidad: 2008: verano, Semana Santa, mayo (puente de mayo) = 60% del total de viajes. -Principales destinos internos: costa mediterránea (Andalucía, Cataluña y Comunidad Valenciana), zonas del interior (Castilla y León, Castilla-La Mancha y Comunidad de Madrid) -82,6% usó el coche para llegar al destino. 5,2% avión -Motivos: ocio, recreo y vacaciones (52%), visita a familiares o amigos (23,6%) por trabajo o negocios (16%). -33,6% alojamiento en vivienda de familiares o amigos; 29,5% vivienda propia y 17,2% en hotel. -Fidelidad: 91,9% viaje a lugares ya visitados. Las Estadísticas de interés se han clasificados en grandes grupos: 2.2 Estadísticas sobre la oferta del sector turístico: a) Los Censos: elaborados por el Instituto de Turismo de España (TURESPAÑA), creado en 1962. Funciones de TURESPAÑA: investigación de los factores que inciden sobre el turismo; elaboración, recopilación y valoración de estadísticas, información y datos relativos al turismo; creación y difusión el conocimiento y la inteligencia turística y coordinación de la información sobre el sector turístico generada por otras administraciones dependientes de la Secretaría de Estado de Turismo y TURESPAÑA. Para ello usa las bases de datos proporcionadas por las CCAA. -Censo continuo de establecimientos hoteleros: Información sobre el nombre del hotel, ubicación, categoría, precio, capacidad, pertenencia o no a cadena o holding de empresas, año de construcción o última remodelación. Anual, a través de la Guía Oficial de Hoteles y la Guía Profesional de Hoteles. También el INE incluye un resume en el Anuario Estadístico de España. -Censo continuo de acampamentos turísticos: Información sobre el nombre del camping, ubicación, categoría, capacidad, precio, pertenencia o no a una cadena o holding de empresas, año de construcción o última remodelación. Anual, “Guía Oficial de Campings” -Censo continuo de apartamentos turísticos autorizados: nombre, ubicación, categoría, capacidad, precio, pertenencia o no a cadena o holding de empresas, 6 año de construcción o última remodelación. Anual, a través de la publicación Hoteles, Camping, Apartamentos por Provincias. TURESPAÑA -Censo continuo de agencias de viajes: nombre de la agencia, ubicación, puntos de venta, mayoristas, minoristas y mixtas, pertenencia o no a cadena o holding de empresas. Se difunde con carácter monográfico. -Otras informaciones de interés turístico y de carácter censal: El INE recoge información elaborada por otras dependencias administrativas y facilita información sobre: *Albergues juveniles: fuente: Consorcio REAJ (Red Española de Albergues Juveniles). Datos sobre el número de albergues y plazas disponibles por provincias. Gratis a través de Internet. *Pernoctaciones en albergues juveniles por país y año: Consorcio REAJ. Datos sobre el número de viajeros, según nacionalidad, que pernoctaron cada año en distintos albergues españoles. *Edificaciones (año 2000) por ciudades de vacaciones: fuente: Secretaria de Estado de Comercio, Turismo y Pequeña y Mediana Empresa. Información sobre número de ciudades y destinos turísticos de las comunidades autónomas. b) Las encuestas estructurales: trimestrales o anuales. INE. Ofrecer una visión estructural de los aspectos más significativos del sector (empleo, producción, inversión) -La Encuesta Anual de Servicios, para empresas dedicadas al Turismo, Transporte, Tecnologías de la Información, Actividades Inmobiliarias y Alquileres y Servicios. Información anual sobre las características estructurales y económicas específicas de cada una de las actividades que se estudian (tamaño de la empresa, datos contables, estructura de empleo e inversión. Desagregación nacional, pero para algunas variables es autonómica. A través del Anuario Estadístico de España. c) Estadísticas de ocupación de alojamientos turísticos: por el INE en colaboración con las CCAA para obtener el número de viajeros que se alojan y otros datos (pernoctaciones, estancias medias por provincia, país de residencia, capacidad del alojamiento, grado de ocupación y personal empleado…) Reflejan la evolución del turista sen los alojamientos colectivos, pero no sobre el extrahotelero. Mensual y por Internet. Encuestas: -Ocupación hotelera: desde 1999 (antes Encuesta de Movimiento de Viajeros en Establecimientos Hoteleros). Analizados todos los establecimientos hoteleros(los que ofrecen alojamiento colectivo: hotel, apartotel, motel, hostal, pensión…) del registro de las Consejerías de Turismo de cada comunidad autónoma. Información mensual sobre establecimientos, plazas, número de viajeros, pernoctaciones, reservas efectuadas, personal ocupado, precios. En la página del INE. -Acampamentos turísticos (Camping). 1999 (antes EMVEH) Información sobre oferta y demanda de acampamentos turísticos del registro de la Conserjería de Turismo de cada CCAA. 4 categorías de camping: de lujo, primera, segunda y tercera. Información mensual sobre número de establecimientos abiertos en el mes de referencia, numero de plazas, numero de viajeros, país, pernoctaciones, estancia… 7 Estatal, pero algunas variables a nivel provincial. INE. Mensual. -Apartamentos turísticos: Demanda y oferta de estos establecimientos y empresas explotadoras de apartamentos turísticos inscritos en las Consejerías de Turismo de cada CCAA. Info mensual sobre plazas, numero de viajeros, empresas explotadoras, ocupación… Mensual. INE -Alojamiento turismo rural: situados en medio rural, edificaciones típicas de la zona, número de plazas limitado… Información mensual sobre plazas, viajeros… Encuesta de Ocupación Turística (OCUPATUR): por la Secretaría de Estado de Turismo, a través del Instituto de Estudios Turísticos. Determinar grado de ocupación en Hoteles y Casas Rurales en época de mayor afluencia. Se hace en periodos concretos: Semana Santa, puente del 1 de mayo, puente 12 octubre, puente de todos los santos, puente constitución, vacaciones de navidad. 2.3. Estadísticas sobre la demanda del sector turístico: a) Encuesta de gasto turístico en España (EGATUR): por el Instituto de Estudios Turísticos, Ministerio de Industria, Turismo y Comercio, INE y Banco de España. Medir el gasto de los visitantes no residentes en España y el de los españoles en el extranjero. Desde el 2000. Contribuye a la estimación de ingresos y pagos por turismo de la balanza de pagos y del consumo de los no residentes en la Contabilidad Nacional. Datos: motivo del viaje (turismo, estudios, visita a familiares…), frecuencia de las visitas, duración, alojamiento, organización, actividades realizadas, grado de satisfacción del viaje, gastos realizados… A nivel nacional. Informes mensuales, trimestrales y anuales en el Centro de Documentación Turística de España o a través de Internet. b) Encuesta sobre movimientos turísticos de los españoles (FAMILITUR): Mensual. Por el Instituto de Estudios Turísticos (IET), Ministerio de Industria, Turismo y comercio. Principal fuente estadística sobre el comportamiento turístico de los españoles. Entrevista personal directa a los mayores de 16 años de municipios de mías de 5000 hab. Para estimar el numero y características de los viajes de residentes en España. Desde 1996. Cuantificar y caracterizar tanto viajes entre Comunidades autónomas como al extranjero siempre que haya al menos una pernoctación fuera del lugar de residencia, independientemente del motivo. Información trimestral, sobre numero de viajes, origen y destino, motivaciones… Resultados por Internet y en el Centro de documentación turística de España. Autonómico. c) Estadística de movimientos turísticos en frontera (FRONTUR) por el IET, DGT, AENA, RENFE y puertos del Estado. Estimar entradas de viajeros. Encuestas y aforos muestrales, informaciones de trafico, aeropuertos… Para cuantificar mes a mes los viajeros que vienen a España, tipo de visitante, desplazamientos dentro de España. Mensual con 15 días de retraso. Anualmente y en temporada vacacional se añade información mas desglosada. Nivel autonómico. Se analiza país de residencia, Comunidad autónoma de destino, duración de la estancia, vías de acceso, motivos del viaje… 8 d) Balanza de pagos: desde 1999 por el Banco de España. Para registrar transacciones económicas entre residentes españoles con el resto del mundo, independientemente de su nacionalidad. Se usa un sistema basado en el registro de las transacciones internacionales comunicadas por determinado agentes económicos que tienen que informar al propio Banco de España de las operaciones realizadas no unidades no residentes. Mensual, trimestral y anual. Información en la rúbrica de Turismo y Viajes dentro de la Balanza por Cuenta Corriente. 2.4 Indicadores coyunturales: Indicadores para seguir la evolución temporal de aspectos coyunturales del sector: precios, gastos e ingresos. a) Índices de precios hoteleros (IPH): Mide la evolución del conjunto de precios del alojamiento hotelero. Por el INE, datos mensuales, autonómicos, sobre precios de habitaciones dobles con baño, sin desayuno ni IVA, con tarifa normal, fin de semana, especial a tour-operador, tarifa especial a empresas o grupos. b) Indicadores de Rentabilidad del Sector Hotelero: 2010. INE. Sustituyen al Índice de Ingresos Hoteleros. Reflejan los cambios en el sector de los últimos años, nuevos canales de distribución (Internet). Autonómico. Resultados a final de mes en el Boletín Mensual de Estadística e Internet (INE) -ADR (Average Daily Rate): tarifa media facturada por el servicio de alojamiento en habitación doble con baño, sin incluir IVA ni otros servicios. -RevPAR (Revenue Per Available Room): ingresos medios por habitación disponible. Para calcular estas variables, se usa la información que los establecimientos hoteleros declaran en la Encuesta de Ocupación Hotelera. c) Índice de precios de acampamentos turísticos: Mide la evolución mensual de los precios de camping. Información a nivel nacional, según el tipo de tarifa y categoría del establecimiento. Se usan los datos de la Encuesta de Ocupación en Acampamentos Turísticos por la que se obtiene información sobre la ocupación de los campings, su estructura, etc. d) Índice de precios de apartamentos turísticos: Mide la evolución mensual de los precios de establecimientos de apartamentos turísticos. Información a nivel nacional por tipo de tarifa y modalidad del apartamento. Se usa la Encuesta de Ocupación en Apartamentos Turísticos y la información que recoge mensualmente sobre la ocupación de los apartamentos turísticos, estructura… e) Índice de precios de alojamientos de turismo rural: Mide la evolución mensual de los precios. Información a nivel nacional según tipo de tarifa y modalidad de alquiler. Es una medida estadística de la evolución mensual de precios. Se usa la Encuesta de Ocupación en Alojamientos de Turismo Rural y la información sobre unos 5300 establecimientos a los que se les envía el cuestionario. Información sobre el establecimiento, estructura… 9 2.5. Estadísticas sobre el empleo en el sector turístico: a) La Encuesta de Población Activa (EPA): Macroencuesta trimestral del INE. Información sobre la actividad económica de los ocupados, parados, activos e inactivos. Cifras por provincias y en grandes sectores, pueden ser más específicas. b) Afiliación de Trabajadores al Sistema de Seguridad Social (MTAS): Mensual. Publicada por el Ministerio de Trabajo e Inmigración. Sobre los afiliados dados de alta en la SS por regímenes (general, autónomos y especiales), por comunidades autonomías y provincias. c) Otras: -La encuesta de coyuntura Laboral (Ministerio de Trabajo e Inmigración): Trimestral. Dirigida a empresas. Información sobre el mercado de trabajo desde el punto de vista de las empresas. -Encuesta Trimestral de Coste Laboral: INE. Niveles e indicadores sobre el coste laboral medio por trabajador y mes, coste laboral medio por hora de trabajo y el tiempo trabajado y no trabajado. -Estadística de contratos registrados: Mensual. INE. Estadísticas sobre paro según provincia, edad y sexo, demandantes de empleo y sectores económicos. 2.6. Estadísticas de síntesis: a) Cuentas Satélites de Turismo: INE, IET y Banco de España. Cuentas y tablas de los distintos parámetros económicos del turismo en España. La de más reciente implantación y envergadura. Intenta armonizar todas las informaciones económicas del turismo para evaluar su impacto económico real. Comprende tres tipos de elementos: -Cuentas y tablas de oferta: estructura de producción y costes de las empresas turísticas. -Tablas de demanda: tipos de turistas, turismo nacional e internacional, tipo de bienes y servicios demandados… -Tablas que interrelacionan oferta y demanda: mediciones de la aportación del turismo a la economía a través del PIB, producción o empleo. b) Ficha de coyuntura turística: Mensual por el Instituto de Estudios Turísticos. Información sobre resultados relativos al turismo: -Cifras de viajeros de las encuestas FRONTUR, EGATUR Y FAMILITUR. -Magnitudes de las diferentes Encuestas de Ocupación publicadas por el INE -Índices de precios (IPC, IPH) y de ingresos hoteleros. -Datos de la Balanza de pagos. 2.7 Estadísticas realizadas por las comunidades autónomas: Realizadas por las Consejerías de turismo de las CCAA, por los Institutos Regionales de Estadística, otros servicios regionales de estadística u otros centros de investigación (p.ej.: SAETA en Andalucía). 10 Dos tipos de fuentes de información: directorios y estadísticas derivadas de Encuestas. TEMA 3. DISTRIBUCIÓN DE FRECUENCIAS UNIDIMENSIONALES. 3.1. Introducción. Tabulación: ordenar de menor a mayor los valores de la variable analizada y agrupar los valores contando el número de veces que se repiten. Distribución de frecuencias unidimensional: conjunto de k valores diferentes de la variable X, denotados por x1, x2,…xk, ordenados de menor a mayor, acompañados de sus respectivas frecuencias absolutas n1, n2, … nk Frecuencia Absoluta (ni). Número de veces que se presenta una observación, es decir, número de veces que aparece cada uno de los valores de una variable o cada una de las modalidades de un atributo. Frecuencia total (N). número total de datos considerados. Si se parte de la población, es el tamaño de la población; si se parte de las modalidades o valores de una muestra, es el tamaño de la muestra. k N ni i 1 Frecuencia relativa. (fi):Cociente entre la frecuencia absoluta con la que se presenta un valor o una modalidad y la frecuencia total de datos. (fi = ni / N); suele expresarse en tantos por 100 o en tantos por uno. La suma de todas las frecuencias k relativas siempre debe ser igual a 1 i 1 fi 1 Frecuencia absoluta acumulada Ni Frecuencia absoluta más la suma de las frecuencias absolutas de todos los valores anteriores. N1 = n1 N1 = n1 + n2 … N1 n1 n2 nk 1 nk N Frecuencia relativa acumulada (Fi): Cociente entre la frecuencia absoluta acumulada y la frecuencia total: Fi = Ni / N Se expresa en tanto por uno. También se puede definir como la suma de la frecuencia relativa del dato con las frecuencias relativas de todos los datos anteriores. Ejemplo: Se tira un dado 100 veces: resultado: 10 veces la cara 1, 15 la cara 2, 25 la cara 3, 30 la cara 4, 15 la cara 5, 5 la cara 6. 11 -La variable X (lanzamiento de un dado), toma k posibles valores (1, 2, 3, 4, 5, 6), de modo que el subíndice i varía entre 1 y 6. Posibles valores que toma X (los x i) son: x1 = 1, x2 = 2, x3 = 3, x4 = 4, x5= 5, x6 = 6 -El valor xi aparece ni veces, el valor x1 aparece n1 veces, es decir 10 veces y N es 100. -Frecuencia absoluta: n1 = 10, n2 = 15, n3 = 25, n4 = 30, n5 = 15, n6 = 5 La frecuencia absoluta de la cara 1 del dado es 10. -Frecuencia total o total de datos: N = 100 -Frecuencia relativa: f1 = 10/100 = 0,10 = 10%, f2 = 15%, f3 =25%, f4 =30%, f5 =15%, f6 = 5% -Frecuencia absoluta relativa: N1 = 10, N2 = 25, N3 = 50, N4 = 80, N5 = 95, N6 = 100 -Frecuencia relativa acumulada: F1 = 10%, F2 = 25%, F3 = 50% F4 = 80%, F5 = 95%, F6 = 100% 3.2 Tipos de distribuciones de frecuencias: Dos tipos: -Distribuciones de frecuencias con datos no agrupados: cada valor de la variable x i lleva asociado una frecuencia ni. Se usa cuando la variable X toma pocos valores, pero se repiten un gran número de veces. Un caso frecuente son las distribuciones unitarias: todas las frecuencias absolutas son unitarias ni = 1 -Distribuciones de frecuencias con datos agrupados en intervalos: los valores de la variable quedan agrupados en intervalos. Es útil cuando el número de valores de la variable es muy elevado, pero se pierde parte de la información. Solo se pueden agrupar las variables de tipo cuantitativo. Li 1 , Li donde Li 1 es el límite inferior (valor de la variable más pequeño) y Li es el límite superior (valor más variable en él). La amplitud de los intervalos se define como: ai Li Li 1 es decir, la diferencia entre el límite superior e inferior. No es posible operar con los valores de un intervalo, así que recurrimos a la marca L Li de clase (xi), punto medio de un intervalo: xi i 1 2 3.3 Representación gráfica. Conjuntos de métodos para representar las observaciones estadísticas mediante magnitudes o figuras geométricas. Para proporcionar una visión global de los datos, pero el gráfico no sustituye a la tabla estadística, es un complemento, porque la información gráfica es menos precisa. Diagrama de barra. Se emplean para variables discretas en distribuciones de frecuencia de datos sin agrupar. Son útiles para comparar valores discretos a partir de dos o más series. Representan los valores de las variables en el eje de abscisas 12 (valores xi) y en el de ordenadas, se levanta, para cada punto, una barra con un valor igual a la frecuencia absoluta o relativa. Histogramas. Es un tipo especial de gráfico de barras que se usa para ver los datos agrupados en intervalos.Conjunto de rectángulos donde cada uno representa una clase. La base de los rectángulos es igual a la amplitud del intervalo y la altura se determina de tal forma que el área del rectángulo sea proporcional a la frecuencia de cada clase. Si la amplitud de los intervalos es diferente, la altura de los rectángulos hi debe determinarse aplicando la siguiente fórmula: n ai=amplitud del intervalo correspondiente. hi i ai Diagrama de sectores: Muestran las contribuciones relativas de cada punto de los datos al total de la serie. En un gráfico de sectores solo se representa una serie. El área de cada sector es proporcional a las frecuencias absolutas n i de cada modalidad Diagrama de tallos y hojas: similar a los histogramas. Aporta más información que los histogramas. Permite obtener simultáneamente una distribución de frecuencias de la variable y su representación gráfica. Se separa en cada dato el último dígito de la derecha (hoja) del bloque de cifras restantes (tallo) TEMA 4. LAS MEDIDAS DE POSICIÓN EN UNA DISTRIBUCIÓN DE FRECUENCIAS UNIDIMENSIONALES. 4.1. Introducción Todo análisis estadístico se inicia con una fase descriptiva de los datos para organizar la información elaborando tablas de frecuencias y representaciones gráficas. Después se trata de resumir la información en las tablas de frecuencias, a través de una serie de medidas (“estadísticos”) que resumen toda esa información y caracterizan a la distribución. Medidas más habituales: Sintetiza toda la información obtenida reduciéndola a un solo valor. -De posición central: hace referencia a un número central que se considera representativo de toda la muestra o población. Media aritmética, media geométrica, media armónica, mediana, moda. -De posición no central: permiten conocer otros aspectos característicos de la distribución que no están relacionados con los valores centrales. De las medidas más importantes: los cuantiles. Medidas de dispersión (o variablidad): Muestran la variabilidad de una distribución, indicando numéricamente si los valores de una variable están muy alejados con respecto a una medida de posición central. Absolutas. Recorrido o rango, recorrido intercuatílico, desviación absoluta media, varianza o desviación típica. Relativas. Coeficiente de apertura, recorrido relativo, recorrido semiintercualítico y coeficiente de variación. 13 Medidas de concentración o de uniformidad. Cuantificar el grado de desigualdad en el reparto o distribución de una variable (generalmente de tipo económico: renta, beneficios…), entre un número de unidades (individuos, familias, empresas…). Índice de concentración de Gini y Curva de Lorenz. Medidas de forma: permiten establecer una tipología de distribuciones comparando su representación gráfica con la distribución normal. Medidas de asimetría y de apuntamiento o curtosis. 4.2. MEDIDAS DE POSICIÓN: 4.2.1 Media aritmética Variable que se define como la suma de todos los valores de la variable dividida por el número total de observaciones. k x x n i i 1 i N x1 n1 x1 n2 x k nk N Distribuciones de frecuencias con datos agrupados por intervalos: valores xi usados para calcular la media serán las marcas de clase. Uso de la media aritmética: con datos de naturaleza aditiva (rentas, salarios, beneficios, pesos…) A veces no todos los datos tienen la misma importancia para la investigación, así que puede ser útil otorgar pesos o valores a los datos. En estos casos se usa la media aritmética ponderada: x w cada valor de la variable ponderación o peso independientemente de su frecuencia. xi recibe la k xw w x n i 1 k i 1 i w n i 1 i w1 x1 n1 w2 x 2 n2 wk x k nk w1 n1 w2 n2 wk nk i wi es la ponderación de la variable xi k w i 1 i es la suma de todas las ponderaciones. Propiedades de la media aritmética. La suma de las desviaciones de todos los valores respecto a su media aritmética es cero. k _ ( x x)n i 1 i i 0 14 Si multiplicamos o dividimos todas las observaciones por un mismo número, la media queda multiplicada o dividida por dicho número (“cambio de escala”) Si le sumamos a todas las observaciones un mismo número, la media aumentará en dicha cantidad (“cambio de origen”) Si una variable Y es transformación lineal de otra variable X, de modo que Y=a+bX la media de Y sigue la misma transformación lineal con respecto a la media de X: _ yi ni (a bxi )ni (ani bxi ni ) a ni b xi ni a b x_ y N N N N N Ventajas. Es calculable en todas las variables cuantitativas Todos los valores de la distribución se utilizan para su cálculo. Es un concepto familiar para la mayoría de las personas y es intuitivamente claro. Es única para cada distribución de frecuencias Claro significado; representa todos los valores observados por ser el centro de gravedad de la distribución. Inconveniente: -es un valor muy sensible a los valores extremos. (no sirve para distribuciones con una gran dispersión de datos). -No es calculable cuando los parámetros son cualitativos. -A veces es difícil el cálculo en distribuciones con intervalos abiertos. En estos casos es necesario estimar una marca de clase para poder calcular la media y esta nos varía si cambiamos la marca de clase. 4.2.2 Media geométrica. De posición central. Se usa cuando los valores de la variable no son de naturaleza aditiva, sin o acumulativa o con efectos multiplicativos (p.ej.: tipos de interés, porcentajes, tasas…) En estos casos la media aritmética no tiene un claro significado, ya que la suma de estas magnitudes no representa un total de recursos. Por eso se usa la media geométrica k G N xini i 1 = N x1n1 x2n2 xknk = (x x x ) n1 1 n2 2 nk k 1 N 15 Ventajas. Es más representativa que la media aritmética cuando la variable evoluciona de forma acumulativa con efectos multiplicativos. Su valor está definido de forma objetiva y es único. Para su cálculo se tienen en cuenta todos los valores de la distribución. Los valores extremos tienen una menor influencia que en la media aritmética. Inconvenientes: Mayor complicación de los cálculos Indefinición (da números de naturaleza imaginaria) cuando tiene valores negativos y su valor nulo cuando una observación toma este valor. Si algún valor de la variable es igual a cero, el resultado obtenido no es representativo porque se obtiene una media geométrica nula. El cálculo de la media geométrica exige el uso de logaritmos o programas informáticos. El logaritmo de la media geométrica es igual a la media aritmética de los logaritmos de los valores de la variable: k logG = n i 1 i log x i N 4.2.3 Media armónica. Su utilización es poco frecuente, se usa cuando los datos observados no son de naturaleza aditiva ni multiplicativa. Solo se emplea para promediar rendimientos, velocidades, productividades, etc. La media armónica H es la inversa de la media aritmética de los inversores de los valores de la variable. H N N n n1 n2 ni k x1 x2 xk i 1 xi n Ventajas. Es más representativa que otras medias en los casos de obtener promedios de velocidades, rendimientos, productividades, etc. Está definida de forma objetiva y es única. Cálculo sencillo, se tiene en cuenta todos los valores de la distribución Se utilizan todos los valores de la distribución. Los valores extremos tienen una menor influencia que en la media aritmética. 16 Inconvenientes: No se puede utilizar cuando las variables tienen valores muy pequeños o 0, porque sus inversos pueden aumentar hasta el infinito, eliminando el resto de los valores. 4.2.4 La mediana Hasta ahora hemos visto medias de posición central, que equilibran los valores de una distribución compensando los más elevados con los intermedios y pequeños para determinar su centro de gravedad. Problema: Son muy sensibles a los valores extremos muy altos o muy bajos de las distribuciones (cuando existe mucha dispersión, los hacen poco representativos) Para ello se usa la mediana: distribución de frecuencias, previamente ordenada en orden creciente o decreciente. Se define como el valor central de la variable que divide la distribución en dos partes iguales dejando el mismo número de frecuencias a su izquierda que a su derecha. Calculo de la mediana en el caso de distribuciones con valores no agrupados en intervalos Si la distribución de frecuencias es unitaria: -Si el número de observaciones, N, es impar, hay un término central, el término X N 1 que será el valor de la mediana. 2 -Si el número de observaciones, N, es par, hay dos términos centrales, X N , X N 2 2 1 la mediana será la media aritmética de esos dos valores. Si la distribución de frecuencias no es unitaria, se calcula el valor de N/2 y compararlo con las frecuencias absolutas acumuladas. Se observa la primera frecuencia acumulada que supera o iguala a N/2 distinguiéndose dos casos: -Si N/2 coincide con algún valor de la columna de frecuencias absolutas acumuladas, entonces la mediana será la media aritmética entre el valor de la variable cuya frecuencia absoluta acumulada es N/2 y el siguiente valor de la variable. -Si N/2 no coincide con ningún valor de la columna de frecuencias absolutas acumuladas, entonces la mediana será el primer valor de la variable cuya frecuencia absoluta acumulada sea superior a N/2. Cálculo de la mediana en el caso de distribuciones agrupadas por intervalos: Si la variable está agrupada en intervalos la mediana se calcula en parecida forma que el apartado anterior. Determinado el intervalo cuya frecuencia absoluta acumulada es igual o mayor a N/2, la mediana se obtiene: 17 -Si N i N / 2 coincide con algún valor de la columna de frecuencias absolutas acumuladas, entonces por convención el valor de la mediana será el extremo superior del intervalo que verifica dicha condición. -Si N i no es igual a N/2, el intervalo que contiene a la mediana es el primer valor de la variable cuya frecuencia absoluta acumulada N i sea mayor que N/2. En este caso se usa la siguiente fórmula: N / 2 N i 1 Me Li 1 ai ni - Li extremo inferior del intervalo cuya frecuencia absoluta acumulada es superior a N/2 - N i 1 es la frecuencia absoluta acumulada en el intervalo inmediatamente anterior - a i es la amplitud del intervalo con frecuencia absoluta acumulada superior a N/2 Ventajas. Es la medida más representativa en le caso de las variables cualitativas o atributos, que solo admiten una escala ordinal. Su cálculo es sencillo. Tiene una fácil interpretación estadística No es sensible a los valores extremos de la distribución Inconvenientes: En su determinación no se tiene en cuenta todos los valores de la variable. (Este inconveniente puede constituir incluso una ventaja, ya que es posible su cálculo cuando no se conocen los valores extremos pero sí su frecuencia) 4.2.5. La moda Mo : valor de la variable que más veces se repite. El cálculo de la moda depende de si los valores de la variable se encuentran o no agrupados en intervalos: -En las distribuciones de frecuencias no agrupadas en intervalos, la moda será el valor de la variable que presente la máxima frecuencia. A veces también se da la moda relativa: valor o valores de la variable cuya frecuencia absoluta no es superada por la de sus valores contiguos. -En las distribuciones de frecuencias con valores agrupados en intervalos: Intervalo modal: el que presente la mayor frecuencia, siempre que la amplitud de todos los intervalos sea la misma. En caso contrario, la moda será el intervalo que presente la mayor densidad de frecuencia d i en relación a la amplitud del intervalo n a i , el que presente el mayor valor d i i ai a) Si todos los intervalos tienen la misma amplitud: ni 1 Mo Li 1 ai ni 1 ni 1 18 Li el extremo inferior del intervalo con frecuencia absoluta. ni 1 y ni 1 frecuencias absolutas del intervalo anterior y posterior al de mayor frecuencia absoluta a i amplitud del intervalo de mayor frecuencia. b) Que los intervalos tengan distinta amplitud d i 1 M o Li ai d i 1 d i 1 Li el extremo inferior del intervalo con mayor densidad de frecuencia. a i amplitud del intervalo d i 1 y d i 1 densidades de frecuencia del intervalo anterior y posterior al de mayor densidad de frecuencia. Ventajas. Es la única medida más de posición central que puede obtenerse en las distribuciones con datos cualitativos, ya que es posible determinar la categoría o modalidad que más se repite en un determinado atributo Su cálculo es sencillo. Tiene una fácil interpretación estadística, ya que nos da el valor o modalidad que más se repite. Inconvenientes: En su determinación no intervienen todos los valores de la distribución, centrándonos solo en la mayor frecuencia absoluta de un determinado valor de la variable o modalidad de los atributos. 4.2.6. Los cuantiles (medidas de posición no centrales) Son valores de la variable que dividen la distribución en partes iguales respecto a las frecuencias de la distribución, en cada una de ellas hay el mismo porcentaje de valores de la variable. -Los cuarteles C i son tres valores que dividen a la distribución en cuatro partes iguales C1C 2 C3 que corresponden al 25%, 50% y 75% -Los deciles Di son nueve valores que dividen la distribución en diez partes iguales D1 D2 ...D9 que corresponden al 10%, 20%...90% -Los percentiles Pi son 99 valores que dividen la distribución en cien partes iguales P1 P2 ...P99 que corresponden al 1%, 2%...99% Se calculan de la misma manera que la mediana por lo que son válidas las reglas de cálculo explicadas para ésta. -Cálculo de cuantiles en distribuciones con valores no agrupados en intervalos: a) Se obtienen los diferentes valores teóricos de las frecuencias acumuladas de 19 rN (r: cuantil correspondiente; q: número de intervalos con iguales q frecuencias en que se divide la distribución usando dicho cuantil; N: total de datos. b) Se compara el resultado obtenido con la columna de frecuencias absolutas acumuladas de la distribución, de manera similar a como se hace con la mediana: rN Si coincide con algún valor de la columna de frecuencias acumuladas, el q valor del cuantil es igual a la media aritmética del valor de la variable cuya rN frecuencia absoluta acumulada es y el siguiente valor de la variable. q rN Si la frecuencia acumulada no coincide con , el valor del cuantil será el q rN primer valor de la variable cuya frecuencia absoluta acumulada sea superior a q -Cálculo de cuantiles en distribuciones con valores agrupados en intervalos: usamos la siguiente fórmula: rN N i 1 q Q Li ai ni Li extremo inferior del inervalo cuya frecuencia absoluta acumulada es rN superior a q N i 1 es la frecuencia absoluta acumulada en el intervalo inmediatamente anterior rN a i ampitud del intervalo con frecuencia absoluta acumulada superior a q cuantil 4.3 LAS MEDIDAS DE DISPERSIÓN. Objetivo de las medidas de posición: sintetizar los datos de una distribución en un único valor representativo. Objetivo de las medidas de dispersión es decir hasta qué punto las medidas de posición son realmente representativas de los datos. Mediante las medidas de dispersión se puede cuantificar la separación o variabilidad de los valores de la distribución con respecto a un valor central. A mayor dispersión menor representatividad tienen la medidas de posición para describir la distribución de frecuencias. 4.3.1. Medidas de dispersión absoluta: Su valor está expresado en las unidades de medida de la variable. Las principales son el recorrido, el recorrido intercuartilico, la desviación absoluta media respecto a la mediana, la varianza y la desviación típica o estándar. 20 RANGO: En una distribución con los valores ordenados de menor a mayor, es la diferencia entre el mayor valor y el menor de una distribución. También se conoce con el nombre de amplitud total. Se representa como R y se obtiene mediante la fórmula: R x k x1 La ventaja fundamental es la sencillez de cálculo. Inconveniente: es una medida imprecisa. RECORRIDO INTERCUARTÍLICO: Diferencia entre el tercer cuartil y el primer cuartil de la distribución. RI Se calcula: RI C3 C1 DESVIACIÓN ABSOLUTA Desviaciones (D): Diferencia entre el valor de la variable y la media aritmética. Son muchas medidas y precisamos una medida que resuma dicha información. Esta medida no puede ser la media aritmética ya que la suma de las desviaciones de los valores respecto de su media aritmética es 0. k D x i 1 i P ni N indican que las diferencias entre los diferentes valores de la variable X y la medida de posición P son consideradas en valor absoluto. Si sustituimos P por medidas de posición concretas, obtenemos diferentes medidas de dispersión: La desviación media o desviación absoluta media ( D x ): la media de los valores absolutos de las desviaciones respecto a la media aritmética. k Dx x i 1 i x ni N La desviación absoluta respecto a la mediana: La media se ha sustituido por la mediana. i DMe x i 1 i Me ni N 21 VARIANZA: Es la media aritmética de los cuadrados de las desviaciones respecto a la media. S2 k S2 (x i 1 i P ) 2 ni N DESVIACIÓN TÍPICA O ESTÁNDAR: Es la raíz cuadrada de la varianza tomando el resultado con signo positivo. Es la medida de dispersión más importante en estadística aplicada. Una desviación típica pequeña significa que todos los valores de la distribución se sitúan próximos a la media, mientras que una desviación típica elevada implica la existencia de valores, por exceso o por defecto, muy alejados de la media. s k i 1 x 2 i x ni N 4.3.2 Medidas de dispersión relativas Están definidas por cociente y no dependen de las unidades de medida. Permiten comparar la dispersión de distintas distribuciones y ver en cuáles son más representativas las medidas de posición. Las medidas de dispersión relativa más importantes son el coeficiente de apertura, el recorrido relativo, el coeficiente de variación de Pearson, etc. Tratan de hacer comparables distribuciones diferentes, es decir, distribuciones que no vienen expresadas en las mismas medidas. Son medidas adimensionales. COEFICIENTE DE VARIACIÓN DE PEARSON: Es el cociente entre la desviación típica y el valor absoluto de la media. Se expresa: S X Se puede expresar en porcentaje: S 100 X Si γ = 0 no hay dispersión Si γ = o menos al 30% dispersión es óptima Si γ superior al 50%, la media es muy poco representativa 22 LA TIPIFICACIÓN DE VARIABLES: Para transformar cualquier variable en una nueva que llamaremos Z con media igual a cero y varianza igual a uno. Se resta a cada valor de la variable la media de la distribución y se divide el resultado por la desviación típica X X Zi i S 4.4. MEDIDAS DE FORMA. Se usa cuando dos distribuciones coinciden en sus medidas de posición y dispersión y no hay datos analíticos para ver si son distintas. -MEDIDAS DE ASIMETRIA: Para estudiar la deformación horizontal de los valores de la variable Una distribución es simétrica cuando a la derecha y a la izquierda de su media hay el mismo número de valores. X Me Mo As < 0 Asimétrica negativa a la izquierda As > 0 Asimétrica positiva a la derecha As = 0 Simetría Para medir la simetría sin necesidad de representar gráficamente la distribución se usan distintos indicadores. El coeficiente de asimetría de Fisher: Cuando la distribución no es unimodal ni campaniforme. k (x i 1 g1 i x ) 3 ni N S3 La desviación típica es siempre positiva, así que el signo de g 1 dependerá del signo del numerador. Según el valor de g1 se deduce que: Si g1 = 0 la distribución es simétrica. Si g1 < 0 la distribución es asimétrica a la izquierda. Si g1 > 0 la distribución es asimétrica a la derecha. 23 La Medida de asimetría de Pearson: x Mo S Ap El signo del resultado depende del numerador, ya que la desviación típica siempre es positiva. -Si A p 0 la distribución es asimétrica a la derecha. -Si A p 0 la distribución es asimétrica -Si A p 0 la distribución es asimétrica a la izquierda Es sencillo de calcular, pero solo se puede usar con distribuciones unimodales y campaniformes. -MEDIDAS DE APUNTAMIENTO O CURTOSIS. Tratan de estudiar la distribución de frecuencias en la zona media de la distribución. El mayor o menor número de valores de la variable alrededor de la media dará lugar a una distribución mas o menos apuntada. Para estudiar el apuntamiento hay que definir una distribución tipo que nos sirva de referencia. Esta distribución es conocida como la distribución normal o la curva de Gauss. Tiene forma de una campana donde la gran mayoría de los valores se encuentran concentrados alrededor de la media, siendo escasos los valores que están muy distanciados de ésta. Distribución normal. Con esta distribución normal, según su apuntamiento, puedes distinguirse entre: distribución mesocúrtica, si la distribución de sus datos es la misma que la de la variable normal; distribución leptocúrtica, si está más apuntada que la normal; platicúrtica, si está menos apuntada que la normal. El coeficiente de curtosis de Fisher nos mide el grado de apuntamiento de la distribución sin necesidad de efectuar la representación grafica. k (x i 1 g2 i x) 4 ni N S4 3 Si g2 = 0 la distribución es mesocúrtica (normal) Si g2 > 0 es leptocúrtica o más apuntada. Si g2 < 0 es platicúrtica o menos apuntada. 24 4.5. MEDIDAS DE CONCENTRACIÓN. Ponen de manifiesto el mayor o menor grado de igualdad en el reparto total de los valores de la variable. Son indicadores del grado de equidistribución de la variable. Proceden de la economía, se aplican a distribuciones de rentas, salarios… Las medidas de concentración se basan en la siguiente idea: sean k individuos cuyos valores de la variable (rentas, salarios,…) son x1 , x 2,, x k siendo k P xi el dinero total repartido por los individuos. i 1 Podemos encontrarnos con situaciones extremas: -Concentración máxima (menor equidad en el reparto): Un solo individuo percibe el total y los demás nada. x1 x2 xk 1 0 xk p -Concentración mínima (mayor equidad en el reparto): El conjunto total de valores P de la variable está repartido por igual. x1 x 2 x k k Para medir la concentración se usan dos medidas: Curva de Lorenz: Se construye representado en el eje de abscisas el porcentaje de frecuencias acumuladas y en el eje de ordenadas los porcentajes acumulados del total de la variable. La forma de la curva nos permite determinar el nivel de concentración. Para obtener la curvase debe crear una tabla con las siguientes columnas: -Una primera columna con los valores de la variable, xi i=1,2,…,k -Una segunda columna con las frecuencias ni de cada valor de la variable. -Los productos de los valores de cada variable por su frecuencia xi ni -Las frecuencias absolutas acumuladas N i -Los totales acumulados u i que se definen como la suma acumulativa de los productos de los valores de cada variable por su frecuencia: u1 x1n1 u 2 x1n1 x2 n2 k u k x1 n1 x 2 n2 ... x k nk xi ni i 1 -La columna total de frecuencias acumuladas relativas pi expresado en tanto por ciento N Pi i 100 N ui 100 uk -La última columna con las diferencias entre pi y qi -La columna de valores qi qi pi qi La curva de Lorenz: se dibuja un cuadrado cuyos lados están divididos en una escala de 0% a 100%. Representando en el gráfico los pares de valores (pi, qi) y uniendo los puntos obtenemos la curva de Lorenz. La curva se representa junto con la diagonal del cuadrado, la línea de equidad. La curva siempre se sitúa debajo de 25 la línea porque pi=qi y los valores están ordenados de menor a mayor. La curva es siempre creciente (porque pi y qi son valores acumulados) y convexa. La diagonal es útil para determinar el nivel de concentración de la distribución, se pueden dar dos casos extremos: -Concentración mínima: la curva coincide con la diagonal. pi=qi Máxima equidad. -Concentración máxima: la curva coincide con los lados del cuadrado. qi=0 i=1,2,…,k-1 y qk=100 No hay equidad en el reparto. Índice de Gini Cuantifica el grado de aproximación entre la curva de Lorenz y la línea de equidad. k 1 IG ( p i 1 i qi ) k 1 p i 1 i El sumatorio ( ) termina en k-1 porque en el numerador, aunque abarcase hasta k, solo tendríamos (k-1) sumandos, al ser pk=qk=100, con lo que pk-qk es siempre igual a cero. Puede haber dos casos extremos: -Concentración mínima ( I G 0 ) al verificarse que p=qi 0 I G k 1 0 pi i 1 -Concentración máxima ( I G 1 ) al verificarse que qi=0 para i=1,2,…,k-1 y qk=100 obtenemos que: k 1 IG p i p i i 1 k 1 i 1 1 El índice de Gini oscila entre 0 y 1. Cuanto más cerca esté el valor a cero, menos será la concentración (mayor equidad en el reparto) TEMA 5. DISTRIBUCIÓN DE FRECUENCIAS BIDIMENSIONALES, REGRESIÓN Y CORRELACIÓN. 5.1. Introducción En práctica es muy frecuente que en el estudio de una población estemos interesados en medir no sólo una, sino varias variables; cuando estudiamos dos variables de una población tenemos una distribución de frecuencias bidimensional, si estudiamos múltiples variables dispondremos de una distribución de frecuencias multidimensional. 26 5.2. Tabulación de distribuciones de frecuencias bidimensionales. Se llama distribución conjunta e frecuencias de las dos variables (x, y) a la tabla que representa los valores observados en ambas variables y las frecuencias relativas de aparición de cada una de las variables. Cuando las variables son cuantitativas a las tablas de frecuencias se les denomina tablas de correlación. Si por el contrario estamos ante variables cualitativas o atributos se denominan tablas de contingencia. nij x\y y1 x1 x2 ... xi ... xr x.j n11 n2 ... ni1 ... nr1 n.1 y2 ... n12 ... n22 ... ... ... ni2 ... ... ... nr2 ... n.2 ... ys n1s n2s ... nis ... nrs n.s ni. n1. n2. .... ni. .... nr. n.. = N Donde: frecuencia absoluta conjunta: número de veces que se presenta conjuntamente ( xi , y j ) La suma de las frecuencias absolutas conjuntas es igual al número total de observaciones tal que r s n i 1 j 1 f ij ij N frecuencia relativa conjunta ( f ij ) : cociente entre la frecuencia absoluta conjunta y la total: f ij nij N ni , n j frecuencias absolutas marginales: en la última fila y en la última columna de la tabla se totalizan las frecuencias correspondientes a cada uno de los valores de las variables. -La frecuencia absoluta marginal del valor xi , ni número de veces que se presenta xi con independencia de los valores de la variable Y s ni ni1 ni 2 nis nij j 1 -La frecuencia absoluta marginal del valor y j , n j representa el número de veces que se presenta y j independientemente de los valores de la variable X r n j n1 j n2 j nrj nij i 1 27 En ambos casos se verifica que: r n i 1 i n1 n 2 n r N j n1 n2 n s N s n j 1 Frecuencias relativas marginales: cociente entre la frecuencia absoluta marginal y la total: n j n f j f i i N N f i , f j Si la distribución tiene pocas observaciones, la tabla de correlación sigue siendo válida. 5.3.Distribuciones marginales y condicionadas. -Distribuciones marginales: A partir de las frecuencias marginales absolutas se pueden obtener las distribuciones marginales para cada variable de la distribución bidimensional, mediante la que se examina el comportamiento individual de cada una de ellas. En las distribuciones marginales unidimensionales, se pueden calcular las medidas de posición, dispersión forma y concentración. Las medias marginales y varianzas marginales para las variables X e Y se pueden definir de la siguiente forma: r x x n i i 1 i N s y y n j 1 j N r S 2 x j (x i 1 x ) ni r 2 i N x i 1 2 i N ni x 2 28 s S y2 (y s y ) n j 2 j N y j 1 2 j j n N y 2 -Distribuciones condicionadas: El conjunto de valores que toma una de las variables está delimitado por el valor que toma la otra. Por ejemplo, X está condicionada a que Y tome el valor y3. La tabla correspondiente sería: xi / Y y 3 ni / Y y3 x1 n13 x2 n23 … … xr nr3 n.3 La frecuencia total no es N, sino n.3 porque partimos de la condición de que Y toma el valor de y3 La forma de la distribución de X condicionada a Y y j y de la distribución de Y condicionada a X xi será la siguiente: X ¡ xi / Y y j x ni / j y i / X xi Y n j/i x1 n1 j y1 n i1 x2 n2 j y2 ni 2 xr n rj ys nis n j ni Las frecuencias relativas condicionantes se definen como: nij nij fi / j nij n j f ij N n j f j N f j/i nij f ij N ni ni f i N Dado el carácter univariante de las distribuciones condicionadas también es posible calcular las diferentes medidas de posición, dispersión, forma y concentración. 5.4 Dependencia estadística Para conocer el grado de relación existente entre las variables que componen loas distribuciones bidimensionales. Dos puntos de vista: 29 -La correlación: estudiar la intensidad y el signo de la relación entre dos variables. - Regresión: explicar el comportamiento de una variable (dependiente, endógena o explicada) a partir del comportamiento de otra variable (independiente, exógena o explicativa) Normalmente es sencillo establecer la relación de dependencia entre dos variables estudiando su diagrama de dispersión de dos variables. Diagrama de dispersión usa las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos. Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que determina la posición en el eje horizontal y el valor de la otra aparece en el eje vertical. En este gráfico: -la relación entre variable puede ser directa: aumenta X, aumenta Y y viceversa. -Inversa: aumento de X implica una reducción de Y y viceversa. -Puede no haber una relación evidente entre las variables. COVARIANZA Y CORRELACIÓN: Covarianza: medida que nos permite conocer el signo de la relación entre dos variables. S xy r S xy s ( x i 1 j 1 y )nij i N = r S xy s n y n i 1 j 1 N i j ij xy S xy 0 hay dependencia directa o positiva, las variables varían en el mismo sentido. - S xy 0 hay dependencia inversa o negativa, las variables varían en sentido opuesto. a) PROPIEDADES DE LA COVARIANZA: 1. S xy S yx 2. Si a todos los valores de la variable X les sumamos una constante a y a todos los valores de la variable Y les sumamos una constante b el valor de la covarianza no varía. 3. Multiplicando los valores de X por una constante a y los valores de Y por una constante b la covarianza queda multiplicada por el producto de las constantes a y b 30 4. Aplicando transformaciones lineales a las variables X e Y tal que Z=a+bX y T=c+dY la covarianza entre las variables transformadas en Ty Z se relaciona con S zr bdS xy El principal inconveniente de la covarianza es su dependencia de las unidades, su valor es sensible a los cambios de escala; su valor no está acotado, no se puede comparar entre las covarianzas de diferentes distribuciones. En la práctica la utilidad de la covarianza se limita a establecer el sentido de la relación entre las variables. Cuanto mayor sea la covarianza , mayor será su relación de dependencia. Debido a los inconvenientes, se usa una nueva medida: el coeficiente de la correlación lineal de Pearson: dividiendo el valor de la covarianza por el producto de las desviaciones típicas de las variables X e Y: S xy rxy SxSy El valor de este coeficiente es adimensional y siempre está entre -1 y +1. -Si es positivo ( rxy 0 ) la relación es directa. La intensidad será más fuerte Cuanto más se aproxime a +1, siendo aceptables niveles a partir de +0,75 -Si es negativo ( rxy 0 ) la relación es inversa. La intensidad será más fuerte cuanto más se aproxime a -1, aceptables valores menores de -0,75 -Si rxy 0 no hay correlación lineal entre las variables. b) PROPIEDADES DEL COEFICIENTE DE CORRELACIÓN: 1. Multiplicando todos los valores de una de las variables por la constante a el valor del coeficiente de correlación no varía, alterando únicamente su signo si a es menor que cero. 2. Si hay una relación exacta entre ambas variables (Y=a+bX) se cumple que rxy 1 si b es mayor que 0, y rxy 1 si b es menor que 0. 3. Si dos variables son independientes, rxy 0 pero su recíproco no siempre es cierto. 5.6 Regresión lineal: Usando el coeficiente de correlación lineal se puede determinar el signo y la intensidad de la relación entre dos variables. Pero no se puede decir nada sobre la relación entre ellas, es decir, no se puede establecer una relación de causalidad. A veces dos variables están relacionadas, pero esto no implica que una sea causa de la otra. Para decir que X causa a Y se deben de cumplir tres condiciones: -X debe preceder a Y -Y no debe ocurrir cuando X no ocurre. -Y debe ocurrir cada vez que X ocurra. Una vez establecida la relación de causalidad, se selecciona la forma de modelo matemático que relaciona a las variables. Recta de regresión: en un diagrama de dispersión la función que mejor se ajusta a la nube de puntos es la de una recta. Una vez obtenida la ecuación de dicha recta, 31 se pueden realizar predicciones de la variable dependiente a partir de valores predeterminados de la variable independiente. Proceso para determinar la ecuación de la recta: -METODO DE MINIMOS CUADRADOS: La forma más sencilla es : Y=a+bX Para encontrar los valores óptimos para los parámetros de la recta, a y b, que reciben el nombre de ordenada en el origen y pendiente respectivamente Se usa el criterio de mínimos cuadrados, que produce una recta con buenas propiedades estadísticas y permite obtener el valor de los parámetros mediante expresiones sencillas. Así se minimiza la suma de los cuadrados de las diferencias entre el valor observado para la variable dependiente y el obtenido al sustituir en la ecuación de la recta el valor de la variable independiente. En un gráfico de dispersión, sobre el plano podemos trazar infinitas rectas más o menos próximas entre sí. Para elegir una es necesario añadir alguna restricción adicional que permita obtener una solución perfectamente determinada. Para ello se introduce el concepto de error o residuo ei : ei yi yˆ i e El objetivo del método de mínimos cuadrados es encontrar valores para los parámetros de la recta, a y b de modo que la suma de residuos al cuadrado SCe sea mínima k k k i 1 i 1 i 1 SC e ei2 ( y i , yˆ i ) 2 ( y i (a bx i )) 2 De todas las rectas de la forma Y=a+bX la que minimiza SCe es la que cumple que: S xy b 2 Sx S xy a y bx y 2 x Sx Esta solución se usa cuando calculamos la recta de regresión de Y sobre X, es decir, cuando consideramos a Y como la variable dependiente y X la independiente. En caso contrario, X=a+bY la solución óptima es: b S xy S y2 a x by x S xy S y2 y -BONDAD DE AJUSTE. Realizado el ajuste de la recta de regresión, se analiza en qué medida queda explicada la variable endógena por la variable exógena en base al ajuste realizado. Se usa el coeficiente de determinación R 2 para medir la proporción de variabilidad de la variable dependiente respecto a su medida. 32 R r 2 2 xy S xy2 S x2 S y2 Para obtener el coeficiente de determinación se eleva al cuadrado el coeficiente de correlación lineal de Pearson. Su valor varía entre 0 y 1. Si R2 es cero existe una representatividad nula. Si R2 es uno significa que el ajuste es perfecto. Los valores intermedios nos indican mayor o menor representatividad. La regresión se entiende representativa cuando R2 es superior 0’75. -INTERPOLACIÓN Y EXTRAPOLACIÓN: Para realizar previsiones con el modelo obtenido. Se obtienen los valores previstos para la variable dependiente usando para ello valores dados de la variable independiente, así como los coeficientes a y b estimados. Usando la ecuación estimada podemos: -Pronosticar los valores de la variable dependiente a partir de valores de la variable independiente que pertenecen al intervalo de variación de los datos observados: interpolación. -Predecir valores de la variable dependiente a partir de valores de la variable independiente que estén situados fuera de dicho intervalo: extrapolación. Para realizar predicciones hay que tener en cuenta: -La calidad del ajuste: mayor valor del coeficiente R 2 más fiables. -Los valores de la variable independiente: a medida que nos alejemos del rango que comprende a los datos de partida, la fiabilidad disminuye. -