Download 5.4 Dependencia estadística

Document related concepts
no text concepts found
Transcript
1
TEMA 1. INTRODUCCIÓN. CONCEPTOS BÁSICOS
Hasta el s. XIX la estadística se usaba para las informaciones
socioeconómicas de la realidad de un Estado. Los estados recababan datos,
especialmente renta y población, para recaudar impuestos y mantener el ejército.
Hoy es algo más amplio y útil en múltiples ciencias y áreas del conocimiento
humano. Podemos definir estadística como “ciencia con base matemática que
principalmente se ocupa de la recolección, análisis e interpretación de datos con
objeto de detectar comportamientos regulares en fenómenos de tipo aleatorio y
hacer más efectiva la toma de decisiones." Se utiliza en múltiples áreas del
conocimiento humano: ciencias naturales, bioestadística, ciencias sociales,
socioestadística, estadística económica, etc.).
La estadística se divide en dos grandes apartados:
a)
Estadística Descriptiva: se encarga de la recolección, clasificación y
descripción de datos muestrales o poblacionales, para su interpretación y análisis.
b)
Estadística Inferencial o Inferencia Estadística: Se ocupa de la
generación de los modelos y leyes a partir de datos procedentes de un determinado
subconjunto de individuos o muestra.
Estas dos ramas son complementarias y entre ambas se obtiene información
suficiente para prever un posible escenario futuro para poder tomar decisiones
oportunas.
La utilización de la estadística para el análisis del sector turístico:
Tanto los analistas como los gestores de empresas y/o actividades turísticas,
como los de cualquier otro sector de la economía deben saber “captar la realidad”
de los fenómenos para posicionarse, tomar decisiones y para predecir la evolución
futura de los mismos.
La forma más común de “captar la realidad” es recoger de forma agrupada y
más o menos sistemática la información disponible sobre los fenómenos que se
tratan de investigar, examinando las reiteraciones para la búsqueda de fenómenos
estables, en el sentido de no ocasionales y previsibles o repetibles.
1.2. Historia
Desde los comienzos de la civilización han existido formas sencillas de
estadística, se usaban representaciones gráficas y otros símbolos en pieles, rocas,
paredes de cuevas… para recontar personas y animales. En el antiguo Egipto se
encuentran los primeros registros estadísticos formales. Según el historiador griego
Heródoto, los faraones recopilaron en el 3050 a.C. muchos datos sobre la población
y riqueza del país para preparar la construcción de las pirámides.
En las civilizaciones mesopotámicas se usaban tablillas de arcilla para recopilar los
datos sobre producción agrícola y géneros vendidos o intercambiados
En Israel se encuentran, en libros bíblicos de Números y Crónicas, dos censos
de población y datos sobre el bienestar material de tribus judías.
Otras civilizaciones usaban también censos de población pero fueron los
romanos quienes mejor usaron los recursos de la estadística. Cada cinco años
hacían censos de población, se anotaban nacimientos, defunciones, matrimonios,
recuentos de ganado y riquezas.
2
Pero en la Edad Media el número de operaciones estadísticas descendió
notablemente, destacando solo el Capitulare de Villis y el Domesday Book. En el s.
XV Alonso de Quintanilla, por encargo de los Reyes Católicos, elabora el primer
censo de España.
S XVI y XVII: revolución en los métodos estadísticos debidos a los
descubrimientos científicos y desarrollo del comercio. Interés por la estadística
demográfica. Por eso a principios del s XVI se empieza a registrar los nacimientos,
matrimonios y defunciones en Francia e Inglaterra.
S XVII: avances importantes. En Universidades alemanas se enseña Aritmética
Política, descripción numérica de hechos de interés para la Administración Pública.
Autores: Petty y Graunt. Otros matemáticos, Pascal o Fermat, determinaron las
reglas que controlan los juegos de azar, sentando las bases de la teoría de la
probabilidad.
S XVIII: inicio del estudio de la estadística desde un punto de vista
matemático. Bernoulli y Moivre; Teoría de los errores de Cotes y Simpson; reglas de
combinatoria de Laplace. En España se elaboran los primeros censos (1749,
Ensenada; 1787, Floridablanca). Los actuales censos de periodicidad decenal, en
1860.
S XIX: mayor impulso de la estadística: teoría de las errores de observación
de Laplace y Gauss; teoría de los mínimos cuadrados des Gauss, Legendre y Adrain.
Método de correlación, de Gaston, para medir la influencia relativa de los factores
sobre las variables. Base del coeficiente de correlación de Pearson, entre otros.
Se empieza a usar la teoría de la probabilidad en las ciencias sociales. Quételet
introduce la noción del “hombre promedio” para entender los fenómenos sociales
complejos como la criminalidad, número de matrimonios o suicidios.
S XX: la estadística pasa a ser una ciencia con entidad propia que permite
desarrollar herramientas para resolver problemas de diversa índole (salud pública,
asuntos económicos, sociales…) En la actualidad se usa por las empresas para
comprender mejor los datos que recibe y tomar decisiones.
1.3. Los conceptos estadísticos fundamentales
Individuo, población y muestra.
Población: Conjunto de elementos, individuos o entes sobre el que van a
recaer las observaciones o la realización del estudio. [Ej.: conjunto de clientes del
hotel Plaza de Madrid durante el mes de enero de 2002 (sitio concreto y en una
fecha determinada).] Estos conjuntos de elementos son de distinta naturaleza:
personas, hogares, edificios, tornillos, hoteles…
Puede ser de dos tipos:
a) Finita: los elementos pueden ser numerados o descritos completamente
(ej: censo electoral de la CCAA)
b) Infinita: no es posible determinar el número concreto de elementos que la
compone (ej: número de billetes vendidos por las agencias de viajes a nivel
mundial)
3
Individuo o Unidad de Investigación: Las poblaciones están compuestas por
individuos, entes observables que no tienen por qué ser una persona. Puede ser un
objeto, un ser vivo o algo abstracto. Las investigaciones estadísticas pueden ser:
a) Censales: se estudian las características de interés en todos los
individuos de la población.
b) Muestrales: el estudio sólo afecta a un subconjunto de los individuos
de la población.
Muestra: Cualquier subconjunto de individuos pertenecientes a una
población determinada. En estadística, tienen interés las muestras que son
representativas de la población, de tal forma que puedan inferirse conclusiones
sobre el conjunto del colectivo o población investigada.
Para ello las muestras tienen que ser representativas. Para diseñar una
muestra representativa de esta población, debemos tener en cuenta las “posibles
diferencias” que pudieran ejercer determinadas características de la población
sobre nuestra variable de interés (como el motivo y duración de la visita de los
clientes del hotel, etc.).
Al elegir la muestra, debemos procurar que estén representados
adecuadamente los distintos subconjuntos de la población.
Representatividad de una muestra: Concepto estadístico que indica si los
resultados extraídos de la misma son o no utilizables para inferirlos a la población.
EJEMPLO: población: un conjunto de visitantes al Museo del Prado en junio
del 2005; Individuo: cada uno de esos visitantes; muestra: por ejemplo, la
selección de los 10 primeros visitantes que entraron cada día a partir de las 11 y de
las 13 horas. Si tenemos 30 días de apertura del museo y encuestamos a 20
individuos cada día, tendremos una muestra de 600 individuos elegidos al azar. Esta
muestra es suficientemente grande para extraer conclusiones estadísticas
generales, de forma que, si en la muestra seleccionada hay un 30% de extranjeros y
70% de nacionales, podemos inferir ambas proporciones al colectivo y decir que el
30% de visitantes del Prado durante el mes de referencia era extranjero, evitando
con ello el difícil trabajo de entrevistar a todos los visitantes.
Parámetro, variable y atributo
Parámetros: Valor representativo de la población que el investigador desea
estudiar. (Ej.: la nacionalidad de los visitantes a un museo). Las características
poblacionales de los parámetros, pueden ser:
-Variables: característica poblacional susceptible de tomar valores
numéricos, es decir, que admite unidades de medida.(Ej.: años de edad, renta
anual en euros, etc.)
Dos tipos de variables:
a) Variables Discretas: toman valores aislados (números naturales) y que no
pueden tomar ningún valor intermedio entre dos consecutivos fijados. (ej: número
de estrellas de un hotel, número de hijos de una familia)
b) Variables Continuas: toman infinitos valores (números reales) en un
intervalo dado, de modo que pueden tomar cualquier valor intermedio en su rango
de variación. (ej: distancia del hotel a la playa)
4
Los dos tipos de variables pueden agruparse construyendo intervalos, entre
cuyos valores extremos se ubican las diferentes observaciones registradas. Pero
solo las continuas pueden ser objeto de categorización mediante intervalos.
- Atributos: cuando las características de los individuos no son susceptibles
de medirse numéricamente. (Ej.: color del pelo, profesión, estado civil, sexo etc.)
Presentan modalidades o categorías, como por ej., sexo puede adoptar las
modalidades de hombre o mujer.
Los atributos pueden clasificarse en:
a) Ordinales: los que sugieren una ordenación, secuencia o
progresión natural esperable. Ej.: el grado de satisfacción con el trato
recibido (excelente, bueno, regular, malo).
b) Nominales: son los que sólo admiten una ordenación alfabética
o casual. Ej.: estado civil, nacionalidad de un turista, etc.
El atributo más simple es el que sólo presenta dos modalidades. Ej.:
presencia/ausencia, favorable/desfavorable, etc.
1.4. La investigación estadística:
Etapas de toda investigación estadística:
-Definición de los objetivos perseguidos con la investigación: es la fase más
importante. Se definen los parámetros poblacionales que se van a investigar (ej:
gasto medio de los veraneantes en Gandia)
-Recogida de datos: dos formas: ENCUESTA CENSAL (preguntando a todos los
individuos que componen la población. Uso excepcional); ENCUESTA MUESTRAL
(Uso general. Más ventajas: coste reducido, corto periodo de ejecución, mejor
control de la calidad de datos)
-Descripción y estimación de parámetros poblacionales: en la investigación censal,
la investigación finaliza con la descripción de las características poblacionales con
tablas y gráficos. En la investigación muestral solo hay estimaciones de los
parámetros.
TEMA 2.- FUENTES DE INFORMACION ESTADISTICAS DE INTERES PARA EL SECTOR
TURISTICO.
2.1 INTRODUCCION
Para hacer una presentación del conjunto de la información disponible para el
análisis del turismo hay que tener en cuenta algunos datos relativos a la
importancia de la actividad turística en España. España es un país receptor de
visitantes extranjeros.
Ocupa el segundo lugar en el ranking mundial, por ingresos y por número de
turistas. Uno de los destinos preferidos por los europeos (80%). La industria
turística en el PIB español supone más de un 10%, genera unos 2 millones de
puestos de trabajo (12% del empleo total)
5
-En 2008 recibió 99,1 millones de visitantes extranjeros. El 59% de ellos eran
turistas y el resto excursionistas.
-Meses estivales concentran la mayor parte de llegadas (35%)
-Más del 60% de los turistas internacionales eran de Reino Unido, Alemania y
Francia. 93,5% era de países europeos.
-Vías de acceso, 2009: 81,5% por aeropuertos; 14,6 % por carretera; el resto por
ferrocarril y puertos. 35% durante el verano.
Además también hay turistas españoles:
-Según la estadística FAMILITUR, en 2008- 168,8 millones de viajes. 93% de esos
viajes tenían como destino España.
-Pernoctaciones de residentes en España en 2008: 780,9 millones
-Estacionalidad: 2008: verano, Semana Santa, mayo (puente de mayo) = 60% del
total de viajes.
-Principales destinos internos: costa mediterránea (Andalucía, Cataluña y
Comunidad Valenciana), zonas del interior (Castilla y León, Castilla-La Mancha y
Comunidad de Madrid)
-82,6% usó el coche para llegar al destino. 5,2% avión
-Motivos: ocio, recreo y vacaciones (52%), visita a familiares o amigos (23,6%) por
trabajo o negocios (16%).
-33,6% alojamiento en vivienda de familiares o amigos; 29,5% vivienda propia y
17,2% en hotel.
-Fidelidad: 91,9% viaje a lugares ya visitados.
Las Estadísticas de interés se han clasificados en grandes grupos:
2.2 Estadísticas sobre la oferta del sector turístico:
a) Los Censos: elaborados por el Instituto de Turismo de España (TURESPAÑA),
creado en 1962. Funciones de TURESPAÑA: investigación de los factores que
inciden sobre el turismo; elaboración, recopilación y valoración de estadísticas,
información y datos relativos al turismo; creación y difusión el conocimiento y la
inteligencia turística y coordinación de la información sobre el sector turístico
generada por otras administraciones dependientes de la Secretaría de Estado de
Turismo y TURESPAÑA.
Para ello usa las bases de datos proporcionadas por las CCAA.
-Censo continuo de establecimientos hoteleros: Información sobre el nombre del
hotel, ubicación, categoría, precio, capacidad, pertenencia o no a cadena o
holding de empresas, año de construcción o última remodelación. Anual, a través
de la Guía Oficial de Hoteles y la Guía Profesional de Hoteles. También el INE
incluye un resume en el Anuario Estadístico de España.
-Censo continuo de acampamentos turísticos: Información sobre el nombre del
camping, ubicación, categoría, capacidad, precio, pertenencia o no a una cadena o
holding de empresas, año de construcción o última remodelación. Anual, “Guía
Oficial de Campings”
-Censo continuo de apartamentos turísticos autorizados: nombre, ubicación,
categoría, capacidad, precio, pertenencia o no a cadena o holding de empresas,
6
año de construcción o última remodelación. Anual, a través de la publicación
Hoteles, Camping, Apartamentos por Provincias. TURESPAÑA
-Censo continuo de agencias de viajes: nombre de la agencia, ubicación, puntos de
venta, mayoristas, minoristas y mixtas, pertenencia o no a cadena o holding de
empresas. Se difunde con carácter monográfico.
-Otras informaciones de interés turístico y de carácter censal: El INE recoge
información elaborada por otras dependencias administrativas y facilita
información sobre:
*Albergues juveniles: fuente: Consorcio REAJ (Red Española de Albergues
Juveniles). Datos sobre el número de albergues y plazas disponibles por provincias.
Gratis a través de Internet.
*Pernoctaciones en albergues juveniles por país y año: Consorcio REAJ. Datos
sobre el número de viajeros, según nacionalidad, que pernoctaron cada año en
distintos albergues españoles.
*Edificaciones (año 2000) por ciudades de vacaciones: fuente: Secretaria de
Estado de Comercio, Turismo y Pequeña y Mediana Empresa. Información sobre
número de ciudades y destinos turísticos de las comunidades autónomas.
b) Las encuestas estructurales: trimestrales o anuales. INE. Ofrecer una visión
estructural de los aspectos más significativos del sector (empleo, producción,
inversión)
-La Encuesta Anual de Servicios, para empresas dedicadas al Turismo, Transporte,
Tecnologías de la Información, Actividades Inmobiliarias y Alquileres y Servicios.
Información anual sobre las características estructurales y económicas específicas
de cada una de las actividades que se estudian (tamaño de la empresa, datos
contables, estructura de empleo e inversión.
Desagregación nacional, pero para algunas variables es autonómica. A través del
Anuario Estadístico de España.
c) Estadísticas de ocupación de alojamientos turísticos: por el INE en colaboración
con las CCAA para obtener el número de viajeros que se alojan y otros datos
(pernoctaciones, estancias medias por provincia, país de residencia, capacidad del
alojamiento, grado de ocupación y personal empleado…)
Reflejan la evolución del turista sen los alojamientos colectivos, pero no sobre el
extrahotelero. Mensual y por Internet. Encuestas:
-Ocupación hotelera: desde 1999 (antes Encuesta de Movimiento de Viajeros en
Establecimientos Hoteleros). Analizados todos los establecimientos hoteleros(los
que ofrecen alojamiento colectivo: hotel, apartotel, motel, hostal, pensión…) del
registro de las Consejerías de Turismo de cada comunidad autónoma. Información
mensual sobre establecimientos, plazas, número de viajeros, pernoctaciones,
reservas efectuadas, personal ocupado, precios. En la página del INE.
-Acampamentos turísticos (Camping). 1999 (antes EMVEH) Información sobre oferta
y demanda de acampamentos turísticos del registro de la Conserjería de Turismo
de cada CCAA. 4 categorías de camping: de lujo, primera, segunda y tercera.
Información mensual sobre número de establecimientos abiertos en el mes de
referencia, numero de plazas, numero de viajeros, país, pernoctaciones, estancia…
7
Estatal, pero algunas variables a nivel provincial. INE. Mensual.
-Apartamentos turísticos: Demanda y oferta de estos establecimientos y empresas
explotadoras de apartamentos turísticos inscritos en las Consejerías de Turismo de
cada CCAA. Info mensual sobre plazas, numero de viajeros, empresas explotadoras,
ocupación… Mensual. INE
-Alojamiento turismo rural: situados en medio rural, edificaciones típicas de la
zona, número de plazas limitado… Información mensual sobre plazas, viajeros…
Encuesta de Ocupación Turística (OCUPATUR): por la Secretaría de Estado de
Turismo, a través del Instituto de Estudios Turísticos. Determinar grado de
ocupación en Hoteles y Casas Rurales en época de mayor afluencia. Se hace en
periodos concretos: Semana Santa, puente del 1 de mayo, puente 12 octubre,
puente de todos los santos, puente constitución, vacaciones de navidad.
2.3. Estadísticas sobre la demanda del sector turístico:
a) Encuesta de gasto turístico en España (EGATUR): por el Instituto de Estudios
Turísticos, Ministerio de Industria, Turismo y Comercio, INE y Banco de España.
Medir el gasto de los visitantes no residentes en España y el de los españoles en el
extranjero. Desde el 2000. Contribuye a la estimación de ingresos y pagos por
turismo de la balanza de pagos y del consumo de los no residentes en la
Contabilidad Nacional.
Datos: motivo del viaje (turismo, estudios, visita a familiares…), frecuencia de las
visitas, duración, alojamiento, organización, actividades realizadas, grado de
satisfacción del viaje, gastos realizados…
A nivel nacional. Informes mensuales, trimestrales y anuales en el Centro de
Documentación Turística de España o a través de Internet.
b) Encuesta sobre movimientos turísticos de los españoles (FAMILITUR): Mensual.
Por el Instituto de Estudios Turísticos (IET), Ministerio de Industria, Turismo y
comercio. Principal fuente estadística sobre el comportamiento turístico de los
españoles. Entrevista personal directa a los mayores de 16 años de municipios de
mías de 5000 hab. Para estimar el numero y características de los viajes de
residentes en España. Desde 1996. Cuantificar y caracterizar tanto viajes entre
Comunidades autónomas como al extranjero siempre que haya al menos una
pernoctación fuera del lugar de residencia, independientemente del motivo.
Información trimestral, sobre numero de viajes, origen y destino, motivaciones…
Resultados por Internet y en el Centro de documentación turística de España.
Autonómico.
c) Estadística de movimientos turísticos en frontera (FRONTUR) por el IET, DGT,
AENA, RENFE y puertos del Estado. Estimar entradas de viajeros. Encuestas y aforos
muestrales, informaciones de trafico, aeropuertos…
Para cuantificar mes a mes los viajeros que vienen a España, tipo de visitante,
desplazamientos dentro de España. Mensual con 15 días de retraso. Anualmente y
en temporada vacacional se añade información mas desglosada. Nivel autonómico.
Se analiza país de residencia, Comunidad autónoma de destino, duración de la
estancia, vías de acceso, motivos del viaje…
8
d) Balanza de pagos: desde 1999 por el Banco de España. Para registrar
transacciones económicas entre residentes españoles con el resto del mundo,
independientemente de su nacionalidad. Se usa un sistema basado en el registro de
las transacciones internacionales comunicadas por determinado agentes
económicos que tienen que informar al propio Banco de España de las operaciones
realizadas no unidades no residentes. Mensual, trimestral y anual. Información en
la rúbrica de Turismo y Viajes dentro de la Balanza por Cuenta Corriente.
2.4 Indicadores coyunturales:
Indicadores para seguir la evolución temporal de aspectos coyunturales del sector:
precios, gastos e ingresos.
a) Índices de precios hoteleros (IPH): Mide la evolución del conjunto de precios del
alojamiento hotelero. Por el INE, datos mensuales, autonómicos, sobre precios de
habitaciones dobles con baño, sin desayuno ni IVA, con tarifa normal, fin de
semana, especial a tour-operador, tarifa especial a empresas o grupos.
b) Indicadores de Rentabilidad del Sector Hotelero: 2010. INE. Sustituyen al Índice
de Ingresos Hoteleros. Reflejan los cambios en el sector de los últimos años, nuevos
canales de distribución (Internet). Autonómico. Resultados a final de mes en el
Boletín Mensual de Estadística e Internet (INE)
-ADR (Average Daily Rate): tarifa media facturada por el servicio de alojamiento en
habitación doble con baño, sin incluir IVA ni otros servicios.
-RevPAR (Revenue Per Available Room): ingresos medios por habitación disponible.
Para calcular estas variables, se usa la información que los establecimientos
hoteleros declaran en la Encuesta de Ocupación Hotelera.
c) Índice de precios de acampamentos turísticos: Mide la evolución mensual de los
precios de camping. Información a nivel nacional, según el tipo de tarifa y
categoría del establecimiento.
Se usan los datos de la Encuesta de Ocupación en Acampamentos Turísticos por la
que se obtiene información sobre la ocupación de los campings, su estructura, etc.
d) Índice de precios de apartamentos turísticos: Mide la evolución mensual de los
precios de establecimientos de apartamentos turísticos. Información a nivel
nacional por tipo de tarifa y modalidad del apartamento.
Se usa la Encuesta de Ocupación en Apartamentos Turísticos y la información que
recoge mensualmente sobre la ocupación de los apartamentos turísticos,
estructura…
e) Índice de precios de alojamientos de turismo rural: Mide la evolución mensual
de los precios. Información a nivel nacional según tipo de tarifa y modalidad de
alquiler.
Es una medida estadística de la evolución mensual de precios. Se usa la Encuesta
de Ocupación en Alojamientos de Turismo Rural y la información sobre unos 5300
establecimientos a los que se les envía el cuestionario. Información sobre el
establecimiento, estructura…
9
2.5. Estadísticas sobre el empleo en el sector turístico:
a) La Encuesta de Población Activa (EPA): Macroencuesta trimestral del INE.
Información sobre la actividad económica de los ocupados, parados, activos e
inactivos. Cifras por provincias y en grandes sectores, pueden ser más específicas.
b) Afiliación de Trabajadores al Sistema de Seguridad Social (MTAS): Mensual.
Publicada por el Ministerio de Trabajo e Inmigración. Sobre los afiliados dados de
alta en la SS por regímenes (general, autónomos y especiales), por comunidades
autonomías y provincias.
c) Otras:
-La encuesta de coyuntura Laboral (Ministerio de Trabajo e Inmigración):
Trimestral. Dirigida a empresas. Información sobre el mercado de trabajo desde el
punto de vista de las empresas.
-Encuesta Trimestral de Coste Laboral: INE. Niveles e indicadores sobre el coste
laboral medio por trabajador y mes, coste laboral medio por hora de trabajo y el
tiempo trabajado y no trabajado.
-Estadística de contratos registrados: Mensual. INE. Estadísticas sobre paro según
provincia, edad y sexo, demandantes de empleo y sectores económicos.
2.6. Estadísticas de síntesis:
a) Cuentas Satélites de Turismo: INE, IET y Banco de España. Cuentas y tablas de
los distintos parámetros económicos del turismo en España. La de más reciente
implantación y envergadura. Intenta armonizar todas las informaciones económicas
del turismo para evaluar su impacto económico real.
Comprende tres tipos de elementos:
-Cuentas y tablas de oferta: estructura de producción y costes de las empresas
turísticas.
-Tablas de demanda: tipos de turistas, turismo nacional e internacional, tipo de
bienes y servicios demandados…
-Tablas que interrelacionan oferta y demanda: mediciones de la aportación del
turismo a la economía a través del PIB, producción o empleo.
b) Ficha de coyuntura turística: Mensual por el Instituto de Estudios Turísticos.
Información sobre resultados relativos al turismo:
-Cifras de viajeros de las encuestas FRONTUR, EGATUR Y FAMILITUR.
-Magnitudes de las diferentes Encuestas de Ocupación publicadas por el INE
-Índices de precios (IPC, IPH) y de ingresos hoteleros.
-Datos de la Balanza de pagos.
2.7 Estadísticas realizadas por las comunidades autónomas:
Realizadas por las Consejerías de turismo de las CCAA, por los Institutos Regionales
de Estadística, otros servicios regionales de estadística u otros centros de
investigación (p.ej.: SAETA en Andalucía).
10
Dos tipos de fuentes de información: directorios y estadísticas derivadas de
Encuestas.
TEMA 3. DISTRIBUCIÓN DE FRECUENCIAS UNIDIMENSIONALES.
3.1. Introducción.
Tabulación: ordenar de menor a mayor los valores de la variable analizada y
agrupar los valores contando el número de veces que se repiten.
Distribución de frecuencias unidimensional: conjunto de k valores diferentes de la
variable X, denotados por x1, x2,…xk, ordenados de menor a mayor, acompañados de
sus respectivas frecuencias absolutas n1, n2, … nk
Frecuencia Absoluta (ni). Número de veces que se presenta una observación, es
decir, número de veces que aparece cada uno de los valores de una variable o cada
una de las modalidades de un atributo.
Frecuencia total (N). número total de datos considerados. Si se parte de la
población, es el tamaño de la población; si se parte de las modalidades o valores
de una muestra, es el tamaño de la muestra.
k
N   ni
i 1
Frecuencia relativa. (fi):Cociente entre la frecuencia absoluta con la que se
presenta un valor o una modalidad y la frecuencia total de datos. (fi = ni / N); suele
expresarse en tantos por 100 o en tantos por uno. La suma de todas las frecuencias
k
relativas siempre debe ser igual a 1

i 1
fi
1
Frecuencia absoluta acumulada Ni Frecuencia absoluta más la suma de las
frecuencias absolutas de todos los valores anteriores.
N1 = n1
N1 = n1 + n2
…
N1  n1  n2    nk 1  nk  N
Frecuencia relativa acumulada (Fi): Cociente entre la frecuencia absoluta acumulada
y la frecuencia total: Fi = Ni / N
Se expresa en tanto por uno. También se puede definir como la suma de la
frecuencia relativa del dato con las frecuencias relativas de todos los datos
anteriores.
Ejemplo: Se tira un dado 100 veces: resultado: 10 veces la cara 1, 15 la cara 2, 25
la cara 3, 30 la cara 4, 15 la cara 5, 5 la cara 6.
11
-La variable X (lanzamiento de un dado), toma k posibles valores (1, 2, 3, 4, 5, 6),
de modo que el subíndice i varía entre 1 y 6. Posibles valores que toma X (los x i)
son: x1 = 1, x2 = 2, x3 = 3, x4 = 4, x5= 5, x6 = 6
-El valor xi aparece ni veces, el valor x1 aparece n1 veces, es decir 10 veces y N es
100.
-Frecuencia absoluta: n1 = 10, n2 = 15, n3 = 25, n4 = 30, n5 = 15, n6 = 5
La frecuencia absoluta de la cara 1 del dado es 10.
-Frecuencia total o total de datos: N = 100
-Frecuencia relativa:
f1 = 10/100 = 0,10 = 10%, f2 = 15%, f3 =25%, f4 =30%, f5 =15%, f6 = 5%
-Frecuencia absoluta relativa:
N1 = 10, N2 = 25, N3 = 50, N4 = 80, N5 = 95, N6 = 100
-Frecuencia relativa acumulada:
F1 = 10%, F2 = 25%, F3 = 50% F4 = 80%, F5 = 95%, F6 = 100%
3.2 Tipos de distribuciones de frecuencias: Dos tipos:
-Distribuciones de frecuencias con datos no agrupados: cada valor de la variable x i
lleva asociado una frecuencia ni. Se usa cuando la variable X toma pocos valores,
pero se repiten un gran número de veces.
Un caso frecuente son las distribuciones unitarias: todas las frecuencias absolutas
son unitarias ni = 1
-Distribuciones de frecuencias con datos agrupados en intervalos: los valores de la
variable quedan agrupados en intervalos. Es útil cuando el número de valores de la
variable es muy elevado, pero se pierde parte de la información. Solo se pueden
agrupar las variables de tipo cuantitativo. Li 1 , Li donde Li 1 es el límite inferior
(valor de la variable más pequeño) y Li es el límite superior (valor más variable en
él).
La amplitud de los intervalos se define como: ai  Li  Li 1 es decir, la diferencia
entre el límite superior e inferior.
No es posible operar con los valores de un intervalo, así que recurrimos a la marca
L  Li
de clase (xi), punto medio de un intervalo: xi  i 1
2
3.3 Representación gráfica.
Conjuntos de métodos para representar las observaciones estadísticas mediante
magnitudes o figuras geométricas. Para proporcionar una visión global de los
datos, pero el gráfico no sustituye a la tabla estadística, es un complemento,
porque la información gráfica es menos precisa.
Diagrama de barra. Se emplean para variables discretas en distribuciones de
frecuencia de datos sin agrupar. Son útiles para comparar valores discretos a partir
de dos o más series. Representan los valores de las variables en el eje de abscisas
12
(valores xi) y en el de ordenadas, se levanta, para cada punto, una barra con un
valor igual a la frecuencia absoluta o relativa.
Histogramas. Es un tipo especial de gráfico de barras que se usa para ver los
datos agrupados en intervalos.Conjunto de rectángulos donde cada uno representa
una clase. La base de los rectángulos es igual a la amplitud del intervalo y la altura
se determina de tal forma que el área del rectángulo sea proporcional a la
frecuencia de cada clase. Si la amplitud de los intervalos es diferente, la altura de
los rectángulos hi debe determinarse aplicando la siguiente fórmula:
n
ai=amplitud del intervalo correspondiente.
hi  i
ai
Diagrama de sectores: Muestran las contribuciones relativas de cada punto de
los datos al total de la serie. En un gráfico de sectores solo se representa una serie.
El área de cada sector es proporcional a las frecuencias absolutas n i de cada
modalidad
Diagrama de tallos y hojas: similar a los histogramas. Aporta más información
que los histogramas. Permite obtener simultáneamente una distribución de
frecuencias de la variable y su representación gráfica. Se separa en cada dato el
último dígito de la derecha (hoja) del bloque de cifras restantes (tallo)
TEMA 4. LAS MEDIDAS DE POSICIÓN EN UNA DISTRIBUCIÓN DE FRECUENCIAS
UNIDIMENSIONALES.
4.1. Introducción
Todo análisis estadístico se inicia con una fase descriptiva de los datos para
organizar la información elaborando tablas de frecuencias y representaciones
gráficas. Después se trata de resumir la información en las tablas de frecuencias, a
través de una serie de medidas (“estadísticos”) que resumen toda esa información
y caracterizan a la distribución.
Medidas más habituales:
Sintetiza toda la información obtenida reduciéndola a un solo valor.
-De posición central: hace referencia a un número central que se considera
representativo de toda la muestra o población. Media aritmética, media
geométrica, media armónica, mediana, moda.
-De posición no central: permiten conocer otros aspectos característicos de
la distribución que no están relacionados con los valores centrales. De las medidas
más importantes: los cuantiles.
Medidas de dispersión (o variablidad): Muestran la variabilidad de una
distribución, indicando numéricamente si los valores de una variable están muy
alejados con respecto a una medida de posición central.
Absolutas. Recorrido o rango, recorrido intercuatílico, desviación absoluta
media, varianza o desviación típica.
Relativas. Coeficiente de apertura, recorrido relativo, recorrido
semiintercualítico y coeficiente de variación.
13
Medidas de concentración o de uniformidad. Cuantificar el grado de
desigualdad en el reparto o distribución de una variable (generalmente de tipo
económico: renta, beneficios…), entre un número de unidades (individuos, familias,
empresas…). Índice de concentración de Gini y Curva de Lorenz.
Medidas de forma: permiten establecer una tipología de distribuciones
comparando su representación gráfica con la distribución normal. Medidas de
asimetría y de apuntamiento o curtosis.
4.2. MEDIDAS DE POSICIÓN:
4.2.1 Media aritmética
Variable que se define como la suma de todos los valores de la variable
dividida por el número total de observaciones.
k
x
x n
i
i 1
i
N

x1 n1  x1 n2    x k nk
N
Distribuciones de frecuencias con datos agrupados por intervalos: valores xi
usados para calcular la media serán las marcas de clase.
Uso de la media aritmética: con datos de naturaleza aditiva (rentas, salarios,
beneficios, pesos…)
A veces no todos los datos tienen la misma importancia para la investigación,
así que puede ser útil otorgar pesos o valores a los datos. En estos casos se usa la

media aritmética ponderada: x w cada valor de la variable
ponderación o peso independientemente de su frecuencia.
xi recibe la
k

xw 
w x n
i 1
k
i 1 i
w n
i 1
i

w1 x1 n1  w2 x 2 n2    wk x k nk
w1 n1  w2 n2    wk nk
i
wi es la ponderación de la variable xi
k
w
i 1
i
es la suma de todas las ponderaciones.
Propiedades de la media aritmética.

La suma de las desviaciones de todos los valores respecto a su media
aritmética es cero.
k
_
 ( x  x)n
i 1
i
i
0
14
Si multiplicamos o dividimos todas las observaciones por un mismo número,
la media queda multiplicada o dividida por dicho número (“cambio de
escala”)

Si le sumamos a todas las observaciones un mismo número, la media
aumentará en dicha cantidad (“cambio de origen”)

Si una variable Y es transformación lineal de otra variable X, de modo que
Y=a+bX la media de Y sigue la misma transformación lineal con respecto a la
media de X:
_
 yi ni   (a  bxi )ni   (ani  bxi ni )  a ni  b xi ni  a  b x_
y
N
N
N
N
N

Ventajas.





Es calculable en todas las variables cuantitativas
Todos los valores de la distribución se utilizan para su cálculo.
Es un concepto familiar para la mayoría de las personas y es intuitivamente
claro.
Es única para cada distribución de frecuencias
Claro significado; representa todos los valores observados por ser el centro
de gravedad de la distribución.
Inconveniente:
-es un valor muy sensible a los valores extremos. (no sirve para distribuciones
con una gran dispersión de datos).
-No es calculable cuando los parámetros son cualitativos.
-A veces es difícil el cálculo en distribuciones con intervalos abiertos. En estos
casos es necesario estimar una marca de clase para poder calcular la media y
esta nos varía si cambiamos la marca de clase.
4.2.2 Media geométrica.
De posición central. Se usa cuando los valores de la variable no son de naturaleza
aditiva, sin o acumulativa o con efectos multiplicativos (p.ej.: tipos de interés,
porcentajes, tasas…) En estos casos la media aritmética no tiene un claro
significado, ya que la suma de estas magnitudes no representa un total de recursos.
Por eso se usa la media geométrica
k
G  N  xini
i 1
=
N
x1n1  x2n2   xknk
= (x  x  x )
n1
1
n2
2
nk
k
1
N
15
Ventajas.

Es más representativa que la media aritmética cuando la variable evoluciona
de forma acumulativa con efectos multiplicativos.

Su valor está definido de forma objetiva y es único.

Para su cálculo se tienen en cuenta todos los valores de la distribución.

Los valores extremos tienen una menor influencia que en la media
aritmética.
Inconvenientes:

Mayor complicación de los cálculos

Indefinición (da números de naturaleza imaginaria) cuando tiene valores
negativos y su valor nulo cuando una observación toma este valor.

Si algún valor de la variable es igual a cero, el resultado obtenido no es
representativo porque se obtiene una media geométrica nula.
El cálculo de la media geométrica exige el uso de logaritmos o programas
informáticos. El logaritmo de la media geométrica es igual a la media aritmética
de los logaritmos de los valores de la variable:
k
logG =
n
i 1
i
log x i
N
4.2.3 Media armónica.
Su utilización es poco frecuente, se usa cuando los datos observados no son
de naturaleza aditiva ni multiplicativa. Solo se emplea para promediar
rendimientos, velocidades, productividades, etc.
La media armónica H es la inversa de la media aritmética de los inversores
de los valores de la variable.
H
N
N

n
n1 n2
ni

 k

x1 x2
xk
i 1 xi
n
Ventajas.

Es más representativa que otras medias en los casos de obtener promedios
de velocidades, rendimientos, productividades, etc.

Está definida de forma objetiva y es única.

Cálculo sencillo, se tiene en cuenta todos los valores de la distribución

Se utilizan todos los valores de la distribución.

Los valores extremos tienen una menor influencia que en la media
aritmética.
16
Inconvenientes:

No se puede utilizar cuando las variables tienen valores muy pequeños o 0,
porque sus inversos pueden aumentar hasta el infinito, eliminando el resto
de los valores.
4.2.4 La mediana
Hasta ahora hemos visto medias de posición central, que equilibran los valores
de una distribución compensando los más elevados con los intermedios y pequeños
para determinar su centro de gravedad. Problema:

Son muy sensibles a los valores extremos muy altos o muy bajos de las
distribuciones (cuando existe mucha dispersión, los hacen poco
representativos)
Para ello se usa la mediana: distribución de frecuencias, previamente ordenada
en orden creciente o decreciente. Se define como el valor central de la variable
que divide la distribución en dos partes iguales dejando el mismo número de
frecuencias a su izquierda que a su derecha.
Calculo de la mediana en el caso de distribuciones con valores no agrupados
en intervalos

Si la distribución de frecuencias es unitaria:
-Si el número de observaciones, N, es impar, hay un término central, el
término X N 1 que será el valor de la mediana.
2
-Si el número de observaciones, N, es par, hay dos términos centrales, X N , X N
2
2
1
la
mediana será la media aritmética de esos dos valores.

Si la distribución de frecuencias no es unitaria, se calcula el valor de N/2
y compararlo con las frecuencias absolutas acumuladas. Se observa la
primera frecuencia acumulada que supera o iguala a N/2 distinguiéndose
dos casos:
-Si N/2 coincide con algún valor de la columna de frecuencias absolutas
acumuladas, entonces la mediana será la media aritmética entre el valor de la
variable cuya frecuencia absoluta acumulada es N/2 y el siguiente valor de la
variable.
-Si N/2 no coincide con ningún valor de la columna de frecuencias absolutas
acumuladas, entonces la mediana será el primer valor de la variable cuya
frecuencia absoluta acumulada sea superior a N/2.
Cálculo de la mediana en el caso de distribuciones agrupadas por intervalos:
Si la variable está agrupada en intervalos la mediana se calcula en parecida forma
que el apartado anterior. Determinado el intervalo cuya frecuencia absoluta
acumulada es igual o mayor a N/2, la mediana se obtiene:
17
-Si N i  N / 2 coincide con algún valor de la columna de frecuencias absolutas
acumuladas, entonces por convención el valor de la mediana será el extremo
superior del intervalo que verifica dicha condición.
-Si N i no es igual a N/2, el intervalo que contiene a la mediana es el primer valor
de la variable cuya frecuencia absoluta acumulada N i sea mayor que N/2.
En este caso se usa la siguiente fórmula:
N / 2  N i 1
Me  Li 1 
 ai
ni
- Li extremo inferior del intervalo cuya frecuencia absoluta acumulada es
superior a N/2
- N i 1 es la frecuencia absoluta acumulada en el intervalo inmediatamente
anterior
- a i es la amplitud del intervalo con frecuencia absoluta acumulada superior
a N/2
Ventajas.

Es la medida más representativa en le caso de las variables cualitativas o
atributos, que solo admiten una escala ordinal.

Su cálculo es sencillo.

Tiene una fácil interpretación estadística

No es sensible a los valores extremos de la distribución
Inconvenientes:

En su determinación no se tiene en cuenta todos los valores de la variable.
(Este inconveniente puede constituir incluso una ventaja, ya que es posible
su cálculo cuando no se conocen los valores extremos pero sí su frecuencia)
4.2.5. La moda
Mo : valor de la variable que más veces se repite. El cálculo de la moda depende de
si los valores de la variable se encuentran o no agrupados en intervalos:
-En las distribuciones de frecuencias no agrupadas en intervalos, la moda será el
valor de la variable que presente la máxima frecuencia.
A veces también se da la moda relativa: valor o valores de la variable cuya
frecuencia absoluta no es superada por la de sus valores contiguos.
-En las distribuciones de frecuencias con valores agrupados en intervalos:
Intervalo modal: el que presente la mayor frecuencia, siempre que la amplitud de
todos los intervalos sea la misma. En caso contrario, la moda será el intervalo que
presente la mayor densidad de frecuencia d i en relación a la amplitud del intervalo
n
a i , el que presente el mayor valor d i  i
ai
a) Si todos los intervalos tienen la misma amplitud:
ni 1
Mo  Li 1 
 ai
ni 1  ni 1
18
Li el extremo inferior del intervalo con frecuencia absoluta.
ni 1 y ni 1 frecuencias absolutas del intervalo anterior y posterior al de
mayor frecuencia absoluta
a i amplitud del intervalo de mayor frecuencia.
b) Que los intervalos tengan distinta amplitud
d i 1
M o  Li 
 ai
d i 1  d i 1
Li el extremo inferior del intervalo con mayor densidad de frecuencia.
a i amplitud del intervalo
d i 1 y d i 1 densidades de frecuencia del intervalo anterior y posterior
al de mayor densidad de frecuencia.
Ventajas.

Es la única medida más de posición central que puede obtenerse en las
distribuciones con datos cualitativos, ya que es posible determinar la
categoría o modalidad que más se repite en un determinado atributo

Su cálculo es sencillo.

Tiene una fácil interpretación estadística, ya que nos da el valor o
modalidad que más se repite.
Inconvenientes:

En su determinación no intervienen todos los valores de la distribución,
centrándonos solo en la mayor frecuencia absoluta de un determinado valor
de la variable o modalidad de los atributos.
4.2.6. Los cuantiles (medidas de posición no centrales)
Son valores de la variable que dividen la distribución en partes iguales respecto
a las frecuencias de la distribución, en cada una de ellas hay el mismo porcentaje
de valores de la variable.
-Los cuarteles C i son tres valores que dividen a la distribución en cuatro partes
iguales C1C 2 C3 que corresponden al 25%, 50% y 75%
-Los deciles Di son nueve valores que dividen la distribución en diez partes
iguales D1 D2 ...D9 que corresponden al 10%, 20%...90%
-Los percentiles Pi son 99 valores que dividen la distribución en cien partes
iguales P1 P2 ...P99 que corresponden al 1%, 2%...99%
Se calculan de la misma manera que la mediana por lo que son válidas las reglas
de cálculo explicadas para ésta.
-Cálculo de cuantiles en distribuciones con valores no agrupados en intervalos:
a) Se obtienen los diferentes valores teóricos de las frecuencias acumuladas de
19
rN
(r: cuantil correspondiente; q: número de intervalos con iguales
q
frecuencias en que se divide la distribución usando dicho cuantil; N: total de datos.
b) Se compara el resultado obtenido con la columna de frecuencias absolutas
acumuladas de la distribución, de manera similar a como se hace con la mediana:
rN
Si
coincide con algún valor de la columna de frecuencias acumuladas, el
q
valor del cuantil es igual a la media aritmética del valor de la variable cuya
rN
frecuencia absoluta acumulada es
y el siguiente valor de la variable.
q
rN
Si la frecuencia acumulada no coincide con
, el valor del cuantil será el
q
rN
primer valor de la variable cuya frecuencia absoluta acumulada sea superior a
q
-Cálculo de cuantiles en distribuciones con valores agrupados en intervalos:
usamos la siguiente fórmula:
rN
 N i 1
q
Q  Li 
 ai
ni
Li extremo inferior del inervalo cuya frecuencia absoluta acumulada es
rN
superior a
q
N i 1 es la frecuencia absoluta acumulada en el intervalo inmediatamente
anterior
rN
a i ampitud del intervalo con frecuencia absoluta acumulada superior a
q
cuantil
4.3 LAS MEDIDAS DE DISPERSIÓN.
Objetivo de las medidas de posición: sintetizar los datos de una distribución
en un único valor representativo. Objetivo de las medidas de dispersión es decir
hasta qué punto las medidas de posición son realmente representativas de los
datos. Mediante las medidas de dispersión se puede cuantificar la separación o
variabilidad de los valores de la distribución con respecto a un valor central. A
mayor dispersión menor representatividad tienen la medidas de posición para
describir la distribución de frecuencias.
4.3.1. Medidas de dispersión absoluta:
Su valor está expresado en las unidades de medida de la variable. Las principales
son el recorrido, el recorrido intercuartilico, la desviación absoluta media respecto
a la mediana, la varianza y la desviación típica o estándar.
20
RANGO:
En una distribución con los valores ordenados de menor a mayor, es la diferencia
entre el mayor valor y el menor de una distribución. También se conoce con el
nombre de amplitud total. Se representa como R y se obtiene mediante la fórmula:
R  x k  x1
La ventaja fundamental es la sencillez de cálculo. Inconveniente: es una medida
imprecisa.
RECORRIDO INTERCUARTÍLICO:
Diferencia entre el tercer cuartil y el primer cuartil de la distribución. RI Se
calcula:
RI  C3  C1
DESVIACIÓN ABSOLUTA
Desviaciones (D): Diferencia entre el valor de la variable y la media
aritmética. Son muchas medidas y precisamos una medida que resuma dicha
información.
Esta medida no puede ser la media aritmética ya que la suma de las
desviaciones de los valores respecto de su media aritmética es 0.
k
D 
x
i 1
i
 P ni
N
 indican que las diferencias entre los diferentes valores de la variable X y
la medida de posición P son consideradas en valor absoluto.
Si sustituimos P por medidas de posición concretas, obtenemos diferentes
medidas de dispersión:
La desviación media o desviación absoluta media ( D x ): la media de los
valores absolutos de las desviaciones respecto a la media aritmética.
k
Dx 
x
i 1
i
 x ni
N
La desviación absoluta respecto a la mediana: La media se ha sustituido por
la mediana.
i
DMe 
x
i 1
i
 Me ni
N
21
VARIANZA:
Es la media aritmética de los cuadrados de las desviaciones respecto a la media.
S2
k
S2 
 (x
i 1
i
 P ) 2 ni
N
DESVIACIÓN TÍPICA O ESTÁNDAR:
Es la raíz cuadrada de la varianza tomando el resultado con signo positivo. Es la
medida de dispersión más importante en estadística aplicada. Una desviación típica
pequeña significa que todos los valores de la distribución se sitúan próximos a la
media, mientras que una desviación típica elevada implica la existencia de valores,
por exceso o por defecto, muy alejados de la media.
s 
k

i 1
x

2
i
 x ni
N
4.3.2 Medidas de dispersión relativas
Están definidas por cociente y no dependen de las unidades de medida. Permiten
comparar la dispersión de distintas distribuciones y ver en cuáles son más
representativas las medidas de posición. Las medidas de dispersión relativa más
importantes son el coeficiente de apertura, el recorrido relativo, el coeficiente de
variación de Pearson, etc.
Tratan de hacer comparables distribuciones diferentes, es decir, distribuciones que
no vienen expresadas en las mismas medidas. Son medidas adimensionales.
COEFICIENTE DE VARIACIÓN DE PEARSON: Es el cociente entre la desviación típica
y el valor absoluto de la media.
Se expresa:
 
S
X
Se puede expresar en porcentaje:
 
S
100
X
Si γ = 0 no hay dispersión
Si γ = o menos al 30% dispersión es óptima
Si γ superior al 50%, la media es muy poco representativa
22
LA TIPIFICACIÓN DE VARIABLES:
Para transformar cualquier variable en una nueva que llamaremos Z con media
igual a cero y varianza igual a uno. Se resta a cada valor de la variable la media de
la distribución y se divide el resultado por la desviación típica
X X
Zi  i
S
4.4. MEDIDAS DE FORMA.
Se usa cuando dos distribuciones coinciden en sus medidas de posición y
dispersión y no hay datos analíticos para ver si son distintas.
-MEDIDAS DE ASIMETRIA:
Para estudiar la deformación horizontal de los valores de la variable
Una distribución es simétrica cuando a la derecha y a la izquierda de su
media hay el mismo número de valores. X  Me  Mo
As < 0
Asimétrica negativa
a la izquierda
As > 0
Asimétrica positiva
a la derecha
As = 0
Simetría
Para medir la simetría sin necesidad de representar gráficamente la
distribución se usan distintos indicadores.
El coeficiente de asimetría de Fisher: Cuando la distribución no es unimodal
ni campaniforme.
k
 (x
i 1
g1 
i
 x ) 3 ni
N
S3
La desviación típica es siempre positiva, así que el signo de g 1 dependerá
del signo del numerador. Según el valor de g1 se deduce que:
Si g1 = 0 la distribución es simétrica.
Si g1 < 0 la distribución es asimétrica a la izquierda.
Si g1 > 0 la distribución es asimétrica a la derecha.
23
La Medida de asimetría de Pearson:
x  Mo
S
Ap 
El signo del resultado depende del numerador, ya que la desviación típica siempre
es positiva.
-Si A p  0 la distribución es asimétrica a la derecha.
-Si A p  0 la distribución es asimétrica
-Si A p  0 la distribución es asimétrica a la izquierda
Es sencillo de calcular, pero solo se puede usar con distribuciones unimodales y
campaniformes.
-MEDIDAS DE APUNTAMIENTO O CURTOSIS.
Tratan de estudiar la distribución de frecuencias en la zona media de la
distribución. El mayor o menor número de valores de la variable alrededor de la
media dará lugar a una distribución mas o menos apuntada.
Para estudiar el apuntamiento hay que definir una distribución tipo que nos sirva
de referencia. Esta distribución es conocida como la distribución normal o la curva
de Gauss. Tiene forma de una campana donde la gran mayoría de los valores se
encuentran concentrados alrededor de la media, siendo escasos los valores que
están muy distanciados de ésta.
Distribución normal.
Con esta distribución normal, según su apuntamiento, puedes distinguirse
entre: distribución mesocúrtica, si la distribución de sus datos es la misma que la
de la variable normal; distribución leptocúrtica, si está más apuntada que la
normal; platicúrtica, si está menos apuntada que la normal.
El coeficiente de curtosis de Fisher nos mide el grado de apuntamiento de
la distribución sin necesidad de efectuar la representación grafica.
k
 (x
i 1
g2 
i
 x) 4 ni
N
S4
3
Si g2 = 0 la distribución es mesocúrtica (normal)
Si g2 > 0 es leptocúrtica o más apuntada.
Si g2 < 0 es platicúrtica o menos apuntada.
24
4.5. MEDIDAS DE CONCENTRACIÓN.
Ponen de manifiesto el mayor o menor grado de igualdad en el reparto total
de los valores de la variable. Son indicadores del grado de equidistribución de la
variable. Proceden de la economía, se aplican a distribuciones de rentas, salarios…
Las medidas de concentración se basan en la siguiente idea: sean k
individuos cuyos valores de la variable (rentas, salarios,…) son x1 , x 2,, x k siendo
k
P   xi el dinero total repartido por los individuos.
i 1
Podemos encontrarnos con situaciones extremas:
-Concentración máxima (menor equidad en el reparto): Un solo individuo percibe el
total y los demás nada. x1  x2  xk 1  0
xk  p
-Concentración mínima (mayor equidad en el reparto): El conjunto total de valores
P
de la variable está repartido por igual. x1  x 2    x k 
k
Para medir la concentración se usan dos medidas:
Curva de Lorenz:
Se construye representado en el eje de abscisas el porcentaje de frecuencias
acumuladas y en el eje de ordenadas los porcentajes acumulados del total de la
variable. La forma de la curva nos permite determinar el nivel de concentración.
Para obtener la curvase debe crear una tabla con las siguientes columnas:
-Una primera columna con los valores de la variable, xi i=1,2,…,k
-Una segunda columna con las frecuencias ni de cada valor de la variable.
-Los productos de los valores de cada variable por su frecuencia xi ni
-Las frecuencias absolutas acumuladas N i
-Los totales acumulados u i que se definen como la suma acumulativa de los
productos de los valores de cada variable por su frecuencia:
u1  x1n1
u 2  x1n1  x2 n2

k
u k  x1 n1  x 2 n2  ...  x k nk   xi ni
i 1
-La columna total de frecuencias acumuladas relativas pi expresado en tanto
por ciento
N
Pi  i  100
N
ui
 100
uk
-La última columna con las diferencias entre pi y qi
-La columna de valores qi
qi 
pi  qi
La curva de Lorenz: se dibuja un cuadrado cuyos lados están divididos en una
escala de 0% a 100%. Representando en el gráfico los pares de valores (pi, qi) y
uniendo los puntos obtenemos la curva de Lorenz. La curva se representa junto con
la diagonal del cuadrado, la línea de equidad. La curva siempre se sitúa debajo de
25
la línea porque pi=qi y los valores están ordenados de menor a mayor. La curva es
siempre creciente (porque pi y qi son valores acumulados) y convexa.
La diagonal es útil para determinar el nivel de concentración de la
distribución, se pueden dar dos casos extremos:
-Concentración mínima: la curva coincide con la diagonal. pi=qi Máxima
equidad.
-Concentración máxima: la curva coincide con los lados del cuadrado. qi=0
i=1,2,…,k-1 y qk=100 No hay equidad en el reparto.
Índice de Gini
Cuantifica el grado de aproximación entre la curva de Lorenz y la línea de equidad.
k 1
IG 
( p
i 1
i
 qi )
k 1
p
i 1
i
El sumatorio (  ) termina en k-1 porque en el numerador, aunque abarcase hasta
k, solo tendríamos (k-1) sumandos, al ser pk=qk=100, con lo que pk-qk es siempre
igual a cero.
Puede haber dos casos extremos:
-Concentración mínima ( I G 0 ) al verificarse que p=qi
0
I G  k 1  0
 pi
i 1
-Concentración máxima ( I G  1 ) al verificarse que qi=0 para i=1,2,…,k-1 y
qk=100 obtenemos que:
k 1
IG 
p
i
p
i
i 1
k 1
i 1
1
El índice de Gini oscila entre 0 y 1. Cuanto más cerca esté el valor a cero,
menos será la concentración (mayor equidad en el reparto)
TEMA 5. DISTRIBUCIÓN DE FRECUENCIAS BIDIMENSIONALES, REGRESIÓN Y
CORRELACIÓN.
5.1. Introducción
En práctica es muy frecuente que en el estudio de una población estemos
interesados en medir no sólo una, sino varias variables; cuando estudiamos dos
variables de una población tenemos una distribución de frecuencias bidimensional,
si estudiamos múltiples variables dispondremos de una distribución de frecuencias
multidimensional.
26
5.2. Tabulación de distribuciones de frecuencias bidimensionales.
Se llama distribución conjunta e frecuencias de las dos variables (x, y) a la
tabla que representa los valores observados en ambas variables y las frecuencias
relativas de aparición de cada una de las variables.
Cuando las variables son cuantitativas a las tablas de frecuencias se les
denomina tablas de correlación. Si por el contrario estamos ante variables
cualitativas o atributos se denominan tablas de contingencia.
nij
x\y
y1
x1
x2
...
xi
...
xr
x.j
n11
n2
...
ni1
...
nr1
n.1
y2
...
n12
...
n22 ...
...
...
ni2 ...
...
...
nr2 ...
n.2 ...
ys
n1s
n2s
...
nis
...
nrs
n.s
ni.
n1.
n2.
....
ni.
....
nr.
n.. = N
Donde:
frecuencia absoluta conjunta: número de veces que se presenta
conjuntamente ( xi , y j ) La suma de las frecuencias absolutas conjuntas es
igual al número total de observaciones tal que
r
s
 n
i 1 j 1
f ij
ij
N
frecuencia relativa conjunta ( f ij ) : cociente entre la frecuencia absoluta
conjunta y la total: f ij 
nij
N
ni  , n j frecuencias absolutas marginales: en la última fila y en la última columna
de la tabla se totalizan las frecuencias correspondientes a cada uno de los
valores de las variables.
-La frecuencia absoluta marginal del valor xi , ni número de veces que se
presenta xi con independencia de los valores de la variable Y
s
ni  ni1  ni 2    nis   nij
j 1
-La frecuencia absoluta marginal del valor y j , n j representa el número de
veces que se presenta y j independientemente de los valores de la variable X
r
n j  n1 j  n2 j    nrj   nij
i 1
27
En ambos casos se verifica que:
r
n
i 1
i
 n1  n 2    n r   N
j
 n1  n2    n s  N
s
n
j 1
Frecuencias relativas marginales: cociente entre la frecuencia
absoluta marginal y la total:
n j
n
f j 
f i  i
N
N
f i , f  j
Si la distribución tiene pocas observaciones, la tabla de correlación sigue siendo
válida.
5.3.Distribuciones marginales y condicionadas.
-Distribuciones marginales:
A partir de las frecuencias marginales absolutas se pueden obtener las
distribuciones marginales para cada variable de la distribución bidimensional,
mediante la que se examina el comportamiento individual de cada una de ellas.
En las distribuciones marginales unidimensionales, se pueden calcular las
medidas de posición, dispersión forma y concentración. Las medias marginales y
varianzas marginales para las variables X e Y se pueden definir de la siguiente
forma:
r
x
x n
i
i 1
i
N
s
y
y n
j 1
j
N
r
S 
2
x
j
 (x
i 1
 x ) ni 
r
2
i
N

x
i 1
2
i
N
ni 
x
2
28
s
S y2 
(y
s
 y ) n j
2
j
N

y
j 1
2
j j
n
N
y
2
-Distribuciones condicionadas:
El conjunto de valores que toma una de las variables está delimitado por el valor
que toma la otra. Por ejemplo, X está condicionada a que Y tome el valor y3. La
tabla correspondiente sería:
xi / Y  y 3
ni / Y  y3
x1
n13
x2
n23
…
…
xr
nr3
n.3
La frecuencia total no es N, sino n.3 porque partimos de la condición
de que Y toma el valor de y3
La forma de la distribución de X condicionada a Y  y j y de la distribución
de Y condicionada a X  xi será la siguiente:
X
¡
xi / Y  y j x
ni / j
y i / X  xi
Y
n j/i
x1
n1 j
y1
n i1
x2
n2 j
y2
ni 2




xr
n rj
ys
nis
n j
ni
Las frecuencias relativas condicionantes se definen como:
nij
nij
fi / j 
nij
n j
f ij
 N 
n j
f j
N
f j/i 
nij
f ij
 N 
ni  ni 
f i
N
Dado el carácter univariante de las distribuciones condicionadas también es posible
calcular las diferentes medidas de posición, dispersión, forma y concentración.
5.4 Dependencia estadística
Para conocer el grado de relación existente entre las variables que componen loas
distribuciones bidimensionales. Dos puntos de vista:
29
-La correlación: estudiar la intensidad y el signo de la relación entre dos
variables.
- Regresión: explicar el comportamiento de una variable (dependiente,
endógena o explicada) a partir del comportamiento de otra variable
(independiente, exógena o explicativa)
Normalmente es sencillo establecer la relación de dependencia entre dos
variables estudiando su diagrama de dispersión de dos variables. Diagrama de
dispersión usa las coordenadas cartesianas para mostrar los valores de dos
variables para un conjunto de datos. Los datos se muestran como un conjunto
de puntos, cada uno con el valor de una variable que determina la posición en
el eje horizontal y el valor de la otra aparece en el eje vertical.
En este gráfico:
-la relación entre variable puede ser directa: aumenta X, aumenta Y y
viceversa.
-Inversa: aumento de X implica una reducción de Y y viceversa.
-Puede no haber una relación evidente entre las variables.
COVARIANZA Y CORRELACIÓN:
Covarianza: medida que nos permite conocer el signo de la relación entre
dos variables. S xy
r
S xy 
s
 ( x
i 1 j 1
 y )nij
i
N
=
r
S xy 
s
 n y n
i 1 j 1
N
i
j
ij
 xy
 S xy  0 hay dependencia directa o positiva, las variables varían en el
mismo sentido.
- S xy  0 hay dependencia inversa o negativa, las variables varían en sentido
opuesto.
a) PROPIEDADES DE LA COVARIANZA:
1. S xy  S yx
2. Si a todos los valores de la variable X les sumamos una constante a y a todos los
valores de la variable Y les sumamos una constante b el valor de la covarianza no
varía.
3. Multiplicando los valores de X por una constante a y los valores de Y por una
constante b la covarianza queda multiplicada por el producto de las constantes a y
b
30
4. Aplicando transformaciones lineales a las variables X e Y tal que Z=a+bX y
T=c+dY la covarianza entre las variables transformadas en Ty Z se relaciona con
S zr  bdS xy
El principal inconveniente de la covarianza es su dependencia de las unidades, su
valor es sensible a los cambios de escala; su valor no está acotado, no se puede
comparar entre las covarianzas de diferentes distribuciones. En la práctica la
utilidad de la covarianza se limita a establecer el sentido de la relación entre las
variables. Cuanto mayor sea la covarianza , mayor será su relación de dependencia.
Debido a los inconvenientes, se usa una nueva medida: el coeficiente de la
correlación lineal de Pearson: dividiendo el valor de la covarianza por el producto
de las desviaciones típicas de las variables X e Y:
S xy
rxy 
SxSy
El valor de este coeficiente es adimensional y siempre está entre -1 y +1.
-Si es positivo ( rxy  0 ) la relación es directa. La intensidad será más fuerte
Cuanto más se aproxime a +1, siendo aceptables niveles a partir de +0,75
-Si es negativo ( rxy  0 ) la relación es inversa. La intensidad será más fuerte
cuanto más se aproxime a -1, aceptables valores menores de -0,75
-Si rxy  0 no hay correlación lineal entre las variables.
b) PROPIEDADES DEL COEFICIENTE DE CORRELACIÓN:
1. Multiplicando todos los valores de una de las variables por la constante a el valor
del coeficiente de correlación no varía, alterando únicamente su signo si a es
menor que cero.
2. Si hay una relación exacta entre ambas variables (Y=a+bX) se cumple que rxy  1
si b es mayor que 0, y rxy  1 si b es menor que 0.
3. Si dos variables son independientes, rxy  0 pero su recíproco no siempre es
cierto.
5.6 Regresión lineal:
Usando el coeficiente de correlación lineal se puede determinar el signo y la
intensidad de la relación entre dos variables. Pero no se puede decir nada sobre la
relación entre ellas, es decir, no se puede establecer una relación de causalidad.
A veces dos variables están relacionadas, pero esto no implica que una sea
causa de la otra. Para decir que X causa a Y se deben de cumplir tres condiciones:
-X debe preceder a Y
-Y no debe ocurrir cuando X no ocurre.
-Y debe ocurrir cada vez que X ocurra.
Una vez establecida la relación de causalidad, se selecciona la forma de
modelo matemático que relaciona a las variables.
Recta de regresión: en un diagrama de dispersión la función que mejor se ajusta a
la nube de puntos es la de una recta. Una vez obtenida la ecuación de dicha recta,
31
se pueden realizar predicciones de la variable dependiente a partir de valores
predeterminados de la variable independiente.
Proceso para determinar la ecuación de la recta:
-METODO DE MINIMOS CUADRADOS:
La forma más sencilla es : Y=a+bX
Para encontrar los valores óptimos para los parámetros de la recta, a y b,
que reciben el nombre de ordenada en el origen y pendiente respectivamente
Se usa el criterio de mínimos cuadrados, que produce una recta con buenas
propiedades estadísticas y permite obtener el valor de los parámetros mediante
expresiones sencillas. Así se minimiza la suma de los cuadrados de las diferencias
entre el valor observado para la variable dependiente y el obtenido al sustituir en
la ecuación de la recta el valor de la variable independiente.
En un gráfico de dispersión, sobre el plano podemos trazar infinitas rectas
más o menos próximas entre sí. Para elegir una es necesario añadir alguna
restricción adicional que permita obtener una solución perfectamente
determinada. Para ello se introduce el concepto de error o residuo ei :
ei  yi  yˆ i e
El objetivo del método de mínimos cuadrados es encontrar valores para los
parámetros de la recta, a y b de modo que la suma de residuos al cuadrado SCe
sea mínima
k
k
k
i 1
i 1
i 1
SC e   ei2   ( y i , yˆ i ) 2   ( y i  (a  bx i )) 2
De todas las rectas de la forma Y=a+bX la que minimiza SCe es la que
cumple que:
S xy
b 2
Sx
S xy
a  y  bx  y  2  x
Sx
Esta solución se usa cuando calculamos la recta de regresión de Y sobre X, es
decir, cuando consideramos a Y como la variable dependiente y X la independiente.
En caso contrario, X=a+bY la solución óptima es:
b
S xy
S y2
a  x  by  x 
S xy
S y2
y
-BONDAD DE AJUSTE.
Realizado el ajuste de la recta de regresión, se analiza en qué medida queda
explicada la variable endógena por la variable exógena en base al ajuste realizado.
Se usa el coeficiente de determinación R 2 para medir la proporción de variabilidad
de la variable dependiente respecto a su medida.
32
R r 
2
2
xy
S xy2
S x2 S y2
Para obtener el coeficiente de determinación se eleva al cuadrado el
coeficiente de correlación lineal de Pearson. Su valor varía entre 0 y 1.
Si R2 es cero existe una representatividad nula.
Si R2 es uno significa que el ajuste es perfecto.
Los valores intermedios nos indican mayor o menor representatividad. La
regresión se entiende representativa cuando R2 es superior 0’75.
-INTERPOLACIÓN Y EXTRAPOLACIÓN: Para realizar previsiones con el modelo
obtenido. Se obtienen los valores previstos para la variable dependiente usando
para ello valores dados de la variable independiente, así como los coeficientes a y
b estimados. Usando la ecuación estimada podemos:
-Pronosticar los valores de la variable dependiente a partir de valores de la
variable independiente que pertenecen al intervalo de variación de los datos
observados: interpolación.
-Predecir valores de la variable dependiente a partir de valores de la variable
independiente que estén situados fuera de dicho intervalo: extrapolación.
Para realizar predicciones hay que tener en cuenta:
-La calidad del ajuste: mayor valor del coeficiente R 2 más fiables.
-Los valores de la variable independiente: a medida que nos alejemos del
rango que comprende a los datos de partida, la fiabilidad disminuye.
-