Download Unidad I. Conceptos Básicos y Estadística Descriptiva

Document related concepts
no text concepts found
Transcript
Concepto de Estadística
Se refiere a un conjunto de métodos para
manejar la obtención, presentación y
análisis de observaciones numéricas.
Concepto de Estadística
Sus fines son describir al conjunto de datos obtenidos y
tomar decisiones o realizar generalizaciones acerca de
las características de todas las observaciones bajo
consideración.
Áreas que conforman a la Estadística
 Estadística
Descriptiva (Deductiva): es la
encargada de la organización, condensación,
presentación de los datos en tablas y gráficos y
del cálculo de medidas numéricas que permitan
estudiar los aspectos más importantes de los
datos.
DESCRIBIR
Áreas que conforman a la Estadística
 Estadística Inferencial o Inferencia Estadística:
está definida por un conjunto de técnicas,
mediante las cuales se hacen generalizaciones o
se toman decisiones en base a información
parcial obtenida mediante técnicas descriptivas.
INFERIR
Áreas de Aplicación de la Estadística
 El uso de la Estadística es muy amplio. Resulta difícil
nombrar un área en la cual no se emplee.
 Los métodos estadísticos han encontrado aplicación
en:








Gobierno
Negocios
Ciencias Sociales
Ingeniería
Ciencias Física y Naturales
Control de Calidad
Procesos de Manufactura
Muchos otros campos de la actividad intelectual.
Áreas de Aplicación de la Estadística
 Esto se debe a la creciente facilidad con la cual
se pueden manejar grandes cantidades de datos
numéricos, debido al uso de …
Conceptos de Población y Muestra
 Población: es la colección de todas las posibles
mediciones u observaciones que pueden hacerse
de una variable bajo estudio.
Conceptos de Población y Muestra
 Muestra:
 es un conjunto de mediciones u observaciones
tomadas a partir de una población.
 es un subconjunto de la población.
Conceptos de Población y Muestra
 Muestra aleatoria: se considera aleatoria siempre y
cuando cada observación, medición o individuo de la
población tenga la misma probabilidad de ser
seleccionado.
Tipos de datos y escalas de medida
 Variables:
 son las características o lo que se estudia de cada
individuo de la muestra. Ej: sexo, edad, peso, estatura,
color de ojos, estado civil, temperatura, cantidad de
nacimientos, presión, grosor, diámetro, ...
 Datos:
 son los valores que toma la variable en cada caso.
Tipos de datos
 Cualitativos: son datos que solo toman valores asociados
a las cualidades o atributos, clasificándolos en una de
varias categorías, es decir, no son valores numéricos. Ej.:
 Sexo: f/m.
 Hábito de fumar: Fumador/No fumador
 Color de ojos: negro, azul, marrón, …
 Religión: católica, evangélica, …
 Estado civil: soltero, casado, divorciado,…
Tipos de datos
 Cuantitativos: provienen de variables que pueden
medirse, cuantificarse o expresarse numéricamente.
Ejemplos:
 Peso
 Edad
 Estatura
 Presión
 Humedad
 Intensidad de un sismo
 Cantidad de hermanos
Escalas de medida
 Tipos de variables cuantitativas:
 Discretas: es aquella que solo puede tomar un número
finito o infinito numerable de valores. Ejemplo: cantidad
de hermanos.
 Continuas: es la variable que puede tomar cualquier
valor en una escala continua. Ejemplo: cantidad de
líquido contenido en un recipiente.
Escalas de medida
 Escala Nominal.
 Escala Ordinal.
Variables Cualitativas
 Escala de Intervalos.
 Escala de Razón o Proporción.
 Escala Absoluta.
Variables
Cuantitativas
Escalas de medida
 Escala nominal: los datos se pueden agrupar en
categorías que no mantienen una relación de
orden entre si, por lo tanto no están definidas
las operaciones lógicas (>, <, , ) sino solo las
de igualdad o diferencia.
 Ejemplos: color de ojos, sexo, profesión, estado
civil, religión.
Escalas de medida
 Escala ordinal: existe un cierto orden o jerarquía entre
las categorías (>, <, , ).
 Ejemplos: grados militares, organigrama de una
empresa, escalafón de los profesores universitarios,
grados de disnea.
Escalas de medida
 Escala de Intervalos: valores numéricos de las
variables y además de las relaciones de orden (>,
<, , ), se pueden establecer distancias, es decir,
tienen sentido las operaciones de suma y resta.
Tiene dos propiedades:
 Existe una unidad de medida que se mantiene
constante para todos los valores que toma la variable.
 Existe un valor patrón u origen relativo que no significa
la ausencia de valor en la variable.
Escalas de medida
 Ejemplo: temperatura, nivel de ruido, movimientos
sísmicos.
Escalas de medida
 Escala de razón o proporción: es la más completa y
general de todas las escalas. Se caracteriza porque
los valores de la variable son números entre los
cuales, además de las relaciones de orden (>, <, ,
) y distancia (+,-), se pueden establecer
múltiplos y proporciones.
 Ejemplos: peso, altura, volumen…
Escalas de medida
 Escala Absoluta: se caracteriza porque los valores que
toma la variable son el resultado de contar y por lo
tanto, está constituida por los enteros positivos y el
cero.
 Ejemplos: número de hermanos, cantidad de autos
vendidos, cantidad de accidentes en una intersección,
cantidad de hijos,…
Datos Univariantes y Multivariantes
 Univariantes
o unidimensionales: sólo recogen
información sobre una característica (Ej.: edad de los
alumnos de una clase).
 Bivariantes o bidimensionales: recogen información
sobre dos características de la población. (Ej.: edad y
estatura de los alumnos de una clase).
Datos Univariantes y Multivariantes
 Multivariantes
o
pluridimensionales:
recogen
información sobre tres ó más características. (Ej: edad,
estatura y peso de los alumnos de una clase).
Organización de los datos
 Una vez que se ha
realizado la
recolección de los
datos, se obtienen
datos en bruto, los
cuales rara vez son
significativos sin una
organización y
tabulación.
Organización de los datos
 Una distribución de frecuencias: es un arreglo de
los datos que permite expresar la frecuencia de
ocurrencias de las observaciones en cada una de
las clases, mostrando el patrón de la distribución
de manera más significativa.
Clase
Pto.
Medio
fi
Fi
fri
FRi
Organización de los datos
 La Distribución de Frecuencias:
 Se recomienda su uso cuando se tienen grandes
cantidades de datos (n).
 Su construcción requiere, en primer lugar, la
selección de los límites de los intervalos de clase.
Organización de los datos
 La cantidad de clases no puede ser tan pequeño
(menos de 5) o tan grande (más de 20), que la
verdadera naturaleza de la distribución sea
imposible de visualizar.
 La amplitud de todas las clases deberá ser la misma.
Se recomienda que sea impar y que los puntos
medios tengan la misma cantidad de cifras
significativas que los datos en bruto.
 Los límites de las clases deben tener una cifras
significativas más que los datos en bruto.
Organización de los datos
 Determinar:
 Punto medio = (Li+Ls)/2.
 Frecuencia absoluta de la clase (f i).
 Frecuencia acumulada de la clase (Fi).
Representación gráfica de los datos
 Los gráficos permiten visualizar en forma global y rápida
el comportamiento de los datos.
 Para datos cuantitativos agrupados en clases,
comúnmente se utilizan tres gráficos:
 Histogramas.
 Polígono de frecuencias.
 Ojiva o Polígono de frecuencias acumuladas.
Representación gráfica de los datos
Histograma
Representación gráfica de los datos
Histograma y Polígono de Frecuencias
Representación gráfica de los datos
 Para datos cualitativos se usan:
 Curvas
 Barras
 Sectores
Representación gráfica de los datos
Barras
Barras
Representación gráfica de los datos
Curvas
Representación gráfica de los datos
Sectores, torta o circular
Medidas de tendencia central o posición
 Corresponden a valores que generalmente se ubican en
la parte central de un conjunto de datos.
 Forma como los datos pueden condensarse en un solo
valor central alrededor del cual todos los datos
muestrales se distribuyen.
Medidas de tendencia central o posición
 Las medidas de tendencia central más importantes
son:
 Media: Aritmética y Aritmética ponderada.
 Mediana.
 Moda.
Media Aritmética
 Es la suma de todas las observaciones dividida entre el número
total de observaciones.
 Expresada de forma más intuitiva, podemos decir que la media
aritmética es la cantidad total de la variable distribuida a partes
iguales entre cada observación.
Mediana
 Es el valor que ocupa la posición central de un
conjunto de observaciones, una vez que han sido
ordenados en forma ascendente o descendente.
 Divide al conjunto de datos en dos partes iguales.
Moda
 Observación o clase que tiene la mayor frecuencia en
un conjunto de observaciones.
 Un conjunto de datos puede ser unimodal, bimodal o
multimodal.
 Es la única medida de tendencia central que se puede
determinar para datos de tipo cualitativo.
Medidas de dispersión, variación o variabilidad.
 Rango.
 Varianza.
 Desviación Típica.
 Coeficiente de variación.
Medidas de dispersión: Rango
Rango (amplitud o recorrido):
 Está determinado por los dos valores extremos de los
datos muestrales, es simplemente la diferencia entre
la mayor y menor observación.
 Es una medida de dispersión absoluta, ya que
depende solamente de los datos y permite conocer la
máxima dispersión.
Medidas de dispersión: Rango
 Casi no se emplea debido a que depende únicamente
de dos valores.
 No proporciona una medida de variabilidad de las
observaciones con respecto al centro de la
distribución.
 Notación: R
Medidas de dispersión: Varianza
 Es un valor numérico que mide el grado de dispersión
relativa porque depende de la posición de los datos
x1,x2,…,xn con respecto a la media.
 Es el promedio al cuadrado de las desviaciones de cada
observación con respecto a la media.
 Notación: s2, 2, var(X)
USO DEL SOFTWARE ESTADÍSTICO
 El uso del Software en la Estadística es muy importante; ya que en la mayoría de
los casos nos facilita los cálculos Matemáticos y la elaboración de gráficos y
muchas otras cosas.
 Existen muchos software que se pueden utilizar como herramienta para el
Análisis Estadístico, desde los más sencillos hasta los más complicados, entre los
cuales se pueden mencionar el SPSS, SYSTAT, SIGMAPLOT, STATA, MINITAD,
STATGRAPHICS, MATLAB y otros mas; los cuales en su mayoría se iniciaron con
versiones de MS-DOS y en la actualidad existen versiones para Windows y redes
de comunicaciones.
USO DEL SOFTWARE ESTADÍSTICO
 Estos software contienen en su mayoría todas las aplicaciones Estadísticas que
se necesitan para hacer trabajos de Investigación Estadística. También existen
software para áreas especificas de la Estadística, que son creados por
especialistas de esas áreas, tal es el caso del área de Diseño de Experimentos; los
cuales contienen aplicaciones especificas para el estudios de los Diseños
Experimentales. En el Análisis de los Diseños Experimentales resulta de gran
importancia la utilización de un software, ya sea de uso general ó de uso
específico; ya que facilita la obtención de la Tabla de Análisis de Varianza,
gráficos importantes, etc.
SOFTWARE ESTADÍSTICO
 SPSS (Statistical Package for Social Science) es una herramienta ampliamente
utilizada para el manejo y análisis de información, proveniente de encuestas.
 Una de las ventajas de este paquete es la sencillez de manejo ya que mediante el
despliegue de un menú interactivo permite realizar todo tipo de operaciones
sobre los datos como así también aplicar distintas técnicas estadísticas.
 Dispone de un amplio conjunto de métodos estadísticos (multivariados, series
temporales, regresión logística y análisis de supervivencia).Todos los
procedimientos pueden emplearse de una sola ejecución.
SOFTWARE ESTADÍSTICO
 SYSTAT es un poderoso software de estadística que tiene todos los procesos y
aplicaciones necesarios para cualquier procedimiento estadístico que necesite
emplear para un análisis eficiente de datos. Ofrece desde las características más
elemental hasta la más compleja, utilizando los más sofisticados algoritmos.
 Puede diseñar experimentos, llevar a cabo análisis, calcular probabilidades en
muchas distribuciones y convertirlos en resultados. Todo lo que se pueda
necesitar: Series de Tiempo, Análisis de Supervivencia, Optimización en
Respuesta de Superficies, Estadísticas Espaciales, Análisis de Pruebas de
Objetos,, Análisis de Correspondencia, Escalas Multidimensionales, Análisis
Conjuntos, Análisis de Calidad, etc. - SYSTAT los tiene todos.
SOFTWARE ESTADÍSTICO
 SIGMAPLOT es el programa líder en graficación, el cual ahora tiene guías de
análisis estadístico con más de 50 métodos estadísticos y 100 tipos de gráficos,
A través de un amplio espectro de disciplinas para datos y análisis estadístico, y
permite que los usuarios presenten datos exactos, con una alta calidad de
publicación y reportes generales.
 Ofrece un completo rango de métodos estadísticos fáciles de usar en adición a
las plantillas de gráficos y utilidades con nuevas características para hacer mas
preciso y rápido el procesamiento de datos para usuarios sin amplios
conocimientos de estadística.
SOFTWARE ESTADÍSTICO
 MATLAB es un programa creado con lenguaje de alto nivel en un entorno
interactivo que permite resolver muchos problemas numéricos en una fracción
del tiempo. También puede utilizar MATLAB para analizar y visualizar una
serie de datos utilizando las capacidades de automatización, a fin de evitar la
repetición manual común con otros productos.
 La Programación y desarrollo de algoritmos con MATLAB es más rápido que
con los lenguajes tradicionales y proporciona todas sus características;
incluidos los operadores aritméticos, control de flujo, estructuras de datos,
tipos de datos, depuración y programación orientada a objetos.
SOFTWARE ESTADÍSTICO
 Minitab es un programa de computadora diseñado para ejecutar funciones
estadísticas básicas y avanzadas. Combina lo amigable del uso de Microsoft
Excel con la capacidad de ejecución de análisis estadísticos.
 Minitab llegó a ser, y continúa siendo, el principal software del mundo para la
enseñanza de estadística. Asimismo, es el software utilizado con mayor
frecuencia en Six Sigma, la principal metodología del mundo para el
mejoramiento de la calidad.
SOFTWARE ESTADÍSTICO
 STATGRAPHICS es el más poderoso e intuitivo software estadístico para
Windows. Con más de 150 procedimientos estadísticos que cubren la mayoría
de las áreas de análisis estadístico.
 Está diseñado para todos aquellos que deseen hacer análisis profundos de datos
sin invertir semanas enteras aprendiendo a usar un paquete estadístico. Los
procedimientos estadísticos que contiene STATGRAPHICS van desde
resúmenes estadísticos hasta diseño de experimentos. Fácil de usar el software
está diseñado para ser utilizado a través de menús, y existen herramientas como
StatWizard y StatAdvisor para ayudarlo a usar el programa de la forma más
eficiente.
SOFTWARE ESTADÍSTICO
 STATA es un paquete estadístico completo e integrado que proporciona todo lo
que necesita para el análisis de información, la administración de información y
las gráficas. Utiliza variadas
herramientas estadísticas, desde técnicas
avanzadas hasta los métodos estándar.