Download conceptos de estadistica y clasificacion

Document related concepts
no text concepts found
Transcript
Universidad Juárez Autónoma De Tabasco
División Académica De Ciencias Biológicas
Materia: Estadística Descriptiva
Licenciatura: Biología
Profesor: Filemón Vidal Baeza
Alumna: Rosario Eunice Franco Félix
Tema: Organización de Datos (unidad 1)
Febrero de 2010
INDICE
UNIDAD UNO: ORGANIZACIÓN DE DATOS
1.1)
1.2)
1.3)
1.4)
1.5)
1.6)
1.7)
1.8)
La naturaleza de la estadística y su importancia biológica.
Concepto y clasificación de estadística.
Arreglo ordenado
Rango
Datos no agrupados
Datos agrupados
Distribución de frecuencias
Representación gráfica
(histograma, polígonos de frecuencias, etc.)
INTRODUCCION
El presente trabajo tiene como propósito presentar material para la exposición sobre la
Importancia, Utilidad y Características Deseables en un Gráfico, pero para hablar de
este tema, debemos tener presente la importancia y utilidad en sí de la Estadística. En
la práctica docente es muy difícil concebir la evaluación de resultados sin tomar en
cuanta algún tipo de estadística. En la vida cotidiana la estadística permite a una
persona común hacer uso y entender datos que de otro modo ni siquiera tendríamos.
La Estadística es mucho más que sólo números apilados y gráficas bonitas. Es una
ciencia con tanta antigüedad como la escritura, y es por sí misma auxiliar de todas las
demás ciencias. Los mercados, la medicina, la ingeniería, los gobiernos, etc. se
nombran
entre
los
más
destacados
clientes
de
ésta.
La ausencia de ésta conllevaría a un caos generalizado, dejando a los administradores
y ejecutivos sin información vital a la hora de tomar decisiones en tiempos de
incertidumbre.
La Estadística que conocemos hoy en día debe gran parte de su realización a los
trabajos matemáticos de aquellos hombres que desarrollaron la teoría de las
probabilidades, con la cual se adhirió a la Estadística a las ciencias formales.
En este breve material se expone los conceptos, la historia, la división así como
algunos errores básicos cometidos al momento de analizar datos Estadísticos.
CONCEPTOS DE ESTADISTICA Y CLASIFICACION
ESTADISTICA
Rama de las matemáticas que se ocupa de reunir, organizar y analizar datos
numéricos y que ayuda a resolver problemas como el diseño de experimentos y la
toma de decisiones.
La estadística es una ciencia con base matemática referente a la recolección, análisis
e interpretación de datos, que busca explicar condiciones regulares en fenómenos de
tipo aleatorio. Es transversal a una amplia variedad de disciplinas, desde la física
hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad, y
es usada para la toma de decisiones en áreas de negocios e instituciones
gubernamentales.
La Estadística se divide en dos ramas:
La estadística descriptiva, que se dedica a los métodos de recolección, descripción,
visualización y resumen de datos originados a partir de los fenómenos en estudio. Los
datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de
parámetros estadísticos son: la media y la desviación estándar. Algunos ejemplos
gráficos son: histograma, pirámide poblacional, clusters, etc.
La inferencia estadística, que se dedica a la generación de los modelos, inferencias y
predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la
aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y
extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden
tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estimaciones de
características numéricas (estimación), pronósticos de futuras observaciones,
descripciones de asociación (correlación) o modelamiento de relaciones entre
variables (análisis de regresión). Otras técnicas de modelamiento incluyen ANOVA,
series de tiempo y minería de datos.
Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. Hay
también una disciplina llamada estadística matemática, la cual se refiere a las bases
teóricas de la materia. La palabra estadísticas también se refiere al resultado de
aplicar un algoritmo estadístico a un conjunto de datos, como en estadísticas
económicas, estadísticas criminales, etc.
DISTRIBUCIÓN DE FRECUENCIAS
Distribución de frecuencias es como se denomina en estadística a la agrupación de
datos en categorías mutuamente excluyentes que indican el número de observaciones
en cada categoría. Esto significa una de las cosas más importantes de la matemática,
su estadística con la agrupación de datos. La distribución de frecuencias presenta las
observaciones clasificadas de modo que se pueda ver el número existente en cada
clase.
Elementos fundamentales para elaborar una distribución de frecuencia:
1) RANGO.
Es una medida de dispersión que se obtiene como la diferencia entre el número mayor
y el número menor de los datos.
R = N_max - N_min
Ejemplo.
Dados los números: 5, 10, 12, 8, 13, 9, 15
R= 15- 5
2) AMPLITUD TOTAL.
Simplemente se obtiene sumándole 1 al rango.
AT = (R+1)
3) LAS CLASES.
Están formadas por dos extremos. el menor se llama límite inferior el mayor se llama
límite superior. hay distintos tipos de clases.
Ej. Notas (20-26) Edades (20-26.5) Salarios (20-26.99)
4) EL NÚMERO DE CLASES.
Se determina a través de la formula de stuger, la cual es válida cuando el No de
observaciones sea menor o igual a 500. Formula.
Nc= 1 + 3.33log (N)
Donde:
Nc es el número de clases. N es la cantidad de muestras tomadas.
5) VALOR DEL INTERVALO O AMPLITUD
Se Obtiene por medio de la ecuación de dicta:
Vi = AT / Nc
Donde:
Vi es el valor de intervalo AT es la amplitud total Nc es el número de clase
REPRESENTACIÓN GRÁFICA
En los análisis estadísticos, es frecuente utilizar representaciones visuales
complementarias de las tablas que resumen los datos de estudio. Con estas
representaciones, adaptadas en cada caso a la finalidad informativa que se persigue,
se transmiten los resultados de los análisis de forma rápida, directa y comprensible
para un conjunto amplio de personas.
Tipos de representaciones gráficas
Cuando se muestran los datos estadísticos a través de representaciones gráficas, se
ha de adaptar el contenido a la información visual que se pretende transmitir. Para
ello, se barajan múltiples formas de representación:







Diagramas de barras: muestran los valores de las frecuencias absolutas sobre un
sistema de ejes cartesianos, cuando la variable es discreta o cualitativa.
Histogramas: formas especiales de diagramas de barras para distribuciones
cuantitativas continuas.
Polígonos de frecuencias: formados por líneas poligonales abiertas sobre un
sistema de ejes cartesianos.
Gráficos de sectores: circulares o de tarta, dividen un círculo en porciones
proporcionales según el valor de las frecuencias relativas.
Pictogramas: o representaciones visuales figurativas. En realidad son diagramas
de barras en los que las barras se sustituyen con dibujos alusivos a la variable.
Cartogramas: expresiones gráficas a modo de mapa.
Pirámides de población: para clasificaciones de grupos de población por sexo y
edad.
Diagramas de barras e histogramas
Los diagramas de barras se usan para representar gráficamente series estadísticas de
valores en un sistema de ejes cartesianos, de manera que en las abscisas se indica el
valor de la variable estadística y en las ordenadas se señala su frecuencia absoluta.
Estos gráficos se usan en representación de caracteres cualitativos y cuantitativos
discretos. En variables cuantitativas continuas, se emplea una variante de los mismos
llamada histograma.
Diagrama de barras.
Histograma.
Polígonos de frecuencias
Para construir polígonos de frecuencias, se trazan las frecuencias absolutas o relativas
de los valores de la variable en un sistema de ejes cartesianos y se unen los puntos
resultantes mediante trazos rectos. Con ello se obtiene una forma de línea poligonal
abierta.
Los polígonos de frecuencias se utilizan preferentemente en la presentación de
caracteres cuantitativos, y tienen especial interés cuando se indican frecuencias
acumulativas. Se usan en la expresión de fenómenos que varían con el tiempo, como
la densidad de población, el precio o la temperatura.
Gráficos de sectores
En los diagramas de sectores, también llamados circulares o de tarta, se muestra el
valor de la frecuencia de la variable señalada como un sector circular dentro de un
círculo completo. Por ello, resultan útiles particularmente para mostrar comparaciones
entre datos, sobre todo en forma de frecuencias relativas de las variables expresadas
en forma de porcentaje.
Pictogramas y cartogramas
Para aligerar la presentación de datos estadísticos, con frecuencia se recurre a
imágenes pictóricas representativas del valor de las variables. Dos formas comunes de
expresión gráfica de los datos son:


Los pictogramas, que muestran diagramas figurativos con figuras o motivos que
aluden a la distribución estadística analizada (por ejemplo, una imagen
antropomórfica para indicar tamaños, alturas u otros).
Los cartogramas, basados en mapas geográficos que utilizan distintas tramas,
colores o intensidades para remarcar las diferencias entre los datos.
Pirámide de población
Otra forma corriente de presentación visual de datos estadísticos es la llamada
pirámide de población.
Las pirámides de población se utilizan en la expresión de informaciones demográficas,
económicas o sociales, y en ellas se clasifican comúnmente los datos de la población
del grupo de muestra considerado en diferentes escalas de edad y diferenciada por
sexo.
Ejemplo de una pirámide de población.
Polígono de frecuencias. Polígono de frecuencias acumulativas. Gráfico de sectores.
Representación de datos estadísticos en un pictograma.
«« Variables estadísticas
Medidas de tendencia central »»
Más información
Polígono de frecuencias.
Polígono de frecuencias acumulativas.
Gráfico de sectores.
Representación de datos estadísticos en un pictograma.
RANGO
El rango en estadística es la diferencia o resta del límite superior menos el límite
inferior, de los datos utilizados en una clase.
Se simboliza con la letra R mayúscula.
Para averiguar el rango de un grupo de números:
Ordene los números según su tamaño Reste el valor mínimo al valor máximo.
Requisitos del rango


Ordenamos los números según su tamaño.
Restamos el valor mínimo del valor máximo.
Ejemplo
Para una muestra (1, 45, 50, 55, 100), el dato menor es 1 y el dato mayor es 100. Sus
valores se encuentran en un rango de:
Rango = 100 – 1 =99
El intervalo del rango de un conjunto de datos numéricos es el intervalo cuyos
extremos son el menor y el mayor valor.
Ejemplo
Para una muestra (1, 45, 50, 55, 100), el dato menor es 1 y el dato mayor es 100. Sus
valores se encuentran en el intervalo del rango de:
IR = [1,100]
Medio rango
El medio rango de un conjunto de valores numéricos es la media del menor y mayor
valor, o la mitad del camino entre el dato de menor valor y el dato de mayor valor. En
consecuencia el medio rango es:
Ejemplo
Para una muestra de valores (3, 3, 5, 6, 8), el dato de menor valor Min= 3 y el dato de
mayor valor Max= 8. El medio rango resolviendolo mediante la correspondiente
fórmula sería:
Representación del medio rango:
RECOPILACION DE DATOS
Poblacion y muestra Al recoger datos relativos a las características de un grupo de
individuos u objetos, sean alturas y pesos de estudiantes de una universidad o tuercas
defectuosas producidas en una fábrica, suele ser imposible o nada práctico observar
todo el grupo, en especial si es muy grande. En vez de examinar el grupo entero,
llamado población o universo, se examina una pequeña parte del grupo, llamada
muestra. Una población puede ser finita o infinita. Por ejemplo, la población
consistente en todas las tuercas producidas por una fábrica un cierto día es finita,
mientras que la determinada por todos los posibles resultados (caras, cruces) de
sucesivas tiradas de una moneda, es infinita. Si una muestra es representativa de una
población, es posible inferir importantes conclusiones sobre las poblaciones a partir del
análisis de la muestra. La fase de la estadística que trata con las condiciones bajo las
cuales tal diferencia es válida se llama estadística inductiva o inferencia estadística. Ya
que dicha inferencia no es del todo exacta, el lenguaje de las probabilidades aparecerá
al establecer nuestras conclusiones. La parte de la estadística que sólo se ocupa de
describir y analizar un grupo dado, sin sacar conclusiones sobre un grupo mayor, se
llama estadística descriptiva o deductiva.
Muestra aleatoria: muestra elegida independientemente de todas las demás, con la
misma probabilidad que cualquier otra y cuyos elementos están elegidos
independientemente unos de otros y con la misma probabilidad.
1.4 ANÁLISIS DESCRIPTIVO DE LA INFORMACION:
Ayudará a observar el comportamiento de la muestra en estudio, a través de tablas,
gráficos..... Los resultados recogidos en la muestra se resumen en una matriz de datos
N x M, en la cual N es el número de unidades de análisis utilizadas (número de casos)
y M es el número de características de dichas unidades, unidades de las que tenemos
información. Transformación de los datos: la transformación persigue la consecución
de una distribución aproximada a la normal. Tipos de transformación:
Lineales: suma, resta, división, multiplicación, cambia los valores brutos (datos
obtenidos) de la variable sin alterar nada más.
No lineales monotónicas : cambian los valores originales y también sus distancias pero
no el orden
No lineales no monotónicas : similar a la anterior pero no altera el orden..
1.4.1 DATOS NO AGRUPADOS
Tendencia central: la tendencia central se refiere al punto medio de una distribución.
Las medidas de tendencia central se conocen como medidas de posición.
Dispersión: se refiere a la extensión de los datos en una distribución, es decir, al
grado en que las observaciones se distribuyen.
1.4.2 DATOS AGRUPADOS
Medidas de Dispersión Se llaman medidas de dispersión aquellas que permiten
retratar la distancia de los valores de la variable a un cierto valor central, o que
permiten identificar la concentración de los datos en un cierto sector del recorrido de la
variable. Se trata de coeficiente para variables cuantitativas.
Medidas de Tendencia central La estadística busca entre otras cosas, describir las
características típicas de conjuntos de datos y, como hay varias formas de hacerlo,
existen y se utilizan varios tipos de promedios. Se les llama medidas de tendencia
central porque general mente la acumulación más alta de datos se encuentra en los
valores intermedios.
Las medidas de tendencia central comúnmente empleadas son :

Media aritmética

Mediana

Moda

Media geométrica

Media armónica

Los cuantiaos
1.5 GRAFICOS DE ESTADISTICA DESCRIPTIVA
Los gráficos se han de explicar enteramente por sí mismos. El contenido de un gráfico
deberá ser tan completo como sea posible. Las escalas vertical y horizontal estarán
rotuladas con claridad dando las unidades pertinentes. Las mayorías de los gráficos
presentan información numérica con escalas, que deben rotularse para describir
completamente la variable presentada en la escala y para variables de medida se
dirán las unidades de medición. No se debe tratar de abarcar demasiada información
en un solo gráfico. Es mejor hacer varios gráficos que comprimir toda la información en
uno solo. Una regla práctica segura es evitar gráficos que contengan más de 3 curvas.
Los gráficos tienen que dar una visión general y no una imagen detallada de un
conjunto de datos. Las presentaciones detalladas se deben reservar para las tablas.
Las tablas se explicarán por sí mismas enteramente. Como los gráficos, se ha de dar
suficiente información en el título y en los encabezamientos de columnas y filas de la
tabla para permitir que el lector identifique fácilmente su contenido. Como el título será
por lo general lo primero que se lee en detalle, deberá suministrar toda la información
esencial sobre el contenido de la tabla y deberá especificar el tiempo, lugar, material ó
estudio experimental y relaciones que se presenten en la tabla. Para cada variable
numérica se han de dar las unidades. La función del rayado es dar claridad de
interpretación. Las anotaciones de numéricas del cero se han de escribir
explícitamente. Una anotación numérica no debe comenzar con un punto decimal. Los
números que indican valores de la misma característica se han de dar con el mismo
número de decimales.
PARA LOS SUIGUITES DATOS VAN A SER VASADOS EN LA TABLA 1(TANTO
AGRUPADOS COMO NO AGRUPADOS)
Tabla
I.
Distribución
frecuencias
de la edad en 100 pacientes.
Edad
de
Nº
de
pacientes
18
1
19
3
20
4
21
7
22
5
23
8
24
10
25
8
26
9
27
6
28
6
29
4
30
3
31
4
32
5
33
3
34
2
35
3
36
1
37
2
38
3
39
1
41
1
42
1
1.5.1 NO AGRUPADOS
Otro modo habitual, y muy útil, de resumir una variable de tipo numérico es utilizando
el concepto de percentiles, mediante diagramas de cajas. La Figura muestra un gráfico
de cajas correspondiente a los datos de la Tabla I. La caja central indica el rango en el
que se concentra el 50% central de los datos. Sus extremos son, por lo tanto, el 1er y
3er cuartil de la distribución. La línea central en la caja es la mediana. De este modo,
si la variable es simétrica, dicha línea se encontrará en el centro de la caja. Los
extremos de los "bigotes" que salen de la caja son los valores que delimitan el 95%
central de los datos, aunque en ocasiones coinciden con los valores extremos de la
distribución. Se suelen también representar aquellas observaciones que caen fuera de
este rango (outliers o valores extremos). Esto resulta especialmente útil para
comprobar, gráficamente, posibles errores en nuestros datos. En general, los
diagramas de cajas resultan más apropiados para representar variables que presenten
una gran desviación de la distribución normal.
1.5.2 DATOS AGRUPADOS
Histograma: Está formado por rectángulos cuya base es la amplitud del intervalo y
tiene la característica que la superficie que corresponde a las barras es representativa
de la cantidad de casos o frecuencia de cada tramo de valores, puede construirse con
clases que tienen el mismo tamaño o diferente (intervalo variable). La utilización de los
intervalos de amplitud variable se recomienda cuando en alguno de los intervalos, de
amplitud constante, se presente la frecuencia cero o la frecuencia de alguno o algunos
de los intervalos sea mucho mayor que la de los demás, logrando así que las
observaciones se hallen mejor repartidas dentro del intervalo.
Ojivas: Cuando se trata de relacionar observaciones en un mismo aspecto para dos
colectivos diferentes no es posible ejecutar comparaciones sobre la base de la
frecuencia, es necesario tener una base estándar, la frecuencia relativa. La ojiva
representa gráficamente la forma en que se acumulan los datos y permiten ver
cuántas observaciones se hallan por arriba o debajo de ciertos valores. Es útil para
obtener una medida de los cuartiles, deciles, percentiles.
Polígono de Frecuencias
Se puede obtener uniendo cada punto medio (marca de clase) de los rectángulos del
histograma con líneas rectas, teniendo cuidado de agregar al inicio y al final marcas de
clase adicionales, con el objeto de asegurar la igualdad del áreas.
Diagramas de barras son similares a los gráficos de sectores. Se representan tantas
barras como categorías tiene la variable, de modo que la altura de cada una de ellas
sea proporcional a la frecuencia o porcentaje de casos en cada clase. Estos mismos
gráficos pueden utilizarse también para describir variables numéricas discretas que
toman pocos valores
En los gráficos de sectores, también conocidos como diagramas de "tartas", se divide
un círculo en tantas porciones como clases tenga la variable, de modo que a cada
clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o
relativa. Un ejemplo se muestra en la. Como se puede observar, la información que se
debe mostrar en cada sector hace referencia al número de casos dentro de cada
categoría y al porcentaje del total que estos representan. Si el número de categorías
es excesivamente grande, la imagen proporcionada por el gráfico de sectores no es lo
suficientemente clara y por lo tanto la situación ideal es cuando hay alrededor de tres
categorías. En este caso se pueden apreciar con claridad dichos subgrupos.
1.6 MEDIDAS DE ASIMETRIA Y APUNTAMIENTO
Sesgo: las curvas que representan los puntos de datos de un conjunto de datos
pueden ser simétricas o sesgadas. Las curvas simétricas, tienen una forma tal que una
línea vertical que pase por el punto más alto de la curva dividirá el área de ésta en dos
partes iguales. Cada parte es una imagen espejo de la otra. En las curvas sesgadas,
los valores de su distribución de frecuencias están concentrados en el extremo inferior
o en el superior de la escala de medición del eje horizontal. Los valores no están
igualmente distribuidos. Las curvas pueden estar sesgadas hacia la derecha
(positivamente sesgadas) o sesgadas hacia la izquierda (negativamente sesgadas).
MEDIDAS DE CURTOSIS
Al comparar cuán aguda es una distribución en relación con la Distribución Normal, se
pueden presentar diferentes grados de apuntalamiento.
1. Mesocúrtica, Normal
2. PlarticúrtiCa, Menor apuntalamiento
3. Leptocúrtica, Mayor apuntalamiento
ARREGLO ORDENADO
Un arreglo ordenado es una secuencia de datos ordenados del mayor a menor valor.
La siguiente tabla contiene la información ordenada para el precio de las comidas en
restaurante citadinos y de los suburbios. En la tabla se observa el precio de una
comida en los restaurantes citadinos se encuentra entre $14 y $63, y que los
restaurante fueras de la ciudad se encuentra entre $23 y $55.
Tabla.- arreglo ordenado
Del precio por persona
En 50 restaurante
De la ciudad y 50 restaurantes
Fuera de la ciudad
30
36
39
45
53
31
36
40
48
53
31
37
41
48
56
32
37
42
49
63
26
29
33
38
48
26
30
33
38
51
26
30
34
38
51
26
30
34
38
55
CONCLUSIÓN
El ser humano es curioso y controlador por naturaleza; ejercer ese control sobre su
entorno le presenta un problema serio; por ello la Estadística le es tan útil en su vida
diaria.
El hombre acumula información, luego la clasifica y la analiza para poder entenderla,
de ese modo podrá controlarla; después la traduce a cifras, cálculos y datos que le
ayudan a tomar decisiones sobre cosas tan cotidianas como la compra de un vehículo,
el lugar más seguro para vivir, la variación del clima en una zona o cosas tan
indispensables como la compra y venta de un producto en una empresa o la matrícula
de una institución educativa. Pero para que el hombre pueda hacer todo esto, debe
tener un método, una forma de recolectar e interpretar esos datos; este método es a lo
que llamamos estadística.
Existen mil usos para la información que recopilemos, pero independientemente de la
necesidad o el enfoque que queramos darle, la presentación final nos permitirá
comunicar nuestros resultados; las tablas y los informes son efectivos, pero sin duda
ninguno es tan claro ni tan popular como los gráficos, ya que son legibles incluso para
un niño. Agregado al punto anterior su estética le da un aspecto artístico, aún al más
aburrido de los informes.
BIBILIOGRAFIA
http://www.hiru.com/matematika/matematika_06000.html
Texto Estadística para las Ciencias Administrativas.
Martinez, Ciro. Estadística y Muestreo. Ecoe Ediciones. Bogotá. 11ª. Edición.