Download Introducción a R Parte 1

Document related concepts

Estadística inferencial wikipedia , lookup

Estadística bayesiana wikipedia , lookup

Variables aleatorias independientes e idénticamente distribuidas wikipedia , lookup

Estadística wikipedia , lookup

Muestra estadística wikipedia , lookup

Transcript
EYP1113
Probabilidad y Estadística para
Ingeniería
Laboratorio N°1
Profesores:
Ricardo Aravena C.
Ricardo Olea O.
1º Semestre 2010
EYP1113 Probabilidad y Estadística para Ingeniería
1.1 Introducción a R
R es un conjunto integrado de programas para
manipulación de datos, calculo y gráficos. Entre otras
características dispone de:
• Almacenamiento y manipulación efectiva de datos,
• Operadores para calculo sobre variables indexadas (arrays), en
particular matrices,
• Una amplia, coherente e integrada colección de herramientas para
análisis de datos,
• Posibilidades graficas para análisis de datos, que funcionan
directamente sobre pantalla o impresora,
• Y un lenguaje de programación bien desarrollado, simple y efectivo,
que incluye condicionales, ciclos, funciones recursivas y posibilidad
de entradas y salidas. (Debe destacarse que muchas de las funciones
suministradas con el sistema están escritas en el lenguaje R)
Copyright © 1999, 2000 R Development Core Team
2
EYP1113 Probabilidad y Estadística para Ingeniería
1.1 Introducción a R
El termino “entorno" lo caracteriza como un sistema
completamente diseñado y coherente, antes que como una
agregación incremental de herramientas muy específicas e
inflexibles, como ocurre frecuentemente con otros programas
de análisis de datos.
R es en gran parte un vehículo para el desarrollo de nuevos
métodos de análisis interactivo de datos. Como tal es muy
dinámico y las diferentes versiones no siempre son totalmente
compatibles con las anteriores. Algunos usuarios prefieren los
cambios debido a los nuevos métodos y tecnología que los
acompañan, a otros sin embargo les molesta ya que algún
código anterior deja de funcionar. Aunque R puede entenderse
como un lenguaje de programación, los programas escritos en
R deben considerarse esencialmente efímeros.
Copyright © 1999, 2000 R Development Core Team
3
EYP1113 Probabilidad y Estadística para Ingeniería
1.2 Estadística con R
Muchas personas utilizan R como un sistema estadístico. Se
prefiere describirlo como un entorno en el que se han
implementado muchas técnicas estadísticas, tanto clásicas
como modernas. Algunas están incluidas en el entorno base de
R y otras se acompañan en forma de bibliotecas (packages).
El hecho de distinguir entre ambos conceptos es
fundamentalmente una cuestión histórica. Junto con R se
incluyen ocho bibliotecas (llamadas bibliotecas estándar) pero
otras muchas están disponibles a través de Internet en CRAN
(http://www.r-project.org).
Copyright © 1999, 2000 R Development Core Team
4
EYP1113 Probabilidad y Estadística para Ingeniería
1.2 Estadística con R
Muchas técnicas estadísticas, desde las clásicas hasta la
ultima metodología, están disponibles en R, pero los usuarios
necesitaran estar dispuestos a trabajar un poco para poder
encontrarlas. Existe una diferencia fundamental en la filosofía
que subyace en R (o S) y la de otros sistemas estadísticos.
En R, un análisis estadístico se realiza en una serie de pasos,
con unos resultados intermedios que se van almacenando en
objetos, para ser observados o analizados posteriormente,
produciendo unas salidas mínimas. Sin embargo en SAS o
SPSS se obtendrá de modo inmediato una salida copiosa para
cualquier análisis, por ejemplo, una regresión o un análisis
discriminante.
Copyright © 1999, 2000 R Development Core Team
5
EYP1113 Probabilidad y Estadística para Ingeniería
2.1 La Estadística
La Estadística es una disciplina científica que tiene como
propósito facilitar o favorecer la realización de inferencias
inductivas basadas en observaciones o datos, mediante el
resumen de la información contenida en las observaciones o el
control del error inherente a toda inferencia inductiva. Para
cumplir este propósito los métodos, técnicas y procedimientos
de la Estadística pueden ser clasificados en:
Copyright © 2007 Carlos Araújo
6
EYP1113 Probabilidad y Estadística para Ingeniería
2.1 La Estadística
(i) Estadística Pre-inferencial, que corresponde a los métodos,
técnicas y procedimientos generales de la Estadística
Descriptiva o el Análisis de Datos y que tienen como objetivo
resumir la información contenida en un conjunto de datos, sin
que se pierdan aspectos relevantes para las inferencias
inductivas que se puedan formular a base de tal resumen.
(ii) Estadística Inferencial o Inferencia Estadística, que
comprende los métodos, técnicas y procedimientos que tienen
como propósito dimensionar y, en lo posible, controlar el
inevitable error inherente a toda inferencia inductiva basadas
en observaciones o datos (error inferencial).
Copyright © 2007 Carlos Araújo
7
EYP1113 Probabilidad y Estadística para Ingeniería
2.1 La Estadística
La primera conclusión que resulta de esta afirmación es que la
Estadística es una disciplina de servicio. Por lo tanto quien
practica esta disciplina tiene la obligación de realizar su trabajo
de forma que atienda las reales necesidades de los usuarios de
sus servicios estadísticos.
La segunda conclusión es que, dado que la inferencia inductiva
es la base del desarrollo de la mayor parte de las ciencias así
como de la toma de decisiones, la Estadística presta sus
servicios tanto al desarrollo del conocimiento científico en las
distintas ramas de las ciencias aplicadas, como a la toma de
decisiones referidas a los más variados ámbitos y en particular
a las que se enmarcan dentro del diseño, seguimiento y
evaluación de políticas, programas y proyectos públicos y
privados en las más diversas áreas.
8
Copyright © 2007 Carlos Araújo
EYP1113 Probabilidad y Estadística para Ingeniería
2.1 La Estadística
El Muestreo en Poblaciones Finitas forma parte de los métodos
comprendidos dentro de la Inferencia Estadística, por lo que se
presenta a continuación un breve resumen de los principales
conceptos que utilizados en este rama de la Estadística.
Copyright © 2007 Carlos Araújo
9
EYP1113 Probabilidad y Estadística para Ingeniería
2.2 Población y Muestra
Contar con observaciones para el estudio, es condición
necesaria para llevar a cabo un trabajo estadístico. Estas
observaciones pueden referirse a características o cualitativas
de unidades o experimentos (alto, medio, bajo; masculino,
femenino; bueno; malo; defectuoso, no defectuoso etc.) o
cuantitativas (ingreso monetario; estatura; peso; edad; número
de llamadas diarias; precio de un bien o servicio etc.)
Copyright © 2007 Carlos Araújo
10
EYP1113 Probabilidad y Estadística para Ingeniería
2.2 Población y Muestra
A continuación nos referiremos conceptos y notaciones básicos
relacionados con las observaciones.
• Población o Universo de Estudio: es el conjunto total de
unidades o individuos, o bien el conjunto de resultados de un
experimento aleatorio, que se desean investigar. Esta
población puede ser finita o infinita. Si es finita, el número de
unidades o elementos de la población se denota generalmente
por N.
• Muestra: es un subconjunto (una parte) de las unidades de la
Población cuyo estudio puede ser utilizado para sacar
conclusiones sobre características de la Población. Si es finito,
el número de unidades o elementos de la muestra se
denomina: tamaño de la muestra y denota generalmente por n.
Copyright © 2007 Carlos Araújo
11
EYP1113 Probabilidad y Estadística para Ingeniería
2.2 Población y Muestra
Los conceptos de Población y Muestra sólo se distinguen en la
Estadística Inferencial o Inferencia Estadística. En este caso, la
información contenida en muestra ofrece precisamente los
antecedentes que se utilizarán para realizar la inferencia
inductiva controlando el riesgo de cometer el error inferencial.
En el caso de la Estadística Pre-Inferencial o Estadística
Descriptiva, es totalmente irrelevante si la información que se
resume corresponde a una población o a una muestra. En todo
caso el resumen se lleva a cabo para facilitar la formulación de
inferencias inductivas por parte de uno o más usuarios los
cuales son los exclusivos responsables de sus respectivas
inferencias.
Copyright © 2007 Carlos Araújo
12
EYP1113 Probabilidad y Estadística para Ingeniería
2.3 Estadística Pre Inferencia o Descriptiva
La Estadística Descriptiva o Análisis de Datos, tiene como
propósito favorecer o facilitar la realización de inferencias
inductivas mediante el resumen de la información contenida en
un conjunto de observaciones. Dado que todo resumen
conlleva pérdida de información se debe evitar que en el
resumen que se realiza, mediante los métodos, técnicas y
procedimientos de la Estadística Descriptiva, se pueda perder
información relevante para el análisis del fenómeno que se
investiga (para las posibles inferencias inductivas originadas
por el resumen de las observaciones).
Copyright © 2007 Carlos Araújo
13
EYP1113 Probabilidad y Estadística para Ingeniería
2.3 Estadística Pre Inferencia o Descriptiva
Media o Promedio: La Media es un indicador construido
con el propósito de “representar” al conjunto o vector de
observaciones o datos cuantitativos provenientes de una
variable X y en tal contexto se define como el valor que
minimiza la suma de cuadrados de las diferencias de los
datos respecto de un valor constante.
Copyright © 2007 Carlos Araújo
14
EYP1113 Probabilidad y Estadística para Ingeniería
2.3 Estadística Pre Inferencia o Descriptiva
Varianza: La varianza de un conjunto de números se
define como la media o promedio de la suma de
cuadrados de las diferencias de los datos respecto de la
media y es por lo tanto un indicador de la
representatividad de la Media. Si la Varianza es grande la
Media es un mal representante; si es pequeña la Media
representa bien al conjunto de números o datos.
Copyright © 2007 Carlos Araújo
15
EYP1113 Probabilidad y Estadística para Ingeniería
2.4 Estadística Descriptiva con R
Para un vector de datos x = (x1,…,xn) se tiene que las
medidas descriptivas más usadas son:
• Tendencia Central:
– Media: mean(x)
– Mediana: media(x)
• Mediadas de Posición:
– Percentil: quantile(x, prob = 0.1)
– Mínimo: min(x)
– Máximo: max(x)
16
EYP1113 Probabilidad y Estadística para Ingeniería
2.4 Estadística Descriptiva con R
• Medida de Dispersión:
–
–
–
–
Varianza: var(x)
Desviación Estándar: sd(x)
Coeficiente de Variación: sd(x)/mean(x)
Rango Intercuantil: IQR(x)
17
EYP1113 Probabilidad y Estadística para Ingeniería
2.4 Estadística Descriptiva con R
•
•
•
•
Los gráficos más usados son:
Histograma: hist(x)
Grafico de Torta o Pie: pie(x)
Diagrama de Caja o Box-Plot: boxplot(x)
Tallo y Hoja: stem(x)
18
EYP1113
Probabilidad y Estadística para
Ingeniería
Laboratorio N°1
Profesores:
Ricardo Aravena C.
Ricardo Olea O.
1º Semestre 2010