Download Introducción a R Parte 1
Document related concepts
Transcript
EYP1113 Probabilidad y Estadística para Ingeniería Laboratorio N°1 Profesores: Ricardo Aravena C. Ricardo Olea O. 1º Semestre 2010 EYP1113 Probabilidad y Estadística para Ingeniería 1.1 Introducción a R R es un conjunto integrado de programas para manipulación de datos, calculo y gráficos. Entre otras características dispone de: • Almacenamiento y manipulación efectiva de datos, • Operadores para calculo sobre variables indexadas (arrays), en particular matrices, • Una amplia, coherente e integrada colección de herramientas para análisis de datos, • Posibilidades graficas para análisis de datos, que funcionan directamente sobre pantalla o impresora, • Y un lenguaje de programación bien desarrollado, simple y efectivo, que incluye condicionales, ciclos, funciones recursivas y posibilidad de entradas y salidas. (Debe destacarse que muchas de las funciones suministradas con el sistema están escritas en el lenguaje R) Copyright © 1999, 2000 R Development Core Team 2 EYP1113 Probabilidad y Estadística para Ingeniería 1.1 Introducción a R El termino “entorno" lo caracteriza como un sistema completamente diseñado y coherente, antes que como una agregación incremental de herramientas muy específicas e inflexibles, como ocurre frecuentemente con otros programas de análisis de datos. R es en gran parte un vehículo para el desarrollo de nuevos métodos de análisis interactivo de datos. Como tal es muy dinámico y las diferentes versiones no siempre son totalmente compatibles con las anteriores. Algunos usuarios prefieren los cambios debido a los nuevos métodos y tecnología que los acompañan, a otros sin embargo les molesta ya que algún código anterior deja de funcionar. Aunque R puede entenderse como un lenguaje de programación, los programas escritos en R deben considerarse esencialmente efímeros. Copyright © 1999, 2000 R Development Core Team 3 EYP1113 Probabilidad y Estadística para Ingeniería 1.2 Estadística con R Muchas personas utilizan R como un sistema estadístico. Se prefiere describirlo como un entorno en el que se han implementado muchas técnicas estadísticas, tanto clásicas como modernas. Algunas están incluidas en el entorno base de R y otras se acompañan en forma de bibliotecas (packages). El hecho de distinguir entre ambos conceptos es fundamentalmente una cuestión histórica. Junto con R se incluyen ocho bibliotecas (llamadas bibliotecas estándar) pero otras muchas están disponibles a través de Internet en CRAN (http://www.r-project.org). Copyright © 1999, 2000 R Development Core Team 4 EYP1113 Probabilidad y Estadística para Ingeniería 1.2 Estadística con R Muchas técnicas estadísticas, desde las clásicas hasta la ultima metodología, están disponibles en R, pero los usuarios necesitaran estar dispuestos a trabajar un poco para poder encontrarlas. Existe una diferencia fundamental en la filosofía que subyace en R (o S) y la de otros sistemas estadísticos. En R, un análisis estadístico se realiza en una serie de pasos, con unos resultados intermedios que se van almacenando en objetos, para ser observados o analizados posteriormente, produciendo unas salidas mínimas. Sin embargo en SAS o SPSS se obtendrá de modo inmediato una salida copiosa para cualquier análisis, por ejemplo, una regresión o un análisis discriminante. Copyright © 1999, 2000 R Development Core Team 5 EYP1113 Probabilidad y Estadística para Ingeniería 2.1 La Estadística La Estadística es una disciplina científica que tiene como propósito facilitar o favorecer la realización de inferencias inductivas basadas en observaciones o datos, mediante el resumen de la información contenida en las observaciones o el control del error inherente a toda inferencia inductiva. Para cumplir este propósito los métodos, técnicas y procedimientos de la Estadística pueden ser clasificados en: Copyright © 2007 Carlos Araújo 6 EYP1113 Probabilidad y Estadística para Ingeniería 2.1 La Estadística (i) Estadística Pre-inferencial, que corresponde a los métodos, técnicas y procedimientos generales de la Estadística Descriptiva o el Análisis de Datos y que tienen como objetivo resumir la información contenida en un conjunto de datos, sin que se pierdan aspectos relevantes para las inferencias inductivas que se puedan formular a base de tal resumen. (ii) Estadística Inferencial o Inferencia Estadística, que comprende los métodos, técnicas y procedimientos que tienen como propósito dimensionar y, en lo posible, controlar el inevitable error inherente a toda inferencia inductiva basadas en observaciones o datos (error inferencial). Copyright © 2007 Carlos Araújo 7 EYP1113 Probabilidad y Estadística para Ingeniería 2.1 La Estadística La primera conclusión que resulta de esta afirmación es que la Estadística es una disciplina de servicio. Por lo tanto quien practica esta disciplina tiene la obligación de realizar su trabajo de forma que atienda las reales necesidades de los usuarios de sus servicios estadísticos. La segunda conclusión es que, dado que la inferencia inductiva es la base del desarrollo de la mayor parte de las ciencias así como de la toma de decisiones, la Estadística presta sus servicios tanto al desarrollo del conocimiento científico en las distintas ramas de las ciencias aplicadas, como a la toma de decisiones referidas a los más variados ámbitos y en particular a las que se enmarcan dentro del diseño, seguimiento y evaluación de políticas, programas y proyectos públicos y privados en las más diversas áreas. 8 Copyright © 2007 Carlos Araújo EYP1113 Probabilidad y Estadística para Ingeniería 2.1 La Estadística El Muestreo en Poblaciones Finitas forma parte de los métodos comprendidos dentro de la Inferencia Estadística, por lo que se presenta a continuación un breve resumen de los principales conceptos que utilizados en este rama de la Estadística. Copyright © 2007 Carlos Araújo 9 EYP1113 Probabilidad y Estadística para Ingeniería 2.2 Población y Muestra Contar con observaciones para el estudio, es condición necesaria para llevar a cabo un trabajo estadístico. Estas observaciones pueden referirse a características o cualitativas de unidades o experimentos (alto, medio, bajo; masculino, femenino; bueno; malo; defectuoso, no defectuoso etc.) o cuantitativas (ingreso monetario; estatura; peso; edad; número de llamadas diarias; precio de un bien o servicio etc.) Copyright © 2007 Carlos Araújo 10 EYP1113 Probabilidad y Estadística para Ingeniería 2.2 Población y Muestra A continuación nos referiremos conceptos y notaciones básicos relacionados con las observaciones. • Población o Universo de Estudio: es el conjunto total de unidades o individuos, o bien el conjunto de resultados de un experimento aleatorio, que se desean investigar. Esta población puede ser finita o infinita. Si es finita, el número de unidades o elementos de la población se denota generalmente por N. • Muestra: es un subconjunto (una parte) de las unidades de la Población cuyo estudio puede ser utilizado para sacar conclusiones sobre características de la Población. Si es finito, el número de unidades o elementos de la muestra se denomina: tamaño de la muestra y denota generalmente por n. Copyright © 2007 Carlos Araújo 11 EYP1113 Probabilidad y Estadística para Ingeniería 2.2 Población y Muestra Los conceptos de Población y Muestra sólo se distinguen en la Estadística Inferencial o Inferencia Estadística. En este caso, la información contenida en muestra ofrece precisamente los antecedentes que se utilizarán para realizar la inferencia inductiva controlando el riesgo de cometer el error inferencial. En el caso de la Estadística Pre-Inferencial o Estadística Descriptiva, es totalmente irrelevante si la información que se resume corresponde a una población o a una muestra. En todo caso el resumen se lleva a cabo para facilitar la formulación de inferencias inductivas por parte de uno o más usuarios los cuales son los exclusivos responsables de sus respectivas inferencias. Copyright © 2007 Carlos Araújo 12 EYP1113 Probabilidad y Estadística para Ingeniería 2.3 Estadística Pre Inferencia o Descriptiva La Estadística Descriptiva o Análisis de Datos, tiene como propósito favorecer o facilitar la realización de inferencias inductivas mediante el resumen de la información contenida en un conjunto de observaciones. Dado que todo resumen conlleva pérdida de información se debe evitar que en el resumen que se realiza, mediante los métodos, técnicas y procedimientos de la Estadística Descriptiva, se pueda perder información relevante para el análisis del fenómeno que se investiga (para las posibles inferencias inductivas originadas por el resumen de las observaciones). Copyright © 2007 Carlos Araújo 13 EYP1113 Probabilidad y Estadística para Ingeniería 2.3 Estadística Pre Inferencia o Descriptiva Media o Promedio: La Media es un indicador construido con el propósito de “representar” al conjunto o vector de observaciones o datos cuantitativos provenientes de una variable X y en tal contexto se define como el valor que minimiza la suma de cuadrados de las diferencias de los datos respecto de un valor constante. Copyright © 2007 Carlos Araújo 14 EYP1113 Probabilidad y Estadística para Ingeniería 2.3 Estadística Pre Inferencia o Descriptiva Varianza: La varianza de un conjunto de números se define como la media o promedio de la suma de cuadrados de las diferencias de los datos respecto de la media y es por lo tanto un indicador de la representatividad de la Media. Si la Varianza es grande la Media es un mal representante; si es pequeña la Media representa bien al conjunto de números o datos. Copyright © 2007 Carlos Araújo 15 EYP1113 Probabilidad y Estadística para Ingeniería 2.4 Estadística Descriptiva con R Para un vector de datos x = (x1,…,xn) se tiene que las medidas descriptivas más usadas son: • Tendencia Central: – Media: mean(x) – Mediana: media(x) • Mediadas de Posición: – Percentil: quantile(x, prob = 0.1) – Mínimo: min(x) – Máximo: max(x) 16 EYP1113 Probabilidad y Estadística para Ingeniería 2.4 Estadística Descriptiva con R • Medida de Dispersión: – – – – Varianza: var(x) Desviación Estándar: sd(x) Coeficiente de Variación: sd(x)/mean(x) Rango Intercuantil: IQR(x) 17 EYP1113 Probabilidad y Estadística para Ingeniería 2.4 Estadística Descriptiva con R • • • • Los gráficos más usados son: Histograma: hist(x) Grafico de Torta o Pie: pie(x) Diagrama de Caja o Box-Plot: boxplot(x) Tallo y Hoja: stem(x) 18 EYP1113 Probabilidad y Estadística para Ingeniería Laboratorio N°1 Profesores: Ricardo Aravena C. Ricardo Olea O. 1º Semestre 2010