Download Sin título de diapositiva

Document related concepts

Parámetro estadístico wikipedia , lookup

Asimetría estadística wikipedia , lookup

Cuantil wikipedia , lookup

Rango intercuartílico wikipedia , lookup

Valor atípico wikipedia , lookup

Transcript
ESTADÍSTICA PARA
LA ADMINISTRACIÓN
Saltar a la primera
página
Introducción a la
Estadística

La palabra estadística tiene 2
significados;
 Estadística
1; hechos numéricos
sistemáticamente recolectados 2;
Ciencia de recolectar, clasificar y
utilizar estadísticas
–
(Oxford
Concise Dictionary)
 Por
ejemplo……………….
Algunas definiciones de
Estadistica.


Rama de las matemáticas que proporciona
herramientas que permiten manejar grandes
cantidades de datos, convirtiendolos en
información útil.
Forma de decir mentiras con fundamentos
matemáticos.
DEFINICION:

Es una ciencia, pues aplica el
Método Científico al ocuparse de
la recolección, organización,
análisis, interpretación y
presentación de datos, tanto para
la deducción de conclusiones
como para la toma de decisiones
razonables de acuerdo a tales
análisis.
Introducción (cont.)

La ciencia de la Estadística utiliza;
· matemáticas (teoría de probabilidades)
 · ciencia de las computadoras (graficos
and simulaciones)
 · filosofía


Qué distingue a la Estadística de las
matemáticas?

· La estadística hace uso de las
matemáticas
Introducción (cont.)

La Estadística enfatiza la VARIABILIDAD
NATURAL


De individuos (personas, plantas, ratas,
ovejas, bombillas de luz, precios de
acciones, etc).
La Estadística es utilizada por:
· científicos
 · biólogos
 · químicos
 · físicos
 · psicólogos
 · economistas

Introducción (cont.)

La Estadística se usa para:
Informar al publico
 Proveer comparaciones
 Explicar resultados
 Influenciar decisiones
 Justificar un reclamo o afirmación
 Predecir futuros resultados
 Establecer una relación o asociación
 Estimar cantidades desconocidas

Introducción (cont.)

Los Estadísticos (personas que estudian la
estadística):

Entienden la idea de la variabilidad de los individuos

Se toman el tiempo siendo lógicos, profundos e
imparciales cuando preparan resultados y reportes

Se cuidan de no sacar conclusiones que están fuera
de los límites de la pregunta que debe responderse
mediante la estadística


UNIDAD DE ESTUDIO: Es el elemento mas
pequeno al que podemos hacer referencia en un
estudio estadistico.
COLECTIVO: Es todo conjunto compuesto por
mas de una unidad de estudio; un colectivo
puede ser una MUESTRA o una POBLACION.
Datos





Datos son piezas de información
Varias piezas de datos forman un conjunto de
datos
Los Datos se componen de los objetos que han
sido medidos (eg personas, arboles, ratas) y los
atributos que fueron registrados (edad, tamaño,
ph, costo, peso, etc)
objetos son aka sujetos, casos, entidades, etc
Atributos son aka caracteristicas, variables,
factores, etc
Variables


Cuando medimos los atributos de un
objeto, obtenemos un valor que varía
entre objetos. Por ejemplo considere las
personas en esta clase como objetos y
su estatura como el atributo
El atributo “altura” varía entre objetos, de
ahí que los atributos son mas
colectivamente conocidos como
variables
TIPOS DE VARIABLES:


DISCRETAS: Son aquellas que
toman valores puntuales en una
escala, ejemplo: No. de unidades
producidas, No. de quintales
transportados, etc.
CONTINUA: Son aquellas que
pueden tomar cualquier valor
real en una escala, por
ejemplo:Temperatura, peso,
longitud, etc.
Tipos de Datos


Las Variables pueden ser medidas
en cuatro escalas diferentes
Es escencial que sea capaz de
identificar las cuatro diferentes
escalas de medición y ejemplos de
cada una
1
Escala Nominal de Medición


Los datos son medidos al nivel
nominal donde cada caso es
clasificado en una de un numero
discreto de categorías
EG Color, Partido Politico,
Genero, etc
2
Escala Ordinal de Medición



Los datos son medidos en una escala ordinal
si las categorías implican orden
EG Rango Militar, Talla de ropa, etc
La diferencia entre rangos es consistente en
dirección, pero no en magnitud.
3
Escala de medición de Intervalo


Si las diferencias entre los valores tienen
significado, los datos son medidos en la
escala de Intervalo.
La temperatura es el mejor ejemplo
4
Escala de medición de Ratio
(rata)



Los datos medidos en una escala de ratio
tienen diferencias que son significativas, y
relativas a algun punto real de origen o cero.
eg Peso, Altura, edad, etc
Esta es la escala más común de medición.
Tipos de Datos (Cont.)



Datos de tipo Ordinal, Intervalo y Ratio también
se conocen como datos Cuantitativos
Datos de tipo Nominal también son
denominados datos Cualitativos
Dos tipos de Estadística

Estadística Descriptiva




métodos de resumir grandes cantidades
de datos en una forma conveniente
Estadística Inferencial
Métodos para extraer conclusiones
(hacer inferencias) respecto a las
características de una población
por ejemplo…….


POBLACION: Se le llama población o
universo, al conjunto total de unidades
de estudio que se desean investigar.
MUESTRA: Es un subconjunto de una
población. Se utiliza cuando la
población es muy numerosa, infinita o
muy difícil de examinar.

MUESTRA ALEATORIA:
Es cuando cada elemento tiene la misma
oportunidad de ser escogido.
• Muestreo aleatorio estratificado:
• Muestreo aleatorio sistematico:
Poblaciones




Un componente esencial de entender la
ciencia de la estadística es entender
estos términos
La población consiste en el conjunto de
todas las mediciones en que el
investigador está interesado
Un número que describe una población
se denomina un parametro
por ejemplo…………...
Muestras



Una muestra es un subconjunto de
datos de la población
Un numero que describe una
muestra es un estadístico
por ejemplo…………...
Inferencia






Si tomamos una muestra y calculamos un
estadístico, utilizamos ese estadístico para inferir
algo respecto a la población de la cual la muestra
fue extraída.
EG:
Comunmente, las muestras son
utilizadas para inferir respecto a:
Resultados de Elecciones
Preferencias del consumidor
Actitudes hacia aspectos sociales
Se le ocurre algún otro ?????
CONTENIDO




Estadistica Descriptiva
Regresion y Correlacion
Distribuciones
Control Estadistico de Procesos
ESTADISTICA DESCRIPTIVA:
Es la parte de la Estadística que trata
solamente de describir y analizar un
colectivo, sin sacar conclusiones o
inferencias de un colectivo mayor, a
partir de ella.
La Estadística descriptiva incluye las
técnicas que se relacionan con el
resumen y la descripción de datos.
Estos datos pueden ser representados
en forma gráfica y pueden incluir análisis
por computadora.

ESTADISTICA
DESCRIPTIVA





MEDIDAS DE TENDENCIA
CENTRAL
MEDIDAS DE DISPERSION
MEDIDAS DE ORDEN
MEDIDAS DE FORMA
REPRESENTACION GRAFICA
MEDIDAS DE TENDENCIA
CENTRAL



MEDIA (ARITMETICA O
PONDERADA)
MODA
MEDIANA
MEDIDAS DE
DISPERSIÓN




Rango
Desviacion Media
Varianza
Desviación Típica o
standard
MEDIDAS DE ORDEN



Cuartiles
Deciles
Percentiles
MEDIDAS DE FORMA



Sesgo
Curtosis
Momentos
REPRESENTACION
GRAFICA






Histograma de frecuencias
Diagrama de Pareto
Ojiva de Frecuencias
Acumuladas
Diagrama de Pastel
Diagrama de Cajas
Diagrama de Tallos y Hojas
MEDIA
ARITMETICA
n
x 

i 1
xi
n
Donde :
x  Media . Aritmetica
xi  Cada.uno.de.los.datos
n  Total..de..datos.
EJEMPLO
Edad de 15 estudiantes de universitarios
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15


19
22
24
20
21
19
25
21
23
22
22
21
24
35
20
338
Media Aritmetica =
338/15 =
22.53
MEDIA
PONDERADA
n
x 

wi * xi
i 1
n
w
i 1
i
Donde :
x  Media .Ponderada
wi  Factor.de.Peso
xi  Cada.uno.de.los .datos
n  Total..de..datos.
EJEMPLO
Produccion de Sa cos de Fe rtiliza nte
dura nte una se ma na
Dia
1
2
3
4
5
6
7

Ca ntida d
1500
2500
1200
5500
2000
1800
450
14950
Pe so
98
103
105
90
99
100
109
704
Media Ponderada =
97.16
Media Aritmetica =
100.57
Ca nt*Pe so
147000
257500
126000
495000
198000
180000
49050
1452550
Mediana

Valor que divide la serie de datos en dos
partes iguales.
 Si
el numero de datos es impar, es el valor
que está situado justo en medio.
 Si
el número de datos es par, es el promedio
aritmético de los dos datos de en medio.
EJEMPLO
Mediana -->
19
19
20
20
21
21
21
22
22
22
23
24
24
25
35
Moda


Es el valor que mas se repite en un conjunto
de datos.
Puede no existir o puede existir mas de uno.
EJEMPLO
Moda
----->
Moda
----->
19
19
20
20
21
21
21
22
22
22
23
24
24
25
35
RANGO (R)
El rango de un conjunto de números es la diferencia entre el dato mayor y el dato
menor de todos ellos. El rango considera solo el valor más alto y el más bajo de la
distribución y deja de tomar en cuenta cualquier otra observación del conjunto de datos.
Debido a que mide dos valores, el rango cambia drásticamente entre muestras de una
misma población, aunque los valores que se encuentren entre el mayor y menor puedan
ser muy similares. Téngase en mente también, que las distribuciones abiertas en los
extremos no tienen rango, ya que no tiene valores "mayor" o "menor".
R = dato mayor - dato menor
EJEMPLO
Hallar el rango de los siguientes de números:
5,3,8,4,7,6,12,4,3
R = 12 - 3 = 9
EJEMPLO
Dato Menor
Dato Mayor
------->
------->
19
19
20
20
21
21
21
22
22
22
23
24
24
25
35
Rango = 35 - 19 =
16
DESVIACION MEDIA (D.M.)
La desviación media, es una medida de dispersión que involucra las diferencias (o
desviaciones) entre cada uno de los valores de la distribución y su media aritmética. Para
calcularla se debe restar la media aritmética a cada valor del conjunto de datos y se
ignora el signo (positivo o negativo), es decir, que se toma el valor absoluto de las
desviaciones; de lo contrario la suma algebraica será nula. Finalmente, se suman todas
estas diferencias y se divide por el número total de la muestra.
_
Desviación = di = xi - x
_
D.M. =  ¦ xi - x ¦ / N
EJEMPLO
Dato Menor
------->
Dato Mayor
------->
Media =
19
19
20
20
21
21
21
22
22
22
23
24
24
25
35
-
22.53
22.53
22.53
22.53
22.53
22.53
22.53
22.53
22.53
22.53
22.53
22.53
22.53
22.53
22.53
22.53
Desviacion Media = 36.67/15 =
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
3.53
3.53
2.53
2.53
1.53
1.53
1.53
0.53
0.53
0.53
0.47
1.47
1.47
2.47
12.47
Sumatoria
36.67
2.44
DESVIACION TIPICA (s)
La desviación típica es la medida de dispersión más importante, ya que los
valores extremos de la distribución son influyentes en el cálculo de la misma,
no así los valores que se encuentran cerca de la media aritmética, y
simplemente es la raíz cuadrada de la varianza.
s = (xi - x)2) /N
A veces, la desviación típica viene definida por (N - 1) en el denominador
en lugar de N, a esta se le llama desviación estandar, ya que el valor
resultante es un estimador mejor de la desviación típica de la población.
Para valores grandes (N > 30) prácticamente no hay diferencia entre la
desviación típica y la estandar.
EJEMPLO
Dato Menor
------->
Dato Mayor
------->
Media =
19
19
20
20
21
21
21
22
22
22
23
24
24
25
35
-
22.53
22.53
22.53
22.53
22.53
22.53
22.53
22.53
22.53
22.53
22.53
22.53
22.53
22.53
22.53
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
3.53
3.53
2.53
2.53
1.53
1.53
1.53
0.53
0.53
0.53
0.47
1.47
1.47
2.47
12.47
22.53
^2
^2
^2
^2
^2
^2
^2
^2
^2
^2
^2
^2
^2
^2
^2
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
Sumatoria
Varianza= 211.73/15 =
Desviacion Estandar = Raiz(14.12)=
14.12
3.76
12.48
12.48
6.42
6.42
2.35
2.35
2.35
0.28
0.28
0.28
0.22
2.15
2.15
6.08
155.42
211.73
USOS DE LA DESVIACION TIPICA
La desviación tipica permite determinar, con cierto grado de certeza, donde
están localizados los valores de una distribución de frecuencia con relación a la
media.
Se puede medir con bastante precisión el porcentaje de elementos que
caen dentro de rangos específicos, si la distribución de frecuencias toma la forma
de una curva simétrica en forma de campana (campana de Gauss) llamada
DISTRIBUCION NORMAL, en estos casos se dice que:
1.
Cerca del 68% de los valores de la población caerán dentro de más o
menos una desviación tipica, a partir de la media aritmética.
2.
Cerca del 95% de los valores se encontrarán dentro de más o menos dos
desviaciones tipica, a partir de la media aritmética.
3.
Cerca del 99% de los valores estarán en un intervalo que va desde tres
desviaciones tipicas después de la media.
RESULTADO DEL PROCESO DE LLENADO
INDUSTRIAL DE REFRESCOS (en ml)
MAQUINA 1
350
347
336
385
359
368
374
391
373
345
381
380
322
331
351
363
371
369
339
384
345
354
330
347
327
365
340
349
343
366
323
333
346
342
349
332
357
350
350
355
350
355
349
350
375
388
354
329
352
344
MAQUINA 2
352
336
340
340
336
342
336
344
336
335
340
346
341
349
332
340
338
347
340
337
337
342
340
342
342
337
351
340
330
340
340
336
350
344
342
336
341
344
335
340
337
339
341
340
347
343
343
349
349
342
DATOS ORDENADOS
MAQUINA 1
322
350
323
350
327
351
329
352
330
354
331
354
332
355
333
355
336
357
339
359
340
363
342
365
343
366
344
368
345
369
345
371
346
373
347
374
347
375
349
380
349
381
349
384
350
385
350
388
350
391
MAQUINA 2
330
340
332
340
335
341
335
341
336
341
336
342
336
342
336
342
336
342
336
342
337
342
337
343
337
343
337
344
338
344
339
344
340
346
340
347
340
347
340
349
340
349
340
349
340
350
340
351
340
352
MEDIDAS DE TENDENCIA CENTRAL
MAQUINA 1
322
350
323
350
327
351
329
352
330
354
331
354
332
355
333
355
336
357
339
359
340
363
342
365
343
366
344
368
345
369
345
371
346
373
347
374
347
375
349
380
349
381
349
384
350
385
350
388
350
391
8500
9170
Media Aritmetica =
Mediana
Moda =
=
17670/50 =
353.4
17670
MAQUINA 2
330
340
332
340
335
341
335
341
336
341
336
342
336
342
336
342
336
342
336
342
337
342
337
343
337
343
337
344
338
344
339
344
340
346
340
347
340
347
340
349
340
349
340
349
340
350
340
351
340
352
8433
8614
17046/50=
Dato 25 + Dato 26
2.00
350
340
350
340
340.9
17046
MEDIDAS DE DISPERSION
MAQUINA 1
Rango = 391 Desv. Media =
MAQUINA 2
322 = 69
352 - 330 = 22
689/50 = 14
183/50 = 4
Desv. Est. = raiz(14923/50) = 17
raiz(1144/50)
= 5
CONSTRUCCION DE UNA TABLA DE FRECUENCIAS
MAQUINA 1
322
350
323
350
327
351
329
352
330
354
331
354
332
355
333
355
336
357
339
359
340
363
342
365
343
366
344
368
345
369
345
371
346
373
347
374
347
375
349
380
349
381
349
384
350
385
350
388
350
391
MAQUINA 2
330
340
332
340
335
341
335
341
336
341
336
342
336
342
336
342
336
342
336
342
337
342
337
343
337
343
337
344
338
344
339
344
340
346
340
347
340
347
340
349
340
349
340
349
340
350
340
351
340
352
# DE DATOS = 50
# DE CLASES O INTERVALOS = 1+3.3 * LOG (N)
6.61
Amplitud de los intervalos = Rango/# de intervalos
Maquina 1
Maquina 2
10
3
o
Raiz(N)
7.07
TABLA DE FRECUENCIAS
L. I.
322 332 342 352 362 372 382 -
MAQUINA 1
L. S.
f
331
6
341
5
351
17
361
7
371
6
381
5
391
4
50
L. I.
330 333 336 339 342 345 348 351 -
MAQUINA 2
L. S.
f
332
2
335
2
338
11
341
15
344
11
347
3
350
4
353
2
50
L. I.
322
332
342
352
362
372
382
-
L. S.
331
341
351
361
371
381
391
MAQUINA 1
Xi
f
326.5
6
336.5
5
346.5
17
356.5
7
366.5
6
376.5
5
386.5
4
F
6
11
28
35
41
46
50
F%
12
22
56
70
82
92
100
50
HISTOGRAMA DE FRECUENCIAS
18
16
14
12
10
8
6
4
2
0
1
2
3
4
5
6
7
Frecuencia Acumulada
OJIVA DE FRECUENCIAS
100
90
80
70
60
50
40
30
20
10
0
1
1.5
2
2.5
3
3.5
4
4.5
Intervalo
5
5.5
6
6.5
7
MEDIDAS DE ORDEN



Son aquellas que nos permiten
ubicar un dato de acuerdo a la
posicion que ocupa dentro de la
serie de datos.
Nos permiten ordenar, clasificar y
categorizar los datos.
Tambien se conocen como fractilos
porque dividen los datos en partes
iguales.
FRACTILOS

De acuerdo al numero de partes
en que se dividan los datos los
fractilos pueden ser:
 Cuartiles:
si dividen a los datos en
cuatro partes iguales.
 Deciles: si dividen a los datos en
diez partes iguales.
 Percentiles o Centiles: si dividen a
los datos en cien partes iguales.
FRACTILOS cont...


Por ejemplo, los cuartiles dividen
la distribucion de datos en cuatro
partes iguales, cada una
conteniendo el 25% de los datos.
De lo anterior se deduce que,
como se dijo anteriormente, si la
mediana divide los datos en dos
partes iguales, debe ser igual al
cuartil 2, al decil 5 y al percentil 50.
FRACTILOS cont...

Forma de calculo:
D
= # de partes en que vamos a
dividir los datos (para cuartiles 4,
para deciles 10, para percentiles
100).
 F = # del fractilo a calcular, es
decir, si queremos calcular el
tercer cuartil, F es igual a 3, si
queremos calcular el sexto decil, F
es igual a 6, etc.
 N = # de datos en la distribucion.
FRACTILES cont...

Entonces, la posicion del fractilo
esta dada por:
F*N + (D-F)
D
 Ejemplo: Para calcular el cuartil 3
de 50 datos:

 3*50
+ (4-3)
4
 37.75, es decir que el tercer cuartil
esta ubicado entre el dato 37 y el
38, a un 75% de la distancia entre
ambos datos.
EJEMPLO

Para continuar con el ejemplo de las dos maquinas
llenadoras, vamos a calcular los cuartiles 1 y 3 para
cada maquina, entonces:



D=4
N = 50
F=1y3
 1*50 + (4-1)
4
 13.25 para el cuartil 1
 3*50 + (4-3)
4
 37.75 para el cuartil 3
 Esto quiere decir que el cuartil 1 se encuentra entre el
dato 13 y el 14 mientras que el cuartil 3 esta entre el dato
37 y 38.
MAQUINA 1
322
350
323
350
327
351
329
352
330
354
331
354
332
355
333
355
336
357
339
359
340
363
342
365
343
366
344
368
345
369
345
371
346
373
347
374
347
375
349
380
349
381
349
384
350
385
350
388
350
391
MAQUINA 2
330
340
332
340
335
341
335
341
336
341
336
342
336
342
336
342
336
342
336
342
337
342
337
343
337
343
337
344
338
344
339
344
340
346
340
347
340
347
340
349
340
349
340
349
340
350
340
351
340
352
Para la Maquina 1 el dato 13 es 343 y el 14 344
La diferencia entre estos dos datos es 1
Posicion del cuartil 1 = 13.25
Cuartil 1 = 343.25
Para la maquina 1 el dato 37 es 365 y el 38 es 366
La diferencia entre estos dos datos es 1
Posicion del cuartil 3 = 37.75
Cuartil 3 = 365.75
Maquina 2
Cuartil 1 = 337 (En este caso el dato 13 y 14 son iguales)
Cuartil 3 = 343 (De igual forma, el dato 37 y 38 son iguales)
OTRA MEDIDA DE
DISPERSION

El Rango Intercuartil es otra
medida de dispersion utilizada
para poder determinar el rango de
valores en el que se encuentra el
50% de los datos, excluyendo el
50% que se encuentre en los
extremos, es decir, 25% en el
extremo superior y 25% en el
extremo inferior.
RANGO INTERCUARTIL

El rango intercuartil es la diferencia
entre el cuartil 3 y el cuartil 1:
 RI
= Q3 - Q1
EJEMPLO

Para las maquinas llenadoras:
 Maquina
 365.75
1:
- 343.25
 22.5
 Maquina
 343
6
2:
- 337
DIAGRAMA DE CAJAS

Esta es una herramienta
sumamente util para comparar
distintos grupos de datos, ya que
permite ver en una sola grafica, la
tendencia central y la dispersion,
asi como detectar datos atipicos o
sospechosos.
EJEMPLO
B
o
xP
lo
t (n
o
ta
s
.S
T
A1
v
*1
5
c
)
4
0
3
6
3
2
2
8
2
4
2
0
1
6
V
A
R
1
N
o
n
-O
u
tlie
rM
a
x=2
5
N
o
n
-O
u
tlie
rM
in=1
9
7
5
%
=2
4
2
5
%
=2
0
M
e
d
ia
n=2
2
O
u
tlie
rs
PASOS PARA CONSTRUIR UN
DIAGRAMA DE CAJAS




Calcular los cuartiles 1,2 y 3.
Graficar una linea para cada uno
de los cuartiles. La caja queda
definida por el rango intercuartil y
la linea dentro de la caja identifica
la mediana.
Calcular el rango intercuartil (Q3 Q1) al que se denomina RI.
Calcular dos valores: Valor
Adyacente Superior y Valor
Adyacente Inferior (VAS y VAI).

Estos valores se calculan de la
siguiente manera:
 VAS
= Q3 + 1.5*RI
 VAI = Q1 - 1.5*RI

Luego, encontrar en los datos dos
valores: m y M tal que:
m
= max(Xi | Xi <= VAS)
 M = min(Xi | Xi >= VAI)

Estos valores se grafican como los
limites de los alambres que nos
sirven para identificar datos
atipicos del conjunto de datos.
EJEMPLO
19
19
20
20
21
21
21
22
22
22
23
24
24
25
35
Posicion del cuartil 1 = (15*1 + 4 -1)/4
Posicion del cuartil 1 =
4.5
Cuartil 1 = 20.5
Posicion del cuartil 2 = (15*2 + 4-2)/4
Posicion del cuartil 2 =
8
Cuartil 2 =
22 (Mediana)
Posicion del cuartil 3 = (15*3 + 4-3)/4
Posicion del cuartil 3 =
11.5
Cuartil 3=
23.5
Rango Intercuartil = 23.5 - 20.5 = 3
VAS = Q3 + 1.5*RI = 23.5 + 1.5*3
VAS =
28
VAI = Q1 - 1.5*RI = 20.5 - 1.5*3
VAI =
16
m = 25
M = 19
B
o
xP
lo
t (n
o
ta
s
.S
T
A2
v
*5
0
c
)
4
0
0
3
9
0
3
8
0
3
7
0
3
6
0
3
5
0
3
4
0
3
3
0
3
2
0
3
1
0
M
A
Q
U
IN
A1
M
A
Q
U
IN
A2
N
o
n
-O
u
tlie
rM
a
x
N
o
n
-O
u
tlie
rM
in
M
e
d
ia
n
;7
5
%
2
5
%
PARETO:


Forma de separar los pocos vitales
de los muchos triviales, que
significa en esencia analizar la
causas y efectos que constituyen
en el 80% de un problema y obviar
el 20% que suelen ser causas
triviales.
Este enfatiza en la mayoría de los
casos que pocas causas pueden
ser provocadoras del 80% de
efectos de un problema.
Ejemplo:
Se presenta a continuación una tabla con las causas a las que se atribuye el bajo
rendimiento de los alumnos en los programas de maestria que imparte FISICC.
Construya un diagrama de pareto para identificar cuales son los principales
problemas que afrontan los estudiantes.
TIPO DE FACTOR
Preparación de la clase N/H
No estudiar adecuadamente
Metodología de la enseñanza
Programa de la maestria
Preparación del Catedrático
Interes
Asistencia
Método de evaluar el curso
Caracteristicas del trabajo(est.)
Problemas familiares
Material didactico
Horario
Economia del estudiante
Transporte
Bibliografia
Otros
Total
Frecuencia Aporte por Acumulado
Frecuencia Acumulada
Factor
%
63
63
19.69%
19.69%
41
104
12.81%
32.50%
31
135
9.69%
42.19%
28
163
8.75%
50.94%
27
190
8.44%
59.38%
27
217
8.44%
67.81%
19
236
5.94%
73.75%
13
249
4.06%
77.81%
11
260
3.44%
81.25%
9
269
2.81%
84.06%
9
278
2.81%
86.88%
9
287
2.81%
89.69%
8
295
2.50%
92.19%
7
302
2.19%
94.38%
7
309
2.19%
96.56%
11
320
3.44%
100.00%
320
100.00%
Otros
Bibliografia
Transporte
Economia del estudiante
Horario
Material didactico
Problemas familiares
Caracteristicas del trabajo(est.)
Método de evaluar el curso
Asistencia
Interes
Preparación del Catedrático
Programa de la maestria
Metodología de la enseñanza
No estudiar adecuadamente
Preparación de la clase N/H
Frecuencia
Diagrama de Pare de Factores que afectan el
redimiento de los alumnos de FISICC
70
60
50
40
30
20
10
0
COEFICIENTE DE VARIACION (cv)
La desviación tipica y la varianza son medidas de variación absoluta, es decir, miden la
cantidad real de la variación presente en un conjunto de datos y dependen de la escala de
medición.
Para comparar la variación entre diferentes muestras de datos es conveniente usar el
coeficiente de variación, el cual da la variación tipica como un porcentaje de la media aritmética.
_
cv = s / x * 100
El coeficiente de variación mide la variación relativa de una muestra.
APLICACIONES DE LAS
MEDIDAS DE TENDENCIA
CENTRAL Y DISPERSION
A
B
C
D
E
MEDIA
85
85
60
70
65
DESV
.
18
16
22
14
12
¿Cuál es la clase más homogénea?
¿En cuál espera que existan menos alumnos que pierdan
la clase?
¿En cuál parece que hay más problemas?
¿Comparando las clases A,B y D, En cuál seguramente
hay notas más altas?
Media Aritmetica
85 85 60 70 65
Desviacion Estandar 18 16 22 14 12
Coeficiente de variacion 21.18 18.82 36.67 20.00 18.46
Problema: Exámenes de curso
1º. 2º.
Media 90
65
Desv. 12.5 7
3º
4º
5º
6º
90
85
65
90
7.5
8
17.4 9.5
¿Cuál cree Ud. Que fue el examen más difícil?
¿Cuál cree Ud. Que fue el más fácil?
MEDIDAS DE FORMA

Las medidas de forma sirven para
darnos una idea respecto a la
simetria y la agudez de la
distribucion de los datos. Las
medidas de forma mas
importantes son:
 Sesgo
 Curtosis
SESGO
Media  Moda
Sesgo 
Desviación
Si el resultado es positivo esta sesgada a la derecha
Si el resultado es negativo esta sesgada a la izquierda
OTRAS FORMULAS:
3*(MEDIA - MEDIANA)

SESGO=
DESVIACION
Curtosis:


También se le denomina grado de agudez, y es el grado de
apuntamiento de una distribución.
Existen 3 tipos:
 Normal o mesocurtica:Distribución no muy apuntalada ni
achatada, o sea normal.
 Leptocurtica: Tiene apuntamiento.
 Platicúrtica: Más achatada que la Normal.
VARIANZA (s2)
La varianza de la población es similar a la desviación media, pero en este caso,
para calcular la varianza sumamos el producto de las desviaciones al cuadrado por su
respectiva frecuencia ( fi * di2 ) y luego dividimos esta suma entre el número total de
datos. Al elevar al cuadrado cada desviación, automáticamente se hacen positivos todos
los números y por tanto no es necesario tomar el valor absoluto de cada desviación,
entonces tenemos:
_
s =  fi*(xi - x)2
N
2
Utilizando propiedades de las sumatorias, se puede calcular la varianza así:
_
2
2
s = ( fi*xi )/N - (x)2
Para valores no agrupados tómese fi = 1.
AGRUPACION DE DATOS:


Rango= Dato mayor -Dato menor
Número de clases (K)
 K=
1 + 3.3. Log N (usar entre 3 y 12
intervalos como máximo)

Intervalos de clase (i)
 i=
Rango/K
Número de observaciones y número
de celdas recomendado:

De: 20 - 50
6 celdas

De: 51 - 100
7 celdas

De: 101 - 200 8 Celdas

De: 201 - 500 9 Celdas

De: 501 - 1000 10 celdas

De: 1000 en adelante 11 a 15 celdas
MEDIANA
 L ri
Mediana
Donde
n
 Fa
2
 (
)*i
f Me
:
Lri = Limite inferior de la celda donde esta la mediana
n = Número total de observaciones
Fa = Frecuencia acumulativa anterior a la celda donde
esta la mediana
FMe = Frecuencia de la celda de la mediana
i = Ancho del intervalo de la celda.
MODA
1
Moda  Lri  (
) *i
1   2
Donde :
Lri = Limite inferior de la clase modal
1 = Diferencia con la clase anterior
 2 = Diferencia con la clase posterior
i = Ancho del intervalo de la celda.
Calculo de Medidas de
Tendencia Central
Intervalo
Limites
Aparentes
Limites
Reales
1
2
3
4
5
6
7
8
9
10
20
30
40
50
60
70
80
90
19
29
39
49
59
69
79
89
99
9.5
19.5
29.5
39.5
49.5
59.5
69.5
79.5
89.5
19.5
29.5
39.5
49.5
59.5
69.5
79.5
89.5
99.5
MEDIA = 4430
100
44.30
Xi
14.5
24.5
34.5
44.5
54.5
64.5
74.5
84.5
94.5
Total
f
F
fr
Fr
Xi *f
Xi -X
(Xi - X) 2
3
14
29
22
14
10
4
2
2
100
3
17
46
68
82
92
96
98
100
0.03
0.14
0.29
0.22
0.14
0.1
0.04
0.02
0.02
1
0.03
0.17
0.46
0.68
0.82
0.92
0.96
0.98
1
43.500
343.000
1000.500
979.000
763.000
645.000
298.000
169.000
189.000
4430.000
-29.8
-19.8
-9.8
0.2
10.2
20.2
30.2
40.2
50.2
888.04
392.04
96.04
0.04
104.04
408.04
912.04
1616.04
2520.04
Total
Varianza =
Desviación =
28396
100
SQR(283.96)
f * (Xi - X) 2
2664.12
5488.56
2785.16
0.88
1456.56
4080.4
3648.16
3232.08
5040.08
28396
283.96
16.85111
HISTOGRAMA DE FRECUENCIAS
35
30
FRECUENCIA
25
20
15
10
5
0
14.5
24.5
34.5
44.5
54.5
64.5
MARCA DE CLASE
74.5
84.5
94.5
Cálculo de la MODA
1
Moda  L1  (
) *i
1   2
 29.5  (15 / 22) *10
 36.32
Cálculo de la Mediana
n
 Fa
Mediana  Lri  ( 2
) *i
f Me
 39.5  ((50  46) / 22) *10
 41.32
.
CUARTILES (Qj)
Análogamente a la mediana, que divide en 2 partes los datos, los cuartiles son
parámetros que dividen la muestra de datos en 4 partes iguales, de manera que
se tiene:
CUARTIL PRIMERO (Q1)
Q1 = 25% de los datos y se obtienen para 1N/4.
CUARTIL SEGUNDO (Q2)
Q2 = 50% de los datos y se obtiene para 2N/4 = N/2. El cuartil 2 es igual a
la mediana.
CUARTIL TERCERO (Q3)
Q3 = 75% de los datos y se obtiene para 3N/4.
LA FORMULA GENERAL ES:
Qj = Lri + ( (jN/4 - FaQj)/fQj) * i
donde j representa el número del cuartil y jN/4 se calcula inicialmente y en base al
resultado obtenido, se sustituyen en la fórmula los datos correspondientes al
intervalo donde la frecuencia acumulada sea mayor o igual a dicho resultado, el
cálculo de un cuartil es similar al cálculo de la mediana.
DECILES (Dj)
Son los valores que dividen los datos en 10 partes iguales, como los cuartiles, y se
representan por:
D1 = 10% de los datos y se obtiene para 1N/10,
D2 = 20% de los datos y se obtiene para 2N/10,
y así sucesivamente hasta:
D9 = 90% de los datos y se obtiene para 9N/10.
LA FORMULA GENERAL ES:
Dj = Lri + ( (jN/10 - FaDj)/fDj) * i
donde j representa el número del decil y se aplica análogamente al cálculo de los
cuartiles.
PERCENTILES (Pj)
Los percentiles son parámetros que dividen a los datos en cien partes iguales y se
representan por:
P1 = 1% de los datos y se obtiene para 1N/100,
P2 = 2% de los datos y se obtiene para 2N/100,
P3 = 3% de los datos y se obtiene para 3N/100,
y así sucesivamente hasta:
P99 = 99% de los datos y se obtiene para 99N/100.
LA FORMULA GENERAL ES:
Pj = Lri + ( ( jN/100 - FaPj)/fPj) * i
donde j representa el número de percentil, y se calculan análogamente a los
cuartiles y deciles.
Nótese que Me = Q2 = D5 = P50.
EJEMPLO
La siguiente tabla muestra una distribución de frecuencias de los salarios
semanales de 65 empleados de una compañía:
Salarios
(Q)
No. de
empleados (fi)
50.00 - 59.99
60.00 - 69.99
70.00 - 79.99
80.00 - 89.99
90.00 - 99.99
100.00 - 109.99
110.00 - 119.99
8
10
16
14
10
5
2
N = 65
Hallar:
a) Cuartil 3 (Q3).
b) Decil 2 (D2).
c) Percentil 5 (P5).
Fa
Limites reales
8
18
34
48
58
63
65
49.995 - 59.995
59.995 - 69.995
69.995 - 79.995
79.995 - 89.995
89.995 - 99.995
99.995 - 109.995
109.995 - 119.995
Solución:
a) Q3 = Lri + ( (3N/4 - FaQ3)/fQ3) * i
3N/4 = 3x65/4 = 195/4 = 48.75
Se busca en las frecuencias acumuladas un número que sea
mayor o igual a 48.75, en este caso nos da el intervalo 89.995 99.995, y se sustituyen en la fórmula todos los datos
correspondientes a ese intervalo:
Q3 = 89.995 +( (48.75 - 48)/10) * 10 = 90.75
Esto significa que el 75% de los empleados ganan un salario de
Q90.75 o menos.
b) D2 = Lri + ((2N/10 - FaD2)/fD2) * i
2N/10 = 2x65/10 = 130/10 = 13
D2 = 59.995 + ((13 - 8)/10) * 10 = 65.00
El 20% de los empleados ganan Q 65.00 o menos.
c) P5 = Lri + ((5N/100 - FaP5)/fP5) * i
5x65/100 = 3.25
P5 = 49.995 + ((3.25 - 0)/8) * 10 = 54.06
El 5% de los empleados ganan Q 54.06 o menos.
EJEMPLO
Calcule la desviación media del ejemplo anterior
(media aritmética = 11.0917 ton):
Marcas de clase
_
_
fi*xi - x
1.5917
1.0917
0.5917
0.0917
0.4083
0.9083
1.4083
1.9083
3.1834
5.4585
7.1004
1.5589
5.7162
5.4498
4.2249
1.9083
xi - x
(xi)
9.5
10.0
10.5
11.0
11.5
12.0
12.5
13.0
 36.6004
D.M. = 36.6004/60 = 0.61 Ton.
EJEMPLO
Con los datos del problema anterior, encuentre:
a) varianza (s2),
b) desviación típica (s),
c) desviación estándar (s’),
d) coeficiente de variación (V).
Solución
Xi
fi
fi * Xi
9.5
10.0
10.5
11.0
11.5
12.0
12.5
13.0
2.0
5.0
12.0
17.0
14.0
6.0
3.0
1.0
60.0
19.0
50.0
126.0
187.0
161.0
72.0
37.5
13.0
665.5
Media = Suma(fx) / n
n = 60
Suma( fx) = 665.5
Media =
(Xi - X)^2
2.533403
1.191736
0.350069
0.008403
0.166736
0.825069
1.983403
3.641736
665.5
60.0
fi * (Xi - X)^2
5.066806
5.958681
4.200833
0.142847
2.334306
4.950417
5.950208
3.641736
32.24583
11.091667
a) varianza (s2): Suma(fi * (xi – X)^2)
s2 = 32.2458/60 = 0.537
b) desviación típica (s):
s = 32.2458/60 = 0.733
c) desviación estandar (s´):
s’ = 32.2458/(60 - 1) = 0.739
como puede observarse, hay una variación no significativa
entre la desviación típica y la estandar.
d) coeficiente de variación (V): (S/X) * 100
V = 0.733/11.0917 * 100 = 6.61%
Ejemplos de uso de
la Desviación típica,
y Varianza
Desv.St. 
( f *(X
n
2
Varianza  ( Desv.St.)
2
i
 X) )
MOMENTOS


Se utilizan para producir valores
que sirven el cálculo de las
medidas de asimetría y agudez.
Existen de 3 clases:
 Con
respecto del origen
 Con respecto a la media.
 Con respecto a cualquier punto.
Datos no agrupados:


Respecto al origen
r
x
 j donde  r  1,2,3,..
xr 
N
Respecto a la media
mr 

r
(
x

x
)
 j
N
donde  r  1,2,..
Con respecto a cualquier punto.
mr 
r
(
x

A
)
 j
N
donde  r  1,2,3,..
Datos agrupados:
xr 

f j x rj
para  r  1  es  media
N
r  2  segundo  momento
mr
f


j
*(x j  x)
r
N
r  2,es  var ianza.
mr 

donde  con 
f j * ( x j  A) r
N
Coeficiente de asimetría
Dado en función del momento 3
m3
a3  2
s
+ Asimetria positiva
0 Simétrica
-Asimetria negativa.
METODO DE OCHO PASOS
PARA RESOLVER PROBLEMAS
“UNA PERSONA VALIENTE NO ES EL QUE NO TIENE
MIEDO, SINO AQUEL QUE A PESAR DEL TEMOR LO
SUPERA Y SE ENFRENTA A SUS PROBLEMAS”
Los problemas nunca se
acaban
Pero todo en la vida tiene solución y los problemas
empresariales no son la excepción. Sin embargo,
hay que saberlos tratar para que se resuelvan de
manera efectiva y, de ser posible, para siempre.
“Mil cortes en las hojas del árbol del mal equivalen
a uno sólo en las raíces”
Thoreau
¿Qué es un problema?
SITUACIÓN EN DONDE EL RENDIMIENTO O
COMPORTAMIENTO DE UN SISTEMA NO SATISFACE LAS EXPECTATIVAS.
En general, podríamos decir que existe un problema
cuando algo no ofrece el resultado que esperamos.
Los ocho pasos
•
•
•
•
•
•
•
•
Definición del problema
Acción momentánea
Definición del origen
Acción correctiva definitiva
Comprobación
Estandarización
Documentación
Conclusiones
1. Definición del
problema
A) El tiempo en que ocurre
B) El tipo de problema
C) El síntoma presentado
D) Aspectos circunstanciales
E) Incluir información que no
pueda ser presentada en
forma de datos (gráficas y
diagramas)
F) Considerar cuándo, cuánto,
qué, quién, dónde, etcétera)
2. Acción momentánea
Es la acción para solucionar el
problema temporalmente y
así garantizar que, a pesar de
que el problema existe, éste no
va a afectar al cliente.
Busque una acción
momentánea a realizar para
cada problema
mientras lo resuelve de forma
definitiva.
3. Definición del origen
del problema
Definir dónde exactamente se originó un problema es
la
clave para encontrar la solución más acertada.
A) Generar lluvia de ideas:
Un mismo problema puede ser visualizado de muy
distintas maneras por diferentes personas.
Importante: Debe realizarse en un clima de amistad.
Todas las ideas son importantes.
B) Elaborar diagrama de causa-efecto (Ishikawa):
Relación entre un problema o resultado y las causas
que lo ocasionaron.
Construcción de un
diagrama de causa-efecto
1) Definir el problema
2) Identificar las causas mayores
ayudados por una lluvia
de ideas.
3) Identificar las subcausas.
4) Ponderar las causas antes de
evaluarlas
5) Evaluar las causas más probables
6) Tomar una solución.
Diagrama de causa-efecto
R.R. H.H.
EQUIPO
LIDERAZGO
DESUNION
EQUIPO DE
COMPUTO
OPORTUNIDAD
RESPONSABI
LIDAD
IDENTIFICACION
CON LA
INSTITUCION
CONFIANZA
TELEFONOS
DESIGUALDAD
REL.
INTERNAS
ACTITUD
COMUNICACIÓN
INADECUADA
CARGAS
AUTORIDAD
RIGIDA
TRABAJO
EXCESO DE
PERSONAS
ESPACIO
REDUCIDO
MEDIO
AMBIENTE
DECISIONES
TIEMPOS
RIGIDEZ
VENTILA
PROCESOS
CION
DEFINICIÓN
OBJETIVOS
CLAROS
CLARIDAD
INFORMACION
FORMA DE
TRANSMITIR
METODOS
DISPONIBILI
DAD
4. Acción correctiva definitiva
A) Actividades a realizar
B) Responsables
C) Involucrados
D) Tiempos
E) Recursos
5. Comprobación
A) Tiempo de revisión
B) Frecuencia
C) Responsable
6.
Los cambios deberán establecerse de manera
Estandarización
formal para asegurar su correcta aplicación en
adelante.
7. Documentación
Recopilar toda la información, hechos, decisiones,
etcétera, que se llevaron a cabo desde que apareció
el problema hasta su solución definitiva.
8. Conclusiones
Aunque el problema resuelto sea el mismo, la experiencias
de cada una de las personas es diferente; cada quien
ve el problema desde su propia perspectiva.
Compartir experiencias es una forma de aprendizaje
muy enriquecedora.
Probabilidad:



Posibilidad de que algo llegue a
suceder
Frecuencia de un evento dentro
de un todo (población).
P= (NA/N)
 Donde:
NA= # de veces que ocurre el
evento A
N= # total de posibles resultados.
FORMULAS:


P(AUB)= P(A) + P(B) , para sucesos mutuamente
excluyentes (Si uno sucede es imposible que el
otro se produzca).
P(AUB)= P(A) + P(B) - P(A B)
Para eventos no mutuamente excluyentes.

Si A y B son eventos independientes:
P(A B)= P(A)*P(B)
Si los sucesos son dependientes:

P(A B)= P(A)*P(B/A)

PERMUTACION:
Es una disposición ordenada de un
conjunto de objetos.

COMBINACION:

Si la forma como se ordenan es
irrelevante entonces se le llama
combinación, (no importa el orden)
DISTRIBUCIONES DE
PROBABILIDAD Y
FRECUENCIA


Experimento: En estadistica, se
denomina experimento a cualquier
actividad que se realice con el fin
de comprobar una hipotesis.
Evento: Es el resultado de un
experimento.
Variables Aleatorias:


Es aquella que toma valores diferentes como resultado
de un experimento aleatorio
TIPOS:
 DISCRETA: toma valores puntuales en una escala de
medicion.
 CONTINUA: Puede tomar cualquier valor dentro de
una escala de medicion o de valores.
VALOR ESPERADO DE UNA VARIABLE ALEATORIA:

Es un promedio pesado del valor de cada resultado
posible multiplicado por la probabilidad de dicho
resultado
DISTRIBUCIONES DE PROBABILIDADES:


Están relacionadas con las distribuciones de frecuencias,
generalmente se piensa como una distribución de frecuencia
teórica cuando se habla de distribución de probabilidades.
TIPOS:
 DISCRETAS: Cuando los datos y la variable toma números
limitados de valores.
 CONTINUAS: Cuando los datos y la variable (toma valores en
un rango a utilizar) y la población se puede decir que es muy
grande (infinita)
DISTRIBUCIONES DISCRETAS:
Entre las funciones de distribución de probabilidades que
más utilizamos están:
 HIPERGEOMETICA
 BINOMIAL
 POISSON
HIPERGEOMETICA:


Se utiliza cuando la muestra de la población es finita y se toma la
muestra sin reemplazo
Para fines de la carrera es muy poco utilizado.
LA DISTRIBUCION BINOMIAL:


Se utiliza en probabilidad discreta, cuyo número de elementos es
infinito, es usada cuando tenemos atributos, ejemplo: aceptable, no
aceptable, éxito o fracaso, falla o no falla, etc.
Esta describe resultados de un proceso de Bernoulli (este proceso
dice que las probabilidades solo pueden ser p= éxito, cara, etc
q=1-p, lo contrario de p. La probabilidad de este evento
permanece fijo respecto al tiempo.
Los eventos son estadísticamente independientes.
Formula de la Binomial:

P(Probabilidad de r éxitos en n ensayos)=
n!
r nr
(
)p q
r!(n  r )!




p= probabilidad de tener éxito
q= probabilidad de no tener éxito
r= # de éxitos deseados
n= # de intentos hechos.
DISTRIBUCION DE POISSON:
Se utiliza en probabilidad discreta, se aplica a diversas situaciones
que aplican la realización de observaciones por unidad de tiempo.
Ejemplo contar el número de vehículos que llegan a una caseta de
control, contar el número de máquinas descompuestas durante 1 día,
distribución de llamadas telefónicas que llegan a un conmutador, la
demanda de pacientes que necesitan servicios, etc.

CARACTERISTICAS:

Con el ejemplo del número de vehículos que pasan por una sola
caja de una caseta de cobro, daremos las características:
 La media del número de vehículos que llegan por hora pico
puede estimarse a partir de datos sobre tráfico que se tengan
disponibles.
 Si dividimos la hora pico en períodos (intervalos) de un segundo
cada uno, encontraremos las siguientes afirmaciones:
 A) La probabilidad de que exactamente un vehículo llegue a
una caja por segundo es muy pequeño.
B) La probabilidad de que dos o más vehículos lleguen en un
intervalo de un segundo es muy pequeña.
 C) El número de vehículos que llegan a un intervalo dado de
un segundo es independiente de que dicho intervalo se
presente en la hora pico.
 El número de llegadas en cualquier intervalo de un segundo
no depende del número de llegadas en cualquier otro
intervalo de un segundo.

FORMULA:
P( X ) 
Donde:
 e
X
X!
= Número medio de presentaciones por intervalos de
tiempo.
X= Valor de variable.

FUNCIONES CONTINUAS:


La más utilizada es la Normal y es sobre la
cual esta soportada muchas aplicaciones.
Definimos:
Donde:
xi= Dato
x = Media

  Desviación
Z
xi  x

ANALISIS DE REGRESION Y
CORRELACION




ANALISIS DE REGRESION
El término regresión, se uso por primera vez como un concepto
estadístico por Sir Francis Galton. Galton hizo un estudio que mostró
que, la altura de los niños de los padres altos tiende a bajarse, o
"regresar", hacia la altura media de la población. El designó la palabra
"regresión" como el nombre del proceso general de predecir una variable
(la altura de los niños), a partir de otra (la altura de los padres).
Posteriormente, los estadísticos usaron el término regresión múltiple
para describir el proceso mediante el cual se usan varias variables para
predecir otra.
En el análisis de regresión, se desarrollará una ecuación de
estimación, es decir, una fórmula matemática que relaciona las variables
conocidas con la variable desconocida
TIPOS DE RELACIONES DE CURVAS DE REGRESION

Los análisis de regresión y correlación, están basados en
la relación o asociación entre dos o más variables. La
variable conocida es llamada variable independiente.
La variable que se está tratando de predecir es la
variable dependiente.
REGRESION LINEAL

La ecuación de la relación lineal es:

Y = a o + a 1X

Donde ao & a1 son parámetros estadísticos que se
deben calcular.
METODO DE MINIMOS CUADRADOS










Consideremos los puntos representados por (X1,Y1), (X2,Y2), ..., (Xn,Yn). Para
un valor de Xi, existirá una diferencia Di entre Yi y el valor que da la ecuación de
ajuste. Cada diferencia Di, se conoce como desviación, error o residuo; la
cual, puede ser positiva, negativa o cero.
De todas las curvas de aproximación a una serie de datos puntuales, la curva
que tiene la propiedad de que:
D12 + D22 + ... + DN2 es mínimo
se conoce como la mejor curva de ajuste. Así una recta con esta propiedad se
llama recta de mínimos cuadrados y tiene la ecuación:
Y = ao + a1X
donde las constantes ao y a1 se determinan mediante el sistema de ecuaciones
simultáneas:
 Y = ao (N) + a1 ( X)
 XY = ao ( X) + a1 ( X2)
que son llamadas ecuaciones normales para la recta de mínimos cuadrados.
Si se resuelve el sistema en forma general, entonces se obtienen las siguientes
fórmulas:
Formulas para calcular los valores
( y )(  x )  ( x)(  xy)
ao 
2
2
N ( x )  ( x)
2
N ( xy)  ( x)(  y )
a1 
2
2
N ( x )  ( x )
CORRELACION


La correlación, es el grado de relación que existe entre las variables, y un
análisis de correlación determina en que medida una ecuación lineal o de
otro tipo describe o explica de una forma adecuada la relación entre las
dos variables.
Si todos los valores de las variables satisfacen exactamente una
ecuación, se dice que las variables están correlacionadas perfectamente
o que hay correlación perfecta entre ellas. Así las áreas "A" y los radios
"r" de todos los círculos están correlacionados perfectamente, puesto que
A = p * r2. Las variables altura y peso de los individuos muestran cierta
correlación.
CORRELACION LINEAL

Consideremos el diagrama de dispersión de la figura 4.3, si "Y" tiende a
incrementarse cuando "X" aumenta, como en (a), la correlación se dice
positiva o correlación directa. Si "Y" tiende a disminuir cuando se
incrementa "X", como en (b), la correlación se dice negativa o correlación
inversa. Si no hay ninguna relación entre las variables, como en (c), se
dice que no hay correlación entre ellas, es decir, no están
correlacionadas.


r

COEFICIENTE
LINEAL
DE
CORRELACION
Si se supone una relación lineal entre las
dos
variables,
el
coeficiente
de
correlación se calcula como:
N ( xy)  ( x)( y)
[( N  x 2 )  ( x) 2 ][ N  y 2  ( y) 2 ]
Donde r esta en el rango entre -1 y 1, si
r=1 se dice que es una buena correlación
y si r=0, no hay correlación
COEFICIENTE DE DETERMINACION
Al cuadrado del coeficiente de correlacion se le denomina “coeficiente de
determinacion”. Aunque el mas utilizado es el coeficiente de correlacion, es el
coeficiente de determinacion el que tiene un significado mas concreto. El
coeficiente de determinacion representa la fraccion (o el porcentaje) de la
variacion de “y” que es explicada por la variacion de “x”. Por ejemplo, si
obtenemos un coeficiente de correlacion de 0.95 y lo elevamos al cuadrado
obtenemos 0.9025, es decir que la variacion de la variable independiente (x)
explica el 90.25% de la variacion de la variable dependiente (y). El otro 10% de
la variacion de “y” es atribuible a otras causas que pueden incidir en dicha
variable.
EJEMPLO

Los siguientes datos son las mediciones de velocidad del
aire y del coeficiente de evaporación de las gotitas de
combustible en una turbina de propulsión.


Velocidad del aire
X (cm/seg)
Coeficiente de evaporación
Y (mm2/seg)











20
60
100
140
180
220
260
300
340
380
0.18
0.37
0.35
0.78
0.56
0.75
1.18
1.36
1.17
1.65
Encuentre:

a) la ecuación de la recta
de mínimos cuadrados,

b) utilice la ecuación
anterior,
para estimar
el
coeficiente
de
evaporación de una
gotita
cuando la velocidad
del aire es de 190 cm/seg,

c)
coeficiente
de
correlación.

SOLUCION:

a) Recta de regresión "Y" sobre "X":

X
Y
X2
Y2
XY











20
60
100
140
180
220
260
300
340
380
0.18
0.37
0.35
0.78
0.56
0.75
1.18
1.36
1.17
1.65
400
3,600
10,000
19,600
32,400
48,400
67,600
90,000
115,600
144,400
0.0324
0.1369
0.1225
0.6084
0.3136
0.5625
1.3924
1.8496
1.3689
2.7225
3.6
22.2
35.0
109.2
100.8
165.0
306.8
408.0
397.8
627.0
2,000
8.35
532,000
9.1097
2,175.4


N = 10 datos

 X = 2,000
 X2 = 532,000

 Y = 8.35
 XY = 2,175.40
Sustituyendo en las ecuaciones normales:

 Y = ao N + a1  X

 XY = ao  X + a1  X2

8.35 = ao 10 + a1 2,000
(1)

2,175.40 = ao 2,000 + a1 532,000
(2)
 Resolviendo las ecuaciones (1) y (2) en forma
tenemos:
ao = 0.069 ; a1 = 0.0038,

sustituyendo en Y = ao + a1 X, obtenemos la ecuación de la
recta de regresión de "Y" sobre "X":
Y = 0.069 + 0.0038 X
(3)
b) para X = 190 el coeficiente de evaporación será:
Y = 0.069 + 0.0038(190) = 0.79
Y = 0.79 mm2/seg





simultánea

c) el coeficiente de correlación es :

r=

10(2,175.40) - (2,000)(8.35)
= 0.95
 [10(532,000)-(2,000)2][10(9.1097) - (8.35)2]
El valor del coeficiente de correlación nos indica:

•
que la correlación es positiva, debido al signo del coeficiente,
•
que la relación entre X & Y es bastante buena,
ya que
coeficiente es bastante cercano a 1, en
valor absoluto,
•
cuando el coeficiente es bastante cercano a
que no hay correlación entre las variables X & Y.
el
cero, se dice

d) el coeficiente de determinacion es :

r^2 = 0.95 ^ 2 = 0.9025 equivalente a 90.25%

El valor del coeficiente de determinacion nos indica:
•
Que podemos atribuir en un 90.25% la variacion de Y a la
variacion de X y un 9.75% de la variacion es atribuible a otros
factores que no fueron considerados en el modelo matematico.
• Cuando el porcentaje es bajo, digamos abajo del 80%, debemos
escoger otra variable independiente o agregar una variable mas al
modelo y realizar un analisis de regresion multiple.
CURVE EXPERT

Es uno de tantos programas
disponibles para realizar analisis
de regresion y correlacion. Tiene
la ventaja de tener predeterminados una gran cantidad de modelos,
aparte de los que el usuario quiera
definir. Es un Shareware que se
encuentra disponible en internet.