Download PRIMERA CONVOCATÒRIA D`ESTADÍSTICA APLICADA A LA

Document related concepts
no text concepts found
Transcript
Gloria Pascual Gallego
NIUB: 15008685
Grupo:M0
Facultat de Biblioteconomia i Documentació
Estadística Aplicada
Exercici pràctic 2
Seguim amb l’estudi de l’exercici pràctic 1 en que es tractava de l’actual procés de
comunicació científica que ha estat molt criticat. Per una banda donada la necessitat de la
comunitat científica d’un accés a la informació ràpid i actualitzat i per altra, la impossibilitat
d’oferir un suport satisfactori. En aquest context, les biblioteques digitals i repositoris han
sorgit com una alternativa vàlida per pal·liar alguns dels problemes detectats i per oferir
serveis d’auto-arxiu de documents, amb l’objectiu que sigui el mateix investigador qui arxivi
el seu treball per tal de compartir-ho amb la resta de la comunitat científica. És per això,
que alguns autors (Veiga et al., 2007)1 han centrat els seus estudis a avaluar aquest
servei. A continuació, es mostra una matriu de dades amb algunes de les variables
recollides en un estudi en el qual es va administrar una sèrie de proves a un grup d’usuaris
d’una determinada biblioteca per tal de valorar el servei d’auto-arxiu.
Id
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
Grup
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
Us
10
15
21
42
25
46
27
29
15
28
34
39
22
5
26
10
12
11
20
19
8
24
16
9
16
23
10
17
Temps_C
285
371
261
200
231
185
245
255
307
241
204
196
261
452
300
390
382
397
307
349
462
286
345
451
362
295
421
350
Temps_A
241
352
221
204
225
172
209
221
316
234
192
185
272
422
286
375
402
384
320
321
403
272
329
432
346
315
398
338
Satisfacció
3
2
3
3
3
2
1
3
3
2
3
3
3
1
1
2
1
2
2
1
2
2
1
3
3
3
1
2
Id: Identificador.
Grup: Grup al qual pertany el subjecte: 1: Expert (bibliotecaris, arxivistes, professorat de ciències de la
informació); 2: No expert-professor (professorat d’altres àrees).
Us: Nombre de documents auto-arxivats o consultats pel subjecte durant l’últim any.
Temps_C: Temps en segons que triga el subjecte a auto-arxivar un capítol de llibre.
Temps_ A: Temps en segons que triga el subjecte a auto-arxivar un article.
Satisfacció: Grau de satisfacció amb la interfície del servei (1: Molt satisfet, 2: Satisfet, 3: Poc satisfet).
1
Veiga-Silva, L., Gonçalves, MA., Laender, AJF. (2007). Evaluating a digital library self-archiving service:
The BDBComp user case study. Information Processing and Management, 43: 1103-20.
Gloria Pascual Gallego
NIUB: 15008685
Grupo:M0
Facultat de Biblioteconomia i Documentació
Estadística Aplicada
Preguntes:
1. Obtingueu la taula de contingència (amb els totals marginals) entre les
variables “Grup” i “Satisfacció”. Calculeu els percentatges de cada casella
sobre el total.
Gran Total
Frecuencias absolutas
Grupo
Total
Nivel de
Experto
No Experto
satisfacción
Muy satisfecho
1(3,57%)
6(21,43%)
7(25%)
Satisfecho
3(10,17%)
6(21,43%)
9(32,14%)
Poco
9(32,14%)
3(10,17%)
12(42,86%)
Satisfecho
Total
13(46,43%)
15(53,43%)
28(100%)
Partiendo de la información que nos ofrece la tabla podemos observar que el grado
de satisfacción de los expertos es muy bajo. Sólo una persona se encuentra muy
satisfecha (3,57%), el 10,17% se encuentra satisfecho mientras que la mayor
parte 32,14% se encuentra poco satisfecho. La totalidad de los expertos representa
el 46,43% de los encuestados. Si analizamos el grupo de no expertos observamos
que un 21,43% se muestra muy satisfecho y el porcentaje de no expertos
satisfecho es exactamente el mismo resultado. Sólo un 10,17% se muestra poco
satisfecho. Esto nos indica que más de la mitad se muestran muy satisfechos y
satisfechos, a pesar de la divergencia de criterios.
Total Columna
Frecuencias Absolutas
Nivel de
satisfacción
Total
Grupo
Muy satisfecho
Satisfecho
Poco
Satisfecho
Total
Experto
1(7,69%)
3(23,08%)
9(69,23%)
No Experto
6(40%)
6(40%)
3(20%)
7(47,69%)
9(63,08%)
12(89,23%)
13(100%)
15(100%)
28
En esta tabla, podemos ver con toda claridad la diferencia de criterios segun el grupo.
Vemos que el 7,69% de los expertos esta muy satisfecho, mientras que un 23,08% de
los expertos se encuentra satisfecho y una gran mayoría, el 69,93% poco satisfecho,
en conclusión, a los expertos no les gusta la interficie. En cambio, el 80% de los no
expertos estan satisfechos o muy satisfechos, 40% y 40% respectivamente, mientras
que sólo un 20% esta poco satisfecho.
Total Filera
Freqüències Absolutes
Grupo
Total
Nivel de
Expert
No Expert
Satisfacción
Muy satisfecho
1(14,29%)
6(85,71%)
7(100%)
Satisfecho
3(33,33%)
6(66,67%)
9(100%)
Poco satisfecho
9(75%)
3(25%)
12(100%)
Total
13
15
28
Gloria Pascual Gallego
NIUB: 15008685
Grupo:M0
Facultat de Biblioteconomia i Documentació
Estadística Aplicada
En esta tabla se nos sigue mostrando la gran diferencia de criterios. El del total de
muy satisfechos, sólo un 14,29% es experto, pero el 85,71% representa a los no
expertos. De los que se muestran satisfechos, un 33,33% son expertos y el
66,67% restante son no expertos. Por último, los poco satisfechos, un gran 75%
son expertos mientras que los no expertos representan un 25%. Es decir, existe,
tal y como hemos podido ver en las tres tablas una gran discrepancia.
2. En els següents apartats es vol estudiar la possible relació entre el temps
en segons que triga un subjecte a auto-arxivar un capítol de llibre i el
temps en segons que triga a auto-arxivar un article.
2.1. Obtingueu el diagrama de dispersió entre les dues variables anteriors. Quina
informació sembla proporcionar-nos aquesta gràfica?.
Podemos observar que existe una relación muy fuerte, entonces los puntos se
encuentran muy juntos, y a demás, es directa, ya que es una linea
ascendente.
2.2. Calculeu la covariància entre les dues variables e interpreteu el seu valor.
La convarianza es de 6112,34. Eso nos indica lo que ya vemos en la nuve de
puntos, que la relación entre el tiempo que gasta en auto archivarse un
capitulo y lo que gasta un articulo estan muy relacionados, y además,
directamente.
2.3. Calculeu e interpreteu el coeficient de correlació entre les dues variables.
Tiempo_C
Tiempo_A
Tiempo_C Tiempo_A
1
0,97285479
1
En este caso, hemos hecho una matriz de correlaciones. También podemos ver que es
relación directa y la intensidad es muy elevada, estan muy relacionadas.
Gloria Pascual Gallego
NIUB: 15008685
Grupo:M0
Facultat de Biblioteconomia i Documentació
Estadística Aplicada
2.4. Quin temps podem pronosticar que trigarà un subjecte en auto-arxivar un
article si sabem que triga 400 segons en auto-arxivar un capítol de llibre?
Coeficientes
Intercepción
3,497520882
Tiempo_C
0,94290404
Con estos datos tenemos la ecuación de la recta, que es: Yi=b0+b1*Xi,
entonces Tiempo A es: Yi (la VD), Tiempo C es: Xi (VI), el coeficiente de
intercepción es b0 y el coeficiente de Tiempo C es b1. Por tanto, sólo hay que
substituir. Yi=3,498+(0,943*400). Tardará 380,698 segundos (más o menos
381 segundos) en autoarchivarse un artículo.
2.5. Quin grau d’encert o ajust podem dir que tindrà el pronòstic fet en la
pregunta 2.4?.
Estadísticas de la regresión
Coeficiente de correlación múltiple
Coeficiente de determinación R^2
0,972854791
0,946446443
Si sabemos que el coeficiente de correlación es de 0,97,
sólo hay que calcular el coeficiente de determinación, que
es el cuadrado del coeficiente de correlación. Por tanto, es
de 0,94. Sabemos entonces que el grado de acierto es del
94%, un grado muy elevado.
3. A continuació, s’exposen les dades del nombre d’articles publicats des de 1990 fins
2008 sobre la conducta de cerca d’informació segons les dades de l’ISI Web of
Knowledge.
Any
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
N. Articles
1
10
10
9
10
7
17
21
22
28
20
29
42
43
40
58
Gloria Pascual Gallego
NIUB: 15008685
Grupo:M0
Facultat de Biblioteconomia i Documentació
Estadística Aplicada
2006
2007
2008
50
63
56
3.1.1.Representeu gràficament la sèrie i indiqueu de quin tipus de sèrie es tracta.
Se trata de una serie no estacional y de tendencia creciente.
Gloria Pascual Gallego
NIUB: 15008685
Grupo:M0
Facultat de Biblioteconomia i Documentació
Estadística Aplicada
3.1.2.Determineu la tendència de la sèrie a partir del procediment de mitjana mòbil
d’ordre 3.
Any
N. Articles Mitjanes mòbils d'orde 3
1990
1
1991
10
7
1992
10
9,666666667
1993
9
9,666666667
1994
10
8,666666667
1995
7
11,33333333
1996
17
15
1997
21
20
1998
22
23,66666667
1999
28
23,33333333
2000
20
25,66666667
2001
29
30,33333333
2002
42
38
2003
43
41,66666667
2004
40
47
2005
58
49,33333333
2006
50
57
2007
63
56,33333333
2008
56
Podemos ver como el procedimiento de la media móvil de orden 3
establece la tabla corrigiendo los valores residuales.
Gloria Pascual Gallego
NIUB: 15008685
Grupo:M0
Facultat de Biblioteconomia i Documentació
Estadística Aplicada
3.1.3.Quin és l’augment de productivitat en l’any 2008 respecte a l’any 1995?
I 0t 
56
 100  800% Por tanto ha habido un aumento de 7 veces la
7
producción.
4. A la taula següent es detalla el temps de consulta setmanal a Internet d’un grup
d’investigadors. Les dades es van registrar durant una setmana a l’any 2005 i a l’any
2009.
Base de dades especialitzades
Cerca d’informació a Google
Correu electrònic
Altres
2005
152
102
192
75
2009
221
82
205
82
(temps expressat en minuts)
4.1. Calculeu els índexs simples per cada un dels canals prenent com a base l’any
2005.
221
 100  135,39%
152
82
100  80,39%
Busca de información en Google: I 0t 
102
205
100  106,77%
Correo electrónico: I 0t 
192
82
100  109,33%
Otros: I 0t 
75
Base de datos especializadas: I 0 
t
Podemos ver como, menos la búsqueda en Google, todos los canales tienen un
aumento respecto a 2005. En el caso de las bases de datos, de un 35,39%, mientras
que en el correo electrónico es de un 6,77%, y los otros, un 9,33%. La busqueda en
Google, como ya hemos dicho, disminuye en un 19,61%.
4.2. Calculeu l’índex de Sauerbeck.
Ya hemos calculado los índices simples, así que sólo hemos calculado la media.
I 0t 
135,39  80,39  106,77  109,33
 107,97
4
Por tanto ha habido un aumento de 7.97% respecto al año estudiado.
4.3. Calculeu l’índex de Bradstreet-Dutot.
I 0t 
221  82  205  82
100  113,24%
152  102  192  75
Según este índice, existe un aumento del 13,24%.
Gloria Pascual Gallego
NIUB: 15008685
Grupo:M0
Facultat de Biblioteconomia i Documentació
Estadística Aplicada
5. Tenint en compte que en la població d’usuaris d’una determinada biblioteca, el
nombre de documents auto-arxivats o consultats per un subjecte durant l’últim
any, segueix una distribució normal amb mitjana igual a 10 documents i una
desviació estàndard de 8, respon:
5.1. Quina probabilitat tenim de que, escollint un subjecte a l’atzar, aquest hagi
auto-arxivat o consultat menys de 8 documents?
La probabilidad es de 0,40. Es decir, tenemos una probabilidad del 40% de que
escojan al azar un usuario y de que este haya consultado o autoarchivado
menos de 8 documentos.
5.2. Quina probabilitat tenim de que, escollint un subjecte a l’atzar, aquest hagi
auto-arxivat o consultat més de 11 documents?
La probabilidad es de 0.45. Es decir, tenemos la probabilidad de que el 45%
de los usuarios elegidos al azar hayan consultado o archivado más de 11
documentos.
5.3. Quin percentatge de subjectes hauran auto-arxivat o consultat entre 6 i 15
documents?
Calcularemos la probabilidad de 6 y de 15. La probabilidad de que se consulten
6 de 0,30854 y la de que se consulten 15 es de 0,73401. Por tanto la
probabilidad de consultar entre 6 y 15 es de 0,42547.
5.4. Si volem escollir el 15% de subjectes que hagin auto-arxivat o consultat més
documents, a partir de quin nombre de documents auto-arxivat o consultat els
tindrem que escollir?
z
X 

 1,04 
X  10
 X  10  1,04  8  18,32  18
8
Por tanto tendremos que mirar a partir de 18.
5.5. Si tenim un grup de 800 subjectes:
 Quants hauran auto-arxivat o consultat més de 9 documents?
Calculamos la probabilidad de más de 9, que es 0,55, y la multiplicamos
por los 800 sujetos. El resultado nos da 439,79 que aproximadamente
es de 440 sujetos.

Quants hauran auto-arxivat o consultat menys de 5 documents?
Calculámos la probalidad de menos de 5, que es 0,27, y la
multiplicamos por los 800 sujetos. El resultado nos da 212,78 que
aproximado es de 213 sujetos.
6. Si escollim, de la població d’usuaris d’aquesta biblioteca, mostres aleatòries de 25
subjectes, quina probabilitat tenim que la mitjana de documents auto-arxivats o
consultats d’una mostra:
z
x
 n
Gloria Pascual Gallego
NIUB: 15008685
Grupo:M0
Facultat de Biblioteconomia i Documentació
Estadística Aplicada
6.1. sigui menor de 12 ?
z
12  10
 1.25
8 25
Z=1,25 P=0,59871
La probabilidad es del 59,87%
6.2. Sigui superior a 9 ?
z
9  10
 0,625
8 25
Z=-0,625 P=1-0,26928=0,73
La probabilidad es del 73%
6.3. Estigui entre 9,5 i 11,5 ?
z
9,5  10
 0,31
8 25
Z=-0,31 P=0,378
z
11,5  10
 0,94
8 25
Z=0,94 P=0,826
P=0,826-0,378=0,448
La probabilidad es del 44,8%
7. Realitzeu les següents estimacions per interval (s’indica si s’han de realitzar amb la
formula o amb l’Excel), a partir de les dades de la nostra mostra de 28 usuaris
(dades de l’enunciat) :
7.1. Estimació per interval de la mitjana del temps en segons que triga un subjecte
a auto-arxivar un capítol de llibre. (mitjançant la formula i un alfa de 0,01).
La formula es la siguiente: por tanto, substituyendo, la media és 313,9642857,
el error máximo es 2,771, la desviación típica és 81,99 y la n és 28. El intervalo
se encuentra entre 356,9005907 y 271,0279807.
Gloria Pascual Gallego
NIUB: 15008685
Grupo:M0
Facultat de Biblioteconomia i Documentació
Estadística Aplicada
7.2. Estimació per interval de la mitjana del temps en segons que triga un subjecte
a auto-arxivar un capítol de llibre. (mitjançant l’Excel i un alfa de 0,05).
Temps_C
Media
Error típico
Mediana
Moda
Desviación estándar
Varianza de la muestra
313,9642857
15,4948773
303,5
261
81,99118387
6722,554233
Curtosis
0,945984608
Coeficiente de asimetría 0,215257358
Rango
277
Mínimo
185
Máximo
462
Suma
8791
Cuenta
28
Nivel de
confianza(95,0%)
31,7928621
Por tanto, la estimación por intervalo es de 282,171424 y 345,757148
7.3. Estimació per interval de la mitjana del temps en segons que triga un subjecte
a auto-arxivar un article. (mitjançant la formula i un alfa de 0,05).
La formula es:
IC
x  t( / 2, n1)
S
n
Por tanto, substituyendo, la media es 299,53, el error máximo es 2,052, la
desviación típica es 79,47 y la n es 28. El intervalo se encuentra entre 330,35 y
268,71.
7.4. Estimació per interval de la mitjana del temps en segons que triga un subjecte
a auto-arxivar un article. (mitjançant l’Excel i un alfa de 0,01).
Temps_A
Media
Error típico
Mediana
Moda
299,535714
15,017845
315,5
221
Gloria Pascual Gallego
NIUB: 15008685
Grupo:M0
Desviación estándar
Varianza de la muestra
Facultat de Biblioteconomia i Documentació
Estadística Aplicada
79,4669659
6314,99868
Curtosis
1,26483113
Coeficiente de asimetría 0,02713696
Rango
260
Mínimo
172
Máximo
432
Suma
8387
Cuenta
28
Nivel de
confianza(99,0%)
41,6096871