Download Estimación de la probabilidad de ganar un punto en un partido de

Document related concepts
no text concepts found
Transcript
Fernando M. Dalla Fontana
Javier Bussi
Estimación de la
probabilidad de ganar
un punto en un partido
de tenis profesional
utilizando modelos
para datos de panel
RESUMEN
En los trabajos presentados hasta la fecha sobre el tenis profesional se suele considerar que la probabilidad de ganar un punto es constante a lo largo de un partido.
Sin embargo debería estudiarse la influencia que sobre dicha variable, es decir,
ganar un punto con el servicio, ejerce la ocurrencia de diferentes eventos, tales
como haber ganado el punto previo en el mismo juego o la importancia del punto.
El presente trabajo plantea un modelo estadístico para dicha probabilidad, el cual
prueba que los puntos no son independientes ni están igualmente distribuidos: ganar o perder un punto con el servicio en tenis no depende únicamente de la calidad
de los jugadores, sino que además depende del desarrollo del partido. El análisis se
realizó sobre una muestra de 161 partidos de la Copa Davis entre los años 2008
a 2011, los cuales componen un total de 34 944 puntos. El modelo para datos de
panel utilizado tiene en cuenta la dicotomía de la variable respuesta, incorpora un
efecto aleatorio para modelar la parte no observable de la calidad de un jugador y
contemplar la heterogeneidad de los mismos, e incluye variables explicativas dinámicas que permiten capturar el efecto de variables que cambian punto a punto, es
decir, durante el transcurso del partido. La estimación utilizada es la de Mínimos
Cuadrados Generalizados Factibles (FGLS).
Palabras clave
datos de panel / regresores dinámicos / mínimos cuadrados generalizados factibles
Fernando M. Dalla Fontana
Javier Bussi
Instituto de Investigaciones Teóricas y
Aplicadas de la Escuela de Estadística,
Universidad Nacional de Rosario.
[email protected]
Instituto de Investigaciones Teóricas y
Aplicadas de la Escuela de Estadística,
Universidad Nacional de Rosario
[email protected]
REVISTA DE LA SOCIEDAD ARGENTINA DE ESTADÍSTICA / VOL. 11 / NRO. 1 / 2013 | 81
1. INTRODUCCIÓN
En el presente trabajo se plantea la aplicación de un tipo de metodología estadística, consistente en la obtención de un modelo que describa la probabilidad
de ganar un punto en un partido de tenis profesional, la cual es clave en el análisis de este deporte. En la mayoría de los trabajos hasta la fecha se ha considerado que la probabilidad de ganar un punto en tenis es constante a lo largo del
partido, lo que supone independencia entre los puntos y una misma distribución
de probabilidad. Sin embargo debería estudiarse la influencia que sobre dicha variable, es decir, ganar un punto, ejercen la ocurrencia de diferentes eventos, tales como haber ganado el punto previo o la importancia del punto jugado. La variable respuesta, es decir si el punto es ganado o no, es una variable dicotómica.
En este trabajo se analizarán datos punto por punto de partidos de singles (en
donde se enfrentan dos jugadores) correspondientes a la Copa Davis, la cual es
una competencia por equipos que representan a los distintos países que participan de la misma. Una de las características de los datos es que involucran distintos jugadores, los cuales son heterogéneos ya que presentan distintas habilidades
para el juego, es decir, son jugadores de diferente calidad. Esta calidad puede influir en la probabilidad de ganar un punto y en la relación existente entre puntos
consecutivos. Por lo tanto resulta necesario modelarla, pero sólo parte de la misma es observable (por ejemplo el ranking del jugador) mientras que otra parte no
es observable (por ejemplo el miedo a un determinado oponente). Para contemplar esta situación es necesario modelar la calidad no observable de los jugadores como un efecto individual aleatorio, de manera similar a la forma en que se
modela la heterogeneidad no observada en datos de panel.
Por lo tanto resulta de utilidad entonces la consideración del análisis de datos
de panel ya que además el conjunto de datos es apropiado para tal fin, es decir,
es una sección transversal de partidos donde cada uno comprende dos series de
tiempo de puntos jugados con el servicio, una por cada jugador.
Los datos de panel consisten en observaciones repetidas en la misma sección
transversal de sujetos o ítems a través del tiempo. El hecho de contar con observaciones repetidas medidas sobre la misma unidad determina que éstas presenten una tendencia a estar correlacionadas bajo una estructura que puede variar
según el problema estudiado. Existen situaciones en las cuales la directa aplicación de las técnicas de análisis de datos de panel no es posible sin un ajuste de
las mismas. Este ajuste resulta en una adaptación de la metodología con el fin de
corregir la aplicación según el tipo de variable dependiente estudiada.
82 | Estimación de la probabilidad de ganar un punto en un partido de tenis profesional… / F.M. DALLA FONTANA / J. BUSSI
Estas técnicas estándares están especialmente diseñadas para el análisis de
variables dependientes continuas. Su aplicación directa cuando la variable de interés es discreta no es posible y si además la mayoría de los regresores son dinámicos, es decir, varían a medida que transcurre el partido, los estimadores habituales para datos de panel resultan inconsistentes.
La estimación de modelos de datos de panel dinámicos con variable respuesta binaria sigue siendo hoy en día un problema no totalmente resuelto en la estadística clásica, si bien existen algunos métodos que proveen soluciones parciales.
Con el fin de abordar estos inconvenientes presentes en el proceso de estimación, se aprovecha la naturaleza de los datos de tenis, lo que permite utilizar un
modelo lineal para la probabilidad de ganar un punto. La estimación utilizada en
este trabajo es la de Mínimos Cuadrados Generalizados Factibles (referida como
fgls por sus siglas en inglés), la cual resulta consistente y apropiada para el tipo
de datos en este estudio.
El presente trabajo está orientado a la aplicación de las técnicas de datos de
panel cuando se presentan los desafíos antes mencionados, y expone una solución práctica para resolver este tipo de situaciones.
Sus objetivos son:
Desarrollo y presentación de una metodología específica para el análisis de datos de panel con respuesta binaria y variables explicativas dinámicas.
Aplicación de la metodología a un conjunto de datos correspondientes al deporte del tenis profesional, con el fin de obtener un modelo para la probabilidad
de ganar un punto y probar ciertas hipótesis de interés relacionadas con el juego.
2. MATERIALES
2.1 EL DEPORTE DEL TENIS
El tenis es un deporte que se juega en todo el mundo y ha adquirido mucha
popularidad en los últimos años. En este trabajo se considerarán partidos de singles, es decir partidos en los cuales se enfrentan dos jugadores.
El objetivo clave del juego es colocar la pelota de manera tal que pique o bote
en el espacio delimitado del campo del adversario, hasta que éste no pueda responder de la misma manera. Cuando esto ocurre, se dice que se ha jugado un
punto y que éste ha sido perdido por el jugador que no pudo responder, siendo su
adversario el ganador del mismo.
REVISTA DE LA SOCIEDAD ARGENTINA DE ESTADÍSTICA / VOL. 11 / NRO. 1 / 2013 | 83
2.2. EL JUEGO: SU PUNTUACIÓN Y TERMINOLOGÍA
Un partido de tenis se compone de puntos, juegos (llamados de ahora en más
en este trabajo como games) y sets. El resultado final se determina por el número de sets ganados, siendo ganador el jugador que obtiene primero un número
determinado de sets.
Un set consiste de una secuencia de games, donde en cada game uno de los
jugadores es el encargado de servir, es decir, iniciar el juego de un determinado
punto. El jugador restante es considerado el encargado de recibir.
Cada game consiste de puntos, que se juegan con el servicio de uno y sólo uno
de los jugadores. En tenis, el servicio es un golpe de suma importancia, puesto
que genera al jugador que sirve una considerable ventaja respecto a su rival. Un
servicio puede inmediatamente culminar un punto, o bien otorgarle al que sirve
una posición ofensivamente favorable, por lo que es de esperar que un jugador
gane más puntos con su servicio que con el servicio de su adversario. Cabe aclarar que cada jugador que sirve dispone de dos servicios por cada punto jugado.
En caso de que falle en ambos servicios, pierde el punto. En este caso el jugador no logra poner la pelota en juego y el punto recibe el nombre de doble falta.
Si bien los puntos no se diferencian en cuanto a la forma en que son jugados,
se les suele asignar una terminología clásica y propia del tenis a aquellos considerados “críticos” en cada game o set. Por ejemplo, si se está por jugar un punto
donde el jugador que está sirviendo puede ganar el game, se dice que el jugador
que sirve tiene “doble game point” o “doble punto para game”. Sucede análogamente con los “puntos para set” o “set points” y los “puntos para partido” o “match
points”, términos cotidianamente utilizados en el lenguaje del tenis. Otro concepto que se usa muy seguido es el de los “puntos de quiebre” o “breakpoints”. Un
punto de quiebre ocurre cuando, en el próximo punto, el jugador que recibe tiene
la posibilidad de ganar el game. Los puntos de quiebre son de gran importancia
ya que, como se dijo, el servicio es considerado una ventaja y es de esperar que
un jugador no pierda games con su servicio. Cuando un jugador gana un punto
de quiebre se dice que “quebró el servicio” de su adversario.
2.3. LOS DATOS
Este estudio se centra en analizar partidos de singles jugados en la Copa Davis, la cual es un torneo internacional por equipos de jugadores, que representan
países de todas partes del mundo.
La información utilizada en este estudio se encuentra desagregada a nivel de
punto, es decir, para cada partido se conocen los jugadores y la secuencia com-
84 | Estimación de la probabilidad de ganar un punto en un partido de tenis profesional… / F.M. DALLA FONTANA / J. BUSSI
pleta de puntos que cada uno efectuó con su servicio. Se excluyen del análisis los
puntos de tie break (games especiales que tienen mayor número de puntos a disputar) debido a la naturaleza especial que éstos tienen en un partido. También se
tuvo en cuenta sólo jugadores con ranking en la Asociación de Tenistas Profesionales (referido de ahora en más en este trabajo por sus siglas en inglés atp: Association of Tennis Professionals) y aquellos partidos de singles que hayan sido
significativos para la resolución de la serie, por lo que quedaron excluidos los disputados una vez que la serie ya estaba definida.
En resumen, los datos analizados presentan las siguientes características:
• Partidos del Grupo Mundial, disputados entre 2008 y 2011.
• Enfrentamientos entre dos jugadores (singles).
• Partidos significativos para la serie.
• No se consideraron puntos disputados en tie breaks.
• Jugadores con ranking en el circuito de la atp.
• Partidos disputados en superficies lentas y medias.
2.4. BASE DE DATOS
Los datos se recolectaron a través de internet en dos principales fuentes: la
página oficial de la Copa Davis (www.daviscup.com) y la página oficial de la atp
(www.atpworldtour.com). Se recolectó información de 161 partidos disputados
entre los años 2008 y 2011, los cuales componen un total de 34 944 puntos.
La base de datos está conformada por el ranking de los jugadores y el resultado para cada punto disputado en cada partido. A continuación se detallan las
variables que componen la base de datos final.
• Identificador del partido
• Identificador del jugador
• Número de set
• Resultado del punto
• Indicador del primer punto del game
• Indicador de punto de quiebre
• Ranking de los jugadores
El ranking es una variable medida en escala ordinal basada en méritos, que
determina la entrada y preclasificación de los jugadores en los distintos torneos.
Se construye a partir de puntos obtenidos en los torneos profesionales en las últimas 52 semanas (lo que equivale a un año) y se actualiza cada semana. Está
asociado a la habilidad para jugar al tenis, considerándose al número uno como
el mejor jugador, seguido por el número dos, y así sucesivamente.
REVISTA DE LA SOCIEDAD ARGENTINA DE ESTADÍSTICA / VOL. 11 / NRO. 1 / 2013 | 85
2.5. SOFTWARE ESTADÍSTICO
Se utilizó el software estadístico sas (Statistical Analysis System, versión
9.1.3) para analizar la información y generar el programa necesario para estimar los modelos propuestos en este estudio. Se utilizaron ciertos procedimientos
para el análisis, en particular el procedimiento iml (Interactive Matrix Language).
3. METODOLOGÍA
3.1. DATOS DE PANEL CON RESPUESTA BINARIA Y REGRESORES
DINÁMICOS CON EFECTOS ALEATORIOS
Los datos a analizar se consideran un panel de N sujetos, es decir una sección transversal de N partidos donde cada uno de ellos comprende dos series de
tiempo de puntos jugados con el servicio, una para cada jugador. Se recolectó información de 161 partidos jugados en la Copa Davis durante los años 2008 a
2011, componiendo un total de 34 944 puntos. Se asume que los partidos son
independientes, y por lo tanto se considera en primer término un partido genérico i-ésimo y luego se extenderá la notación para los N partidos.
Este estudio se centra en explicar la probabilidad de ganar un punto en el tenis. Para tal fin se plantea un modelo para la variable respuesta binaria, es decir,
para el resultado de un punto con el servicio de un jugador, en un determinado
partido. El modelo que se propone es:
(1)
donde:
i: partido o unidad en estudio (corte transversal),
j: jugador dentro de cada partido,
t: punto, dimensión en el tiempo, período u observación,
yijt:resultado del punto t-ésimo en el partido i-ésimo, en donde sirve el jugador j.
Luego
Q i : componente de calidad del i-ésimo partido para el j-ésimo jugador,
D ij : regresores dinámicos evaluados en la ijt-ésima observación, y
E ijt : error aleatorio de la ijt-ésima observación.
Se puede observar que por ser
de carácter binario, se verifica que la es-
86 | Estimación de la probabilidad de ganar un punto en un partido de tenis profesional… / F.M. DALLA FONTANA / J. BUSSI
peranza matemática de la respuesta es igual a la probabilidad de que la misma
tome el valor 1:
. Por lo tanto, estimar este modelo permite estimar estadísticamente la probabilidad que un jugador tiene, en un partido, de ganar un punto con su servicio.
En cada partido habrá
puntos jugados con el servicio del jugador 1 y
puntos jugados con el servicio del jugador 2. Por lo tanto cada partido tendrá un
total de
puntos,
. Además
es el
número total de puntos jugados en los
partidos, en este caso 34 944.
El modelo descripto expresa que la probabilidad de que el -ésimo jugador
gane el -ésimo punto efectuado con su servicio en el partido -ésimo es igual a
la esperanza de
, asumiendo que los errores tienen esperanza nula.
contiene información acerca de la calidad de los jugadores 1 y 2 antes
de comenzar el partido (como por ejemplo el ranking de los mismos), mientras
que
hace referencia a características que se modifican a medida que el partido se desarrolla, hasta antes del punto -ésimo (como por ejemplo el resultado
del punto previo o si el punto a jugar es un punto de quiebre).
A continuación se discuten las características de las componentes
,
y
. Mientras
contiene características de los jugadores antes de comenzar
el partido, el término dinámico
depende de toda la información del partido,
disponible hasta el punto . Si por ejemplo los puntos estuvieran idéntica e independientemente distribuidos (iid), la información provista en
no sería útil para
predecir la respuesta
. Por lo tanto los llamados regresores dinámicos capturarían alejamientos de la hipótesis de iid, tal como variables dependientes que
explican por ejemplo una “racha ganadora” (si existiese) y características del punto que actualmente se está jugando, relacionadas con la importancia del mismo.
3.2. COMPONENTE DE CALIDAD (
)
Como es sabido, la calidad de un jugador de tenis no es directamente medible y está vinculada con características propias de los jugadores que interactúan
en el partido. La componente explicativa
contiene información acerca de los
deportistas antes de comenzar el mismo. Las características de los jugadores no
se modifican con el correr de los puntos, sino que están previamente especificadas (notar que
no depende de ).
contiene algunas componentes que
se pueden observar (calidad observable) y otras que no (calidad no observable).
Se asume que la calidad observable es lineal y se la denota con
. Para
tener en cuenta la calidad no observable en el modelo, se incluye un efecto individual aleatorio y se lo indica con
, de la manera en que usualmente se mo-
REVISTA DE LA SOCIEDAD ARGENTINA DE ESTADÍSTICA / VOL. 11 / NRO. 1 / 2013 | 87
dela la heterogeneidad no observable en datos de panel. Esto permite evitar estimaciones sesgadas de los parámetros.
De esta manera la componente de calidad del jugador que juega en el partido viene dada por:
(2)
Supuestos:
a)
.
La variancia del efecto individual aleatorio es constante a través de los jugadores:
b)
(3)
c) La covariancia entre los efectos no observables de un mismo partido es constante a través de los partidos:
(4)
en donde
.
La covariancia puede interpretarse de la siguiente manera: si el jugador 1
sirve mejor de lo esperado, puede que el nivel de juego del jugador 2 con su servicio se vea afectado, provocando que su probabilidad de ganar un punto disminuya. Por lo tanto, es de esperar que
y
estén negativamente correlacionados (
), pero no se impone que la covariancia sea negativa.
Este supuesto establece que los efectos no observables no son independientes, condición que no es habitualmente incluida en los modelos (Magnus and Klaassen, 2001).
El efecto no observable
no está correlacionado con las variables de calidad observable:
(5)
Esto es razonable para el caso del juego de tenis, ya que el ranking de los jugadores está especificado tiempo antes del comienzo del partido, al final de la
semana previa a la semana en la cual se disputa el mismo. Este supuesto es necesario además para que el proceso de estimación discutido posteriormente sea
consistente (Kiviet, 1995).
88 | Estimación de la probabilidad de ganar un punto en un partido de tenis profesional… / F.M. DALLA FONTANA / J. BUSSI
3.3. REGRESORES DINÁMICOS (
)
La calidad
contempla variables conocidas antes del comienzo del partido,
las cuales no varían a lo largo del mismo. En contraste, los regresores dinámicos
capturan el efecto de variables que cambian punto a punto, es decir, durante el
partido. Esta parte del modelo es la que se utiliza para probar, por ejemplo, la independencia e igual distribución de los puntos en tenis, por lo que resulta de interés en este estudio.
Cuando se observa un partido de tenis profesional, es común preguntarse, por
ejemplo, si al perder un punto el jugador que sirve se ve afectado ya sea positiva
o negativamente a la hora de jugar un nuevo punto. Esto plantearía que los puntos pueden depender unos de otros. Para evaluar dependencia se tiene en cuenta
que el resultado de puntos anteriores influenciaría al resultado del punto actual.
Es decir, dentro de un mismo juego, puede que el haber ganado o perdido el punto previo condicione de alguna manera al jugador que sirve y esto se refleje en el
resultado del punto posterior. Por otro lado, el punto actual puede ser jugado diferente a otros puntos por algún motivo. Si esto fuese cierto los puntos podrían no
contar con igual distribución, lo cual podría ser medido, por ejemplo, a través de
la importancia del punto . Como se detallará luego, la importancia de un punto puede ser considerada teniendo en cuenta los puntos de quiebre del servicio.
En términos del modelo general, los regresores dinámicos se expresan de la
siguiente manera:
(6)
Supuestos:
A la hora de realizar las aplicaciones, los regresores
están completamente determinados por el historial del partido hasta el punto . También podrían estar determinados por las variables relacionadas con la calidad (tales como el ranking de ambos jugadores). Es decir, es de esperar que variables dinámicas y de
calidad observable interactúen entre sí.
Además, debido a las características propias de un partido de tenis, se considera que el desarrollo del mismo también depende de características no observables (
y
), de manera tal que resulta
, y
.
REVISTA DE LA SOCIEDAD ARGENTINA DE ESTADÍSTICA / VOL. 11 / NRO. 1 / 2013 | 89
3.4. EL TÉRMINO DEL ERROR ALEATORIO (
)
Los errores aleatorios se ven afectados por la estructura dicotómica de la variable respuesta, quedando determinados de la siguiente manera:
A la hora de estimar consistentemente el modelo, se debe analizar la correlación de los errores con las variables explicativas. Si existiese correlación, el proceso de estimación por mínimos cuadrados convencional resultaría inconsistente y se debería aplicar una corrección al mismo (Magnus and Klaassen, 2001).
Supuestos:
a)
b) (7)
donde
,
y
es el número total de puntos servidos por
el jugador
hasta antes del primer punto del juego actual (donde el jugador
está por servir).
Estos últimos supuestos en (7) son propios de la teoría del análisis de datos
de panel aunque también son razonables para los datos en tenis, ya que
y
están dados al comienzo del partido y los regresores dinámicos
dependen sólo de resultados de puntos previos.
Tanto en la literatura de datos de panel como de estadística aplicada, suele asumirse que la variancia de los errores es la misma para todos los individuos (homocedasticidad). En el presente estudio se demuestra que esto no se
cumple, por tratarse de observaciones de tipo binario. Específicamente por ser
, resulta:
(8)
90 | Estimación de la probabilidad de ganar un punto en un partido de tenis profesional… / F.M. DALLA FONTANA / J. BUSSI
por lo que la variancia del error depende de cada jugador y se muestra con la presencia del subíndice . Por lo tanto existe heterocedasticidad, la cual debe ser tenida en cuenta a la hora de realizar la estimación del modelo.
3.5. EL MODELO
Dadas las componentes especificadas en los puntos 3.2, 3.3 y 3.4, la expresión del modelo para el -ésimo jugador viene dada por:
,
Es usual interpretar y clasificar los modelos para datos de panel a través de
sus componentes de error. En la mayoría de las aplicaciones se utiliza un modelo de componente error “a un criterio” (“one way” error component model). Agrupando las componentes aleatorias se lo lleva a esta forma:
(9)
Los supuestos enunciados para cada una de las componentes implican que
este modelo se defina como un Modelo con Respuesta Binaria y Regresores Dinámicos con Efectos Aleatorios.
3.6. ESTIMACIÓN
Uno de los puntos cruciales para la estimación del modelo descripto es la construcción de la matriz de variancias y covariancias de las componentes de error
. Teniendo en cuenta el modelo y sus supuestos, dentro de un determinado
partido , en donde se enfrentan dos jugadores 1 y 2 que efectuaron
y
puntos con su servicio respectivamente, se verifica:
,
,y
donde
Antes de construir la matriz de variancias y covariancias, es conveniente expresar el modelo en términos de un partido genérico. Para ello se redefinen las
variables y vectores del modelo postulado, apilando las observaciones pertenecientes a los jugadores de cada partido.
REVISTA DE LA SOCIEDAD ARGENTINA DE ESTADÍSTICA / VOL. 11 / NRO. 1 / 2013 | 91
.
Siendo y el número de parámetros en y respectivamente, y
el número total de parámetros a estimar, el modelo para un partido
,
es:
(10)
donde:
vector de respuestas del -ésimo partido, de dimensión
,
matriz de variables de calidad evaluadas en cada tiempo del partido
, de dimensión
,
matriz de variables dinámicas evaluadas en cada tiempo del partido ,
de dimensión
,
, de dimensión
,y
, de dimensión
.
El vector de errores , de
, puede ser escrito:
(11)
donde:
,
, donde
y
es un vector compuesto de unos de dimensión
el producto de Kronecker,
y
.
y
representa
Finalmente, el modelo queda expresado:
(12)
siendo la matriz de variancias y covariancias de los errores para el -ésimo
partido:
(13)
que es de
92 | Estimación de la probabilidad de ganar un punto en un partido de tenis profesional… / F.M. DALLA FONTANA / J. BUSSI
Estimar este modelo de manera consistente no es trivial. Por el tipo de modelo existe heterocedasticidad de los errores
debido a la variable dependiente
dicotómica. Las variables explicativas y los errores están correlacionados contemporáneamente, lo que implica que el método de Mínimos Cuadrados Ordinarios
(referido de ahora en más en este trabajo por sus siglas en inglés ols: Ordinary
Least Squares) es inconsistente. Debe por lo tanto realizarse una modificación al
mismo. De esta manera el procedimiento a utilizar es el de Mínimos Cuadrados
Generalizados Factibles (referido de ahora en más en este trabajo por sus siglas
en inglés fgls: Feasible Generalized Least Squares).
También, y antes de detallar los pasos de estimación, es de utilidad expresar
un modelo que resuma la información de todos los partidos. Manteniendo la lógica anterior, se escribe:
(14)
donde:
vector de variables de respuesta binaria para los
períodos
de observación,
matriz de variables de calidad evaluadas en los
períodos, de dimensión
,
matriz de variables dinámicas evaluadas en los períodos, de dimensión
,
matriz de variables explicativas evaluadas en los períodos, de dimensión
,y
vector de errores para los períodos de observación.
3.7. MÍNIMOS CUADRADOS GENERALIZADOS FACTIBLES (fgls)
La estimación a través de fgls realizada en este estudio consiste en dos etapas:
Etapa 1: estimación consistente de los parámetros dados en
(
y ),
Etapa 2: estimación por Mínimos Cuadrados Generalizados (referido de ahora
en más en este trabajo por sus siglas en inglés gls: Generalized Least Squares)
de los parámetros del modelo ( y ) con la matriz
obtenida en la etapa 1.
A. Etapa 1: estimación consistente de
Para obtener una estimación consistente de la matriz de variancias y covariancias primero se necesitan estimaciones consistentes de , ,
y , las cua-
REVISTA DE LA SOCIEDAD ARGENTINA DE ESTADÍSTICA / VOL. 11 / NRO. 1 / 2013 | 93
. En
les se obtienen a través de tres pasos. En los pasos 1 y 2 se estiman y
el paso 3 se utilizan y estimados en los pasos 1 y 2 para estimar
y
.
Paso 1: estimación consistente de
Se aplica una primera diferencia al modelo general (14), con el objetivo de suprimir el efecto aleatorio no observable
:
donde el elemento
(15)
de esta diferencia es:
, con
(16)
y
están correlacionadas, puesto que el
Aquí se puede observar que
modelo supone
para
. Luego
, por lo que estimar a través del método convencional ols conducirá a inconsistencias en las estimaciones.
Se procede a aplicar un método de variables instrumentales, en donde se decide utilizar la variable
como un instrumento de
, ya que está
correlacionada con la variable explicativa y no correlacionada con el error (Arellano, 1989; Judson and Owen, 1999; Kiviet, 1995). La ecuación toma la forma:
(17)
de donde aplicando
ols
se obtiene
, una estimación consistente de
.
Paso 2: estimación consistente de
Este paso consiste en estimar de un modelo que considera una transformación
de la variable respuesta
. Se intenta suprimir el efecto dinámico
ajustado
a través de la estimación de obtenida en el paso 1, para así tener un modelo
con sólo
como variables explicativas e
como variable respuesta, donde:
(18)
De esta manera, utilizando a
como variables explicativas y a
como
variable respuesta se obtiene, nuevamente mediante ols, una estimación consistente de (Anderson and Hsiao, 1982).
94 | Estimación de la probabilidad de ganar un punto en un partido de tenis profesional… / F.M. DALLA FONTANA / J. BUSSI
Paso 3: estimación de
y
Recordando que
, y llamando
al promedio de los errores de un jugador a través de todos los puntos que sirvió en un partido, es decir
, se demuestra que:
de donde, despejando
:
(19)
Además puede probarse que:
A partir de la expresión de la variancia
puede formularse:
(20)
definida en la ecuación (8),
(21)
Teniendo en cuenta las estimaciones y , obtenidas de (17) y (18) en los
pasos 1 y 2, se reemplazan los errores
por los residuos
. De esta manera, reemplazando los valores estimados y estimando las esperanzas contenidas en (19), (20) y (21) con la media
muestral apropiada en cada caso, se obtiene una estimación de
y
para cada jugador, y de para cada partido. Promediando los valores de las estimaciones de ambos parámetros
y a través de los jugadores y de los partidos respectivamente, se logra llegar a estimaciones consistentes
y .
Finalmente se le resta a
la estimación consistente
y se adquiere una estimación de la variancia de los errores aleatorios (
) para cada uno
de los jugadores:
REVISTA DE LA SOCIEDAD ARGENTINA DE ESTADÍSTICA / VOL. 11 / NRO. 1 / 2013 | 95
Así, la matriz de variancias y covariancias estimada
queda consistentemente determinada para cada partido a partir de estimaciones consistentes de
todas sus componentes.
Etapa 2: estimación de y por gls
Una vez obtenida
, es posible la estimación de los parámetros mediante
gls. La aplicación de este método se justifica por el hecho que los errores no tienen igual variancia y además están correlacionados. Es decir,
no es de la forma
y por lo tanto ols no es aplicable.
Mediante gls, la estimación del vector de parámetros
y su matriz de variancias y covariancias correspondiente, utilizando sólo la información
de un partido viene dada por:
(22)
En esta situación es necesaria la obtención de una estimación única para todo
el panel y no para cada partido por separado. Por lo tanto, asumiendo que los
partidos son independientes se obtiene la matriz (de todos los partidos) que es
diagonal en bloque con elementos
. Luego resulta:
(23)
donde
es la estimación consistente de la matriz de variancias y covariancias de los errores a través de los
puntos, de dimensión
, obtenida a
partir de fgls.
La estimación gls con
conocida es consistente, lo cual no es un tema menor ya que la estimación por ols no lo es. La estimación mediante fgls descripta
recorre distintos pasos para lograr la no correlación de las variables explicativas
con el error, ya que en caso contrario se originan inconsistencias en las estimaciones (Hsiao, 1986). Anderson and Hsiao (1982) y Hsiao (1986) probaron que
de esta manera la estimación gls es consistente, ya que equivale a la estimación
por máxima verosimilitud. Por lo tanto es consistente y y por gls también,
y las nuevas estimaciones consistentes
y
son más eficientes que las
obtenidas en los pasos 1 y 2 de la etapa 1 (Magnus and Klaassen, 2001).
96 | Estimación de la probabilidad de ganar un punto en un partido de tenis profesional… / F.M. DALLA FONTANA / J. BUSSI
Finalmente y como refinamiento del procedimiento, se utilizan
y
obtenidos de
para volver a estimar
en el paso 3 de la etapa 1 y así continuar de manera similar hasta que el proceso converja.
Una vez obtenida la estimación de los parámetros, se prueba la significación
de los mismos mediante el Test de Wald Multivariado.
3.8. AJUSTE DEL MODELO
Como la variable dependiente es dicotómica, el coeficiente de determinación (
) no puede usarse como medida de diagnóstico para evaluar el ajuste del modelo (Maddala, 1983). Pueden calcularse en cambio la Raiz del Error Cuadrático Medio (referido de ahora en más en este trabajo por sus siglas en inglés rmse:
Root Mean Square Error), cuya fórmula es:
y el Error Medio Absoluto (referido de ahora en más en este trabajo por sus siglas en inglés mae: Mean Absolute Error), obtenido mediante la fórmula:
siendo
el valor ajustado de
mediante el modelo.
4. RESULTADOS
4.1. APLICACIÓN A LOS PARTIDOS DE LA COPA DAVIS
Este estudio plantea un modelo para determinar la probabilidad de ganar un
punto con el servicio en el tenis profesional. Se utilizaron 161 partidos correspondientes a la serie mundial de la Copa Davis entre los años 2008 y 2011.
Como se ha mencionado, el servicio es uno de los aspectos más importantes
en el tenis. Esto se refleja en el siguiente análisis descriptivo, en base a la muestra de partidos considerada, donde la probabilidad estimada de ganar un punto
con el servicio, para todos los jugadores, es 0.63. Más alta aún es la de ganar un
game, siendo 0.79 para el jugador que sirve.
REVISTA DE LA SOCIEDAD ARGENTINA DE ESTADÍSTICA / VOL. 11 / NRO. 1 / 2013 | 97
La probabilidad estimada de ganar el punto actual (sin ser éste el primero del
game), habiendo ganado el punto previo, se incrementa de 0.63 a 0.65, reflejando una “racha ganadora”. Si el punto previo se perdió, esta probabilidad decrece
de 0.63 a 0.61. Por lo tanto, resultados de puntos previos podrían tener un efecto en el punto actual, lo que sugeriría una dependencia entre los puntos (Tabla 1).
Por otro lado, ante la presencia de un punto de quiebre, la probabilidad estimada de ganar el punto decrece a 0.61, indicando que puntos “más importantes” podrían pesar a la hora de servir.
A continuación se especifican las variables de las componentes de calidad y
las variables dinámicas, tenidas en cuenta en este estudio para la formulación
del modelo.
Tabla 1. Resumen de los datos
Promedio de…
Número de…
Sets por partido
Partidos
161
Puntos por partido
Sets
592
Probabilidad estimada de…
Puntos por game
3.68
6.16
217.04
Games
5669
Ganar un game
0.79
Puntos
34944
Ganar un punto
0.63
Ganar un punto habiendo ganado el punto previo
0.65
Puntos de quiebre
3076
Games ganados
4451
Puntos ganados
22186
Ganar un punto habiendo perdido el punto previo
0.61
Ganar un punto de quiebre
0.61
4.2. ESPECIFICACIÓN DE LAS VARIABLES DE CALIDAD
Las variables de calidad
miden la calidad observable de los jugadores en
un partido. Básicamente la información que se utiliza para definirlas es el ranking
de los jugadores en el circuito profesional, previo a jugar la serie, obtenido a partir de la base de datos de rankings en la página oficial de la atp. El ranking del jugador al momento de jugar el partido se denota con
.
Se propone utilizar como variable de calidad a una función del ranking de los
jugadores:
(24)
98 | Estimación de la probabilidad de ganar un punto en un partido de tenis profesional… / F.M. DALLA FONTANA / J. BUSSI
La variable
, utilizada para medir la calidad observable de un jugador en
un partido determinado, fue introducida por Magnus and Klaassen (2001). Por
ejemplo, un jugador con ranking 1 tiene
mientras que, para jugadores
con ranking 2, 3 y 4,
es igual a 7, 6.42 y 6, respectivamente. Esta nueva
variable expresa que la diferencia de calidad entre dos jugadores es menor si se
consideran rankings cada vez más altos (siempre y cuando se comparen jugadores con igual diferencia entre sus rankings). Dicho de otra manera, jugadores con
mayor ranking (menor calidad) son en general más parejos.
Al momento de definir las variables de calidad es importante tener en cuenta
dos aspectos. Primero, un jugador gana más puntos con su servicio si su adversario es “peor” que él, en comparación a si su rival es “mejor”. Esto indica que la
resta entre las calidades de los jugadores y (la brecha entre ambos o calidad
relativa),
, es importante. Segundo, en un partido donde se enfrentan
dos jugadores “fuertes”, se juegan más puntos con el servicio en comparación a
dos jugadores “débiles” (Magnus and Klaassen, 1999a), por lo que la suma de
calidades (calidad total del partido o calidad absoluta),
también se
debe tener en cuenta.
De esta manera las variables de calidad se expresan:
y, siendo
ponente de calidad
(25)
el correspondiente vector de parámetros, la comqueda expresada:
(26)
y
se centran a través de sus respectivas
Las variables
medias, lo cual facilita la interpretación de
, representando, de esta manera, la
calidad observable esperada para un partido con jugadores con calidad promedio.
El valor promedio de
para el conjunto de partidos considerados es 3.28.
4.3. ESPECIFICACIÓN DE LAS VARIABLES DINÁMICAS
Una hipótesis interesante a evaluar en este estudio es la de independencia e
igual distribución de los puntos en tenis, para lo cual las variables dinámicas a
considerar en el modelo deberán contener información acerca de estas cuestiones.
Los puntos previos pueden influir en el punto actual con lo cual existiría una de-
REVISTA DE LA SOCIEDAD ARGENTINA DE ESTADÍSTICA / VOL. 11 / NRO. 1 / 2013 | 99
pendencia entre los puntos. También puede ocurrir que el punto actual sea jugado de manera distinta a otros puntos, lo cual implicaría una distinta distribución.
4.3.1. DEPENDENCIA
Se desea considerar la influencia que tiene el punto previo sobre el punto actual. Se desea estudiar esta dependencia dentro de un mismo game, por lo tanto es necesario notar una sutileza en la definición de la variable a utilizar. Es importante destacar que, para el jugador que sirve, el punto previo al primero de un
game fue jugado en un game previo (en donde servía el mismo jugador). Es decir que entre el primer punto del game y los puntos anteriores jugados existe un
game jugado con el servicio del otro jugador. Esto indica que, en un game determinado, no todos los puntos previos pueden asumirse “iguales” y para evaluar dependencia a través de la influencia de los mismos se debe distinguir entre el primer punto del game (donde el punto previo ocurrió bastante tiempo atrás) y los
restantes puntos del mismo. Por lo tanto se define:
(27)
(28)
La dependencia puede ser estudiada a través de las variables definidas, sin
necesidad de eliminar el primer punto de cada game.
4.3.2. DISTINTA DISTRIBUCIÓN
En un partido de tenis suele haber distintos momentos que, por la importancia que tienen, son considerados relevantes para definir el resultado. La influencia que estos momentos tengan en el juego se verá reflejada en la distribución de
la probabilidad de ganar un punto. Es decir, la existencia de puntos más importantes que otros puede repercutir en el resultado de los mismos, modificando así
la probabilidad de ganar a lo largo del partido.
100 |Estimación de la probabilidad de ganar un punto en un partido de tenis profesional… / F.M. DALLA FONTANA / J. BUSSI
Se intenta medir la ausencia de igual distribución de los puntos a partir de un
indicador de la importancia del mismo, en este caso, el punto de quiebre. Se define la siguiente variable:
(29)
Se debe considerar el hecho de que la independencia e igual distribución de
los puntos puedan depender del nivel propio del jugador. Si esto sucediese, es de
esperar que jugadores de mayor calidad se vean menos afectados por el resultado del punto previo o la importancia del punto disputado que jugadores de menor calidad. De esta manera, los regresores
incluyen también la calidad de
los jugadores, lo que se traduce, en términos del modelo, a interacción entre variables dinámicas y de calidad:
Denotando con
parámetros asociados a los regresores dinámicos, se expresa a
(30)
al vector de
como:
(31)
Puede notarse que cada variable dinámica tiene asociado un término independiente y dos términos de interacción, los cuales se relacionan con la resta y suma
de las calidades de los jugadores.
4.4. MODELO PARA LA VARIABLE RESPUESTA BINARIA
Una vez definidas las componentes se puede escribir el modelo completo para
la probabilidad de ganar un punto en tenis:
REVISTA DE LA SOCIEDAD ARGENTINA DE ESTADÍSTICA / VOL. 11 / NRO. 1 / 2013 | 101
(32)
Los parámetros se interpretan teniendo en cuenta su signo y magnitud.
Considerar que los puntos son independientes y están igualmente distribuidos
(iid) implica que los regresores dinámicos no tengan ningún efecto sobre la probabilidad de ganar. Es decir probar iid equivale, en relación a los parámetros del
modelo, a probar la hipótesis
.
Otra hipótesis de interés a probar es la de “homogeneidad”, la cual evalúa si
el alejamiento de la independencia e igual distribución de los puntos (en caso de
estar presente) es homogéneo para todos los jugadores, es decir, no depende de
la calidad de los mismos. Probar esta hipótesis equivale a evaluar si los efectos
asociados a las interacciones entre variables dinámicas y de calidad son nulos,
es decir,
.
4.5. ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
Se estima, en principio, un modelo teniendo en cuenta todas las variables antes
definidas (modelo completo). El mismo consta de 14 parámetros en total —tres
parámetros , nueve parámetros , la variancia
y la covariancia —, especificados en el modelo ajustado. Aquellos parámetros no significativos —considerado a un nivel
— se eliminan paso a paso de acuerdo a sus valores de
probabilidad asociada, evaluándose el comportamiento de los efectos restantes
en un modelo más reducido. Sin tener en cuenta su significación, se retiene en
el modelo aquellos efectos principales correspondientes a interacciones que resultan significativas. Así se obtiene un modelo reducido final con 10 parámetros,
que es el elegido para interpretar en términos del problema.
Se compara el ajuste del modelo reducido con el del modelo completo y se
puede observar que los valores correspondientes al rmse y al mae de ambos modelos son prácticamente iguales, siendo la diferencia entre los mismos en el cuarto decimal. Se puede concluir que el modelo reducido final ajusta los datos tan
bien como el modelo completo. La siguiente tabla muestra los valores de rmse y
mae para ambos modelos.
102 |Estimación de la probabilidad de ganar un punto en un partido de tenis profesional… / F.M. DALLA FONTANA / J. BUSSI
Tabla 2. Estimación del Modelo Reducido
Efecto
Constante (
)
Resta de calidades (
Suma de calidades (
Punto previo (
)
)
Primer punto del game (
)
Primer punto del game × Suma de calidades (
)
Punto de quiebre (
Punto de quiebre × Resta de calidades (
Variancia (
Error Est.
gl
p-value
0.0058
1
<0.0001
0.0161
0.0019
1
<0.0001
-0.0012
0.0015
1
0.4290
0.0139
0.0060
1
0.0202
0.0214
0.0080
1
0.0076
-0.0047
0.0025
1
0.0644
0.0051
0.0097
1
0.5962
0.0069
0.0038
1
0.0732
15.5062
5
0.0084
6.6046
2
0.0368
0.0038
)
-0.0007
Covariancia ( )
Test de iid (
)
)
Estim.
0.6263
)
Test de homogeneidad (
)
Nivel de Significación fijado al 10 %
Tabla 3. Ajuste de los modelos
Modelo
RMSE
MAE
Completo
0.4799
0.4600
Reducido
0.4800
0.4601
Se observa el signo y la magnitud de los parámetros significativos en el modelo reducido final.
Como
, ganar el punto anterior por parte del jugador que sirve tiene
un impacto positivo en el resultado del punto actual, es decir aumenta la probabilidad de que lo gane.
La instancia del game en que el punto es jugado influye en la probabilidad
de ganar el punto actual. Si el game está comenzando, el jugador que sirve tiene mayor probabilidad de ganar el primer punto con su servicio, ya que
. Sin embargo este efecto se reduce si el nivel de los jugadores es alto, puesto
que
, pudiendo hasta producir que el mismo sea negativo, y por lo tan-
REVISTA DE LA SOCIEDAD ARGENTINA DE ESTADÍSTICA / VOL. 11 / NRO. 1 / 2013 | 103
to hacer que la probabilidad de ganar en el primer punto de servicio disminuya.
Esto mostraría que en partidos entre dos jugadores buenos, es decir, cuanto mayor es la suma de calidades, es más complejo ganar el primer punto en un game
con el servicio.
Aun resultando
no significativo, se lo incluye en el modelo dado que
sí lo es. El hecho de que
indica que la probabilidad de ganar un punto
de quiebre aumenta levemente para el jugador que sirve y el hecho que
indica que este efecto es aún mayor si el jugador que sirve es mejor que el que
recibe, mientras que disminuye si el jugador que sirve es peor que su adversario,
pudiendo ser negativo. Es decir, la probabilidad de ganar un punto de quiebre aumenta para el jugador que sirve a menos que éste sea mucho peor que su rival,
caso en el cual la probabilidad disminuiría.
Por otro lado, basándose en los regresores de calidad observable,
es la probabilidad estimada de ganar un punto con el servicio en un partido de jugadores con ranking promedio, en donde el punto en cuestión no es el primero de
un game ni es un punto de quiebre, y el punto anterior se perdió. Al ser
implica que cuanto mayor es la diferencia en calidad entre el jugador que saca y
su rival, mayor es el aporte a la probabilidad que el primero tiene de ganar. Como
no es significativo, la calidad total que tiene un partido pareciera no repercutir en el resultado de los puntos disputados en el mismo, pero se lo incluye en el
modelo dado que su interacción con una de las variables dinámicas (primer punto del game) es significativa. En resumen, la resta de calidades parece ser más
importante que la suma de calidades.
Como era de esperarse, la hipótesis de iid es rechazada (p-value=0.0084), indicando que en base a estos datos existe dependencia y probabilidad no constante a la hora de ganar los puntos efectuados con el servicio a lo largo de un partido
de singles. El rechazo de la hipótesis de homogeneidad (p-value=0.0368) revela que esta dependencia y distinta distribución no es homogénea entre los jugadores, es decir, está afectada por la resta y suma de calidades de los mismos en
un determinado enfrentamiento.
4.6. CONCLUSIÓN
En el presente trabajo se desarrolló un tipo de metodología que es específica
para la estimación en el análisis de datos de panel con respuesta binaria y regresores dinámicos (Magnus and Klaassen, 2001). La estimación por fgls provee
una alternativa apropiada cuando se quiere determinar la probabilidad de ganar
104 |Estimación de la probabilidad de ganar un punto en un partido de tenis profesional… / F.M. DALLA FONTANA / J. BUSSI
un punto en el tenis profesional y probar hipótesis sobre el juego. Además de proveer resultados en el juego de tenis, representa una contribución teórica en la estimación de este tipo de modelos, lo cual sigue siendo hoy en día un problema no
totalmente resuelto en la estadística clásica.
El análisis estadístico se realizó sobre una muestra de 161 partidos de la Copa
Davis, los cuales componen un total de 34 944 puntos. Se consideraron ciertos
aspectos que en un partido de tenis no son sencillos de explicar, tales como características propias del punto a disputar o relaciones del mismo con puntos anteriores. El modelo final estimado muestra que existen aspectos que modifican
de alguna manera la probabilidad de ganar un punto con el servicio. Es decir, ganar o perder un punto con el servicio en tenis no depende únicamente de la calidad de los jugadores, sino que además depende del desarrollo del partido. Los
resultados obtenidos deben ser tomados con cautela ya que este trabajo representa un primer intento de modelar la probabilidad de ganar un punto. Además,
los datos están referidos a partidos de la Copa Davis, la cual es una competencia con una naturaleza muy distinta al resto de los torneos del circuito, razón por
la cual sería interesante estudiar si los resultados obtenidos podrían generalizarse para el tenis profesional.
Este estudio es un punto de partida para la evaluación y construcción de nuevos modelos e hipótesis vinculados al deporte del tenis, y además provee un enfoque que puede ser utilizado en aplicaciones en otras disciplinas.
REVISTA DE LA SOCIEDAD ARGENTINA DE ESTADÍSTICA / VOL. 11 / NRO. 1 / 2013 | 105
REFERENCIAS
Anderson, T.W. and Hsiao, C. (1981). “Estimation of Dynamic Models with Error
Components”, Journal of the American
Statistical Assosiation, 76, 598–606.
——— (1982). “Formulation and Estimation
of Dynamic Models Using Panel Data”,
Journal of Econometrics, 18, 47–82.
Arellano, M. (1989). “A Note on the Anderson–Hsiao Estimator for Panel Data”,
Economics Letters, 31, 337–341.
Baltagi, B.H. (2005). Econometric Analysis
of Panel Data. Wiley: Chichester.
Draper, N.R. and Smith, H. (1998). Applied
Regression Analysis. Wiley: Michigan.
Fitzmaurice, G.M.; Laird, N.M. and Ware
J.H. (2004). Applied Longitudinal Analysis. Wiley: Harvard University, Boston.
Hsiao, C. (1986). Analysis of Panel Data.
Cambridge University Press: Cambridge.
Judson, R.A. and Owen, A.L. (1999). Estimating Dynamic Panel Data Models:
A Practical Guide for Macroeconomists.
Economics Letters, 65, 9–15.
Kiviet, J.F. (1995). “On Bias, Inconsistency
and Efficiency of Various Estimators in
Dynamic Panel Data Models”, Journal of
Econometrics, 68, 53–78.
Klaassen, F.J.G.M. and Magnus, J.R.
(2001). “Are Points in Tennis Independent and Identically Distributed? Evidence From a Dynamic Binary Panel Data
Model”, Journal of the American Statistical Association, 96, 500–509.
——— (1998). “On the Independence and
Identical Distribution of Points in Tennis”,
Tilburg University, Center for Economic
Research, 1998–53.
——— (1999a). “On the Advantage of Serving First in a Tennis Set”, The Statistician
(Journal of the Royal Statistical Society,
Ser. D), 48, 247–256.
——— (1999b). “The Effect of New Balls in
Tennis”, The Statistician (Journal of the
Royal Statistical Society, Ser. D), 48,
239–246.
——— (1999c). “The Final Set in a Tennis
Match”, Journal of Applied Statistics,
26, 461–468.
——— (2003). “Forecasting the Winner of a
Tennis Match”, European Journal of Operational Research, 148, 257–267.
Maddala, G.S. (1983). Limited–dependent
and Qualitative Variables in Econometrics. Cambridge University Press. Cambridge.
Semykina, A. and Wooldridge, J.M. (2007).
“Estimation of Dynamic Panel Data Models with Sample Selection”, Journal of
Applied Econometrics, 28, 47–61.
Wooldridge, J.M. (2002). Econometric Analysis of Cross Section and Panel Data.
Massachusetts Institute of Technology:
Cambridge.
Yaffe, R.A. (2003). “A Primer for Panel Data
Analysis”, New York University, Information
Technology Services, Fall 2003 Edition.
106 |Estimación de la probabilidad de ganar un punto en un partido de tenis profesional… / F.M. DALLA FONTANA / J. BUSSI