Trinoceronte

Porque 140 caracteres a veces no son suficientes

Fútbol y azar

Cada cuatro años los fanáticos del fútbol se reúnen alrededor de miles de millones pantallas para presenciar el evento deportivo más grande del planeta: el campeonato mundial de fútbol de la FIFA.  Este año, 2018, el evento se celebra en Rusia y hasta ahora ha demostrado ser uno de los mejores de la historia. ¿Cuáles de las 32 selecciones pasarán la “dolorosa” fase de grupos? ¿qué puesto ocupará nuestra selección favorita en el campeonato? ¿quién ganará?.  Estás son las preguntas que obsesionan a fanáticos, pero aún más, a profesionales, empresarios del fútbol y no hay duda, a apostadores de todo el planeta.  Pero el fútbol, a diferencia de algunos deportes individuales y como sucede con otros deportes de grupo (Beisbol, Baloncesto, etc.) es un juego en el que el azar determina de forma fundamental alguno de los resultados.  Precisamente por esto y desde hace varias décadas, científicos de los datos han desarrollado modelos estadísticos, para predecir los resultados de distintos campeonatos futbolísticos.  Presentó aquí los resultados de dos modelos recientes y nuestra propia comparación de esos modelos contra los resultados del campeonato (mientras se va desarrollando).  Sea que usted vaya a participar de una “polla mundialista” (en este mundial o el siguiente) o simplemente si le gusta ver la ciencia en acción, estoy seguro que le interesarán estos resultados.

“Lo dicho: el fútbol tiene una importante componente aleatoria y una aproximación estadística puede hacerlo mucho mejor que los sabiondos comentaristas deportivos https://arxiv.org/abs/1806.03208
Noviembre 9 de 2014
http://bit.ly/trino-fisica

Matriz de probabilidades de que cada uno de los equipos del mundial de Rusia 2018 le gane a los demás equipos. Con cuadros aparecen los marcadores a la fecha de publicación de este artículo.  Una versión actualizada de este gráfico esta disponible en este enlace http://bit.ly/Rusia2018-Marcadores-Probabilidades

No soy precisamente lo que podríamos llamar un fanático del fútbol.  En realidad me considero also así como un “activista anti-fútbol” o un “fútbol hater”; o mejor, un activista en contra de la exacerbación del fútbol como fenómeno económico, social y cultural, especialmente en países con profundos problemas como Colombia en los que, por esta exacerbación, los niños prefieren soñar con ser futbolistas que académicos.

Sin embargo, cada cuatro años, lo que parece ser un “gen futbolístico” se activa en mí.  Como resultado me convierto en un fanático más, uno como aquellos que critico el resto del año.  No me pierdo ningún partido, leo y veo programas deportivos y participó en las discusiones en redes sociales.

En defensa de mi rampante contradicción, puedo decir que, siendo el fútbol del mundial el mejor del mundo (de eso no hay ninguna duda), el campeonato de la FIFA es un espectáculo que vale la pena seguir, sea uno un afiebrado fanático o no.

En una analogía con la comida, el fanático que goza de cada partido de fútbol, no importa si es un campeonato de barrio o la liga europea, es como aquella persona que come de todo, desde un grasiento platillo callejero hasta la más deliciosa langosta.

A los bichos como yo, solo solo nos gusta la “Langosta futbolística”.

Una de las cosas que menos me gusta en el fútbol, especialmente de lo que sucede alrededor de él y no del deporte en sí mismo, es el excesivo análisis alrededor de cada jugada, de cada partido, de cada decisión de un futbolista o un técnico.  Un trabajo “pseudo intelectual” de sesudos comentaristas deportivos que tienen el dudoso mérito de recordar cuántos goles de tiro libre se han hecho en un estadio específico, pero que también creen tener una respuesta para explicar cualquier resultado futbolístico (especialmente después de conocerlo).

Ese exceso de análisis parece desconocer, casi completamente, que los resultados en el fútbol dependen de una innumerable cantidad de factores, la mayoría de ellos completamente aleatorios (es decir, que dependen de un número de variables inmanejables) y que hacen de este y muchos otros deportes de grupo, fenómenos naturales casi tan intratables e impredecibles como el clima.

Un cálculo servilletero sencillo (y absurdamente simplificado para la complejidad del fútbol) puede servirnos para hacernos a una dimensión cuantitativa del problema de la impredictibilidad del fútbol.  Si suponemos que en un partido de fútbol típico hay alrededor de 200-300 pases (y hasta más) y asumimos que la probabilidad de que cada pase sea exitoso es del 97% (una probabilidad alta incluso para los mejores equipos), la probabilidad de que se repitan los mismos pases es (como máximo) 0.97200 es decir 0.2%.  Es decir si se jugará el mismo partido en 1,000 universos paralelos donde todas las demás condiciones se repitieran por igual, en promedio solo en 2 de ellos se produciría el mismo partido.  Así, lo que vemos en un partido de fútbol es único y los detalles, prácticamente impredecibles.

Pero tampoco hay que engañarse.  Existen una diversidad de factores que favorecen a unos clubes sobre otros, a unos futbolistas sobre otros, a unos técnicos sobre otros, a unas selecciones nacionales sobre otras.  Estos factores  hacen que los partidos de fútbol sean algo más que una enorme sucesión de “lanzamientos de una moneda” (como yo mismo los he llamado en momentos de furor anti futbolístico).  El engaño está en creer que un sesudo análisis solo de estos factores, puede explicar (siempre a posteriori) porque Alemania puede ser derrotada por México en un mundial.

Son justamente esas componente no aleatorias las que han aprovechado una multitud de científicos de datos en las últimas décadas, para tratar de modelar los resultados del fútbol, en especial de los torneos más grandes, aquellos de los que abunda información y que tienen más relevancia pública.  El mundial de la FIFA es quizás el más importante.

Fútbol y apuestas

No hay que ser muy perspicaz para darse cuenta que más allá del interés científico de predecir los resultados del fútbol como cualquier fenómeno natural, existe también un enorme interés económico.  En realidad este último seguramente supera con creces el interés por el primero.

Es posible que por cada científico de datos que haya intentado modelar los resultados deportivos en las últimas décadas, hayan existido 100 científicos contratados por casas de apuestas para hacerlo mucho mejor y con el propósito muy concreto de crear un millonario negocio alrededor del azar deportivo.

Pero ese no es un delito (no que yo sepa).  Si hay un oficio o una profesión más antigua (después de la que todos sabemos) esa debe ser la de apostador o corredor de apuestas (yo me los imagino en las afueras de los circos romanos e incluso en los alrededores de las canchas de pelota Aztecas).

Hoy, las casas de apuestas abundan en todo el planeta y seguramente mueven millones.  Curiosamente, para la ciencia del modelado de los resultados deportivos, la información provista públicamente por esas casas, puede ser utilizada para propósitos científicos.

Permanentemente las casas de apuestas publican las que se conocen como las “cuotas” (odds en inglés, como lo seguiré llamando en lo sucesivo) de un determinado resultado deportivo.  Así por ejemplo, a la fecha de publicación de esta entrada, el odd que una casa de apuestas típica paga por una apuesta al evento “España queda de campeón en el mundial” es de 11/5 (5.5).

País Odds Probabilidad Casa Probabilidad Ajustada
Brazil 5,0 16,67% 16,27%
Germany 5,5 15,38% 15,02%
Spain 7,0 12,50% 12,20%
France 7,5 11,76% 11,48%
Argentina 10,0 9,09% 8,87%
Belgium 13,0 7,14% 6,97%
England 19,0 5,00% 4,88%
Portugal 23,0 4,17% 4,07%
Uruguay 34,0 2,86% 2,79%
Croatia 34,0 2,86% 2,79%
Colombia 41,0 2,38% 2,32%
Russia 41,0 2,38% 2,32%
Poland 67,0 1,47% 1,44%
Denmark 101,0 0,98% 0,96%
Mexico 126,0 0,79% 0,77%
Switzerland 101,0 0,98% 0,96%
Sweden 151,0 0,66% 0,64%
Egypt 151,0 0,66% 0,64%
Serbia 201,0 0,50% 0,48%
Senegal 151,0 0,66% 0,64%
Peru 151,0 0,66% 0,64%
Nigeria 201,0 0,50% 0,48%
Iceland 201,0 0,50% 0,48%
Japan 301,0 0,33% 0,32%
Australia 301,0 0,33% 0,32%
Morocco 401,0 0,25% 0,24%
Costa Rica 401,0 0,25% 0,24%
South Korea 501,0 0,20% 0,19%
Iran 501,0 0,20% 0,19%
Tunisia 751,0 0,13% 0,13%
Saudi Arabia 501,0 0,20% 0,19%
Panama 1.001,0 0,10% 0,10%

Odds publicados por una de las casas de apuestas en el estudio de Zeileis et al. (2008) y la probabilidad de la casa.  Si se suman las probabilidades de la casa se notará que no dan 100%.  Esto es porque han sido infladas por la casa de apuestas para obtener un beneficio.  ¿En cuánto han sido infladas? ¡Nadie lo sabe! Es el secreto mejor guardado del negocio.  En la “probabilidad ajustada” se han multiplicado las “probabilidades de la casa” por un factor constante hasta que suman 100%.  Este es el mejor intento que podemos hacer para “invertir” las probabilidades y obtener los chances reales de cada equipo de ganar.

Esto quiere decir que si apuestas $1 y el evento ocurre, te pagarán $5.5.  Suena bien ¿no?.

El problema es que normalmente (y legalmente) las casas de apuestas inflan las probabilidades de que ocurran ciertos eventos, de modo que aquel que gana, reciba menos de lo que debería recibir por acertar.  Se llama capitalismo y es legal en la mayor parte del planeta.

Así, España, según la información publicada por las casas de apuestas, tiene una probabilidad de ganar de 1-5.5/(1+5.5) ~ 15%.  Sin embargo, la probabilidad real (que deber ser calculada por ellos usando sofisticados métodos estadísticos y esos 100 científicos de más que mencionamos antes), puede ser por ejemplo del 12%.  En una sociedad no capitalista la cuota pagada debería ser por tanto (1-0,12)/0,12 ~ 7.

Mientras quiénes estamos fuera del negocio de las apuestas, no sepamos cómo calculan ellos las probabilidades en los deportes, hay una posibilidad de estimar esas probabilidades a partir de los odds publicados por las casas de apuestas.  El método lo propuso Henery en 1998 y es sencillo: multiplicar cada odd por un factor constante hasta que la suma de las probabilidades de todos los equipos sume 100%.

Fácil, ¿no?

Antes que abandone la lectura porque el tema se esta poniendo muy denso (le prometo que lo que viene es mejor), le puedo decir que esta salida “ramplona” es lo mejor que tenemos para predecir (sin los 100 científicos de datos de más de las casas de apuestas) las probabilidades globales del mundial.

La realidad es que las casas de apuestas modifican cada odd por un factor diferente (y desconocido), así que, por ejemplo, con los datos que siguen y los modelos asociados, difícilmente, alguna vez podrá ganarles a las casas de apuestas. De modo que no se me ilusione.

De cuotas a habilidades

Una cosa es predecir globalmente quién ganará el mundial y otra muy distinta, por ejemplo, es decir quiénes jugaran la final o si tu selección favorita pasará la ronda de grupos.

Para saber estas cosas se necesita “simular” detalladamente el mundial.  Partido por partido.

Pero ¿cómo saber quién ganará un determinado partido del torneo? o ¿cuáles serán los marcadores?.

Distintas aproximaciones a ese problema han sido consideradas por los científicos de datos.  Hace poco, por ejemplo se publico en el arXiv, un interesante trabajo en el que un grupo de científicos europeos, utilizando técnicas adoptadas del “machine learning”, simulan el mundial y predicen los resultados ronda a ronda.   El método adoptado por ellos es realmente robusto y sería ingenuo no confiar en que los resultados serán acertados.

Pero hay una aproximación un poco más ingeniosa y menos sofisticada computacionalmente para realizar una tarea similar.

Imaginemos que a cada equipo en una competición le podemos asignar un número que define que tan bueno es.  Llamaremos a ese número su “fortaleza” o “habilidad” (como se hace realmente en la literatura científica).  Un equipo con una habilidad alta es un equipo que tendrá mayor probabilidad de ganar a equipos que tengan habilidades más bajas.

Números como estos ya existen.  Por ejemplo, la FIFA y Coca-Cola publican periódicamente un número que se conoce como el puntaje de la FIFA.  Los últimos valores del puntaje fueron publicados el pasado 7 de junio antes de comenzar el mundial de Rusia 2018.  En este sistema de calificación, Alemania tiene el puntaje más alto, 1558.  La selección Colombia, por su parte, esta en la posición 16 con un puntaje de 986.

La clasificación de la FIFA/Coca-Cola de las selecciones nacionales. Los puntos de la FIFA son un resumen de los resultados obtenidos por cada selección en los últimos 4 años. Fuente: https://www.fifa.com.

Pero hay un sistema de medida mucho más sencilla.  Supongamos que calificamos los equipos con un número de 0-1 (sus habilidades) y calculamos la probabilidad de que el equipo A gane al equipo B como:

P(A gane a B) = Habilidad de A / [ (Habilidad de A) + (Habilidad de B) ]

Similarmente la probabilidad que el equipo B gane al equipo A es:

P(B gane a B) = Habilidad de B / [ (Habilidad de A) + (Habilidad de B) ]

Así por ejemplo, si asumimos todos los equipos en un torneo tienen una habilidad igual y arbitraria de 0.5, la probabilidad de que un equipo gane a cualquier otro será de 0.5/(0.5+0.5)=0.5=50%.  Es decir cada partido se definirá como el lanzamiento de una moneda.

¿Qué pasa, sin embargo, si escogemos habilidades diferentes para los equipos?. Por ejemplo podemos asociar una habilidad proporcional a su puntaje de la FIFA.  Para ello podemos dividir cada puntaje FIFA por el puntaje del mejor equipo en el torneo (al que le tocará un valor de la habilidad de 1).  Así, Alemania tendría un valor de 1 y Colombia un valor de 0.62.

Una vez tenemos unos valores posibles de las habilidades podemos simular el torneo completo.  Para ello le pedimos al computador que calcule al azar el resultado ganar o perder de cada partido.  Por ejemplo si jugarán Alemania y Colombia, la probabilidad que Alemania gane será 1/(1+0,6)~0.62=62%.  Al enfrentarse virtualmente, podemos, por ejemplo, generar un número aleatorio de 0 a 1.  Si el número es menor que 0.62 daremos el partido ganado a Alemania, en caso contrario se lo damos a Colombia.

Usando este método es posible simular el mundial completo y predecir quién será el ganador.

Pero para calcular la probabilidad de que un equipo sea campeón del mundial, hace falta simular mucho más que un solo torneo.  Empezando con 32 selecciones, por ejemplo, el número de semi finales posibles teniendo 4 cualquiera de los equipos, será de ¡35960!.   Naturalmente, en una competencia real, el número de semifinales posibles es mucho menor (las fases anteriores no permitirán que todas las selecciones puedan llegar a la semifinal).  Sin embargo estas ~40000 posibilidades potenciales indican que simulando 100000 o más mundiales podemos estimar de forma precisa la probabilidad de que cada selección en juego gane el torneo.

Pero ¿cómo sabemos si los métodos mencionados arriba para asignar una habilidad a cada equipo son los correctos?.

Una manera podría ser escoger muchos conjuntos de valores arbitrarios de las habilidades y simular, por cada conjunto, 100000 torneos.  De cada simulación, obtenemos las probabilidades de que las selecciones ganen y la comparamos con las probabilidades provistas por las casas de apuestas.

Después de muchos conjuntos de valores de habilidades probados, encontraremos aquel que produzca las probabilidades más parecidas a las que dan las casas de apuestas.  Voilà! Estas deben ser entonces las habilidades buscadas.

Este “sencillo” procedimiento (si no lo entendió échele una segunda leída y verá que no es tan complicado) es lo más parecido en computación a encontrar una respuesta por ensayo y error.  De forma más elegante los científicos llamamos a esto, un procedimiento de “inversión”.

Este procedimiento fue utilizado por Achim Zeileis y sus colaboradores este mismo año, para calcular las habilidades “requeridas” para que las probabilidades de cada selección de ganar en Rusia 2018, fueran lo más cercanas a las predichas por 25 casas de apuestas.  Los resultados se presentan en la tabla abajo y son la base de los modelos que describimos a continuación.

Selección Probabilidad de casas Habilidad Probabilidad predicha Diferencia de Probabilidad
Brazil 16,56% 0,1690 16,27% 1,77%
Germany 15,81% 0,1652 15,76% 0,27%
Spain 12,54% 0,1459 12,60% 0,43%
France 12,06% 0,1471 12,30% 2,04%
Argentina 8,40% 0,1240 8,33% 0,79%
Belgium 7,27% 0,1105 7,40% 1,69%
England 4,94% 0,0924 4,90% 0,87%
Portugal 3,38% 0,0833 3,50% 3,39%
Uruguay 2,75% 0,0768 2,65% 3,71%
Croatia 2,54% 0,0784 2,56% 0,99%
Colombia 2,19% 0,0724 2,24% 2,04%
Russia 2,07% 0,0706 2,06% 0,33%
Poland 1,50% 0,0634 1,48% 0,93%
Denmark 0,91% 0,0552 0,92% 1,50%
Mexico 0,84% 0,0546 0,88% 4,54%
Switzerland 0,83% 0,0534 0,85% 2,14%
Sweden 0,63% 0,0494 0,61% 3,34%
Egypt 0,55% 0,0493 0,61% 10,47%
Serbia 0,52% 0,0482 0,55% 5,53%
Senegal 0,50% 0,0468 0,51% 0,81%
Peru 0,44% 0,0477 0,45% 1,91%
Nigeria 0,43% 0,0466 0,50% 15,02%
Iceland 0,41% 0,0467 0,42% 2,11%
Japan 0,34% 0,0423 0,34% 1,03%
Australia 0,22% 0,0388 0,22% 0,59%
Morocco 0,22% 0,0377 0,20% 6,42%
Costa Rica 0,19% 0,0361 0,16% 14,82%
South Korea 0,19% 0,0370 0,20% 4,59%
Iran 0,17% 0,0376 0,20% 15,60%
Tunisia 0,14% 0,0337 0,15% 9,39%
Saudi Arabia 0,09% 0,0298 0,09% 8,72%
Panama 0,09% 0,0310 0,10% 7,26%

Nótese lo bien que el procedimiento de inversión logra atinarle al valor de las habilidades de modo que la probabilidad de cada selección de ganar, calculadas con las simulaciones, difieren por solo unos puntos porcentuales de las probabilidades esperadas por las casas de cambio.

Usando estas habilidades es posible calcular, por ejemplo, la probabilidad de México le gane a Alemania: 0.0546/(0.0546+0.1652)~25%.   El resultados que todos vimos en la realidad (México venció a Alemania 1-0 en un partido histórico) nos permite recordar que las probabilidades son solo eso.

Usando estas habilidades y sin que se jugará un solo partido real del mundial, Zeileis et al. (2018) predijeron además de la probabilidad de ganar de cada selección nacional, la probabilidad que esas mismas selecciones pasarán a cada una de las fases.  En la tabla abajo se muestra el resultado.

Octavos Cuartos Semifinal Final
ESP 88,40 73,10 47,90 28,90
GER 86,50 58,00 39,80 26,30
BRA 83,50 51,60 34,10 21,90
FRA 85,50 56,10 36,90 20,80
BEL 86,30 64,50 35,70 20,40
ARG 81,60 50,50 39,80 15,20
ENG 79,80 57,00 29,80 15,60
POR 67,50 46,10 19,80 7,30
CRO 65,90 30,80 15,60 6,00
SUI 58,90 30,60 13,10 5,60
COL 79,20 33,10 14,00 5,70
DEN 50,00 26,10 12,40 4,80
URU 86,60 37,50 13,50 4,40
SWE 54,00 21,70 8,00 3,10
POL 60,60 18,90 6,80 2,30
PER 39,20 15,40 6,60 2,10
ICE 36,60 12,90 5,30 1,70
SRB 36,20 13,80 4,70 1,50
SEN 39,70 10,90 3,70 1,10
MOR 30,30 14,80 4,00 1,00
TUN 22,80 8,90 2,80 0,80
MEX 41,50 13,90 3,70 1,10
CRC 21,40 6,40 1,70 0,40
EGY 45,50 10,30 2,10 0,40
RUS 50,40 10,50 2,40 0,40
NGA 15,80 4,00 1,20 0,30
AUS 16,20 4,20 1,20 0,30
JPN 20,50 4,10 0,90 0,20
KOR 17,90 4,00 0,80 0,20
IRN 13,80 5,10 0,90 0,10
PAN 11,10 2,50 0,50 0,10
KSA 17,50 2,60 0,40 0,00

Intrigados por los métodos y resultados de estos autores, yo y un amigo de andanzas científicas, Juan Carlos Figueroa, logramos reproducir los resultados de Zeileis y compañía y diseñar un conjunto de programas en Python que calcularan lo mismo que estos autores publicaron y un poco más (a los interesados en conocer el conjunto de programas les pedimos que nos contacten por correo).

Así por ejemplo, con los resultados del mundial hasta la fecha en la que se publica esta entrada y sin modificar el valor de las habilidades originales calculadas por Zeileis y compañía, podemos re calcular las probabilidades de cada selección “sobreviviente” de ganar el mundial; o las probabilidades de que dos equipos se encuentren en la final; o de que los finalistas sean determinadas selecciones.  Los resultados se muestran abajo y resultan bastante interesantes.

Probabilidades de ganar, probabilidades de que la final tenga dos equipos determinados, o que cuatro equipos específicos lleguen a la semifinal, calculadas asumiendo los marcadores ya obtenidos al 25 de junio de 2018 y suponiendo las mismas habilidades que se calcularon al principio del torneo.

Para resaltar podemos señalar cómo nuestras expectativas de la “justicia” en el fútbol o del “nivel” mostrado por una selección durante la primera ronda, no necesariamente se corresponde con sus resultados finales en el mundial.  Esto es algo que vemos en cada mundial y de lo que siempre nos hemos “quejado”.  Nos preguntamos por ejemplo ¿cómo es que Brasil esta siempre en cuartos si no muestra el “jogo bonito” de los 80? o ¿por qué Argentina puede llegar incluso a la final dejando pelos en el alambrado durante la fase de grupos?.

La respuesta a estos “misterios futbolísticos” podría estar en tablas como las de arriba y en el método usado para calcularla.  Si se supone que la fortaleza o la habilidad de los equipos no cambia mucho durante el torneo (lo que es razonable en tanto es el nivel presente de sus figuras o de la selección como un todo lo que determina su fortaleza relativa y no los resultados previos o la “necesidad de ganar”, un mito muy común), una selección fuerte o habilidosa que clasifica a octavos o a cuartos tendrá más posibilidad de ganar sobre las demás selecciones y así más posibilidad de acomodarse entre los finalistas.

Miremos por ejemplo el caso de Uruguay que tuvo una primera ronda invicta y comparémoslo por ejemplo con España, que empato dos partidos y estuvo a punto de salir del torneo.  España tiene una habilidad de 0,1459, mientras que la de Uruguay es solo de 0,0768.  Esto le garantiza a España un mayor chance de ganar el mundial, mientras desfavorece a Uruguay.  Esto explicaría porque después de simular 100000 mundiales (partiendo de los mismos marcadores que tuvo la primera ronda), España tiene una probabilidad de ser campeón del 15% y se acomoda fácilmente entre los finalistas, mientras que Uruguay solo tiene una probabilidad del 3% y no aparece en ninguna de las finales más probables.

Incluso Argentina, en la delicada posición en la que se encuentra al momento de escribir esta entrada, aparece al menos en una de las 10 finales y grupos de finalistas más probables.

No se trata de justicia, es un juego de probabilidades.

¿Funcionan los modelos?

Esta es la pregunta del millón, no solo en estadística, sino en la ciencia en general.

Para el caso del mundial nos enfrentamos a una seria limitación: el mundial de Rusia 2018 solo se jugará una vez, al menos en este Universo.  ¿Cómo juzgar un modelo estadístico con un solo experimento?.

Si decimos, por ejemplo, que la probabilidad que en el lanzamiento de una moneda el resultado sea cara es del 50%, la única manera de verificarlo sería lanzar la moneda 100 veces y comprobar si el número de caras no se aleja mucho de 50.

Pero ni el mundial, ni los partidos individuales, son como el lanzamiento de una moneda.

Consideremos por ejemplo el resultado del partido Alemania vs. México mencionado antes .  Según el modelo estadístico de Zeileis, la probabilidad que Alemania ganará era cercana al 72%.  Pero México ganó.  El resultado “México gana a Alemania” tiene hoy una probabilidad del 100%.  ¿Significa eso que el modelo era equivocado? ¡No necesariamente!

No podemos repetir el partido de México y Alemania, pero podemos considerar cada partido como un experimento independiente del mismo modelo.  Al fin y al cabo, tenemos la probabilidad de que cada equipo gane.

Usando esta aproximación la probabilidad de que el modelo sea bueno (o verosimilitud como la llaman los genios estadísticos) será igual al producto de las probabilidades de que el resultado de cada partido sea el que fue.

Verosimilitud del modelo = (Probabilidad que Rusia gane a Arabia) x (Probabilidad que Uruguay gane a Egipto) x (Probabilidad que Irán gane a Marruecos) x …

El número obtenido, sin embargo, es poco significativo.  Suponiendo, por ejemplo, un modelo que asigne una probabilidad de 50-50 a cada partido (cualquiera de los rivales puede ganar con la misma probabilidad), la verosimilitud del modelo para los 48 partidos de la primera ronda sería 0,548~0,000000000000003.

¿Es esto bueno o malo?.  ¡Ni lo uno ni lo otro!

Una aproximación más común en estadística es la de comparar la verosimilitud de un modelo con la misma obtenida con un modelo diferente.  Como no tenemos otros modelos a la mano podemos considerar 3 extremos:

  • Un modelo en el que la probabilidad de cada partido, independiente del marcador, es la máxima probabilidad calculada con las habilidades (no importa si es la probabilidad del equipo ganador).  A este modelo lo llamamos el “mejor modelo”.
  • Un modelo en el que la probabilidad de cada partido, independiente del marcador, es la mínima probabilidad calculada con las habilidades (no importa si es la probabilidad del equipo perdedor).  A este modelo lo llamamos el “peor modelo”.
  •  Un modelo en el que la probabilidad de cada partido es 50-50.  Cualquiera puede ganar.  A este modelo lo llamamos el “modelo del azar”.

Hemos comparado estos tres modelos usando los partidos jugados a la fecha y encontramos que hasta ahora el modelo de Zeileis es 40-50% mejor que el azar puro y 300-400% mejor que un modelo en el que los resultados son los peores; este último es el que podríamos llamar un mundial raro (los equipos de poca habilidad le ganan sistemáticamente a equipos de gran habilidad).  Los valores de esta comparación se muestran abajo.

Resultados de la comparación de los marcadores de algunos de los partidos de la primera fase del mundial de Rusia 2018 y el modelo de Zeileis et al. (2018).  Una actualización de esta tabla esta disponible en este enlace http://bit.ly/Rusia2018-Resultados-Estadistica.

Esto último lleva a una conclusión muy concreta: el mito (que se escucha en casi todos los mundiales) de que este ha sido un mundial raro es, sencillamente, falso.

Fútbol y azar

¿Demuestra toda esta perorata que el fútbol es un juego de azar?

Para el aficionado incondicional, para el futbolista profesional que dedica su vida al deporte, para el técnico que se devana los sesos concibiendo estrategias y para los comentaristas pseudo intelectuales capaces de entender el resultado de un partido únicamente después de que ha terminado, naturalmente no lo es.  Para la mayoría de ellos, el fútbol es casi como el ajedrez; un juego de estrategia que lo ganan solo los equipos que mejor se anticipen, los que mejor se “paren” en la cancha o los que tengan los mejores talentos dentro y fuera de ella.

Para aquellos “falsos aficionados”, a los que solo nos gusta la “langosta futbolística”, el azar es un factor determinante y a lo sumo lo único que podemos hacer es disfrutar de la emoción de los buenos partidos sin pretender analizar demasiado un juego que esta atravesado por la contingencia.

¡Que viva el fútbol… cada cuatro años!

Para saber más

Actualización

Hoy 28 de junio de 2018 concluyó la fase de grupos de la copa mundial de Rusia 2018.  Abajo se presentan las probabilidades resultantes después de esta fase.

Probabilidades de ganador, primeros dos lugares y finalistas justo después de concluir la fase de grupos.

Es interesante notar que de los 16 equipos que clasificaron solamente 2 no estaban en la tabla de cuando esta entrada fue publicada hace unos días (Japón y Suecia) y 2 salieron de ella (Senegal y Alemania).  Los primeros cuatro lugares se mantuvieron en España, Brasil, Francia y Bélgica, con la excepción de Alemania que aparecía opcionada cuando se publico esta entrada.  Colombia subió 4 lugares entre las opcionadas a ganar el campeonato y por lo menos aparece en una de las 10 finales más probables.  Así mismo aparece 2 veces entre los 10 grupos de finalistas más probables.

Si se utilizan las habilidades originales de Zeileis y se pone a ganar a los equipos que tienen mayor fortaleza durante las fases finales (octavos, cuartos, semifinal y final) este sería el cuadro resultante:

Desenlace del mundial si los partidos tienen un desenlace siguiendo las probabilidades calculadas con las habilidades de Zeileis et al. (2018).

Este resultado es compatible con el de la tabla de las finales más probables más arriba, que da la final España-Brasil como la favorecida estadísticamente y al cuarteto Brasil-España-Francia-Inglaterra como el grupo de finalistas más probable.

Como un detalle adicional el modelo de Zeileis et al. (2018) que usamos aquí ha acertado quién gana en el 80% de las veces en el que un partido no quedó en empate lo que es más que una fluctuación estadística.  Con los marcadores a la fecha el modelo tiene una verosimilitud por partido 35% veces mejor que un modelo que asume azar puro y 360% veces mejor que el peor modelo.

Probabilidad en las definiciones de penalties

Ahora que comenzó la fase final del mundial las definiciones por cobros desde el punto de penalty podrían ser comunes.  ¿Qué probabilidad tiene un equipo de ganar en esa instancia? ¿es la misma que la calculada con los modelos descritos aquí?.

En 2014 dos periodistas (¿investigadores?) del portal FiveFiftyEight de ABC news realizaron un interesante estudio sobre esta materia (vea el artículo original aquí).  El primer resultado interesante de su análisis fue el hecho que la probabilidad de acertar a un penalty en una definición de este tipo (no en un penalty del tiempo regular) es 72.5%, independiente del equipo o del jugador.  Esta probabilidad era ligeramente mayor (hasta 75%) para los equipos con una fortaleza mucho mayor y bajaba a un 70% para equipos de poca fortaleza relativa.

Usando estas probabilidades calcularon la probabilidad de que un equipo ganará, por ejemplo, al comenzar la definción por penalties.  Como era de esperarse, si la probabilidad de meter gol era la misma para ambos equipos es la misma, la probabilidad de que cualquiera de ellos gane al comenzar es exactamente la misma 50%.  Sin embargo, si uno de los equipos tiene una fortaleza muy grande, la definición arranca con una probabilidad del 58% hacia ese equipo.

Si el primer equipo anota gol en el primer penalty, la probabilidad de ese equipo asciende a un 57%, pero si falla la probabilidad del equipo contrario se situará inmediatamente en un 70% (¡!).  Es decir, más le vale al equipo que comienza no fallar el primer tiro.  A continuación si el segundo equipo dispara y mete gol existirán dos posibilidades: 1) que el primero haya metido gol también; en ese caso la probabilidad vuelve a quedar como al principio.  2) que el primer equipo haya errado en su disparo; en este caso la probabilidad del segundo equipo subirá hasta un 77%.

El proceso continua en un compleja sucesión de posibilidades hasta que uno de los dos equipos gana.  Un resumen de las probabilidades dependiendo de cada posibilidad se muestra en la gráfica abajo (tomada de la fuente original).

Probabilidades de ganar de los equipos que participan en una definición por penalties. En este caso se supone que la probabilidad de acierto en cada cobro es 72.5%. Crédito: Portal FiveFirtyEight, https://fivethirtyeight.com

Se requiere mucho más que leer este blog (incluso que leer el artículo original en FiveThirtyEight) para entender o poder usar este diagrama.  Para facilitarlo hemos creado una hoja de cálculo de Google que permite ir haciendo el seguimiento en tiempo real de los cobros de tiros penalty.  Una captura de la hoja usada en el caso de la definición en el partido en octavos de final entre las selecciones nacionales de España y de Rusia, en la que quedo eliminada España, se muestra abajo:

Evolución de las probabilidades de ganar o perder de España y Rusia durante la definición en Octavos de Final en Rusia 2018. La hoja de cálculo puede ser encontrada en este enlace: http://bit.ly/probabilidades-penalties-live

Anuncios

Navegación en la entrada única

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

w

Conectando a %s

A %d blogueros les gusta esto: