Oito modelos de IA apostaram em desporto e perderam dinheiro

Oito modelos de IA foram usados para apostas na temporada 2023-24 da Premier League; todos perderam dinheiro, com dois evitando a ruína financeira.
O modelo menos mau foi o Claude Opus 4.6, da Anthropic, com perda de 11% (89 mil libras).
O GPT-5.4, da OpenAI, teve perda de quase 14%.
Os modelos Gemini, da Google, registaram perdas de 43% e 58%.
O Grok 4.20, da xAI de Elon Musk, encabeçou as perdas entre os restantes, chegando a falir numa tentativa e a abandonar outras duas durante a temporada; o Arcee AI foi o pior desempenho global.
Os custos da experiência foram altos: o ChatGPT custou, em média, 1.571 dólares por temporada, enquanto o Claude custou 969 dólares.

Oito modelos de IA foram utilizados para apostar na temporada 2023-24 da Premier League e todos perderam dinheiro. O estudo avaliou estratégias de jogo de cada modelo, com 100 mil libras iniciais, em três repetições por modelo, usando dados de resultados, forma das equipas e probabilidades de casas de apostas.

O objetivo era medir a capacidade de planeamento em cenários com incerteza e decisões em cadeia ao longo do tempo. Os autores destacam limitações significativas em tarefas sequenciais de longo prazo, mesmo para modelos avançados. A análise envolveu modelos de várias empresas tecnológicas.

Resultados principais

O Claude Opus 4.6 ficou em melhor posição, com 89 mil libras ao fim, ou seja, uma perda de 11%. Logo atrás ficou o GPT-5.4, com perdas próximas de 14%. Entre os restantes, dois Gemini registaram quedas de 43% e 58%.

O Grok 4.20, da xAI de Elon Musk, próximo do meio da tabela, acabou por ir à falência numa das tentativas e, noutras, não completou as apostas. Um modelo da Arcee AI, relativamente aberto, registou o pior desempenho global.

Desempenho e comportamento

Os modelos ajustaram estratégias com base em novos resultados, mas mantiveram regras de apostas pouco consistentes e evitaram riscos excessivos apenas em parte das jornadas. A sofisticação das táticas foi inferior à observada em padrões humanos.

Entre os aspectos analizados, os autores sublinham a dificuldade de lidar com cenários incertos e de aprender com experiência. O estudo sugere que ambientes de IA precisam de evoluir para tarefas que vão além de conjuntos fixos de objetivos.

Custos da experiência

Mesmo com resultados aquém do esperado, o custo médio por temporada variou entre os modelos: o ChatGPT chegou a gastar, em média, 1 571 dólares, enquanto o Claude custou 969 dólares. O investimento reforça a necessidade de avaliar custos versus ganhos em simulações complexas.