Benchmarks de IA: Os Bastidores das Avaliações Recentes, Bugs e Surpresas Ocultas