GPT-5 ficou mais tímido? Como identificar regressões de performance em LLMs