Cada benchmark es un Gran Premio. Los modelos compiten en cuatro circuitos distintos: conversación, código, ciencia e ingeniería de software.