L’IA sera prête à obtenir la note maximale à l’un des tests de connaissances les plus difficiles au monde, appelé Humanity’s Last Exam (HLE), dans quelques mois, selon les développeurs.
Le HLE est organisé par des responsables technologiques pour évaluer l’intelligence de leurs systèmes et comprend 2 500 questions soigneusement sélectionnées, couvrant une centaine de sujets allant de la science des fusées à la mythologie en passant par la physiologie.
Chacun de ces domaines nécessite au moins un niveau de compréhension de doctorat, et un résultat même proche de 100 % permettrait à quelqu’un de remporter le titre d’« expert universel ».
Il y a à peine deux ans, le système ChatGPT d’OpenAI n’obtenait qu’un maigre 3 % à l’examen, alors que ses concurrents de Google et d’Anthropic n’étaient guère meilleurs.
Le test a permis d’apaiser les craintes d’une domination croissante de l’IA, les chercheurs affirmant qu’il prouvait qu’un « écart marqué » subsistait entre les grands modèles de langage (LLM) et les meilleurs universitaires du monde.
Mais l’HLE, apparemment impossible, pourrait s’avérer n’être qu’une étape supplémentaire dans l’essor imparable de l’IA.
Google Gemini a obtenu un score impressionnant de 45,9 % à l’examen le mois dernier et a atteint 18,8 % quelques mois après sa première tentative.
Et la note maximale est en vue, déclare Calvin Zhang, responsable de la recherche chez Scala, la société d’IA derrière HLE.
L’IA sera prête à obtenir la note maximale à l’un des tests de connaissances les plus difficiles au monde, appelé Humanity’s Last Exam (HLE), dans quelques mois, affirment les développeurs (Photo de stock)
“Nous voulions créer ce référentiel académique fermé, placé à la limite des experts, que seule une poignée de personnes sur terre peut réellement résoudre”, a-t-il déclaré.
“Nous avons constaté ces dernières années des progrès insensés sur ces modèles de langage. C’est impressionnant, les créateurs de modèles ont vraiment fait un excellent travail pour améliorer ces modèles de raisonnement.”
Kate Olszewska, chef de produit chez Google DeepMind, a ajouté : “Si nous nous soucions vraiment de cela comme de la seule chose dans la vie, je pense que nous pourrions y arriver rapidement.”
Anthropic – la société à l’origine du système Claude AI – a obtenu un score de 34,2 % au HLE et améliore rapidement ses scores.
L’IA obtenant des scores de 100 % à l’examen constituerait une amélioration significative étant donné que le test est « conçu pour être la dernière référence académique fermée de ce type », selon ses auteurs.
Cela signifie que si la technologie brise le HLE, elle devra être testée sur des questions dont personne ne connaît la réponse à l’avenir.
Le test a été créé par des chercheurs de Scale et du Center for AI Safety, une organisation à but non lucratif, pour examiner à la fois l’étendue des connaissances et la profondeur du raisonnement de l’IA.
Des experts d’environ 50 pays ont soumis 70 000 questions en réponse à un appel mondial lancé en septembre 2024 qui offrait un prix de 500 000 $.
Ils devaient exiger une réponse courte et sans ambiguïté et étaient difficiles à trouver sur Internet.
La liste a été réduite à 13 000 après que les questions auxquelles n’importe quel modèle existant pouvait répondre aient été retirées de l’examen.
Certains des 2 500 sélectionnés ont depuis été supprimés ou modifiés suite aux retours des utilisateurs.
Ils nécessitent un large éventail d’expertises – de la connaissance de la biologie à la connaissance des langues – et nombre d’entre elles ont été gardées secrètes pour tenter d’empêcher les systèmes bénéficiant de réponses discutées publiquement sur Internet.
Un succès à HLE rappellerait le supercalculateur Deep Blue d’IBM battant le champion du monde d’échecs Garry Kasparov lors d’une partie en 1997, confondant ainsi les prédictions de la plupart des experts.
Depuis lors, un certain nombre de références majeures en matière d’IA ont été supprimées, notamment l’ouvrage multidisciplinaire Massive Multitask Language Understanding, publié en 2020, qui a été bloqué après que les systèmes ont commencé à le trouver trop facile, atteignant souvent plus de 90 %.
Alors que l’IA approche du stade où elle peut maîtriser les tests réalisés par l’homme, dépasser les limites existantes de la connaissance humaine devient de plus en plus une préoccupation majeure pour les développeurs, a ajouté Olszewska.
Mais il y aura toujours de la place pour les spécialisations humaines, selon Zhang, avec des domaines physiques comme la chirurgie ainsi que des compétences basées sur la décision, notamment le raisonnement et la créativité, plus difficiles à maîtriser pour l’IA.