Línea superior
Un estudio ciego dirigido por el profesor de la Facultad de Derecho de Stanford, Julian Nyarko, publicado el lunes encontró que las respuestas generadas por IA superaron a las escritas por otros profesores de derecho en el 75% de casi 3.000 comparaciones directas; los resultados del propio autor se consideran sorprendentes.
Palo Alto, CA, EE.UU. – 17 de septiembre de 2015: Torre Hoover de la Universidad de Stanford. Terminada en 1941, en el 50 aniversario de la Universidad de Stanford, la torre se inspiró en la torre de la catedral de Salamanca, España.
getty
Hechos clave
Cuando a los profesores de derecho se les dio un montón de respuestas anónimas a preguntas sobre contratos estudiantiles y se les pidió que eligieran la mejor, acertaron con la respuesta de la IA tres de cada cuatro veces.
En 16 facultades de derecho, los profesores evaluaron casi 3.000 enfrentamientos anónimos sin saber si la respuesta provino de una máquina o de un colega.
Los profesores calificaron las respuestas de IA como pedagógicamente engañosas o dañinas solo el 3,5% de las veces, frente al 12% de las respuestas escritas por pares, lo que significa que las respuestas humanas tenían tres veces más probabilidades de ser consideradas potencialmente dañinas para la comprensión de los estudiantes.
Nyarko, que dirige la Innovación Legal de Stanford a través del Frontier Technology Lab, dijo que el grupo “no aboga por la adopción total de tutores de IA”, pero que “nuestros datos sugieren que el escepticismo generalizado puede ser igualmente involuntario”.
¿Se prueba el derecho contractual?
Se elige el derecho contractual precisamente porque rechaza la clave de respuestas. Las 40 preguntas utilizadas en el estudio -del tipo que los estudiantes pueden generar después de clase o durante el horario de oficina- exigen la síntesis de argumentos opuestos y conclusiones defendibles en lugar de memorización, probando si el modelo puede razonar cuando no hay una respuesta correcta.
Antecedentes clave
El artículo fue escrito por Nyarko y el investigador de liftlab Alejandro Salinas como primer autor, junto con colegas de Yale, la Universidad de Nueva York, la Universidad de Chicago y otras instituciones. Los participantes escriben sus propias respuestas antes de calificar a alguien, la evaluación se realiza a ciegas mediante varios métodos de puntuación y la salida de la IA se calibra para que coincida con la longitud y la estructura de las respuestas humanas. El equipo probó una variedad de sistemas, incluidas herramientas de tutoría comerciales y NotebookLM de Google, y encontró un rendimiento variable. Incluso cuando los modelos se ven obstaculizados por un contexto limitado, los evaluadores a menudo los favorecieron sobre sus pares humanos. Los hallazgos llegan en medio de un debate no resuelto dentro de la educación jurídica, donde algunas escuelas se apresuran a integrar la IA, mientras que otras advierten sobre las alucinaciones, la excesiva dependencia de los estudiantes y la lenta erosión de las habilidades de pensamiento crítico que una educación jurídica debe desarrollar.
Qué tener en cuenta
Los autores enfatizan que la calidad y la distribución son cuestiones separadas y solo discuten la primera. Nyarko dijo que la conversación ahora debe pasar de si la IA puede producir respuestas legales precisas y de alta calidad a cómo puede beneficiar a los estudiantes.