La evaluación de Mercor sobre el desempeño laboral de los modelos de inteligencia artificial cuestiona la capacidad de estos para
Dos años después de que el CEO de Microsoft, Satya Nadella, predijo que la inteligencia artificial (IA) reemplazaría el trabajo que requiere conocimientos, el cambio ha sido lento y sorprendentemente inexistente. A pesar del progreso significativo logrado por los modelos fundacionales en áreas como la investigación profunda y el planificación agente, la mayor parte del trabajo de escritorio sigue sin ser afectado.
Sin embargo, una nueva investigación publicada por Mercor, líder en datos de entrenamiento, proporciona algunas respuestas sobre este misterio. La investigación examina cómo los modelos de IA más avanzados se comportan al realizar tareas reales de trabajo de oficina, extraídas de consultoría, banca de inversión y derecho. El resultado es un nuevo estándar llamado APEX-Agents.
Según el CEO de Mercor, Brendan Foody, los modelos más avanzados tienen dificultades para seguir información en múltiples dominios, algo que es integral para la mayoría del trabajo que realizan los humanos. "Uno de los grandes cambios en este estándar es que construimos un entorno completo, modeloado después de servicios profesionales reales", explicó Foody. "Nuestro trabajo no se hace con una persona que nos brinde todo el contexto en un lugar. En la vida real, trabajamos a través de Slack y Google Drive y otros herramientas".
Los escenarios están basados en consultores y abogados de Mercor que ambos establecieron las preguntas y los estándares para una respuesta exitosa. Al revisar las preguntas publicadas en Hugging Face, se puede apreciar la complejidad de las tareas.
Por ejemplo, una pregunta en la sección "Derecho" lee: "Durante los primeros 48 minutos del cese de producción de la UE, el equipo de ingeniería de Northstar exportó uno o dos conjuntos bundados de registros de eventos de producción de la UE que contienen datos personales al proveedor de análisis estadounidense... ¿Puede razonablemente tratar Northstar a los exports de registro como consistente con el artículo 49?"
La respuesta correcta es sí, pero para llegar allí se requiere un asesoramiento profundo sobre las políticas propias de la empresa y las leyes de privacidad de la UE. Esto puede parecer incluso desafío para un humano bien informado, pero los investigadores estaban tratando de modelar el trabajo realizado por profesionales en el campo.
Si un modelo capaz de responder estas preguntas con confianza, podría reemplazar a muchos abogados que trabajan hoy en día. "Creo que esto es probablemente el tema más importante en la economía", dijo Foody. "El estándar se refleja muy bien del trabajo real que realizan estas personas".
**Análisis de riesgo**
La investigación APEX-Agents proporciona una visión detallada de cómo los modelos de IA más avanzados se comportan al realizar tareas reales de trabajo de oficina. Aunque los resultados iniciales no son prometedores, el campo de la IA tiene un historial de superar desafíos difíciles.
La publicación del estándar APEX-Agents es un desafío abierto para los laboratorios de IA que creen que pueden hacer mejor. Es posible que en los próximos meses, veamos una mejora significativa en la capacidad de los modelos para realizar tareas reales de trabajo de oficina.
Sin embargo, la rápida evolución de la IA puede ser un riesgo para muchos profesionales que actualmente realizan trabajos que pueden ser automatizados. Es importante que los gobiernos y las instituciones educativas se preparen para este cambio y desarrollen estrategias para ayudar a los trabajadores a adaptarse a esta nueva realidad.