En los últimos meses, muchos hemos hablado con una inteligencia artificial sin pensarlo demasiado. Le hemos preguntado dudas, le hemos pedido consejo o simplemente hemos probado hasta dónde llega su capacidad para mantener una conversación natural. Herramientas como los modos de voz de ChatGPT o Gemini han acercado esa experiencia a algo que, hace no tanto, parecía reservado a la ciencia ficción, con ecos inevitables de ‘Her’. Pero hay una pregunta que rara vez nos hacemos mientras hablamos con ellas: cómo han aprendido estas máquinas a sonar cada vez menos como un sistema y más como una persona.
Para entenderlo, conviene separar lo que vemos de lo que no vemos. Por un lado están las aplicaciones que usamos a diario, esos asistentes que responden con una voz cada vez más natural. Por otro, los sistemas que las sostienen, modelos entrenados con grandes volúmenes de datos que necesitan aprender no solo qué decir, sino también cómo decirlo. No sabemos qué productos concretos terminan utilizando este tipo de grabaciones, pero sí que forman parte del ecosistema con el que se entrenan sistemas de voz cada vez más fluidos y verosímiles.
Cuando bajamos al detalle, lo que hacen estos trabajadores no se parece demasiado a la idea clásica de “entrenar una IA”. En muchos casos, se trata de mantener conversaciones con desconocidos sobre temas aparentemente triviales, desde gustos cotidianos hasta preguntas abiertas que obligan a desarrollar una respuesta. En otros, el encargo es más exigente: interpretar un papel, seguir un guion sin que lo parezca o entrar en terrenos emocionales. Bloomberg cuenta, por ejemplo, el caso de una trabajadora que relató recuerdos dolorosos de su vida mientras hablaba con un hombre que se presentaba como pastor y que, dentro del ejercicio, interpretaba el papel de terapeuta.
Todo ese material grabado sirve para algo muy concreto: capturar matices. No hablamos solo de palabras, sino de pausas, respiraciones, cambios de tono, vacilaciones o reacciones emocionales que hacen que una conversación suene humana. También hay tareas de etiquetado, en las que los trabajadores tienen que distinguir si un audio contiene un sollozo, una carcajada o a alguien hablando entre risas. La lógica de fondo es sencilla: si una máquina quiere dejar de sonar robótica, antes necesita exponerse a cómo hablamos de verdad.
A partir de ahí, la pregunta es inevitable: cómo se accede a este tipo de trabajo y cuánto se gana realmente. Plataformas como Babel Audio funcionan como intermediarias que conectan a estos trabajadores con proyectos concretos. Tras superar una prueba inicial de voz, pueden optar a tareas que arrancan en unos 17 dólares por hora grabada, aunque el ingreso final depende de la evaluación recibida y del volumen de encargos disponible. Los ingresos, además, varían mucho: una trabajadora citada por el mencionado medio asegura ingresar unos 600 dólares semanales.
Así se ve la página web de BabelAudio
A medida que avanzamos, el trabajo empieza a mostrar una cara menos visible. Más allá de las tarifas y de la promesa de flexibilidad, los testimonios apuntan a un entorno marcado por la incertidumbre y el control constante. Las plataformas pueden limitar el acceso a tareas, interrumpir proyectos o suspender cuentas sin explicaciones detalladas, lo que deja a muchos trabajadores en una posición frágil. Además, cada conversación está sometida a métricas en tiempo real que valoran si alguien habla demasiado o demasiado poco, la expresividad, el dominio del idioma, la profundidad del intercambio y hasta la duración de las pausas.
Cuando ampliamos el foco, el debate deja de ser únicamente laboral y pasa a ser también personal. Parte del valor de estas grabaciones reside precisamente en que capturan cómo hablamos y cómo nos relacionamos, lo que implica que los trabajadores están aportando algo más que una tarea mecánica. Las condiciones generalmente permiten usar esas grabaciones en asistentes de voz, síntesis de habla y “otros productos y servicios relacionados con el audio”.
Cuando conectamos todas las piezas, lo que vemos es una industria que funciona gracias a una cadena de producción compleja. El Pulitzer Center describe este ecosistema como una red de trabajo fragmentado en la que los trabajadores suelen estar sometidos a acuerdos de confidencialidad, operan con muy poca transparencia y, en muchos casos, ni siquiera saben qué sistema están entrenando ni para qué empresa acaba yendo su trabajo. En ese contexto, las conversaciones que alimentan a los sistemas de voz son solo una parte de un engranaje mayor, donde cada tarea contribuye a construir tecnologías cada vez más sofisticadas.
Imágenes | Xataka con Nano Banana 2 | Captura de pantalla
-
La noticia
Hay gente ganando hasta 600 dólares a la semana hablando con desconocidos. El objetivo: enseñar a la IA a sonar humana
fue publicada originalmente en
Xataka
por
Javier Marquez
.
completa toda los campos para contáctarnos