LKS Next plantea un nuevo modelo de automatización de pruebas con IA donde la calidad sigue en manos humanas

La inteligencia artificial generativa está entrando con fuerza en el mundo del testing, pero no todas las aproximaciones son iguales. En su participación en TestingUy, Beatriz Pérez y Eneko Pizarro, especialistas de LKS Next, presentaron un enfoque que se desmarca de soluciones puramente experimentales para centrarse en cómo generar pruebas automatizadas de calidad cuando los requisitos están incompletos, desactualizados o repartidos en múltiples formatos.

“Nosotros trabajamos en el mundo industrial y vemos un problema que pasa comúnmente, que no hay requisitos”, explicó Beatriz Pérez durante su intervención. “Cuando se quiere llegar a la etapa de las pruebas, muchas veces nadie sabe bien dónde están los requisitos para poder hacerlas bien hechas”.

Partiendo de esa realidad, el trabajo que presentaron propone utilizar la inteligencia artificial generativa para transformar distintas fuentes de información en escenarios de prueba estructurados. Vídeos grabados por testers o usuarios finales, documentos en PDF, actas de reuniones, presentaciones e incluso la propia aplicación en funcionamiento se convierten en entradas válidas para generar escenarios en lenguaje Gherkin, base de un enfoque BDD que permite compartir conocimiento entre negocio, desarrollo y QA.

La clave, insistió Pérez, no está en automatizar por automatizar. “Nosotros queríamos ir más allá de que se ejecutaran pruebas automatizadas, pero teníamos clara una cosa. Queríamos que esas pruebas fueran deterministas”. Un matiz fundamental en un contexto donde la IA, por definición, no siempre ofrece resultados idénticos ante la misma entrada.

Para resolver esa tensión, el proceso se articula en tres etapas bien diferenciadas. Primero, la generación de escenarios Gherkin a partir de fuentes heterogéneas. Después, una fase de revisión humana que valida y ajusta esos escenarios antes de avanzar. Y solo entonces, la generación del código de prueba automatizado siguiendo buenas prácticas de diseño como el Page Object Model.

“El humano en el loop es una etapa fundamental”, subrayó Beatriz Pérez. “En caso de que el Gherkin esté mal, mediante prompts se puede iterar hasta que queda como el humano cree que tiene que quedar. Solo cuando eso está validado se pasa a generar el código”.

Ese enfoque permite que el código resultante sea mantenible y predecible, con escenarios pequeños, reutilizables y alineados con los estándares que los propios equipos exigen al software de producción. “Todo lo que le pedimos al desarrollo de software tiene que pasar también en el testing”, señaló Pérez. “Si pedimos clases pequeñas y código mantenible, las pruebas tienen que cumplir exactamente lo mismo”.

Desde el punto de vista técnico, Eneko Pizarro detalló cómo esta arquitectura se ha integrado de forma nativa en el entorno de desarrollo. “Hemos montado todo esto encima de Visual Studio Code y la extensión de GitHub Copilot como un sistema de agentes que orquestan otros subagentes”, explicó. Estos agentes se encargan de procesar entradas multimodales, generar escenarios Gherkin y transformar esos escenarios en código automatizado con Selenium, step definitions y page objects bien definidos.

Uno de los elementos más innovadores del sistema es la capacidad de procesar vídeo de forma semántica. “El agente puede procesar vídeo y no solo saca una descripción de lo que se hace, sino que extrae funcionalidad, pasos y las descripciones de las páginas que se ven”, afirmó Pizarro. Esa información se utiliza para enriquecer los escenarios y aumentar de forma significativa la cobertura de pruebas.

Los resultados obtenidos avalan ese planteamiento. En varios proyectos reales, el equipo midió la diferencia entre generar escenarios sin vídeo y hacerlo incorporando grabaciones de usuarios. “Cuando no teníamos en cuenta los vídeos, cubríamos alrededor del 50% de los escenarios”, explicó Pérez. “Cuando añadíamos el vídeo, la cobertura llegaba casi al 100% en algunos casos”.

En cuanto a la automatización, la IA es capaz de generar el código de prueba de forma consistente, aunque no siempre ejecutable a la primera. Aun así, el esfuerzo humano necesario para alcanzar un alto nivel de éxito es reducido. “Tras 80 o 90 minutos de revisión humana se alcanzó un 97% de éxito en la ejecución”, destacó Pérez. “Que en una hora y media tenga el 97% de los tests ejecutando en una aplicación donde todo me lo hizo la IA, para mí es fantástico”.

El equipo también fue transparente sobre los retos pendientes. Mientras que el enfoque funciona de forma sólida en aplicaciones más tradicionales, aparecen dificultades en entornos modernos basados en frameworks como React o Vue, donde los elementos se generan dinámicamente. “Ahí estamos teniendo problemas con selectores frágiles y pérdida del orden de los pasos, y es justo en lo que estamos trabajando ahora”, explicó Pérez.

Lejos de presentar una solución cerrada, la propuesta de LKS Next se apoya en una visión realista del momento actual. “Hoy no es el caso que la IA pueda generar pruebas completamente sola y bien en cualquier contexto”, concluyó Pérez. “Por eso seguimos este camino, porque creemos que ahora mismo es el mejor”.

Comparte en tus redes sociales:

LKS Next plantea un nuevo modelo de automatización de pruebas con IA donde la calidad sigue en manos humanas

ACTUALIDAD