Dra. Sheila Queralt
Directora Laboratorio SQ-Lingüistas Forenses
La proliferación de modelos de lenguaje avanzados como ChatGPT, Gemini y Grok hace imperativo verificar la autoría de los textos. Este estudio analiza la efectividad de tres detectores comerciales, revelando las fortalezas y debilidades de la tecnología actual.
A pesar de los avances, existen dos limitaciones sistemáticas en la evaluación de los detectores de IA.
Evaluar la fiabilidad de tres detectores comerciales de texto generado por inteligencia artificial (GPTZero, Copyleaks y Originality.ai) en diferentes tipos de autoría textual (humana, artificial y mixta), mediante un experimento controlado con corpus multiautoría en español.
Textos IA + Humanos | 90 |
Textos Humanos + IA | 30 |
Textos Humanos | 30 |
Textos IA | 30 |
Un total de 180 textos originales en español.
Clasificación por tipo de autoría.
Se utilizaron las configuraciones por defecto de cada herramienta.
Los textos IA se generaron con estas versiones de los modelos más avanzados.
Alta sensibilidad, bajo riesgo.
Detecta casi todos los textos IA, pero con un 5% de falsos positivos en textos humanos.
Precisión destacada.
El segundo más fiable para textos humanos (solo 8.33% de error), aunque falla en la detección del 13.33% de textos de IA.
El más vulnerable al error.
El rendimiento más bajo, con un 23.33% de error en la detección de textos IA.
El gráfico de radar muestra que Originality.ai es el detector más robusto, con la puntuación más alta en Exactitud y Sensibilidad. GPTZero destaca en Precisión, lo que significa que minimiza los falsos positivos. En contraste, Copyleaks muestra el rendimiento más bajo y menos equilibrado en todas las métricas.
El rendimiento de los detectores varía según el modelo de IA que generó el texto. Copyleaks y GPTZero muestran debilidad con textos creados por Gemini.
Ninguna de las herramientas analizadas detecta de forma fiable los textos con autoría mixta (IA + humano o humano + IA). Originality.ai clasifica siempre como IA, incluso con intervención humana significativa, mientras que Copyleaks y GPTZero fallan entre un 20% y un 80% en estos casos.
Especialmente en textos humanos con estilo académico o técnico. Originality.ai puede clasificar erróneamente como IA hasta un 5% de textos puramente humanos. Este tipo de errores puede tener consecuencias graves en contextos evaluativos o legales.
Textos generados por Gemini son más difíciles de detectar para Copyleaks y GPTZero. Originality.ai detecta con mayor consistencia textos generados por los tres modelos (GPT-4, Gemini, Grok), pero sin diferenciar los casos mixtos.
Correcciones gramaticales o reescrituras humanas no siempre ayudan a “humanizar” el texto. Algunas intervenciones incluso dificultan la detección del componente IA, demostrando la complejidad de la co-creación.
Los sistemas actuales carecen de transparencia y explicabilidad, por lo que la confianza ciega en ellos es peligrosa. La intervención de especialistas en lingüística forense y análisis del discurso es clave para una atribución fiable de autoría.
El proyecto 'CorpIdentIA' ha sido posible gracias a la dedicación y el esfuerzo de un equipo de investigadores excepcionales.
CorpIdentIA – Corpus Identity & Authorship Intelligence Analysis (LF2025-D001)