Logo del proyecto CorpIdentIA

Los resultados del proyecto 'CorpidentIA'

Evaluación de detectores de IA en textos escritos

Dra. Sheila Queralt
Directora Laboratorio SQ-Lingüistas Forenses

El Desafío de la Autoría

La proliferación de modelos de lenguaje avanzados como ChatGPT, Gemini y Grok hace imperativo verificar la autoría de los textos. Este estudio analiza la efectividad de tres detectores comerciales, revelando las fortalezas y debilidades de la tecnología actual.

1. ¿Por qué es importante detectar texto generado por IA?

  • Mantener la integridad académica y profesional.
  • Combatir la desinformación y las noticias falsas a gran escala.
  • Atribuir la autoría en contextos legales o forenses.
  • Preservar la identidad y la voz autoral del ser humano.

2. Riesgos y retos actuales

  • Falsos positivos: Un texto humano se clasifica como IA.
  • Falsos negativos: Un texto de IA se clasifica como humano.
  • Detección de textos híbridos: El mayor reto para las herramientas actuales.
  • La rápida evolución de los modelos de IA los hace difíciles de rastrear.

3. Las limitaciones de los detectores de IA

A pesar de los avances, existen dos limitaciones sistemáticas en la evaluación de los detectores de IA.

  • Sesgo Lingüístico: Los detectores suelen mostrar un desempeño muy bajo ante contextos multilingües, con un sesgo hacia determinadas lenguas.
  • Textos Híbridos: El rendimiento es bueno en clasificaciones binarias (textos 100% humanos o 100% sintéticos), pero disminuye considerablemente al identificar textos híbridos (cocreación de IA y humanos).

4. Lo que dice la literatura científica

  • La detección automática es, en el mejor de los casos, una herramienta complementaria, no definitiva.
  • Se señala el problema del **"detector de sesgos"**, donde los detectores pueden confundir textos de un cierto estilo (ej. formal o técnico) con texto generado por IA.
  • La co-creación humana-IA genera textos híbridos que los detectores no están preparados para evaluar.
  • Se recomienda la intervención de expertos en lingüística forense para la atribución de autoría.

Objetivos del Estudio

Objetivo Principal

Evaluar la fiabilidad de tres detectores comerciales de texto generado por inteligencia artificial (GPTZero, Copyleaks y Originality.ai) en diferentes tipos de autoría textual (humana, artificial y mixta), mediante un experimento controlado con corpus multiautoría en español.

Subobjetivos Específicos

  • Determinar la precisión de los detectores al clasificar correctamente textos 100% humanos y 100% generados por IA.
  • Analizar el rendimiento de las herramientas ante textos híbridos (cocreación o edición cruzada entre humanos y modelos IA).
  • Comparar la fiabilidad de los detectores según el modelo generador del texto (GPT-4, Gemini, Grok).
  • Identificar los riesgos de falsos positivos o negativos, especialmente en textos humanos con estilo técnico o académico.
  • Explorar el impacto de distintos tipos de intervención humana (errores intencionados, reescritura emocional, puntuación) sobre la clasificación de textos híbridos.

Metodología del Estudio

Corpus de Textos

Textos IA + Humanos 90
Textos Humanos + IA 30
Textos Humanos 30
Textos IA 30

Un total de 180 textos originales en español.

Tipos de Textos

Clasificación por tipo de autoría.

  • Puros:
    • Humano (H): Creado íntegramente por una persona.
    • IA: Generado completamente por un modelo de IA.
  • Mixtos:
    • IA + H: Generado por IA y post-editado por un humano.
    • H + IA: Iniciado por un humano y editado/expandido por IA.

Detectores Evaluados

  • Originality.ai: v2.0 (Feb. 2024), sin clasificación híbrida.
  • GPTZero: v2.0 (Feb. 2024), análisis frase a frase.
  • Copyleaks: versión de marzo de 2024, permite clasificación híbrida.

Se utilizaron las configuraciones por defecto de cada herramienta.

Modelos de IA Usados

  • ChatGPT: GPT-4 Turbo (Marzo 2024).
  • Gemini: Gemini 1.5 Pro.
  • Grok: Grok 1.5.

Los textos IA se generaron con estas versiones de los modelos más avanzados.

Rendimiento en Textos Puros

Originality.ai

Alta sensibilidad, bajo riesgo.

Detecta casi todos los textos IA, pero con un 5% de falsos positivos en textos humanos.

GPTZero

Precisión destacada.

El segundo más fiable para textos humanos (solo 8.33% de error), aunque falla en la detección del 13.33% de textos de IA.

Copyleaks

El más vulnerable al error.

El rendimiento más bajo, con un 23.33% de error en la detección de textos IA.

Comparativa de Métricas Clave

El gráfico de radar muestra que Originality.ai es el detector más robusto, con la puntuación más alta en Exactitud y Sensibilidad. GPTZero destaca en Precisión, lo que significa que minimiza los falsos positivos. En contraste, Copyleaks muestra el rendimiento más bajo y menos equilibrado en todas las métricas.

El Gran Reto: Textos Híbridos

IA editada por Humanos (IA + H)

Humanos ayudados por IA (H + IA)

Impacto de la Intervención Humana en la Detección de Híbridos (IA+H)

Sesgo por Modelo de IA

El rendimiento de los detectores varía según el modelo de IA que generó el texto. Copyleaks y GPTZero muestran debilidad con textos creados por Gemini.

Tasa de Detección de Textos IA por Modelo Generador

Conclusiones Clave del Estudio CorpIdentIA

1. Los textos híbridos son invisibles para los detectores actuales

Ninguna de las herramientas analizadas detecta de forma fiable los textos con autoría mixta (IA + humano o humano + IA). Originality.ai clasifica siempre como IA, incluso con intervención humana significativa, mientras que Copyleaks y GPTZero fallan entre un 20% y un 80% en estos casos.

2. Existe un riesgo real de falsos positivos

Especialmente en textos humanos con estilo académico o técnico. Originality.ai puede clasificar erróneamente como IA hasta un 5% de textos puramente humanos. Este tipo de errores puede tener consecuencias graves en contextos evaluativos o legales.

3. El rendimiento varía según el modelo generador del texto

Textos generados por Gemini son más difíciles de detectar para Copyleaks y GPTZero. Originality.ai detecta con mayor consistencia textos generados por los tres modelos (GPT-4, Gemini, Grok), pero sin diferenciar los casos mixtos.

4. La intervención humana no es predecible

Correcciones gramaticales o reescrituras humanas no siempre ayudan a “humanizar” el texto. Algunas intervenciones incluso dificultan la detección del componente IA, demostrando la complejidad de la co-creación.

5. Es imprescindible complementar la detección automática con revisión experta

Los sistemas actuales carecen de transparencia y explicabilidad, por lo que la confianza ciega en ellos es peligrosa. La intervención de especialistas en lingüística forense y análisis del discurso es clave para una atribución fiable de autoría.

Agradecimientos y Colaboradores

El proyecto 'CorpIdentIA' ha sido posible gracias a la dedicación y el esfuerzo de un equipo de investigadores excepcionales.

  • Beatriz Esparcia
  • Lucía Sánchez-Vecina
  • Marco R. Lessi - Universitat Autònoma de Barcelona
  • Laura Úbeda-Cuspinera - Universitat de Barcelona

Referencia del Proyecto

CorpIdentIA – Corpus Identity & Authorship Intelligence Analysis (LF2025-D001)