La IA para moderar discursos de odio

¿Es funcional?

Por Javier Mariscal C. El 13 May 2026

Los modelos de lenguaje a gran escala (LLM, por sus siglas en inglés) podrían solucionar este problema. Los discursos de odio que tienden a proliferar en las redes sociales y en las comunidades en línea. Según expertos del Instituto Tecnológico de Nueva Jersey (Estados Unidos), serviría usar la IA para moderar discursos de odio.

Yuan Zhao, del Instituto Tecnológico de Nueva Jersey, lo presenta. Investigó un método interpretable y de bajo costo para evaluar la clasificación de discursos de odio. Lo hizo en la 190a Reunión de la Sociedad Acústica de América. Se celebra del 11 al 15 de mayo en Philadelphia, Estados Unidos.

Se espera optimizar la IA para moderar discursos de odio.

Tomando decisiones

Actualmente, incluso en sitios con normas comunitarias estrictas, el volumen de contenido hace que la moderación efectiva sea prácticamente imposible. Por ello, los expertos plantean usar los algoritmos de IA. Podrían analizar rápidamente tanto el contenido como el contexto de grandes volúmenes de texto. Filtrarían automáticamente el discurso de odio para proporcionar retroalimentación a los revisores humanos. Sin embargo, los LLM son costosos de implementar a gran escala. Especialmente cuando se les pide que expliquen cada fragmento de contenido que identifican.

El marco teórico de Zhao se basa en el modelo de Inatención Racional (IR). Es una idea económica desarrollada para explicar el comportamiento humano. El modelo describe cómo actúan las personas cuando su atención es limitada y le asigna un costo. Según el modelo, las personas tienden a reservar su atención para decisiones que ofrecen una alta recompensa, dedicándola a aquellas donde tendría el mayor impacto.

Te puede interesar:

El día que se movió el satélite Skynet

La primera unión de la IA y el cerebro

«Los LLM son diferentes de las personas. Pero los concebimos como tomadores de decisiones que deben encontrar un equilibrio entre el rendimiento y el coste computacional», explican. «Nuestro enfoque utiliza el modelo IR como una herramienta sencilla pero interpretable para comprender cómo toman decisiones los LLM».

Estos discursos proliferan en las redes sociales

Ayudando plataformas

Se puso a prueba los modelos en diversas condiciones para determinar si se comportan como tomadores de decisiones racionales. Este análisis puede utilizarse para orientar a las comunidades digitales que emplean herramientas de gestión de la privacidad como parte de sus esfuerzos de moderación de contenido.

«Usar la IA para moderar discursos de odio no es tan nuevo. Los modelos de lógica difusa ya se utilizan ampliamente. Pero aún existen dudas sobre su fiabilidad. Modelos como la Inatención Racional pueden contribuir a que sean más fiables. Mostrarán cómo cambia su rendimiento cuando el texto se vuelve ambiguo o se disfraza intencionadamente», subrayan. «Esto ayuda a las plataformas en línea a identificar cuándo se necesita la revisión humana y dónde el sistema necesita mejoras».

Fuente Por qué la IA aún modera mal el discurso de odio