¿Qué futuro tiene la IA en la creación de contenido?

El aprendizaje automático ahora es capaz de escribir reseñas que las personas reales encuentran creíbles y útiles. Pero se está utilizando la misma tecnología para combatir esas críticas falsas. ¿Quién puede ganar la guerra fría por el contenido automatizado, cuando hay tanto en juego?

Si pasa del artículo a los comentarios, o pasa la descripción de un producto de Amazon a las reseñas de los usuarios, o mira lo que otros han dicho sobre un restaurante u hotel que está considerando usar, es posible que sea uno de la gran mayoría que están más interesados ​​en la evidencia anecdótica que en la opinión oficial.

Es una tendencia controvertida: la fe en la opinión de nuestros pares se ha citado tanto como un factor causante de la difusión de noticias falsasy un antídoto democrático a políticas impopulares del gobierno y la industria.

De cualquier manera, es un gran negocio. Algunos de los sitios más conocidos y rentables del mundo han basado su valor en las contribuciones de sus lectores y suscriptores.

Los canales de redes sociales como Facebook y Twitter, las plataformas de reseñas como TripAdvisor y los mercados en línea como Amazon, eBay y Alibaba dependen del contenido aportado por los usuarios para impulsar el tráfico y las conversiones.

Su credibilidad está bajo constante ataque sistémico de gran volumen. Quizás, pronto, incluso mediante inteligencia artificial.


La industrialización de la revista falsa

El problema de las revisiones egoístas y poco sinceras se remonta al menos a Siglo 19 pero saltó a la fama en la era de Internet en el contexto de la industria de los videojuegos y los comerciantes en línea a gran escala como Amazon.

En octubre de 2018 un estudio por ¿Cuál? revelado la escala industrial actual del crowdturfing, destacando la existencia de grupos de Facebook dedicados que actúan como centros de empleo para revisores falsos. Algunos de los grupos involucrados tienen hasta 87.000 miembros.

industrialización-de-la-revisión-falsa


Fuente

Investigaciones anteriores han indicado que los portales de trabajo en directo como Freelancer y Fiverr son los principales centros de puesta en marcha de reseñas falsas. Un trabajo de investigación conjunto de 2014 estimó el número de conciertos de crowdsurfing mal pagados en más de 4,3 millones de casos durante un período de dos meses, con el noventa por ciento de los diez mejores vendedores del sitio participando en la práctica.

A pesar de la publicidad, la organización con mayores ingresos en los hallazgos del informe continuó operando en Fiverr hasta marzo de 2018, cuando no cumplió con una purga de las empresas de crowdsurfing.

El sitio de listados Yelp sabe desde hace mucho tiempo que tenía un problema con las reseñas publicadas por el público, que inició varios enjuiciamientos importantes y dedicó importantes recursos de investigación al problema.

Amazon también tiene tomado acción legal contra revisores falsos, y en 2016 incluso prohibió la práctica generalizada de las «reseñas incentivadas», donde los compradores intercambian reseñas favorables por productos gratuitos.

Sin embargo, resulta que el minorista global puede tener cierta flexibilidad moral en las reseñas falsas, siempre que pueda beneficiarse directamente de ellas.


Revisiones artificiales a través de inteligencia artificial

En 2017, un proyecto de investigación de la Universidad de Chicago ilustró que una inteligencia artificial entrenada en un conjunto de datos de reseñas reales de yelp.com pudo escribir reseñas generadas por máquinas que los lectores no podían distinguir de las reseñas humanas genuinas en términos de utilidad general.

Las reseñas basadas en inteligencia artificial se crean analizando reseñas reales por carácter (no por palabra), generando cadenas de texto completamente únicas que no serán marcadas por controles de plagio en línea. Uno de los autores del informe cree que las implicaciones de la tendencia son generalizadas, caracterizando estas capacidades como una «amenaza para la sociedad en general»..

Aunque las revisiones de robots a menudo demuestran excentricidades o una deficiencia en el uso del lenguaje, también lo hace el material fuente que los informa (en este caso, una base de datos que Yelp pone a disposición de los científicos de datos).

Aquellos que contribuyen en foros, comentarios y reseñas en inglés pueden no ser hablantes nativos, pueden ser semianalfabetos o simplemente perezosos, posiblemente los tres. Por lo tanto, parece poco probable que el uso de un estándar de lenguaje bien construido como prueba de autenticidad contra el crowdturfing basado en IA sea efectivo.

Aunque la capacidad de un sistema de aprendizaje automático para imitar la producción humana permanece en duda; el estado del arte parece ser suficiente para hacer este trabajo en particular, al menos por el momento.


¿Reseñas impulsadas por IA en la naturaleza?

El aprendizaje automático se compromete más públicamente a luchar contra las revisiones falsas que a crearlas. El sitio fakespot.com utiliza algoritmos impulsados ​​por aprendizaje automático para ayudar a los usuarios a determinar la autenticidad de las reseñas. La Universidad de Cornell ejecuta un recurso de revisión falso llamado Revisión escéptico.

Los investigadores están utilizando ontología, blockchain, contexto de lenguaje, recuentos de publicaciones bajos, calificaciones de revisión inusualmente altas, similitud semántica y uso de pronombres como enfoques para el problema de las revisiones falsas.

Además, los autores del generador de reseñas falsas basado en inteligencia artificial mencionado anteriormente afirmaron en su estudio que la técnica es tan útil para identificar reseñas escritas por máquina como para crearlas.

Sin embargo, una investigación más reciente de Finlandia afirma tener mejorado en su trabajo, con un sistema modificado que crea reseñas que son más auténticas y más difíciles de detectar.

El equipo de investigación finlandés agregó una capa de supervisión de traducción automática neuronal para ayudar a la IA a enfocarse en el objetivo central de la revisión, en lugar de permitir que las palabras clave no relacionadas desvíen su atención.

Al utilizar una plantilla basada en texto basada en estos metadatos (calificación de la reseña, nombre del restaurante, ciudad, estado y etiquetas de alimentos), la técnica revisada produjo reseñas que engañado hasta en un 60% de lectores humanos.

Los autores originales del artículo de Chicago declaran que no han encontrado evidencia de que su trabajo se haya implementado para uso en el mundo real (aunque actualmente aparece bifurcado públicamente dos veces en GitHub); e incluso una exploración casual de los principales sitios de redacción de conciertos demuestra que la demanda de escritores de reseñas falsos del mundo real y mal pagados sigue siendo muy alta.


¿Dónde se encuentra la IA en el mercado de la generación de contenido?

Hay poca evidencia de que los sistemas de revisión de máquinas efectivos estén disponibles actualmente para comprar para los comercializadores de sombrero negro de la misma manera que las botnets zombies se pueden comprar para el fraude de clics.

Ataques de denegación de servicio (DoS) y campañas de correo no deseado. La mayoría de los sistemas de análisis de aprendizaje automático más maduros destinados a detectar contenido de usuario fraudulento son propietarios y están celosamente guardados por Empresas de desarrollo de IA.

En este caso particular, los beneficios de la colaboración de código abierto probablemente se vean superados por la necesidad de ocultar técnicas a quienes las aprovecharían.

Un subconjunto de la guerra de la IA en torno al contenido «falso» se encuentra en el área de los sistemas de reescritura. Los hilanderos de artículos, que pueden ser servicios en línea o programas instalados localmente, utilizan algoritmos derivados del aprendizaje automático para reformular el contenido existente de modo que los usuarios puedan volver a publicarlo para sus propios fines de marketing, sin pagar regalías, ser demandados por los propietarios del contenido o ser señalados. por robo de contenido por parte de motores de búsqueda.

Los hilanderos de contenido operan en un área gris de legalidad, ya que incluso las redes de noticias más estimadas siempre han complementado el trabajo completamente original con reescrituras de artículos, que otras publicaciones originaron como noticias válidas.

La cita de fuentes es un tema estándar en la ética periodística. Algunos se preguntan si la automatización del proceso es una evolución obvia y válida de esta práctica, y parte de una tendencia hacia el periodismo impulsado por la inteligencia artificial.

En términos de si las reescrituras de robots pueden ayudar o no al SEO de una empresa, la opinión está dividida.

Por un lado, Google a veces parece recompensar el contenido más nuevo sobre un tema, incluso si se deriva de material original de otro dominio, e incluso si esto viola expresamente Las propias reglas de Google sobre contenido duplicado. Parece que el gigante de las búsquedas considera o no el contenido reproducido como «contenido duplicado».


Autenticidad como nueva moneda online

El estudio de los patrones de palabras es un objetivo fundamental en el aprendizaje automático, y es probable que nuevos avances impulsen nuevas políticas en los próximos años.

Aquellos cuyo negocio depende de la ubicación de búsqueda de Google deben ser conscientes de que el gigante de las búsquedas también es uno de los mayores inversores en inteligencia artificial del planeta. Además, está buscando activamente eliminar el contenido imitativo y de bajo esfuerzo de su producto de búsqueda principal.

La historia sugiere que una empresa que actualmente se beneficia del SEO de sombrero negro, como el contenido hilado y las reseñas falsas, puede esperar una catástrofe de SEO eventualmente.

En el corazón de la continua manía de seleccionar listas de contenido de formas cada vez más personalizadas sin crear nada nuevo, el valor persistente del contenido original escrito por humanos ha sobrevivido a todas las tendencias y purgas de los últimos veinte años de una manera que soluciones alternativas, trampas y hacks nunca han podido igualar.

Por lo tanto, la creación de un modelo de negocio sobre contenido engañoso o artificial parecería una estrategia miope.