Hace unos días me topé con este artículo de Xataka que a su vez referenciaba esta investigación publicada por el diario estadounidense The Washington Post con respecto a cuáles eran los sitios web que se estaban utilizando para entrenar a las IA generativas de texto, es decir, ChatGPT y todas aquellos que operan de forma similar.
La investigación del Post reveló sitios como Google Patents, Wikipedia y Scribd en el top tres. De ahí se encuentra posteriormente medios de comunicación estadounidenses como The New York Times, Los Angeles Times, The Guardian, Forbes, HuffPost y Washington Post; editoriales académicas como PLOS y Frontiers, y mucho más abajo, un 3.8% en total, blogs alojados en plataformas como WordPress, Tumblr, Blogger (Blogspot) o Live Journal. Al final del artículo del Washington Post se puede encontrar un motor de búsqueda que permite consultar el dataset Google C4, utilizado por Google para entrenar su IA generativa de texto, pero que permite a su vez extrapolar a otras compañías tecnológicas que también tienen sus datasets para entrenar sus IA similares, entre ellas, el popular ChatGPT de OpenAI. Así que me dio curiosidad ya que este blog está soportado en WordPress, hice la búsqueda y esto fue lo que encontré:
3.9K en tokens no es mucho. De acuerdo con el artículo de Xataka, un token equivale a una palabra, o como mucho, a una frase, es decir, que, en este caso, se tomaron 3.900 palabras o frases de este blog. Aun así, esto te llama la atención y te deja pensando, más no sabes si para molestarse o para dejarlo a modo de anécdota. ¿Deberíamos los propietarios de blogs ser notificados que estos están siendo usados para entrenar IA?, ¿o deberíamos recibir alguna compensación por el uso de nuestro contenido generado o curado para ello? ¿o deberíamos…?
Esto no ha hecho más que empezar, y tampoco es algo nuevo, por ejemplo, las redes sociales digitales (Facebook, Instagram, YouTube, TikTok….) desde hace años vienen explotando para su monetización los datos personales de sus usuarios, así que veremos cómo evoluciona este tema, en particular porque hay algunos de estos sitios web usados, como los de los medios de comunicación estadounidenses, que ya manifestaron estar en alerta y empiezan a ver cómo van a ser compensados por ello.
Deja una respuesta