De GPT-NL dataset staat beschreven op Huggingface, https://huggingface.co/datasets/GPT-NL/GPT-NL_Public_Corpus
met de genoemde hoeveelheid data kan het model qua parameters alleen in de GPT-3 klasse zijn lijkt me? Of zit dat anders?
#AI #GPTNL #trainingsdata
GPT-NL/GPT-NL_Public_Corpus · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

Harry Potter spil in 'ontleer'-experiment om AI beschermd werk te laten vergeten

Het is mogelijk alle kennis over het bestaan van Harry Potter-boeken, dus ook de karakters en de verhaallijnen, te verwijderen uit Meta's open source Llama 2-7B. Dat is de conclusie die twee onderzoekers van Microsoft trekken op basis van een experiment dat zij hebben uitgevoerd.

AG Connect
De AI-markt en de brede(re) contentwereld botsen nu over fundamentele kwestie die uitgeverijen allang kennen; over content, gebruik en compensatie. https://www.agconnect.nl/artikel/ook-stack-overflow-eist-tolgeld-voor-ai-trainingsdata
#StackOverflow #scraping #trainingsdata
Ook Stack Overflow eist tolgeld voor AI-trainingsdata

Ontwikkelen van AI-bots was al duur, maar dreigt nu nog duurder te worden.

AG Connect
Organisations should demand to know what the (pre)trainingsdata looked like of a Large Language Model that they are going to use. Because of bias, privacy, copyright violations etc. it simply can not be acceptable that this remains a black box, for example for GPT-4, Bing Chat etc.
https://wapo.st/3AcdDUm
#LLM #trainingsdata #GPT #AI #Microsoft #OpenAI
See the websites that make AI bots like ChatGPT sound so smart

An analysis of a chatbot data set by The Washington Post reveals the proprietary, personal, and often offensive websites that go into an AI’s training data.

The Washington Post