The AI Iceberg: Understanding ChatGPT

Analogies are useful for understanding complex ideas, and there are plenty of complexities for educators trying to wrap their heads around ChatGPT. In this post, I’ll try to explain some of the features of the chatbot and the model it’s built on top of. I'm deliberately avoiding any kind of analogy that represents the AI as magical, mythical, human, or godlike - we've seen enough of them. I’m not claiming that this analogy is watertight or that there is no better way to conceptualise […]

https://leonfurze.com/2023/05/18/the-ai-iceberg-understanding-chatgpt/

Apple Intelligence uczone na pirackich książkach? Gigant pozwany przez naukowców

Apple musi zmierzyć się z poważnymi oskarżeniami, które uderzają w fundamenty ich nowej (wciąż niedostępnej w Polsce) platformy AI.

Naukowcy złożyli pozew zbiorowy przeciwko firmie, twierdząc, że ich książki zostały nielegalnie wykorzystane do trenowania modeli językowych Apple Intelligence bez żadnej licencji ani zgody.

Sprawa, wytoczona przez profesorów Susanę Martinez-Conde i Stephena Macknika, dotyczy dwóch publikacji naukowych. Autorzy zarzucają, że ich prace znalazły się w ogromnym zbiorze danych „Books3”, który był częścią większej biblioteki „The Pile”, oficjalnie wykorzystanej przez Apple do szkolenia swoich modeli, w tym OpenELM. Problem w tym, że „Books3” był zbiorem znanym z tego, że zawierał około 186 tysięcy pirackich kopii książek, a dzieła powodów znajdowały się na liście tychże tytułów.

100 milionów miejsc pracy zagrożonych. Bernie Sanders proponuje „podatek od robotów”

W pozwie złożonym w piątek po południu czytamy, że Apple, korzystając z tego zbioru, w całości skopiowało chronione prawem autorskim prace i bezpośrednio naruszyło prawa ich oraz innych twórców. Co istotne, zbiór „Books3” został usunięty z publicznego dostępu w październiku 2023 roku właśnie z powodu masowego łamania praw autorskich, jednak zdążył już posłużyć jako „pożywka” dla wielu modeli AI. W tym, jak się okazuje, także Apple Intelligence.

Sprawa jest daleka od prostej i wpisuje się w szerszą, nierozstrzygniętą jeszcze debatę prawną dotyczącą tego, czy trenowanie AI na publicznie dostępnych, ale chronionych prawem danych, mieści się w ramach tzw. dozwolonego użytku („fair use”). Sądy w Stanach Zjednoczonych wydawały dotąd różne, często sprzeczne orzeczenia. Kluczowe dla autorów będzie udowodnienie, że Apple faktycznie wykorzystało ich konkretne książki w procesie treningowym, co może być trudne, gdyż firma nie ujawnia szczegółowej listy przetworzonych dokumentów.

Autorzy pozwu domagają się procesu z udziałem ławy przysięgłych, odszkodowania pieniężnego oraz sądowego zakazu dalszego wykorzystywania ich prac przez Apple. Jeśli naruszenie zostanie uznane za umyślne, amerykańskie prawo przewiduje kary sięgające nawet 150 000 dolarów za każde pojedyncze dzieło. Wyrok w tej sprawie może stać się ważnym precedensem dla całej branży technologicznej i zdefiniować na nowo zasady gry na rynku sztucznej inteligencji. O ile w ogóle kiedykolwiek zapadnie.

Kolejne trzęsienie ziemi w Apple? Firma ma aktywnie szukać następcy szefa od AI

#AI #Apple #AppleIntelligence #Books3 #fairUse #naukowcy #news #OpenELM #piractwo #pozew #prawaAutorskie #proces #sztucznaInteligencja #ThePile

"The adoption of large language models (LLMs) in healthcare demands a careful analysis of their potential to spread false medical knowledge. Because LLMs ingest massive volumes of data from the open Internet during training, they are potentially exposed to unverified medical knowledge that may include deliberately planted misinformation. Here, we perform a threat assessment that simulates a data-poisoning attack against The Pile, a popular dataset used for LLM development. We find that replacement of just 0.001% of training tokens with medical misinformation results in harmful models more likely to propagate medical errors. Furthermore, we discover that corrupted models match the performance of their corruption-free counterparts on open-source benchmarks routinely used to evaluate medical LLMs. Using biomedical knowledge graphs to screen medical LLM outputs, we propose a harm mitigation strategy that captures 91.9% of harmful content (F1 = 85.7%). Our algorithm provides a unique method to validate stochastically generated LLM outputs against hard-coded relationships in knowledge graphs. In view of current calls for improved data provenance and transparent LLM development, we hope to raise awareness of emergent risks from LLMs trained indiscriminately on web-scraped data, particularly in healthcare where misinformation can potentially compromise patient safety."

https://www.nature.com/articles/s41591-024-03445-1?utm_source=substack&utm_medium=email

#AI #GenerativeAI #LLMs #Healthcare #ThePile #Healthcare #AISafety #DataPoisoning #Misinformation #AITraining

Medical large language models are vulnerable to data-poisoning attacks - Nature Medicine

Large language models can be manipulated to generate misinformation by poisoning of a very small percentage of the data on which they are trained, but a harm mitigation strategy using biomedical knowledge graphs can offer a method for addressing this vulnerability.

Nature

https://www.proofnews.org/youtube-ai-search/

Is your YouTube video/channel in "The Pile" used by the vast majority of companies to train AI? Find out in the link above.

#AI #Youtube #ThePile

Search the YouTube Videos Secretly Powering Generative AI

We built a tool to reveal the channels used by AI giants

Proof
Autoren vs. NVIDIA: Ist KI-Training mit geschützten Texten legal?

NVIDIA verteidigt sich vor Gericht. Der Vorwurf: Verwendung von urheberrechtlich geschützten Büchern für das Training seiner KI-Modelle.

Tarnkappe.info

Many of the biggest "open AI" companies are totally opaque when it comes to training data. Google and OpenAI won't even say how many pieces of data went into their models' training - let alone which data they used.

Other "open AI" companies use publicly available datasets like #ThePile and #CommonCrawl. But you can't replicate their models by shoveling these datasets into an algorithm. Each one has to be groomed - labeled, sorted, de-duplicated, and otherwise filtered.

28/

Anti-Piracy Group Takes Massive AI Training Dataset 'Books3′ Offline

That pirated set of works contained 37 GB worth of text for training AI. Companies like Meta have already used it to train their language models.

Gizmodo
Sarah Silverman is suing OpenAI and Meta for copyright infringement

Sarah Silverman, Christopher Golden, and Richard Kadrey are suing OpenAI and Meta over violation of their copyrighted books. The trio says their works were pulled from illegal “shadow libraries” without their consent.

The Verge