Apple Intelligence uczone na pirackich książkach? Gigant pozwany przez naukowców

Apple musi zmierzyć się z poważnymi oskarżeniami, które uderzają w fundamenty ich nowej (wciąż niedostępnej w Polsce) platformy AI.

Naukowcy złożyli pozew zbiorowy przeciwko firmie, twierdząc, że ich książki zostały nielegalnie wykorzystane do trenowania modeli językowych Apple Intelligence bez żadnej licencji ani zgody.

Sprawa, wytoczona przez profesorów Susanę Martinez-Conde i Stephena Macknika, dotyczy dwóch publikacji naukowych. Autorzy zarzucają, że ich prace znalazły się w ogromnym zbiorze danych „Books3”, który był częścią większej biblioteki „The Pile”, oficjalnie wykorzystanej przez Apple do szkolenia swoich modeli, w tym OpenELM. Problem w tym, że „Books3” był zbiorem znanym z tego, że zawierał około 186 tysięcy pirackich kopii książek, a dzieła powodów znajdowały się na liście tychże tytułów.

100 milionów miejsc pracy zagrożonych. Bernie Sanders proponuje „podatek od robotów”

W pozwie złożonym w piątek po południu czytamy, że Apple, korzystając z tego zbioru, w całości skopiowało chronione prawem autorskim prace i bezpośrednio naruszyło prawa ich oraz innych twórców. Co istotne, zbiór „Books3” został usunięty z publicznego dostępu w październiku 2023 roku właśnie z powodu masowego łamania praw autorskich, jednak zdążył już posłużyć jako „pożywka” dla wielu modeli AI. W tym, jak się okazuje, także Apple Intelligence.

Sprawa jest daleka od prostej i wpisuje się w szerszą, nierozstrzygniętą jeszcze debatę prawną dotyczącą tego, czy trenowanie AI na publicznie dostępnych, ale chronionych prawem danych, mieści się w ramach tzw. dozwolonego użytku („fair use”). Sądy w Stanach Zjednoczonych wydawały dotąd różne, często sprzeczne orzeczenia. Kluczowe dla autorów będzie udowodnienie, że Apple faktycznie wykorzystało ich konkretne książki w procesie treningowym, co może być trudne, gdyż firma nie ujawnia szczegółowej listy przetworzonych dokumentów.

Autorzy pozwu domagają się procesu z udziałem ławy przysięgłych, odszkodowania pieniężnego oraz sądowego zakazu dalszego wykorzystywania ich prac przez Apple. Jeśli naruszenie zostanie uznane za umyślne, amerykańskie prawo przewiduje kary sięgające nawet 150 000 dolarów za każde pojedyncze dzieło. Wyrok w tej sprawie może stać się ważnym precedensem dla całej branży technologicznej i zdefiniować na nowo zasady gry na rynku sztucznej inteligencji. O ile w ogóle kiedykolwiek zapadnie.

Kolejne trzęsienie ziemi w Apple? Firma ma aktywnie szukać następcy szefa od AI

#AI #Apple #AppleIntelligence #Books3 #fairUse #naukowcy #news #OpenELM #piractwo #pozew #prawaAutorskie #proces #sztucznaInteligencja #ThePile

Dwóch autorów oskarża Apple o nielegalne szkolenie AI na pirackich książkach

Dwóch autorów, Grady Hendrix i Jennifer Robertson, wniosło pozew zbiorowy przeciwko Apple w północnej Kalifornii, donosi Reuters.

Twierdzą, że Apple użyło pirackiego zestawu danych Books3, zawierającego ich publikacje, do trenowania modeli językowych OpenELM i prawdopodobnie także Foundation Language Models.

Pozew żąda m.in.:

  • uznania sprawy za pozew zbiorowy,
  • odszkodowań i zwrotów strat,
  • zakazu dalszego używania nielegalnych materiałów,
  • zniszczenia wszystkich modeli i zestawów treningowych wykorzystujących pirackie książki,
  • zwrotu kosztów prawnych.

Z pozwu:

Ale Apple buduje część nowego przedsięwzięcia przy użyciu Books3, zbioru danych pirackich książek chronionych prawem autorskim, który zawiera opublikowane dzieła Powodów i Klasy. Apple wykorzystało Books3 do szkolenia swoich modeli językowych OpenELM. Apple prawdopodobnie trenowało również swoje modele językowe Foundation przy użyciu tego samego pirackiego zbioru danych.

Sprawa przypomina wcześniejsze procesy: Anthropic zapłacił 1,5 mld USD w podobnym przypadku, podczas gdy Meta wygrała w sądzie, bo użycie książek uznano za fair use.

Potężny cios dla branży AI. Anthropic zapłaci 1,5 mld dolarów i zniszczy dane z pirackich książek

#AITrainingDataset #AppleAI #AppleIntelligence #Books3Dataset #FoundationLanguageModels #OpenELM #pirackieKsiążkiAI #pozewZbiorowyApple #prawaAutorskie #sprawySądoweAI

Apple faces a new class action lawsuit as Grady Hendrix and Jennifer Roberson claim their books were used without consent to train AI models. The suit, filed in Northern California, follows similar actions against tech giants over unauthorized use of copyrighted content in AI development. Discover the ongoing battle over IP rights in AI: https://www.cnbc.com/2025/09/05/apple-sued-by-authors-over-use-of-books-in-ai-training.html #Apple #AI #Copyright #Lawsuit #GradyHendrix #JenniferRoberson #IntellectualProperty #OpenELM #Publishing #Technology
Apple sued by authors over use of books in AI training

Technology giant Apple was accused by authors in a lawsuit on Friday of illegally using their copyrighted books to help train its artificial intelligence systems, part of an expanding legal fight over protections for intellectual property in the AI era.

CNBC
#shownotes for @gamesatwork_biz #podcast e473 are done and publication set for tomorrow, Monday 22 July on https://www.gamesatwork.biz , YouTube and all your favorite podcast feeds! This episode has #TheSphere in fabulous #LasVegas, #AI, #OpenELM, #OpenSCAD, #OpenSource, #UnderWare #CableManagement, #FloppyDisks still in productive use, and even more. Be sure to subscribe on https://www.gamesatwork.biz so you don’t miss an episode!
on the #shownotes #grind for @gamesatwork_biz in preparation for Monday’s posting of e473. Stories about #TheSphere, #AI #OpenELM, #OpenSCAD, #CableManagement, the science of #BoardGames and more! Check out earlier episodes, chock full of #AI #metaverse #AR #VR #gamification and so much more on https://www.gamesatwork.biz
Apple 否認以 YouTube 訓練 AI 強調並未使用於 Apple Intelligence 之上
昨日我們報導過包括 Apple 在內的多間科技企業,被指在沒有獲得創作者同意下,利用對方的 YouTube 影片內容文本去訓練 AI。作出該項調查報導的媒體《Wired》指超過 17 萬段影片內容成為了訓練 AI 模型數據集的一部分,Apple 於 4 月公開的開源 OpenELM 模型亦有使用。事隔一日,Apple 就事件開腔回應。
The post Apple 否認以 YouTube 訓練 AI 強調並未使用於 Apple Intelligence 之上 appeared first on 香港 unwire.hk 玩生活.樂科技.
#人工智能 #Apple Intelligence #OpenELM #youtube
https://unwire.hk/2024/07/20/apple-%e5%90%a6%e8%aa%8d%e4%bb%a5-youtube-%e8%a8%93%e7%b7%b4-ai-%e5%bc%b7%e8%aa%bf%e4%b8%a6%e...
香港 unwire.hk 玩生活.樂科技

香港 unwire.hk 玩生活.樂科技

Na początku tego tygodnia głośno zrobiło się o dochodzeniu, które wykazało, że Apple i inni giganci technologiczni używali napisów YouTube do trenowania swoich modeli sztucznej inteligencji.

Obejmowało to ponad 170 000 filmów twórców takich, jak MKBHD, Mr. Beast oraz innych zasięgowych kanałów. Apple miało wykorzystać ten zestaw danych do trenowania swoich modeli OpenELM o otwartym kodzie źródłowym, które zostały wydane w kwietniu.

Apple publikuje rodzinę wydajnych modeli językowych open source

Apple potwierdziło jednak serwisowi 9to5Mac, że OpenELM nie zasila żadnej z jego funkcji Apple Intelligence ani nie wspiera Machine Learning stosowanego naurządzaniach firmy.

Ta  twierdzi, że stworzyła model OpenELM jako sposób na wniesienie wkładu w społeczność badawczą i rozwój dużych modeli językowych typu open source. W przeszłości badacze Apple opisywali OpenELM jako „najnowocześniejszy otwarty model językowy”.

Według Apple, OpenELM został stworzony wyłącznie do celów badawczych, a nie do wykorzystania w celu zasilania jakichkolwiek funkcji Apple Intelligence. Model został opublikowany jako open-source i jest szeroko dostępny, w tym na stronie Apple Machine Learning Research.

Ponieważ OpenELM nie jest używany jako część Apple Intelligence, oznacza to, że zbiór danych o nazwie „Napisy YouTube” nie jest używany do zasilania Apple Intelligence.

Wreszcie, Apple powiedziało 9to5Mac również, że nie planuje tworzyć żadnych nowych wersji modelu OpenELM.

Jak podał Wired na początku tego tygodnia, firmy takie jak Apple, Anthropic i NVIDIA wykorzystały zestaw danych „Napisy YouTube” do trenowania swoich modeli sztucznej inteligencji. Ten zbiór danych jest częścią większej kolekcji o nazwie „The Pile”, stworzonej przez organizację non-profit EleutherAI.

Sprawa ma być dalej badana.

https://imagazine.pl/2024/07/18/apple-twierdzi-ze-ich-model-openelm-nie-byl-trenowany-na-youtubie/

#AI #AppleIntelligence #generatywnaSztucznaInteligencja #machineLearning #napisy #OpenELM #sztucznaInteligencja #YouTube

Apple publikuje rodzinę wydajnych modeli językowych open source | iMagazine

Tuż przed debiutem iOS 18 na WWDC w czerwcu tego roku, Apple udostępniło rodzinę dużych modeli językowych o otwartym kodzie źródłowym.

OpenELM : Apple klärt Missverständnisse in YouTube-Kontroverse
Apple hat jüngst klar gestellt, dass sein OpenELM Modell nicht für die Funktionen von Apple Intelligence verwendet wird. Diese Klarstellung folgt auf eine Untersuchung, die aufdeckte, dass Technologieunt
https://www.apfeltalk.de/magazin/news/openelm-apple-klaert-missverstaendnisse-in-youtube-kontroverse/
#News #Tellerrand #Apple #AppleIntelligence #KITraining #OpenSourceModelle #OpenELM #Technologieethik #YouTubeKontroverse
OpenELM : Apple klärt Missverständnisse in YouTube-Kontroverse

Apple hat jüngst klar gestellt, dass sein OpenELM Modell nicht für die Funktionen von Apple Intelligence verwendet wird. Diese Klarstellung folgt auf eine Untersuchung, die aufdeckte, dass Technologieunternehmen, einschließlich Apple, YouTube-Untertitel genutzt haben, um ihre KI-Modelle zu trainieren.

Apfeltalk Magazin
最近(~2024年5月)公開された LLM の性能を ELYZA-tasks-100 で比較してみた - Qiita

TL;DR海外勢: Microsoft の Phi-3 は日本語応答性能も高い。Apple の OpenELM は日本語未対応国内勢: Karakuri LM 8x7B は Phi-3 smal…

Qiita

#IntelligenceArtificielle 🤖 #Snowflake et Apple lancent leurs grands modèles de langage #OpenSource

Présenté le 24 avril, #Arctic de Snowflake est le #LLM optimisé pour les entreprises disposant de 480 milliards de paramètres.

De son côté, Apple sort #OpenELM un modèle de langage décliné en 4 configurations : 270 millions, 450 millions, 1 milliard et 3 milliards de paramètres.

Sources :
- https://www.usine-digitale.fr/article/snowflake.N2212050
- https://www.numerama.com/tech/1732480-apple-publie-openelm-le-modele-de-langage-open-source-que-personne-nattendait.html

Snowflake lance à son tour un modèle d'IA open source pour concurrencer Meta et Mistral AI

L'écosystème open source a la cote à l'heure de l'IA générative. Snowflake vient de dévoiler son grand modèle de langage Arctic. Il est...-Intelligence artificielle

Usine Digitale