Anthropic zniszczył miliony książek w celu szkolenia modeli AI

Firma Anthropic, twórca asystenta AI Claude, podobnego do ChatGPT, wydała miliony dolarów na fizyczne skanowanie drukowanych książek.

Proces ten, ujawniony w dokumentach sądowych dotyczących praw autorskich, polegał na cięciu książek, skanowaniu ich do plików cyfrowych, a następnie utylizacji oryginałów, wyłącznie w celu trenowania sztucznej inteligencji.

W lutym 2024 roku Anthropic zatrudnił Toma Turveya, byłego szefa partnerstw w projekcie skanowania książek Google Books, z zadaniem pozyskania „wszystkich książek na świecie”. Ten strategiczny ruch miał na celu powielenie podejścia Google do digitalizacji książek, które z powodzeniem przeszło przez wyzwania praw autorskich i ustanowiło precedensy dotyczące dozwolonego użytku. Chociaż destrukcyjne skanowanie (skutkujące fizycznym zniszczeniem skanowanej publikacji) jest powszechną praktyką w mniejszych operacjach, podejście Anthropic wyróżniało się masową skalą. Szybsza i tańsza metoda destrukcyjna okazała się ważniejsza niż zachowanie fizycznych książek.

Sędzia William Alsup orzekł, że ta operacja destrukcyjnego skanowania kwalifikuje się jako dozwolony użytek, pod warunkiem, że Anthropic legalnie zakupił książki, zniszczył każdą drukowaną kopię po zeskanowaniu i przechowywał pliki cyfrowe wewnętrznie, bez ich rozpowszechniania. Sędzia porównał ten proces do „oszczędzania miejsca” poprzez konwersję formatu i uznał go za transformacyjny.

Branża AI ma nienasycony apetyt na wysokiej jakości dane tekstowe. Modele dużych języków (LLM), takie jak ChatGPT i Claude, są budowane poprzez przetwarzanie miliardów słów w sieci neuronowej, co pozwala na tworzenie statystycznych zależności między słowami i pojęciami. Jakość danych treningowych ma bezpośredni wpływ na możliwości modelu AI – modele szkolone na dobrze zredagowanych książkach i artykułach zazwyczaj produkują bardziej spójne i dokładne odpowiedzi. Doktryna pierwszej sprzedaży pozwala na legalne kupowanie fizycznych książek i dowolne dysponowanie nimi, w tym ich niszczenie, co stanowiło obejście dla firm AI, które nie chciały negocjować licencji z wydawcami.

Początkowo Anthropic korzystał ze spiratowanych e-booków, aby uniknąć „prawnego/praktycznego/biznesowego zmagania” związanego z negocjacjami licencyjnymi. Jednak do 2024 roku firma stała się mniej skłonna do używania pirackich e-booków z powodów prawnych i potrzebowała bezpieczniejszego źródła. Kupowanie używanych fizycznych książek omijało kwestie licencjonowania, jednocześnie dostarczając wysokiej jakości, profesjonalnie zredagowany tekst, niezbędny dla modeli AI. Destrukcyjne skanowanie było najszybszym sposobem na zdigitalizowanie milionów tomów. Anthropic wydał „wiele milionów dolarów” na tę operację, często kupując używane książki hurtowo. Po zeskanowaniu stron do plików PDF z tekstem czytelnym maszynowo, wszystkie papierowe oryginały były utylizowane.

W dokumentach sądowych nie ma informacji o zniszczeniu rzadkich książek – Anthropic kupował książki hurtowo od dużych sprzedawców. Istnieją również inne metody digitalizacji, które nie niszczą fizycznych tomów, takie jak te pionierskie przez The Internet Archive. Niedawno OpenAI i Microsoft ogłosiły współpracę z bibliotekami Harvardu w celu trenowania modeli AI na prawie milionie książek z domeny publicznej, pochodzących nawet z XV wieku, które zostały zdigitalizowane, ale bez zniszczenia oryginałów.

#AI #Anthropic #Claude #daneTreningowe #dozwolonyUżytek #GoogleBooks #LLM #modeleJęzykowe #news #prawaAutorskie #skanowanieKsiążek #sztucznaInteligencja #TomTurvey

Co zarejestrował smartwatch przed finałem Jasmine Paolini?

Kulisy sukcesu Jasmine Paolini w Rzymie: dane ze smartwatcha Amazfit ujawniają strategię treningową.

Jasmine Paolini, triumfatorka turnieju WTA 1000 w Rzymie, pozwoliła zajrzeć za kulisy swoich przygotowań, udostępniając dane treningowe zarejestrowane przez smartwatch Amazfit Active 2. Analiza tych informacji rzuca światło na intensywność i strategię, jaką włoska tenisistka przyjęła przed kluczowymi meczami. Co ciekawe, emocje podczas wznoszenia pucharu były tak wielkie, że tętno zawodniczki podskoczyło do 150 uderzeń na minutę (przy jej maksymalnym tętnie 192 uderzeń na minutę), czyli więcej niż podczas sesji treningowej bezpośrednio poprzedzającej finałowy mecz.

Przygotowania do sobotniego finału, który rozpoczął się o godzinie 17:00, Paolini zaczęła jeszcze przed południem od rozgrzewki pobudzającej mięśnie i układ nerwowy, a następnie odbyła niemal 42-minutowy sparing. Tuż po wejściu na kort jej tętno dynamicznie wzrosło do 158 uderzeń na minutę. Po około 10 minutach intensywnej gry, z dynamicznymi podaniami przeplatanymi mocnymi zagraniami z forehandu i backhandu, nastąpiła krótka przerwa, po której tenisistka skupiła się na spokojnym przebijaniu piłki i pełnej koncentracji na serwisie. Podczas tego spokojniejszego, 42-minutowego treningu przedfinałowego, jej średnie tętno wyniosło zaledwie 119 uderzeń na minutę. Amazfit Active 2 zarejestrował łącznie 170 uderzeń, w tym 56 serwisów, 78 zagrań backhandem i 36 forehandem.

Dla kontrastu, trening przed czwartkowym półfinałem był znacznie intensywniejszy. Choć trwał krócej, bo 33 minuty, średnie tętno Paolini, które wyliczył Amazfit Active 2, wyniosło 143 uderzenia na minutę. Były momenty, gdy tenisistka wkładała jeszcze więcej wysiłku, a jej serce wykonywało 170 uderzeń na minutę, wchodząc w czwartą, anaerobową strefę. Podczas tej sesji smartwatch zarejestrował łącznie 171 uderzeń, w tym 41 serwisów (o 15 mniej niż w sobotę), 84 uderzenia backhandem i 46 forehandem.

Dane z obu sesji treningowych pokazują również charakterystyczny styl gry Paolini. Zarówno przed półfinałem, jak i finałem, częściej ćwiczyła backhand (odpowiednio 84 i 78 razy) niż forehand (46 i 36 zagrań). Ci, którzy regularnie oglądają mecze Jasmine Paolini, nie powinni być zaskoczeni częstszymi uderzeniami z backhandu. Tenisistka jest jedną z najlepiej broniących, a backhand, obok umiejętności szybkiego poruszania się po korcie, jest do tego kluczowy – co w sobotę pozwoliło jej wygrać turniej WTA 1000 w Rzymie.

Amazfit T-Rex 3 z nową aktualizacją Zepp OS 4.5 – ulepszenia dla sportowców i nowe funkcje komunikacyjne

#Amazfit #AmazfitActive2 #daneTreningowe #JasminePaolini #news

Amazfit T-Rex 3 z nową aktualizacją Zepp OS 4.5 – ulepszenia dla sportowców i nowe funkcje komunikacyjne | iMagazine

Amazfit T-Rex 3, sportowy smartwatch, otrzymuje najnowszą wersję systemu operacyjnego Zepp OS 4.5, a wraz z nią szereg nowych funkcji.