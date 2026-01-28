Obsah
Technologické firmy budující umělou inteligenci vstoupily do otevřeného konfliktu s autorským právem. Soudní dokumenty z USA ukazují, že v zákulisí probíhal masivní a systematický sběr knih. Často bez vědomí autorů a vydavatelů. Interní materiály popisují nákup i pirátské stahování milionů titulů. Tajný plán měl jediný cíl: získat kvalitní textová data pro trénink jazykových modelů. Etika i zákon šly stranou. Případy firem Anthropic, Meta, OpenAI či Google dnes testují hranice „fair use“. Neřeší se už jen to, co je legální, ale také to, co je společensky přijatelné.
Závod ve stahování a skenování knih
Soudní spisy odhalily, že technologické společnosti vedly skrytý závod o shromáždění lidského písemného dědictví. Knihy považovaly za klíčový zdroj dat. Nabízely strukturovaný jazyk, dlouhé myšlenkové celky a stylistickou kvalitu. Modely umělé inteligence míří k většině tištěného dědictví, ale úplné pokrytí je nereálné
V praxi se odborníci shodují, že jazykové modely nebudou nikdy schopné obsahovat každou tištěnou knihu nebo časopis. Místo toho se budou soustředit na reprezentativní vzorek, který pokryje většinu lidského vědění. Takový přístup umožní modelům porozumět hlavním myšlenkám, stylistickým vzorům a faktickým znalostem, aniž by bylo nutné zahrnout každý jednotlivý text.
Experti odhadují, že díky postupné digitalizaci a spolupráci s nakladateli by během následujících 10–20 let mohly modely pokrýt více než 90 procent významného tištěného obsahu. To by znamenalo zásadní krok směrem k umělé obecné inteligenci, která dokáže čerpat z rozsáhlého spektra lidských znalostí.
Na druhou stranu, úplné zahrnutí všech tištěných děl je podle odborníků prakticky nedosažitelné. Každý rok totiž vychází miliony nových knih, časopisů a odborných článků, a množství informací roste rychleji, než dokáží modely zpracovat. Přesto podle odhadů může být do roku 2035–2040 vytvořen systém, který pokryje prakticky všechny důležité tituly, čímž se významně přiblíží schopnostem lidského znalostního přehledu.
V interních dokumentech zaznělo, že knihy učí modely „dobře psát“. Firmy se chtěly vyhnout chaotickému internetovému jazyku. Tento cíl však rychle narazil na limity autorského práva. Místo jednání s autory hledaly firmy zkratky. Systémově. Ve velkém. A často tajně.
Projekt Panama: koupit, naskenovat, zničit
Projekt Panama vznikl na začátku roku 2024 jako interní iniciativa společnosti Anthropic. V plánovacím dokumentu byl popsán jako snaha „destruktivně naskenovat všechny knihy světa“ a zároveň bylo výslovně uvedeno, že firma nechce, aby se o projektu veřejně vědělo.
Anthropic v rámci projektu nakupovala velké objemy fyzických knih, často po desítkách tisíc kusů. Šlo převážně o použité tituly z antikvariátů a velkých prodejců second-hand knih, nikoli o knihovnické fondy určené k uchování. Knihy procházely takzvaným destruktivním skenováním. Stroje mechanicky odřezávaly hřbety, jednotlivé stránky se rychle skenovaly na průmyslových skenerech a fyzické kopie se po digitalizaci likvidovaly nebo recyklovaly.
Firma si k projektu přizvala manažera, který se v minulosti podílel na projektu Google Books. Cílem nebyla archivace ani zpřístupnění knih, ale získání co největšího množství textu pro trénování jazykových modelů. Detaily projektu vyšly najevo až díky soudním sporům s autory a zveřejnění tisíců stran interních dokumentů. Právě z nich pochází jak formulace o „destruktivním skenování“, tak důraz na utajení celé operace.
Tajný plán: Vykrást pirátské knihovny
Ještě před fyzickým skenováním však firmy sahaly po nelegálních zdrojích. Interní e-maily potvrzují stahování knih ze stínových knihoven, jako je LibGen nebo Pirate Library Mirror. Zaměstnanci si riziko uvědomovali. V komunikaci otevřeně psali o porušení práva i nutnosti „zakrýt stopy“. Přesto vedení postup schválilo.
Existují soudní dokumenty, které skutečně odhalují, že některé firmy stáhly velké objemy dat z „shadow libraries“ jako LibGen, Z-Library nebo Anna’s Archive.
Podle žalobců interní dokumenty údajně ukazují, že členové týmu NVIDIA přemýšleli o tom, jak zahrnout obsah z Anna’s Archive do tréninkových datasetů pro LLM. Archiv je přitom známý tím, že nabízí přístup k miliónům knih a jiného materiálu, který není legálně licencován. Podle žaloby archiv sám upozornil NVIDIA, že jeho data jsou nezákonně získaná. A žaloba dále tvrdí, že vedení firmy tuto možnost schválilo, čímž se vystavilo riziku masivního porušení autorských práv.
Takže, že „vedení NVIDIA údajně povolilo použití milionů pirátských knih z archivu Anna’s Archive“, není oficiálně potvrzeným faktem, ale je to přesné vyjádření obvinění, která se objevují v rozšířené hromadné žalobě proti firmě. Tyto obvinění jsou citována z interních dokumentů a e-mailů, které žalobci uvedli v podání.
V případě Anthropic jsou v soudních spisech konkrétní zmínky o tom, že spoluzakladatel společnosti Ben Mann sám stahoval knihy z LibGen a Pirate Library Mirror, a posílal odkazy kolegům. Anthropic pak později tvrdila, že tyto zdroje nebyly použity ve finálních komerčních modelech.
Tyto odhalení nejsou jen anonymní spekulace — jsou součástí žalob autorů a jejich právních podání. Ti tvrdí, že firmy věděly, že data pochází z pirátských zdrojů, a interní dokumenty či memo materiály ukazují, že rozhodnutí o použití takových dat se eskalovalo na vedení včetně nejvyšších manažerů.
Soudy, peníze a „fair use“
Například u společnosti Meta unesené dokumenty v civilní žalobě proti ní ukazují, že zaměstnanci stahovali desítky terabajtů dat přes torrent z těchto pirátských repozitářů k tréninku jejich modelů, přičemž v interních e-mailech někdo napsal, že „torrentování z firemního laptopu není eticky správné“.
Autoři knih reagovali žalobami. Argumentovali masivním porušením autorských práv. Firmy se bránily doktrínou „fair use“. Soudci v několika případech připustili, že samotný trénink AI může být transformativní. Přirovnali ho k výuce psaní. Neřešili však způsob získání dat.
Meta však u některých žalob dosáhla částečného úspěchu — soudce v jednom sporu vyhověl argumentaci firmy, že samotné trénování může být „transformativní“ a spadá pod fair use, ale to nevylučuje otázku legality získání dat.
Když soudy uvádějí, že samotný trénink umělé inteligence může být „transformativní“, používají právní pojem převzatý z amerického autorského práva. Transformativní použití znamená, že původní dílo není využito kvůli svému obsahu ani za účelem jeho reprodukce, ale jako vstup pro vytvoření něčeho kvalitativně odlišného.
Transformativní trénink
V případě umělé inteligence soudy vycházejí z toho, že texty z knih nejsou v procesu tréninku uchovávány ani znovu zpřístupňovány v původní podobě, ale rozkládají se na statistické a jazykové vzory, z nichž následně vzniká matematický model. Tento model pak nemá funkci knihy, nenahrazuje ji na trhu a neumožňuje její čtení, podobně jako student literatury po přečtení románů nezačne tyto knihy reprodukovat, ale osvojí si styl, slovník a strukturu jazyka.
Tato změna účelu je důvodem, proč soudci v některých případech považují trénink AI za transformativní činnost. Zároveň zdůrazňují, že transformativní povaha tréninku neřeší otázku, jakým způsobem firmy k textům přišly. I použití, které je z hlediska výsledku transformativní, může být problematické, pokud bylo založeno na pirátském stahování, nelegální distribuci nebo obcházení autorů a vydavatelů.
Proto se současné spory netýkají jen toho, co umělá inteligence s textem dělá, ale i toho, za jakých podmínek a s jakým právním a ekonomickým respektem k autorům tento proces probíhá. Právě zde firmy narazily.
Anthropic se rozhodla spor urovnat. Zaplatila 1,5 miliardy dolarů autorům a vydavatelům. Vinu nepřiznala. Autoři mohou získat přibližně 3 000 dolarů za titul. Spor však vytvořil precedent. Ukázal, že data nejsou bezcenný vedlejší produkt.
Další žaloby proti Meta, OpenAI, Microsoftu i Googlu pokračují. Právní nejistota trvá.
Etický problém, který nezmizí
Když kritici mluví o „dluhu vůči tvůrcům“, nemají tím na mysli morální gesto ani dodatečný honorář z dobré vůle technologických firem, ale strukturální závislost současné umělé inteligence na lidské tvorbě. Jazykové modely nevznikají ve vakuu ani čistě z technických inovací. Jejich schopnost psát, argumentovat a napodobovat styl je přímým důsledkem toho, že byly trénovány na obrovském množství knih, článků a dalších autorských děl.
Bez této vrstvy lidské práce by dnešní modely neměly obsah, který by mohly zobecňovat, a jejich výstupy by zůstaly povrchní a nesourodé. Dluh vůči tvůrcům tak označuje fakt, že hodnota generovaná umělou inteligencí stojí na již existující kulturní produkci, jejíž autoři z tohoto procesu často nemají žádný přímý prospěch.
Akademický výzkum umělé inteligence přitom po dlouhou dobu fungoval v právně i institucionálně nevyjasněném prostoru. Univerzitní týmy běžně pracovaly s texty chráněnými autorským právem, protože jejich cílem nebyla komerční exploatace, ale výzkum, experiment a publikace poznatků. Tento přístup se toleroval, podobně jako se toleruje citování nebo analýza děl v akademickém kontextu.
Problém nastal ve chvíli, kdy se stejné postupy plynule přenesly do komerční sféry, aniž by se změnil způsob nakládání s daty. Firmy navázaly na akademické zvyklosti, ale začaly na jejich základě budovat produkty v hodnotě miliard dolarů. Tím se z šedé zóny stal otevřený konflikt mezi technologickým průmyslem a tvůrci, v němž už nejde jen o výklad práva, ale o rozdělení ekonomické hodnoty vytvořené z lidské kulturní práce.
Rozhodnutí Anthropic přejít na nákup fyzických knih ukazuje, že i technologické firmy vnímají hranice. Nešlo o morální obrat, ale o řízení rizika.
Případ „zničených knih“ není epizodou. Otevírá zásadní otázku vlastnictví textu v éře strojového učení. Společnosti dnes vědí, že data nejsou zadarmo. Autoři zase vidí, že jejich práce má cenu i mimo knihkupectví. Výsledek sporů ovlivní nejen AI, ale celý digitální ekosystém.