Právní soudný den pro generativní chat s umělou inteligencí GPT, pokud bude přistižen při plagiátorství nebo porušování práv, varuje před etikou AI a zákonem o umělé inteligenci

Okrádá generativní AI, jako je ChatGPT, naše webové stránky a obsah vytvořený lidmi? Buďte si vědomi, buďte … [+] naštvaný, buď připraven.

Getty

Uveďte úvěr tam, kde je úvěr splatný.

To je trochu moudré moudrosti, v kterou jste možná byli vychováni, abyste v ni pevně věřili. Člověk skutečně předpokládá nebo si představuje, že bychom se mohli do jisté míry rozumně shodnout na tom, že toto je spravedlivé a rozumné životní pravidlo. Když někdo udělá něco, co si zaslouží uznání, ujistěte se, že se mu dostane zaslouženého uznání.

Opačný pohled by se zdál mnohem méně přesvědčivý.

Kdyby někdo šel kolem a trval na tom, že kredit by měl ne být uznán, když je úvěr splatný, no, můžete tvrdit, že takové přesvědčení je nezdvořilé a možná podlé. Často se přistihneme, že jsme hlučně znepokojeni, když je kredit podveden někým, kdo dosáhl něčeho pozoruhodného. Troufám si tvrdit, že zvláště nemilujeme, když si ostatní falešně připisují zásluhy za práci druhých. To je znepokojující dvojitá rána. Osobě, která měla získat uznání, je odepřena jejich chvíle na slunci. Kromě toho si podvodník vychutnává pozornost, ačkoli nás neprávem klamou, abychom si přivlastnili naše příznivé náklonnosti.

Proč celý tento diskurs o sbírání uznání těmi nejsprávnějšími způsoby a odvracení špatných a opovrženíhodných způsobů?

Protože se zdá, že čelíme podobné situaci, pokud jde o nejnovější umělou inteligenci (AI).

Ano, tvrdí se, že se to děje prokazatelně prostřednictvím typu AI známého jako Generativní AI. Generativní umělá inteligence, nejžhavější umělá inteligence v těchto dnech, si již připsala zásluhy za to, co si nezaslouží. A to se pravděpodobně zhorší, jak se generativní AI bude stále více rozšiřovat a využívat. Generativní umělé inteligenci se dostává stále více kreditu, zatímco ty, které si bohatě zaslouží skutečnou zásluhu, bohužel zůstávají v prachu.

Můj nabízený způsob, jak ostře označit tento údajný fenomén, je pomocí dvou elegantních frází:

1) Plagiátorství ve velkém měřítku
2) Porušení autorských práv ve velkém měřítku

Předpokládám, že byste si mohli být vědomi generativní umělé inteligence díky široce oblíbené aplikaci umělé inteligence známé jako ChatGPT, kterou v listopadu vydala společnost OpenAI. Za chvíli řeknu více o generativní AI a ChatGPT. Vydržte.

Pojďme rovnou k jádru toho, čím se lidští kozy takříkajíc zmocňují.

Někteří si horlivě stěžují, že generativní umělá inteligence potenciálně okrádá lidi, kteří vytvořili obsah. Víte, většina generativních aplikací AI jsou data trénovaná zkoumáním dat nalezených na internetu. Na základě těchto dat mohou algoritmy zdokonalit rozsáhlou interní síť pro porovnávání vzorů v rámci aplikace AI, která může následně produkovat zdánlivě nový obsah, který úžasně vypadá, jako by byl navržen lidskou rukou, spíše než kusem automatizace.

Tento pozoruhodný čin je do značné míry způsoben využíváním obsahu naskenovaného z internetu. Bez objemu a bohatosti internetového obsahu jako zdroje pro trénování dat by generativní umělá inteligence byla do značné míry prázdná a její použití by bylo málo nebo vůbec nezajímavé. Tím, že umělá inteligence prozkoumá miliony a miliony online dokumentů a textu, spolu se všemi druhy souvisejícího obsahu, je postupně odvozeno porovnávání vzorů, aby se pokusilo napodobit obsah vytvořený lidmi.

Čím více obsahu zkoumáme, je pravděpodobné, že shoda vzorů bude více vypilovaná a bude ještě lepší v mimikry, přičemž vše ostatní bude stejné.

Zde je otázka za milion dolarů:

Velká otázka: Pokud máte vy nebo jiní na internetu obsah, na kterém byla vycvičena nějaká generativní aplikace umělé inteligence, pravděpodobně tak bez vašeho přímého svolení a možná zcela bez vašeho vědomí, měli byste mít nárok na kousek koláče, pokud jde o jakoukoli hodnotu, která z toho vyplývá. že generativní AI datový trénink?

Někteří vehementně tvrdí, že jediná správná odpověď je Ano, zejména že tito tvůrci lidského obsahu si skutečně zaslouží svůj střih akce. Jde o to, že byste těžko hledali někoho, kdo dostal svůj spravedlivý podíl, a co je horší, téměř nikdo nezískal žádný podíl. Tvůrcům internetového obsahu, kteří nedobrovolně a nevědomě přispěli, je v podstatě odepřen jejich oprávněný kredit.

To by se dalo charakterizovat jako kruté a pobuřující. Právě jsme prošli rozbalením moudrého moudra, že úvěr by měl být udělen tam, kde je úvěr splatný. V případě generativní umělé inteligence tomu tak zřejmě není. Zdá se, že dlouholeté a ctnostné pravidlo o úvěru je bezohledně porušováno.

Páni, odpověď zní, úplně přeháníš a přeháníš situaci. Jistě, generativní AI zkoumala obsah na internetu. Jistě, to bylo velmi užitečné jako součást tréninku dat generativní AI. Je pravda, že dnešní působivé generativní aplikace umělé inteligence by bez tohoto uváženého přístupu nebyly tak působivé. Ale zašli jste příliš daleko, když jste řekli, že tvůrcům obsahu by měl být přiznán jakýkoli konkrétní zdání zásluh.

Logika je následující. Lidé chodí na internet a učí se věci z internetu, dělají to rutinně a bez jakéhokoli rozruchu jako takového. Člověk, který čte blogy o instalatérství a pak se kouká na volně dostupná videa o instalatérských pracích, může druhý den jít ven a pracovat jako instalatér. Potřebují dát část své platby související s instalatérstvím blogerovi, který psal o tom, jak nainstalovat dřez? Potřebují zaplatit poplatek vlogerovi, který natočil video s kroky k opravě děravé vany?

Téměř určitě ne.

Trénink dat generativní umělé inteligence je pouze prostředkem k rozvoji vzorců. Pokud výstupy z generativní umělé inteligence nejsou pouhou regurgitací přesně toho, co bylo zkoumáno, mohli byste přesvědčivě tvrdit, že se „naučili“, a proto nepodléhají udělení žádného konkrétního kreditu žádnému konkrétnímu zdroji. Pokud nedokážete zachytit generativní AI při provádění přesné regurgitace, naznačuje to, že AI zobecnila mimo jakýkoli konkrétní zdroj.

Žádný úvěr není splatný nikomu. Nebo, dalo by se říci, že zásluhy patří všem. Společný text a další obsah lidstva, který se nachází na internetu, získává uznání. Všichni dostáváme zásluhy. Pokoušet se určit kredit konkrétnímu zdroji je nesmyslné. Buďte rádi, že se AI vyvíjí a že z toho bude mít prospěch celé lidstvo. Tyto příspěvky na internetu by se měly cítit poctěny, že přispěly k budoucímu pokroku v AI a jak to pomůže lidstvu na věčnost.

K oběma těmto protichůdným pohledům řeknu více.

Mezitím se přikláníte k táboru, který říká, že úvěr je splatný a opožděně po splatnosti pro ty, kteří mají webové stránky na internetu, nebo zjistíte, že protistrana, která tvrdí, že tvůrci internetového obsahu jsou rozhodně ne nechat se oškubat je přesvědčivější postoj?

Záhada a hádanka se spojily dohromady.

Pojďme to rozbalit.

V dnešním sloupku se budu zabývat těmito vyjádřenými obavami, že generativní umělá inteligence v podstatě plagiuje nebo možná porušuje autorská práva k obsahu, který byl zveřejněn na internetu (což je považováno za problém duševního vlastnictví nebo IP). Podíváme se na základ těchto výčitek. Během této diskuse budu občas odkazovat na ChatGPT, protože je to 600librová gorila generativní AI, i když mějte na paměti, že existuje spousta dalších generativních aplikací AI a obecně jsou založeny na stejných obecných principech.

Mezitím se možná ptáte, co je to vlastně generativní AI.

Pojďme si nejprve probrat základy generativní umělé inteligence a poté se můžeme blíže podívat na naléhavou záležitost.

Do toho všeho přichází spousta úvah o etice AI a zákonech o AI.

Uvědomte si prosím, že se neustále snažíme začlenit etické principy AI do vývoje a nasazení aplikací AI. Rostoucí skupina zainteresovaných a někdejších etiků umělé inteligence se snaží zajistit, aby snahy o vymýšlení a přijetí umělé inteligence braly v úvahu pohled na to, jak AI pro dobro a odvrácení AI pro špatné. Stejně tak jsou navrženy nové zákony o umělé inteligenci, které se šíří jako potenciální řešení, jak zabránit snahám umělé inteligence zbláznit se do lidských práv a podobně. Pro mé průběžné a rozsáhlé pokrytí etiky AI a práva AI viz odkaz zde a odkaz zde, Abychom jmenovali jen několik.

Vývoj a propagace etických zásad umělé inteligence se snaží zabránit tomu, aby společnost upadla do nesčetných pastí indukujících umělou inteligenci. Pro mé pokrytí etických principů AI OSN, jak byly navrženy a podporovány téměř 200 zeměmi prostřednictvím úsilí UNESCO, viz. odkaz zde. V podobném duchu se zkoumají nové zákony AI, které se snaží udržet AI na stejné úrovni. Jeden z nejnovějších záběrů se skládá ze sady navrhovaných Listina práv AI které americký Bílý dům nedávno vydal k identifikaci lidských práv ve věku AI, viz odkaz zde. Vyžaduje vesnici, aby udržela AI a vývojáře AI na správné cestě a odradila úmyslné nebo náhodné podvědomé snahy, které by mohly podkopat společnost.

Do této diskuse vložím úvahy týkající se etiky AI a práva AI.

Základy generativní umělé inteligence

Nejznámější instancí generativní AI je aplikace AI s názvem ChatGPT. ChatGPT se dostal do povědomí veřejnosti již v listopadu, kdy byl vydán výzkumnou firmou AI OpenAI. Od té doby ChatGPT sbírá velké titulky a překvapivě překračuje svých vyhrazených patnáct minut slávy.

Hádám, že jste pravděpodobně slyšeli o ChatGPT nebo možná dokonce znáte někoho, kdo jej používal.

ChatGPT je považován za generativní aplikaci AI, protože bere jako vstup nějaký text od uživatele a poté generuje nebo vytvoří výstup, který se skládá z eseje. Umělá inteligence je generátor textu na text, i když AI popisuji jako generátor textu na esej, protože to snadněji objasňuje, k čemu se běžně používá. Generativní umělou inteligenci můžete použít ke skládání dlouhých kompozic nebo ji můžete přimět k tomu, aby nabízela spíše krátké jadrné komentáře. Vše je na vaší nabídce.

Vše, co musíte udělat, je zadat výzvu a aplikace AI vám vygeneruje esej, která se pokusí na vaši výzvu odpovědět. Komponovaný text bude působit, jako by esej byla napsána lidskou rukou a myslí. Pokud byste zadali výzvu, která říkala „Řekni mi o Abrahamu Lincolnovi“, generativní AI vám poskytne esej o Lincolnovi. Existují další režimy generativní umělé inteligence, jako je text-to-art a text-to-video. Zde se zaměřím na variantu textu na text.

Vaše první myšlenka by mohla být, že tato generativní schopnost nevypadá jako tak velký problém, pokud jde o vytváření esejů. Můžete snadno vyhledávat online na internetu a snadno najít tuny a tuny esejů o prezidentu Lincolnovi. Nakopnutím v případě generativní umělé inteligence je to, že vytvořená esej je relativně unikátní a poskytuje spíše originální kompozici než napodobeninu. Pokud byste se pokusili najít esej vytvořenou umělou inteligencí někde online, je nepravděpodobné, že byste ji objevili.

Generativní umělá inteligence je předem vycvičená a využívá složitou matematickou a výpočetní formulaci, která byla vytvořena zkoumáním vzorců psaných slov a příběhů na webu. V důsledku zkoumání tisíců a milionů psaných pasáží může AI chrlit nové eseje a příběhy, které jsou mišmašem toho, co bylo nalezeno. Přidáním různých pravděpodobnostních funkcí je výsledný text do značné míry jedinečný ve srovnání s tím, co bylo použito v trénovací sadě.

Existuje mnoho obav z generativní umělé inteligence.

Jednou zásadní nevýhodou je, že eseje vytvořené generativní aplikací založenou na umělé inteligenci mohou obsahovat různé nepravdy, včetně zjevně nepravdivých faktů, faktů, které jsou klamavě zobrazeny, a zjevných faktů, které jsou zcela vymyšlené. Tyto vyrobené aspekty jsou často označovány jako forma AI halucinace, fráze, kterou nemám v oblibě, ale zdá se, že i tak získává na popularitě (podrobné vysvětlení, proč je to mizerná a nevhodná terminologie, najdete v mém příspěvku na odkaz zde).

Další obavou je, že lidé mohou snadno získat zásluhy za generativní esej vytvořenou umělou inteligencí, přestože esej sami nesepsali. Možná jste slyšeli, že učitelé a školy jsou docela znepokojeni vznikem generativních aplikací AI. Studenti mohou potenciálně používat generativní umělou inteligenci k psaní zadaných esejů. Pokud student tvrdí, že esej byla napsána jejich vlastní rukou, je malá šance, že učitel bude schopen rozeznat, zda nebyla zfalšována generativní AI. Pro moji analýzu tohoto matoucího aspektu studenta a učitele viz moje pokrytí na odkaz zde a odkaz zde.

Na sociálních sítích se objevilo několik šílených přehnaných tvrzení Generativní AI tvrdí, že tato nejnovější verze AI je ve skutečnosti vnímající AI (ne, mýlí se!). Ti, kdo se zabývají etikou a právem umělé inteligence, mají z tohoto narůstajícího trendu rozšířených nároků značné obavy. Můžete zdvořile říci, že někteří lidé přeceňují, co dnešní umělá inteligence vlastně umí. Předpokládají, že umělá inteligence má schopnosti, kterých jsme dosud nebyli schopni dosáhnout. To je smůla. A co je ještě horší, mohou dovolit sobě i ostatním, aby se dostali do strašných situací, protože předpokládají, že AI bude vnímavá nebo podobná člověku, pokud jde o schopnost jednat.

Neantropomorfizovat AI.

Pokud tak učiníte, dostanete se do pasti lepkavé a zarputilé spoléhání se na očekávání, že AI bude dělat věci, které není schopna provést. Jak již bylo řečeno, nejnovější generativní AI je relativně působivá na to, co dokáže. Uvědomte si však, že existují významná omezení, která byste měli mít neustále na paměti při používání jakékoli generativní aplikace AI.

Prozatím poslední varování.

Cokoli vidíte nebo čtete v generativní odpovědi AI, že zdá se, chcete-li být předáváni jako čistě faktická (data, místa, lidé atd.), zůstaňte skeptičtí a buďte ochotni znovu zkontrolovat, co vidíte.

Ano, data se dají vymyslet, místa se dají vymyslet a prvky, u kterých obvykle očekáváme, že budou bez výčitek, jsou všechno předmětem podezření. Nevěřte tomu, co čtete, a při zkoumání jakýchkoli generativních esejů nebo výstupů umělé inteligence mějte skeptický pohled. Pokud vám generativní aplikace umělé inteligence řekne, že Abraham Lincoln letěl po zemi ve svém soukromém tryskáči, nepochybně byste věděli, že jde o malárii. Naneštěstí si někteří lidé možná neuvědomují, že tryskáče v jeho době nebyly, nebo by mohli vědět, ale nevšimli si, že esej toto drzé a nehorázně nepravdivé tvrzení uvádí.

Při používání generativní umělé inteligence bude vaším nejlepším přínosem silná dávka zdravé skepse a vytrvalá nedůvěra.

Jsme připraveni přejít do další fáze tohoto objasnění.

Internet a generativní umělá inteligence jsou v tom společně

Nyní, když máte zdání, co je to generativní AI, můžeme prozkoumat nepříjemnou otázku, zda generativní AI spravedlivě nebo nespravedlivě „využívá“, nebo by někdo řekl nestydatě využívání internetový obsah.

Zde jsou moje čtyři zásadní témata související s touto záležitostí:

1) Double Trouble: Plagiátorství a porušení autorských práv
2) Pokuste se dokázat plagiátorství nebo porušení autorských práv
3) Vytváření argumentů pro plagiátorství nebo porušování autorských práv
4) Legální nášlapné miny čekají

Budu se zabývat každým z těchto důležitých témat a nabídnu zasvěcené úvahy, o kterých bychom měli všichni pečlivě přemýšlet. Každé z těchto témat je nedílnou součástí větší skládačky. Nelze se dívat jen na jeden kus. Ani se nemůžete dívat na žádný kus izolovaně od ostatních kusů.

Toto je složitá mozaika a celé skládačce je třeba věnovat náležitou harmonickou úvahu.

Double Trouble: Plagiátorství a porušování autorských práv

Dvojí problém, kterému čelí ti, kteří vytvářejí a využívají generativní AI, spočívá v tom, že jejich zboží může dělat dvě špatné věci:

1) Plagiátorství. Generativní AI by mohla být vykládána jako plagiátorství obsah, který existuje na internetu podle skenování internetu, které proběhlo během trénování dat AI.
2) Porušení autorských práv. Generativní umělá inteligence by mohla být nárokována jako závazek porušování autorských práv související s internetovým obsahem, který byl naskenován během tréninku dat.

Abychom objasnili, na internetu je mnohem více obsahu, než je ve skutečnosti obvykle skenováno pro trénování dat generativní umělé inteligence. Obvykle se používá pouze malý zlomek internetu. Můžeme tedy předpokládat, že jakýkoli obsah, který nebyl naskenován během trénování dat, nemá žádnou zvláštní výhodu s generativní AI.

To je však poněkud diskutabilní, protože byste potenciálně mohli nakreslit čáru, která spojuje jiný obsah, který byl naskenován, s obsahem, který skenován nebyl. Další důležitou výhradou je také to, že i když existuje obsah, který nebyl naskenován, stále by se dalo tvrdit, že jde o plagiát a/nebo porušení autorských práv, pokud výstupy generativní umělé inteligence pravděpodobně dopadnou na stejnou slovesnost. Jde mi o to, že v tom všem je hodně zmatků.

Sečteno a podtrženo: Generativní umělá inteligence je plná potenciálních právních rébusů týkajících se etiky a zákona o umělé inteligenci, pokud jde o plagiátorství a porušování autorských práv podporující převládající praktiky školení v oblasti dat.

Tvůrci umělé inteligence a výzkumníci umělé inteligence doposud projížděli tímto celkem bez úhony, navzdory vztyčujícímu se a nejistě visícímu meči, který nad nimi visí. Proti těmto praktikám bylo dosud zahájeno pouze několik soudních sporů. Možná jste slyšeli nebo viděli zpravodajské články o takových právních akcích. Jedna například zahrnuje společnosti Midjourney a Stability AI převádějící text na obrázek za porušování autorských práv k uměleckému obsahu zveřejněnému na internetu. Další znamená porušení převodu textu na kód proti GitHubu, Microsoftu a OpenAI kvůli softwaru Copilot produkujícímu aplikace AI. Getty Images se také snažila jít po Stability AI kvůli porušování textu na obrázek.

Dá se předpokládat, že takových žalob bude přibývat.

Právě teď je trochu šance zahájit tyto soudní spory, protože výsledek je relativně neznámý. Přikloní se soud na stranu tvůrců umělé inteligence, nebo vyhrají ti, kteří věří, že jejich obsah byl nespravedlivě zneužit? Nákladná právní bitva je vždy vážná věc. Vynaložení rozsáhlých právních nákladů musí být porovnáno s šancemi na výhru nebo prohru.

Zdá se, že tvůrci umělé inteligence nemají téměř žádnou jinou možnost, než bojovat. Pokud by ustoupili, byť jen trochu, je pravděpodobné, že by to vyústilo v příval dalších soudních sporů (v podstatě by otevřeli dveře zvýšeným šancím, že zvítězí i ostatní). Jakmile je ve vodě legální krev, zbývající legální žraloci se dostanou k uvažovanému „snadnému skóre“ a jistě by nastala krvavá krvavá lázeň.

Někteří se domnívají, že bychom měli přijmout nové zákony o AI, které by chránily tvůrce AI. Ochrana může být dokonce zpětná. Základem toho je, že pokud chceme vidět generativní pokroky AI, musíme dát tvůrcům AI nějakou dráhu bezpečné zóny. Jakmile začnou soudní spory skórovat vítězství proti tvůrcům umělé inteligence, pokud k tomu dojde (zatím nevíme), existuje obava, že generativní umělá inteligence vyprchá, protože nikdo nebude ochoten podporovat firmy zabývající se umělou inteligencí.

Jak bylo obratně zdůrazněno v nedávném článku zákona Bloomberg nazvaném „ChatGPT: IP, kybernetická bezpečnost a další právní rizika generativní umělé inteligence“ od Dr. Iliy Koločenka a Gordona Platta, zákon Bloomberg, únor 2023, zde jsou dva zásadní úryvky, které odrážejí tyto názory:

„Mezi americkými právními vědci a profesory práva duševního vlastnictví nyní zuří vzrušená debata o tom, zda neoprávněné seškrabování a následné použití dat chráněných autorským právem představuje porušení autorských práv. Pokud převáží názor právníků, kteří v takové praxi vidí porušování autorských práv, uživatelé takových systémů umělé inteligence mohou být také odpovědní za sekundární porušení a potenciálně čelit právním důsledkům.“
"Aby zákonodárci komplexně řešili tento problém, měli by zvážit nejen modernizaci stávající legislativy o autorských právech, ale také implementaci souboru zákonů a předpisů specifických pro umělou inteligenci."

Připomeňme, že jako společnost jsme zavedli právní ochranu rozšíření internetu, jak je nyní svědkem Nejvyššího soudu při přezkumu slavného nebo nechvalně známého § 230. Zdá se tedy, že v rozumné míře a precedentu bychom mohli být ochotni udělat nějakou podobnou ochranu pro rozvoj generativní umělé inteligence. Možná by ochrany mohly být nastaveny dočasně a jejich platnost vyprší poté, co generativní umělá inteligence dosáhne určité předem stanovené úrovně odbornosti. Mohla by být navržena jiná ochranná opatření.

Brzy zveřejním svou analýzu toho, jak by hodnocení Nejvyššího soudu a konečné rozhodnutí o § 230 mohlo ovlivnit příchod generativní umělé inteligence. Sledujte tento nadcházející příspěvek!

Zpět k ostře vyjádřenému názoru, že bychom měli ponechat prostor pro společenskou úctu vzbuzující technologickou inovaci známou jako generativní AI. Někdo by řekl, že i když k proklamovanému porušení autorských práv dochází nebo k němu dochází, společnost jako celek by měla být ochotna to umožnit pro specifické účely rozvoje generativní umělé inteligence.

Doufáme, že nové zákony o umělé inteligenci budou pečlivě vytvořeny a vyladěny na podrobnosti spojené s tréninkem dat pro generativní umělou inteligenci.

Proti této představě o vymýšlení nových zákonů o umělé inteligenci pro tento účel existuje spousta protiargumentů. Jednou z obav je, že každý takový nový zákon o umělé inteligenci otevře stavidla pro všechny způsoby porušování autorských práv. Budeme litovat dne, kdy jsme dovolili, aby se takové nové zákony o umělé inteligenci dostaly do knih. Bez ohledu na to, jak moc se to snažíte omezit pouze na trénink dat AI, ostatní záludně nebo chytře najdou mezery, které budou představovat neomezené a nekontrolovatelné porušování autorských práv.

Argumenty jdou dokola.

Jeden argument, který nijak zvlášť neobstojí, souvisí se snahou žalovat samotnou AI. Všimněte si, že jsem označoval tvůrce AI nebo výzkumníky AI jako viníky. To jsou lidé a firmy. Někteří navrhují, že bychom měli cílit na AI jako na stranu, která bude žalována. Ve svém sloupku jsem obšírně diskutoval o tom, že dosud nepřipisujeme AI právnickou osobu, viz odkaz zde například, a tak by takové žaloby zaměřené na AI jako takové byly právě teď považovány za nesmyslné.

Jako doplněk k otázce, kdo nebo co by měl být žalován, to přináší další šťavnaté téma.

Předpokládejme, že konkrétní generativní aplikaci AI vymyslel nějaký výrobce AI, kterému budeme říkat Widget Company. Společnost Widget je relativně malá a nemá velké příjmy, ani moc majetku. Žalovat je pravděpodobně nepřinese velké bohatství, o které by člověk mohl usilovat. Nanejvýš byste měli uspokojení z nápravy toho, co vnímáte jako špatné.

Chcete jít za velkou rybou.

Zde je návod, jak to vznikne. Tvůrce AI se rozhodl zpřístupnit svou generativní AI společnosti Big Time Company, velkému konglomerátu se spoustou těsta a spoustou aktiv. Žaloba s názvem Widget Company by nyní měla ve výhledu lepší cíl, a to také pojmenováním Big Time Company. Toto je boj Davida a Goliáše, který by si právníci vychutnali. Samozřejmě, Big Time Company se nepochybně pokusí vykroutit z rybářského háku. Zda to mohou udělat, je opět právní otázka, která je nejistá a mohli by se beznadějně utápět v bahně.

Než se k tomu dostaneme mnohem dále, rád bych dostal na stůl něco zásadního o sporných zásazích generativní umělé inteligence kvůli tréninku dat. Jsem si jistý, že intuitivně chápete, že plagiátorství a porušování autorských práv jsou dvě poněkud odlišné bestie. Mají mnoho společného, i když se také výrazně liší.

Zde je praktický stručný popis z Duke University, který vysvětluje tyto dva:

„Plagiátorství lze nejlépe definovat jako nepřiznané použití práce jiné osoby. Jde o etický problém týkající se nároku na úvěr za práci, kterou žadatel nevytvořil. Člověk může plagiovat dílo někoho jiného bez ohledu na stav autorských práv k tomuto dílu. Například je nicméně plagiátorství kopírovat z knihy nebo článku, které jsou příliš staré na to, aby byly chráněny autorským právem. Plagiátorstvím je také použití dat převzatých z neuznaného zdroje, i když faktický materiál, jako jsou data, nemusí být chráněn autorským právem. Plagiátorství se však dá snadno vyléčit – správná citace původního zdroje materiálu.“
„Porušením autorských práv je naopak neoprávněné užití cizího díla. Jedná se o právní problém, který závisí na tom, zda je dílo chráněno autorským právem či nikoli, a také na specifikách, jako je množství a účel použití. Pokud někdo zkopíruje příliš mnoho chráněného díla nebo zkopíruje pro neoprávněný účel, pouhé uznání původního zdroje problém nevyřeší. Pouze tím, že si předem vyžádáte povolení od držitele autorských práv, se vyhnete riziku obvinění z porušení práv.“

Zdůrazňuji důležitost těchto dvou obav, abyste si uvědomili, že nápravná opatření se mohou podle toho lišit. Oba jsou také zapleteni do úvah prostupujících etiku umělé inteligence a právo umělé inteligence, takže je stejně vhodné prozkoumat.

Pojďme prozkoumat nárokovaný lék nebo řešení. Uvidíte, že to může pomoci jednomu z dvojitých problémů, ale ne druhému.

Někteří trvali na tom, že vše, co musí tvůrci AI udělat, je citovat své zdroje. Když generativní umělá inteligence vytvoří esej, uveďte pouze konkrétní citace toho, co je v eseji uvedeno. Uveďte různé adresy URL a další údaje o tom, jaký internetový obsah byl použit. Zdá se, že je to osvobodí od výčitek ohledně plagiátorství. Vydaná esej by pravděpodobně jasně identifikovala, jaké zdroje byly použity pro vytvářenou formulaci.

V tomto nárokovaném řešení jsou určité dohady, ale na úrovni 30,000 XNUMX stop řekněme, že to slouží jako částečně uspokojivý lék na dilema plagiátorství. Jak je uvedeno výše ve vysvětlení porušování autorských práv, citování zdrojového materiálu vás nemusí nutně dostat z boudy. Za předpokladu, že obsah byl chráněn autorskými právy, a v závislosti na dalších faktorech, jako je množství materiálu, které bylo použito, může očekávaný meč porušování autorských práv prudce a s konečnou platností spadnout dolů.

Dvojitý problém je zde heslem.

Budeme se snažit dokázat plagiátorství nebo porušení autorských práv

Dokažte to!

To je ten otřepaný refrén, který jsme všichni slyšeli v různých obdobích svého života.

Víš, jak to chodí. Můžete tvrdit, že se něco děje nebo stalo. Možná ve svém srdci víte, že se to stalo. Ale když dojde na zatlačení proti strčení, musíte mít důkaz.

V dnešním jazyce je potřeba ukázat příjmy, jak říkají.

Moje otázka na vás je tato: Jak prokazatelně prokážeme, že generativní umělá inteligence nevhodně zneužila internetový obsah?

Člověk předpokládá, že odpověď by měla být snadná. Požádáte nebo řeknete generativní AI, aby vytvořila esej. Poté si vezmete esej a porovnáte ji s tím, co lze najít na internetu. Pokud najdete esej, bum, máte generativní AI přibitou k pověstné zdi.

Zdá se, že život nikdy není tak snadný.

Představte si, že získáme generativní umělou inteligenci k vytvoření eseje, která obsahuje asi 100 slov. Jdeme kolem a snažíme se dostat do všech zákoutí internetu a hledáme těch 100 slov. Pokud najdeme 100 slov zobrazených ve stejném přesném pořadí a identickým způsobem, zdá se, že jsme se chytli za slovo.

Předpokládejme však, že na internetu najdeme zdánlivě „srovnatelný“ esej, přestože odpovídá pouze 80 ze 100 slov. To se zdá ještě dostačující, možná. Představte si ale, že najdeme pouze instanci 10 slov ze 100, která se shodují. Stačí to k tvrzení, že buď došlo k plagiátorství, nebo že došlo k porušení autorských práv?

Šedost existuje.

Text je tak vtipný.

Porovnejte to s poměry text-to-image nebo text-to-art. Když generativní umělá inteligence poskytuje možnost převodu textu na obrázek nebo textu na umění, zadáte textovou výzvu a aplikace AI vytvoří obrázek na základě výzvy, kterou jste poskytli. Obrázek se může lišit od jakéhokoli obrázku, který byl kdy viděn na této nebo jakékoli jiné planetě.

Na druhou stranu může obrázek připomínat jiné obrázky, které existují. Můžeme se podívat na generativní obrázek vytvořený AI a trochu instinktem říci, že to určitě vypadá jako nějaký jiný obrázek, který jsme již viděli. Obecně platí, že vizuální aspekty porovnávání a kontrastu jsou o něco snadněji provedeny. Jak již bylo řečeno, vězte, že rozsáhlé právní debaty zajišťují, co představuje překrývání nebo replikaci jednoho obrázku s jiným.

Další podobná situace je u hudby. Existují generativní aplikace AI, které vám umožňují zadat textovou výzvu a výstupem vytvořeným AI je zvuková hudba. Tyto funkce umělé inteligence pro převod textu na zvuk nebo text na hudbu se právě začínají objevovat. Jedna věc, na kterou můžete vsadit svůj nejvyšší dolar, je, že hudba produkovaná generativní umělou inteligencí bude podrobena důkladné kontrole kvůli porušení práv. Zdá se, že víme, když slyšíme hudební porušení, i když se opět jedná o složitý právní problém, který není založen pouze na tom, jak se cítíme ohledně vnímané replikace.

Dovolte mi ještě jeden příklad.

Generativní umělá inteligence převodu textu na kód vám poskytuje možnost zadat textovou výzvu a umělá inteligence za vás vytvoří programovací kód. Tento kód pak můžete použít pro přípravu počítačového programu. Můžete použít kód přesně tak, jak byl vygenerován, nebo se můžete rozhodnout kód upravit a upravit tak, aby vyhovoval vašim potřebám. Je také potřeba se ujistit, že kód je vhodný a funkční, protože je možné, že ve vygenerovaném kódu mohou vzniknout chyby a nepravdy.

Vaším prvním předpokladem může být, že programovací kód se neliší od textu. Je to jen text. Jistě, je to text, který poskytuje konkrétní účel, ale stále je to text.

No, ne přesně. Většina programovacích jazyků má přísný formát a strukturu podle povahy kódovacích příkazů daného jazyka. To je v jistém smyslu mnohem užší než volně plynoucí přirozený jazyk. Jste poněkud zaškatulkovaní v tom, jak jsou formulovány kódovací příkazy. Stejně tak sekvence a způsob, jakým jsou příkazy využívány a uspořádány, jsou poněkud ohraničeny.

Sečteno a podtrženo, možnost předvést, že programovací kód byl plagiát nebo porušen autorská práva, je téměř snazší než celý přirozený jazyk. Když tedy generativní umělá inteligence skenuje programovací kód na internetu a později vygeneruje programovací kód, šance na argument, že kód byl nestydatě replikován, bude relativně přesvědčivější. Nejedná se o slam dunk, takže očekávejte, že se kvůli tomu svedou líté bitvy.

Mým hlavním bodem je, že budeme mít stejné problémy s etikou AI a zákonem o AI, které budou konfrontovat všechny režimy generativní AI.

Plagiátorství a porušování autorských práv bude problematické pro:

Převod textu na text nebo text na esej
Text-to-Image nebo Text-to-Art
Text-to-audio nebo text-to-hudba
Převod textu na video
Převod textu do kódu
Atd.

Všichni podléhají stejným obavám. Některé může být o něco snazší „prokázat“ než jiné. Všichni budou mít své vlastní různé noční můry o etice a zákonech AI.

Navrhování případu plagiátorství nebo porušování autorských práv

Pro účely diskuse se zaměřme na generativní umělou inteligenci pro převod textu na text nebo text na esej. Činím tak částečně kvůli obrovské popularitě ChatGPT, což je typ generativní umělé inteligence typu text-to-text. Mnoho lidí používá ChatGPT a mnoho dalších používá různé podobné aplikace AI pro generování textu na text.

Vědí lidé, kteří používají generativní aplikace AI, že se potenciálně spoléhají na plagiátorství nebo porušení autorských práv?

Zdá se pochybné, že ano.

Troufám si říci, že převládajícím předpokladem je, že pokud je generativní aplikace umělé inteligence dostupná k použití, musí tvůrce umělé inteligence nebo společnost, která umělou inteligenci nasadit, vědět nebo si být jisti, že na zboží, které nabízejí k použití, není nic neobvyklého. Pokud ji můžete použít, musí být nad palubou.

Vraťme se k mému dřívějšímu komentáři o tom, jak se pokusíme dokázat, že konkrétní generativní AI pracuje na nesprávném základě, pokud jde o trénink dat.

Mohl bych také dodat, že pokud při tom dokážeme chytit jednu generativní AI, šance na zachycení ostatních se pravděpodobně zvýší. Neříkám, že všechny generativní aplikace AI by byly na stejné lodi. Jakmile bude jeden z nich přišpendlen ke zdi, ocitnou se v poněkud drsných mořích.

Proto také bude nesmírně užitečné sledovat stávající soudní spory. První, která vyhraje, pokud jde o nárokované porušení, pokud k tomu dojde, bude pravděpodobně znamenat zkázu a temnotu pro ostatní generativní aplikace umělé inteligence, pokud nějaká omezenost neunikne širším problémům. Ty, které prohrají v údajném porušení práv, nemusí nutně znamenat, že generativní aplikace AI mohou zvonit a slavit. Je možné, že ztráta je připisována jiným faktorům, které nejsou tak relevantní pro ostatní generativní aplikace AI a tak dále.

Zmínil jsem se, že pokud vezmeme esej o 100 slovech a pokusíme se najít tato přesná slova v přesně stejném pořadí na internetu, mohli bychom mít relativně solidní argumenty pro plagiátorství nebo porušení autorských práv, pokud by vše ostatní bylo stejné. Ale pokud je počet shodných slov nízký, zdálo by se, že jsme na tenkém ledě.

Rád bych se v tom ponořil hlouběji.

Zřejmým aspektem srovnání je přesně stejná slova v přesně stejném pořadí. K tomu může dojít u celých pasáží. Bylo by vhodné to zjistit, skoro jako by nám byl předán na stříbrném podnose.

Mohli bychom být také podezřelí, kdyby se shodoval pouze úryvek slov. Cílem by bylo zjistit, zda jsou to klíčová slova nebo možná výplňová slova, která můžeme snadno odstranit nebo ignorovat. Také se nechceme nechat oklamat používáním slov v jejich minulém nebo budoucím čase nebo jinou blbostí. Tyto variace ve slovech by měly být také zváženy.

Jiná úroveň srovnání by byla, když slova nejsou do značné míry stejná slova, přesto se zdá, že slova i v různém stavu stále poukazují na stejné body. Například shrnutí bude často používat velmi podobná slova jako původní zdroj, ale můžeme zjistit, že shrnutí se zdá být založeno na původním zdroji.

Nejtěžší úroveň srovnání by byla založena na konceptech nebo nápadech. Předpokládejme, že vidíme esej, která nemá stejná nebo podobná slova jako srovnávací základ, ale podstata nebo myšlenky jsou stejné. Přiznáváme, že se dostáváme do drsného území. Pokud bychom ochotně řekli, že myšlenky jsou přísně chráněny, zakryli bychom téměř všechny formy znalostí a rozšiřování znalostí.

Můžeme ještě jednou odkázat na užitečné vysvětlení z Duke University:

„Autorská práva nechrání myšlenky, pouze konkrétní vyjádření myšlenky. Soud například rozhodl, že Dan Brown při psaní neporušil autorská práva k dřívější knize Da Vinci Code protože vše, co si vypůjčil z dřívějšího díla, byly základní myšlenky, nikoli specifika zápletky nebo dialogu. Vzhledem k tomu, že autorská práva mají podporovat kreativní produkci, použití něčích nápadů k vytvoření nového a originálního díla podporuje účel autorských práv, neporušuje je. Pouze pokud jeden zkopíruje cizí výraz bez povolení, může dojít k porušení autorských práv.“
„Na druhou stranu, abychom se vyhnuli plagiátorství, musíme uznat zdroj i myšlenek, které jsou vypůjčeny od někoho jiného, bez ohledu na to, zda je vyjádření těchto myšlenek vypůjčeno s nimi. Parafráze tedy vyžaduje citaci, i když jen zřídka vyvolává jakýkoli problém s autorským právem.“

Vezměte prosím na vědomí, jak bylo dříve identifikováno rozdíly mezi fasetami dvojitého problému.

Zavádění srovnávacích přístupů do praxe je tedy něco, co se děje již mnoho let. Přemýšlejte o tom takto. Studenti, kteří píší eseje pro svou školní práci, mohou být v pokušení chytit obsah z internetu a předstírat, že jsou autory slov oceněných Pulitzerovou cenou třídy A.

Učitelé k tomu již delší dobu používají programy na kontrolu plagiátorství. Učitel vezme studentovu esej a vloží ji do kontroly plagiátorství. V některých případech získá licenci na používání programu na kontrolu plagiátů celá škola. Kdykoli studenti odevzdávají esej, musí nejprve odeslat esej do programu pro kontrolu plagiátorství. Učitel je informován o tom, co program hlásí.

Bohužel musíte být velmi opatrní ohledně toho, co tyto programy na kontrolu plagiátorství říkají. Je důležité pečlivě posoudit, zda jsou hlášené indikace platné. Jak již bylo zmíněno, schopnost zjistit, zda bylo dílo zkopírováno, může být mlhavé. Pokud bezmyšlenkovitě přijmete výsledek kontrolního programu, můžete studenta falešně obvinit z kopírování, když tak neučinil. To může být na duši.

Pokračujeme, můžeme zkusit použít programy na kontrolu plagiátů v oblasti testování generativních výstupů AI. Zacházejte s vydanými eseji z generativní aplikace AI, jako by je napsal student. Potom změříme, co říká kontrolor plagiátorství. To se provádí s rezervou.

Existuje nedávná výzkumná studie, která se pokusila zprovoznit tyto typy srovnání v kontextu generativní umělé inteligence právě tímto způsobem. Rád bych s vámi prošel pár zajímavých poznatků.

Nejprve je nutné přidat nějaké pozadí. Generativní AI je někdy označována jako LLM (velké jazykové modely) nebo jednoduše LM (jazykové modely). Za druhé, ChatGPT je založen na verzi jiného generativního balíčku AI OpenAI s názvem GPT-3.5. Před GPT-3.5 existoval GPT-3 a předtím GPT-2. V dnešní době je GPT-2 považován za poněkud primitivní ve srovnání s pozdějšími řadami a všichni netrpělivě očekáváme blížící se odhalení GPT-4, viz moje diskuze na odkaz zde.

Výzkumná studie, kterou chci krátce prozkoumat, se skládala ze zkoumání GPT-2. To je důležité si uvědomit, protože nyní jsme dále za možnostmi GPT-2. Nedělejte žádné unáhlené závěry ohledně výsledků této analýzy GPT-2. Přesto se z hodnocení GPT-2 můžeme hodně naučit. Studie se jmenuje "Plagiují jazykové modely?" od Jooyoung Lee, Thai Le, Jinghui Chen a Dongwon Lee, které se objevují na ACM WWW '23, 1.–5. května 2023, Austin, TX, USA.

Toto je jejich hlavní výzkumná otázka:

"Do jaké míry (neomezeno na memorování) využívají LM fráze nebo věty ze svých tréninkových vzorků?"

Použili tyto tři úrovně nebo kategorie potenciálního plagiátorství:

"Doslovný plagiát: Přesné kopie slov nebo frází bez transformace."
"Plagiátorství parafrází: Synonymní substituce, změna pořadí slov a/nebo zpětný překlad."
"Plagiátorství nápadů: Reprezentace základního obsahu v prodloužené formě."

GPT-2 byl skutečně trénován na internetových datech a je tedy vhodným kandidátem pro tento typ analýzy:

„GPT-2 je předtrénovaný na WebText a obsahuje více než 8 milionů dokumentů získaných ze 45 milionů odkazů na Reddit. Vzhledem k tomu, že OpenAI veřejně nevydala WebText, používáme OpenWebText, což je open-source obnova korpusu WebText. Dřívější literatura jej spolehlivě používala.“

Selektivní klíčová zjištění vyjmutá ze studie zahrnují:

"Zjistili jsme, že předem vyškolené rodiny GPT-2 plagiují z OpenWebText."
"Naše zjištění ukazují, že jemné ladění výrazně snižuje případy doslovného plagiátorství z OpenWebText."
“V souladu s Carlini et al. a Carlini et al. zjistili, že větší modely GPT-2 (large a xl) obecně generují plagiované sekvence častěji než menší.“
"Nicméně různé LM mohou vykazovat různé vzorce plagiátorství, a proto naše výsledky nemusí přímo zobecňovat na jiné LM, včetně novějších LM, jako je GPT-3 nebo BLOOM."
„Navíc je známo, že automatické detektory plagiátorství mají mnoho způsobů selhání (jak ve falešně negativních, tak falešně pozitivních).
„Vzhledem k tomu, že většina školicích dat LM je stažena z webu bez informování vlastníků obsahu, jejich opakování slov, frází a dokonce i základních myšlenek z tréninkových sad do generovaných textů má etické důsledky.“

Rozhodně potřebujeme mnohem více studií tohoto druhu.

Pokud vás zajímá, jak si GPT-2 stojí v porovnání s GPT-3, pokud jde o trénování dat, je zde poměrně výrazný kontrast.

Podle hlášených indicií bylo datové školení pro GPT-3 mnohem rozsáhlejší:

„Model byl trénován pomocí textových databází z internetu. To zahrnovalo neuvěřitelných 570 GB dat získaných z knih, webových textů, Wikipedie, článků a dalších písemností na internetu. Abych byl ještě přesnější, do systému bylo vloženo 300 miliard slov“ (BBC Science Focus časopis, „ChatGPT: Vše, co potřebujete vědět o nástroji OpenAI GPT-3“ od Alexe Hughese, únor 2023).

Pro ty z vás, kteří mají zájem o podrobnější popisy tréninku dat pro GPT-3, je zde úryvek z oficiální karty modelu GPT-3 zveřejněné na GitHubu (poslední aktualizované datum je uvedeno v září 2020):

„Tréninkový soubor GPT-3 se skládá z textu zveřejněného na internetu nebo z textu nahraného na internet (např. knihy). Mezi internetová data, na kterých byla doposud trénována a s nimiž byla vyhodnocena, patří: (1) verze datového souboru CommonCrawl, filtrovaná na základě podobnosti s vysoce kvalitními referenčními korpusy, (2) rozšířená verze datového souboru Webtext, (3 ) dva internetové knižní korpusy a (4) Wikipedii v anglickém jazyce.“
„Vzhledem k jeho tréninkovým datům jsou výstupy a výkon GPT-3 více reprezentativní pro populaci připojenou k internetu než pro ty, kteří jsou ponořeni do verbální, nedigitální kultury. Populace připojená k internetu spíše zastupuje rozvinuté země, má bohaté, mladší a mužské názory a je převážně zaměřena na USA. Bohatší národy a populace ve vyspělých zemích vykazují vyšší penetraci internetu. Digitální genderová propast také ukazuje, že celosvětově je na internetu zastoupeno méně žen. Navíc, protože různé části světa mají různé úrovně pronikání a přístupu k internetu, soubor dat nedostatečně reprezentuje méně propojené komunity.“

Jedním z poznatků z výše uvedených údajů o GPT-3 je, že mezi těmi, které vytvářejí generativní umělou inteligenci, platí pravidlo, že čím více internetových dat dokážete naskenovat, tím se zvýší šance na zlepšení nebo vylepšení generativní umělé inteligence.

Můžete se na to podívat jedním ze dvou způsobů.

1) vylepšená AI. Budeme mít generativní AI, která projde co největší část internetu. Vzrušujícím výsledkem je, že generativní AI bude lepší než dosud. To je něco, na co se můžete těšit.
2) Kopírování spousty potenciálních. Toto rozšíření skenování internetu odporně a poutavě činí problém plagiátorství a porušování autorských práv potenciálně větším a větším. Zatímco dříve nebylo ovlivněno tolik tvůrců obsahu, velikost bude kvést. Pokud jste právník na straně tvůrců obsahu, vhání vám to slzy do očí (možná slzy zděšení nebo slzy radosti z toho, jaké vyhlídky to přináší, pokud jde o soudní spory).

Je sklenice poloplná nebo poloprázdná?

Vy rozhodujete.

Legální nášlapné miny čekají

Otázkou, nad kterou možná přemýšlíte, je, zda je váš zveřejněný internetový obsah považován za férovou hru, protože byl skenován. Pokud se váš obsah nachází za paywallem, pravděpodobně to není cíl pro skenování, protože jej nelze snadno dosáhnout v závislosti na síle paywallu.

Hádal bych, že většina běžných lidí nemá svůj obsah schovaný za paywallem. Chtějí, aby jejich obsah byl veřejně dostupný. Předpokládají, že se na to lidé podívají.

Znamená to, že je váš obsah veřejně dostupný, také axiomaticky, že schvalujete jeho skenování pro použití generativní AI, která je trénována na základě dat?

Možná ano možná ne.

Je to jedna z těch právnických záležitostí.

Vrátím se k dříve citovanému Bloombergův zákon autoři zmiňují důležitost obchodních podmínek (VOP) spojených s mnoha weby:

„Právní nášlapná mina – značně ignorovaná nevědomými společnostmi s umělou inteligencí, které provozují online roboty pro získávání dat – je skryta v podmínkách běžně dostupných na veřejných webových stránkách všech typů. Na rozdíl od aktuálně neurovnaného zákona o duševním vlastnictví a dilematu porušování autorských práv jsou podmínky webových stránek podpořeny dobře zavedeným smluvním právem a obvykle je lze vymáhat u soudu na základě dostatečného počtu precedentů.“

Naznačují, že za předpokladu, že váš web má stránku související s licencováním, je pravděpodobné, že pokud jste použili standardizovanou moderní šablonu, mohla by obsahovat zásadní klauzuli:

„Většina standardních smluvních podmínek pro webové stránky – hojně dostupných ve volném přístupu – tedy obsahuje klauzuli zakazující automatizované škrábání dat. Je ironií, že takové volně dostupné šablony byly možná použity pro školení ChatGPT. Vlastníci obsahu si proto mohou přát, aby si přečetli své smluvní podmínky a vložili samostatnou klauzuli zakazující veškeré používání jakéhokoli obsahu z webových stránek pro školení AI nebo pro jakékoli související účely, ať už shromažďované ručně nebo automaticky, bez předchozího písemného souhlasu vlastníka webových stránek. .“

Do jejich analýzy potenciálních akcí, které mohou tvůrci obsahu na svých webech podniknout, je zahrnut další nakopávací prvek:

„Proto vložení vymahatelného ustanovení o náhradě škody za každé porušení klauzule o zákazu skartace, doplněné ustanovením o soudním zákazu bez závazku, může být udržitelným řešením pro ty autory kreativního obsahu, kteří nechtějí poskytovat plody svého intelektuální práce pro účely výcviku umělé inteligence, aniž by za to byla placena nebo alespoň za svou práci náležitě oceněna.“

Možná byste se o tom měli poradit se svým právníkem.

Někteří říkají, že je to životně důležitý způsob, jak se pokusit říct tvůrcům umělé inteligence, že tvůrci obsahu berou ochranu svého obsahu vážně. Zdá se, že ujištění, že vaše licence má správné znění, upozorní tvůrce umělé inteligence.

Jiní jsou však trochu skleslí. Sklíčeně říkají, že můžete přistoupit k tomu, abyste na svůj web umístili ten nejdrsnější a nejsmrtelnější právní jazyk, ale nakonec to tvůrci AI prohledají. Nebudete vědět, že tak učinili. Budete mít ďábelský čas dokázat, že ano. Je nepravděpodobné, že zjistíte, že jejich výstupy odrážejí váš obsah. Je to těžká bitva, kterou nevyhrajete.

Protiargumentem je, že se vzdáváte bitvy ještě předtím, než byla svedena. Pokud alespoň neovládáte dostatečný právní jazyk, a pokud je někdy chytíte, zavrtí se a prorazí si cestu, aby unikli jakékoli odpovědnosti. To vše proto, že jsi nezveřejnil ten správný právní žargon.

Mezitím by další přístup, který se snaží získat trakci, spočíval v označení váš web s něčím, co říká, že web nemá být skenován generativní AI. Myšlenka je taková, že by byl navržen standardizovaný marker. Webové stránky by pravděpodobně mohly přidat značku na své stránky. Tvůrcům umělé inteligence by bylo řečeno, že by měli změnit skenování dat tak, aby přeskakovali označené webové stránky.

Může být markerový přístup úspěšný? Obavy zahrnují náklady na získání a umístění značek. Spolu s tím, zda se tvůrci AI budou řídit značkami a zajistí, že se vyhnou skenování označených míst. Další perspektivou je, že i když se tvůrci AI neshodují se značením, poskytuje to další výmluvné vodítko pro to, abyste se obrátili na soud a tvrdili, že tvůrce obsahu šel poslední míli, aby se pokusil varovat před skenováním AI.

Fuj, z toho všeho se ti točí hlava.

Proč investovat do čističky vzduchu?

Pár poznámek na závěr k tomuto ožehavému tématu.

Jste připraveni na ohromující pohled na celou tuto AI jako na dilema plagiátora a porušovatele autorských práv?

Velká část předpokladů o „chytání“ generativní umělé inteligence při plagiátorství nebo porušování autorských práv závisí na objevování výstupů, které velmi podobat předchozí díla, jako je obsah na internetu, který byl potenciálně skenován během tréninku dat.

Předpokládejme však, že se zde hraje o trik rozděl a panuj.

Tady mám na mysli.

Pokud si generativní umělá inteligence vypůjčí malý kousek odsud a malý kousek odtamtud a nakonec je smísí dohromady a vytvoří jakýkoli konkrétní výstup, šance, že budete moci zažít trapný okamžik, se ohromně sníží. Žádný výstup se zdánlivě nezvýší na dostatečnou hranici, abyste mohli s jistotou říci, že byl zkopírován z jedné konkrétní zdrojové položky. Výsledný esej nebo jiné způsoby výstupu budou kompatibilní pouze částečně. A obvyklým přístupem, kdy se snažíte argumentovat, že došlo k plagiátorství nebo porušení autorských práv, obvykle musíte předvést více, než je ve hře nějaká malinká maličkost, zvláště pokud toto sousto není výjimečné a lze jej nalézt široce na internetu (podceňování jakékoli přiměřené důkazní břemeno zpronevěry).

Dokážete stále přesvědčivě prohlásit, že trénování dat pomocí generativní umělé inteligence okradlo webové stránky a tvůrce obsahu, i když navrhovaný důkaz je zdánlivě nepodstatný?

Přemýšlej o tom.

Pokud čelíme potenciálnímu plagiátorství ve velkém měřítku a porušování autorských práv ve velkém, možná budeme muset změnit náš přístup k definování toho, co představuje plagiátorství a/nebo porušení autorských práv. Možná je třeba podat žalobu za plagiátorství nebo porušení autorských práv obecně nebo obecně. Mozaika skládající se z tisíců nebo milionů nepatrných útržků by mohla být považována za spáchání takového porušení. Zdánlivý problém však spočívá v tom, že to může způsobit, že se jakýkoli obsah náhle dostane pod deštník porušení. To může být kluzký svah.

Těžké myšlenky.

Když mluvil o velkých myšlenkách, Leo Tolstoj, legendární spisovatel, skvěle prohlásil: „Jediným smyslem života je sloužit lidstvu.

Pokud jsou vaše webové stránky a webové stránky ostatních skenovány kvůli vylepšení AI, a ačkoli za to nedostanete ani cent, můžete mít vážnou útěchu v horoucí víře, že přispíváte k budoucnosti lidstva? Zdá se, že je to malá cena.

Tedy, pokud se neukáže AI jako obávané existenční riziko, které vymaže všechny lidi z existence. Neměli byste si za to brát zásluhy. Předpokládám, že byste stejně brzy nepřispěli k tomuto hroznému výsledku. Ponecháme-li stranou tuto katastrofální předpověď, možná si myslíte, že pokud tvůrci umělé inteligence vydělávají peníze na své generativní umělé inteligenci a zdá se, že si vychutnávají prospěchářství, měli byste také dostat kus koláče. Sdílejte a sdílejte stejně. Tvůrci umělé inteligence by měli požádat o povolení skenovat jakoukoli webovou stránku a poté také vyjednat cenu, kterou zaplatí za to, že bylo povoleno skenování provést.

Uveďte úvěr tam, kde je úvěr splatný.

Dejme prozatím poslední slovo siru Walteru Scottovi: „Ach, jakou zamotanou pavučinu pleteme. Když poprvé cvičíme, abychom klamali."

To možná platí, pokud věříte, že dochází ke klamání, nebo možná neplatí, pokud si myslíte, že je vše v pořádku, naprosto přímé a legitimní. Prosím, velkoryse si dejte uznání za to, že jste si to promysleli. Zasloužíš si to.

Zdroj: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- a-ai-law/