Co znamená nový převod textu do 3D společnosti Nvidia pro inženýrství a design produktů

tl; dr: Generativní AI se vyvíjí vzrušujícím tempem. Nejnovější algoritmus společnosti Nvidia převádí text na 3D síť dvakrát rychleji než projekty publikované sotva před 2 měsíci. To znamená, že technické možnosti již nyní převyšují naši schopnost s nimi pracovat.

Minulý týden papír Vědci z Nvidie prokázali exponenciální rychlost, jakou se generativní AI prostor vyvíjí. Tato exploze aktivity – zvláště viditelná za posledních 9 měsíců – bude mít dopad na každou část života, v neposlední řadě na design produktu, konstrukci a výrobu. Změny osvobodí průmysl od strukturálních omezení ve způsobu, jakým jsou nápady sdělovány, umožní rychlejší inovační cykly a nakonec mu umožní plnit své sliby udržitelnosti.

Příklad sítí z algoritmů Magic 3D Nvidia Research s výzvami použitými k jejich generování.

Nvidia Deep Imagination Research

Protože se léta říkalo, že umělá inteligence zásadně změní způsob naší práce, málokdo očekával, že mezi její první oběti bude kreativní sektor. Příchod generátoru textu podobného člověku GPT-3 v roce 2020 přinesl možnosti ostřeji. Od té doby to byla divoká jízda: DALL-E (text-to-image), Whisper (rozpoznávání řeči) a nejnověji Stable Diffusion (text-to-image) nejen zvýšily možnosti řečových a vizuálních nástrojů AI, ale také snížila zdroje potřebné k jejich použití (ze 175 miliard parametrů pro GPT-3 na 900 milionů pro Stable Diffusion).

Velikost Stable Diffusion znamená méně než 5 GB místa na disku – lze spustit na jakémkoli notebooku. Nejen to; na rozdíl od OpenAI (které je financováno především společností Microsoft a vydává GPT-3, DALL-E a Whisper) je Stable Diffusion open source, což znamená, že ostatní mohou na jeho poznatcích stavět mnohem snadněji. To znamená, že jsme svědky pouze začátku inovačního cyklu – jak nyní ukazuje dokument Nvidie, čeká nás mnohem více.

Podporovatelé Stable Diffusion (stability.ai) tento trend dále přeplňují tím, že poskytují technologické a finanční granty dalším týmům, které posouvají průzkum do nových směrů. Navíc velké množství projektů zpřístupňuje nástroje stále širšímu spektru uživatelů. Mezi nimi jsou pluginy pro Blender, open-source návrhářský nástroj, a proprietární ekvivalent Photoshopu od Adobe. Plný API přístup k nástrojům je financován velkými dolary Venture Capital, což znamená, že stovky milionů softwarových vývojářů, nejen několik set tisíc datových inženýrů, nyní vytvoří své vlastní nástroje na těchto algoritmech.

Řeč, obrázky a text patří mezi první vertikály, které tyto technologie narušují. Ale 3D nezůstává pozadu. Kromě specializovaného generativního umění jsou karikatury zřejmým prvním bodem aplikace. Již existuje generátor Pokémonů založený na Stable Diffusion. Vizuální efekty a filmy jsou na řadě. Pravděpodobně však bude narušeno mnoho dalších odvětví – mezi nimi interiérový design, jehož hlavní náplní je Interiorai.com.

Při všem tom vzrušení mi aplikace inovací v oblasti Design & Engineering připadá jako dodatečná myšlenka. Přesto se pravděpodobně jedná o oblast, která bude nakonec nejvíce zasažena. Samozřejmě existují počáteční problémy: Za prvé, Stable Diffusion a jeho krajané ještě nejsou příliš přesní. To není problém pro kreslené filmy, ale je to velká výzva pro jakýkoli pokus o transformaci textu do plně 3D geometrie používané v průmyslovém kontextu. To je oblast, která má nějaký rodící se zájem (projekt nazvaný Bits101 byl zahájen v Izraeli v roce 2015). To může být svatý grál tohoto odvětví, ale existuje mnoho přechodných problémů, které mohou být mnohem snáze řešitelné. Patří mezi ně vylepšené rozpoznávání objektů (algoritmus Yolo se již velmi efektivně používá), což povede ke zlepšení citací a anotací – zlepšení kvality a snížení chyb. Pluginy by také měly usnadnit použití generativní umělé inteligence k vývoji základních návrhů (Primitives), které pak lze dále upravovat v nástrojích pro návrh, aby se zlepšila tolerance podle požadavků. To je přístup již použitý v Altair's Inspire, který k tomutéž používal analýzu konečných prvků. Tyto Primitives mohou také sloužit jako syntetická databáze anotovaných modelů, kterých je v 3D CAD průmyslu nedostatek. Generální ředitel a zakladatel společnosti Physna upozorňuje na to v článku podrobně popisují své vlastní pokusy o použití těchto nových metod k vytváření detailních 3D návrhů, což také zdůrazňuje řadu úskalí při používání syntetických dat k řízení těchto algoritmů. Vytváření 3D návrhů z 2D výkresů je další potenciální aplikační oblastí, stejně jako inteligentní CAM knihovna opotřebení nástrojů k určení nejlepších strategií obrábění.

Tyto výzvy je důležité a lukrativní řešit samy a pro ně. Jejich hlavním dopadem však bude pomoci vyvinout cestu od nápadu k návrhu tím, že v konečném důsledku sníží závislost na 3D návrzích při komunikaci záměru. Návrhy, ať už 2D nebo 3D, sloužily jako primární prostředek k převedení potřeb zákazníků na finální produkty. To omezuje průmysl, protože tyto návrhy slouží jako černá skříňka, ve které jsou uloženy všechny ty cenné poznatky o zákaznících, výrobní omezení a firemní cíle, které nelze oddělit, a přesto je lze samostatně identifikovat. To znamená, že když se něco změní, je téměř nemožné jednoduše upravit design. To je důvod, proč výrobní inovace, jako je 3D tisk, trvá tak dlouho, než se osvojí, a trvale zklamou krátkodobé investory. Komponenty, které tvoří letadlo, jsou „nastaveny“ od okamžiku, kdy jsou navrženy, navzdory produktivní životnosti více než 20 let. Neexistuje téměř žádný rozsah inovací – ty musí počkat na uvedení další generace.

Možnost změnit jediné omezení a umožnit algoritmu, jako je Stable Diffusion, aby rekonstituoval design a výrobní parametry, výrazně urychlí přijetí nových inovací a umožní nám rychleji vyrábět lehčí a výkonnější produkty. Stejně jako ve Formuli 1 nebo Systems Design budou budoucí inženýři vystupovat jako manažeři omezení, kteří budou schopni vyjádřit slovy a odkazem na zdroje dat, jaký je cíl a omezení produktu.

Bez urychlení inženýrského procesu pro nové a stávající produkty tímto způsobem nemáme téměř žádné prostředky k dosažení ambiciózních cílů udržitelnosti, které si musíme stanovit. Abychom to mohli udělat, musíme se nejprve dohodnout na jazyce, který můžeme používat ke komunikaci nad rámec designu. Tento nový sémantický model je zjevnou mezerou ve výše nastíněných inovacích. Již s tím začala experimentovat řada firem, jako např nTopologie se svými koncepty polí. A přesto je tempo změn pomalé, na rozdíl od algoritmů, které bude sémantický model živit. Nový algoritmus Nvidie je údajně více než dvakrát rychlejší než DreamFusion, zveřejněné před méně než 2 měsíci. Produktové a inženýrské společnosti musí nyní pracovat na zachycování svých nápadů novými způsoby odolnými vůči budoucnosti, aby co nejlépe využily možnosti, které tato exploze generativní umělé inteligence skrývá. Rychlost změn v algoritmech znovu ukázala, že Morseův zákon platí všude tam, kde jsou nástroje digitalizovány. Výzvou zůstává naše lidská neschopnost přijmout tuto změnu a nasadit nové komunikační metody schopné uvolnit jejich potenciál, navzdory naléhavosti úkolu.

Zdroj: https://www.forbes.com/sites/andrewegner/2022/11/24/what-nvidias-new-text-to-3d-means-for-engineering–product-design/