Pokroky v počítačovém vidění Pohánějí autonomii dopravy

Vize je silný lidský smyslový vstup. Umožňuje komplexní úkoly a procesy, které považujeme za samozřejmost. S nárůstem AoT™ (Autonomy of Things) v různých aplikacích od dopravy a zemědělství po robotiku a medicínu nabývá role kamer, výpočetní techniky a strojového učení při poskytování lidského zraku a poznávání na významu. Počítačové vidění jako akademická disciplína se rozmohlo v 1960. letech XNUMX. století především na univerzitách zabývajících se nově vznikající oblastí umělé inteligence (AI) a strojového učení. V příštích čtyřech desetiletích dramaticky pokročila s významným pokrokem v polovodičových a výpočetních technologiích. Nedávné pokroky v oblasti hlubokého učení a umělé inteligence dále urychlily aplikaci počítačového vidění k poskytování vnímání a poznávání prostředí v reálném čase s nízkou latencí, což umožňuje autonomii, bezpečnost a efektivitu v různých aplikacích. Doprava je jednou z oblastí, která výrazně prospěla.

LiDAR (Light Detection and Ranging) je aktivní optický zobrazovací přístup, který využívá lasery k určení 3D prostředí kolem objektu. Je to jedna z technologií, kterou se řešení počítačového vidění (která spoléhají čistě na okolní světlo a pro 3D vnímání nepoužívají lasery) snaží narušit. Společným tématem je, že lidští řidiči nepotřebují LiDAR pro hloubkové vnímání, takže ani stroje by nepotřebovaly. Současné komerční funkce autonomního řízení L3 (úplná autonomie v konkrétních geografických oblastech a povětrnostních podmínkách s řidičem připraveným převzít kontrolu během několika sekund) použijte LiDAR. Čistě techniky založené na vizi stále nebyly schopny tuto schopnost komerčně nabídnout.

REKLAMA

TeslaTSLA
je dominantním zastáncem používání pasivního kamerového počítačového vidění k zajištění autonomie osobních vozidel. Během nedávné akce společnosti AI Day poskytli Elon Musk a jeho inženýři působivou prezentaci o jeho AI, správě dat a výpočetních schopnostech, které podporují, mimo jiné, funkci Full Self Driving (FSD) na několika modelech Tesla. FSD vyžaduje, aby byl lidský řidič neustále zapojen do řízení (což je v souladu s autonomií L2). V současnosti je tato možnost dostupná u 160,000 8 vozidel zakoupených zákazníky v USA a Kanadě. Sada 360 kamer na každém vozidle poskytuje 75° mapu obsazenosti. Data z kamery (a další) z těchto vozidel se používají k trénování její neuronové sítě (která používá automatické označování) k rozpoznávání objektů, vykreslování potenciálních trajektorií vozidel, výběru optimálních a aktivaci příslušných kontrolních akcí. Za posledních 12 měsíců došlo k ~1 7 aktualizacím neuronové sítě (~4 aktualizace každých XNUMX minut), protože se neustále shromažďují nová data a jsou detekovány chyby v označování nebo manévrování. Vyškolená síť provádí plánovací a řídicí akce prostřednictvím integrované redundantní architektury účelově vytvořené výpočetní elektroniky. Tesla očekává, že FSD nakonec povede k autonomním vozidlům (AV), která poskytují úplnou autonomii v určitých oblastech provozního návrhu bez nutnosti zapojení lidského řidiče (také označované jako autonomie LXNUMX).

Další společnosti jako Phiar, Helm.ai a NODAR také sledují avenue počítačového vidění. NODAR si klade za cíl výrazně rozšířit zobrazovací rozsah a 3D vnímání stereo kamerových systémů tím, že se pomocí patentovaných algoritmů strojového učení naučí přizpůsobovat vychýlení kamery a vibrační efekty. Nedávno vybrala 12 milionů dolarů pro výrobu svého vlajkového produktu Hammerhead™, který využívá „běžné“ fotoaparáty automobilové třídy a standardní výpočetní platformy.

Kromě ceny a velikosti je častým argumentem proti používání LiDAR to, že má ve srovnání s kamerami omezený dosah a rozlišení. Dnes jsou například dostupné LiDARy s dosahem 200 m a 5-10 M bodů/s (PPS podobné rozlišení). Na 200 m malé překážky, jako jsou cihly nebo úlomky pneumatik, zaznamenají velmi málo bodů (možná 2-3 ve svislém směru a 3-5 ve vodorovném směru), což ztěžuje rozpoznání objektů. Na delší vzdálenosti jsou věci ještě hrubší. Pro srovnání, standardní megapixelové kamery běžící na 30 Hz mohou generovat 30 milionů pixelů za sekundu, což umožňuje vynikající rozpoznání objektů i na velké vzdálenosti. Pokročilejší fotoaparáty (12 M pixelů) to mohou ještě zvýšit. Otázkou je, jak využít tato obrovská data a vytvořit žalovatelné vnímání s latencí na úrovni milisekund, nízkou spotřebou energie a zhoršenými světelnými podmínkami.

REKLAMA


Recogni, kalifornská společnost, se snaží tento problém vyřešit. Podle generálního ředitele Marka Bolitha je jejím posláním „poskytují nadlidské vizuální vnímání pro plně autonomní vozidla.“ Společnost byla založena v roce 2017, k dnešnímu dni získala 75 milionů dolarů a má 70 zaměstnanců. RK Anand, absolvent Juniper Networks, je jedním ze spoluzakladatelů a produktovým ředitelem. Věří, že použití kamer s vyšším rozlišením, s dynamickým rozsahem > 120 dB, běžících při vysokých frekvencích snímků (například OnSemi, Sony a Omnivision) poskytuje data potřebná k vytvoření 3D informací s vysokým rozlišením, což je kritické pro realizaci AV. Povolení k tomu jsou:

  1. Na zakázku navržené ASIC pro efektivní zpracování dat a vytváření přesných 3D map prostředí automobilu s vysokým rozlišením. Ty jsou vyrobeny 7 nm procesem TSMC, s velikostí čipu 100 mm², pracující na frekvenci 1 GHz.
  2. Vlastní algoritmy strojového učení pro zpracování milionů datových bodů offline za účelem vytvoření trénované neuronové sítě, která pak může efektivně fungovat a neustále se učit. Tato síť poskytuje vnímání a zahrnuje klasifikaci a detekci objektů, sémantickou segmentaci, detekci jízdních pruhů, dopravní značky a rozpoznávání semaforů.
  3. Minimalizace úložiště mimo čip a multiplikačních operací, které jsou náročné na energii a vytvářejí vysokou latenci. Design ASIC společnosti Recogni je optimalizován pro logaritmickou matematiku a používá sčítání. Další efektivity jsou realizovány optimálním shlukováním vah v trénované neuronové síti.

Během tréninkové fáze se komerční LiDAR používá jako základní pravda pro trénování dat stereokamery s vysokým rozlišením a vysokým dynamickým rozsahem, aby se extrahovaly informace o hloubce a aby byla odolná vůči vychýlení a vibracím. Podle pana Ananda je jejich implementace strojového učení tak účinná, že dokáže extrapolovat odhady hloubky za rozsahy školení poskytované kalibračním LiDARem (který poskytuje základní pravdu na vzdálenost 100 m).

REKLAMA

Výše uvedená tréninková data byla provedena ve dne pomocí stereo páru 8.3megapixelových kamer pracujících při snímkové frekvenci 30 Hz (~0.5B pixelů za sekundu). Demonstruje schopnost trénované sítě extrahovat 3D informace ve scéně mimo dosah 100 m, se kterým byla trénována. Řešení Recogni může také extrapolovat své učení s denními daty na noční výkon (obrázek 2).

REKLAMA

Podle pana Ananda jsou údaje o rozsahu přesné s přesností 5 % (na dlouhé vzdálenosti) a blízké 2 % (na kratší vzdálenosti). Řešení poskytuje 1000 6 TOPS (bilion operací za sekundu) s latencí 25 ms a spotřebou energie 40 W (10 TOPS/W), což je špička v oboru. Konkurenti používající celočíselnou matematiku jsou v této metrice > 1X nižší. Řešení Recogni je v současné době ve zkouškách u více dodavatelů automobilového průmyslu Tier XNUMX.

Prorokovat („předvídání a sledování, kde se akce odehrává“), se sídlem ve Francii, používá své kamery založené na událostech pro AV, Advanced Driver Assistance Systems (ADAS), průmyslovou automatizaci, spotřebitelské aplikace a zdravotnictví. Společnost byla založena v roce 2014 Společnost nedávno uzavřela své financování C kola ve výši 50 milionů USD, přičemž k dnešnímu dni bylo vybráno celkem 127 milionů dolarů. Jedním z investorů je Xiaomi, přední výrobce mobilních telefonů. Cílem Prophesee je napodobit lidské vidění, ve kterém receptory v sítnici reagují na dynamické informace. Lidský mozek se zaměřuje na zpracování změn ve scéně (zejména pro řízení). Základní myšlenkou je použití kamer a pixelových architektur, které detekují změny intenzity světla nad prahovou hodnotou (událost) a poskytují pouze tato data do výpočetního zásobníku pro další zpracování. Pixely pracují asynchronně (nejsou orámovány jako u běžných CMOS kamer) a mnohem vyššími rychlostmi, protože nemusejí integrovat fotony jako u konvenčních snímků založených na kameře a čekat, až to dokončí celý snímek, než se přečtou data. Výhody jsou značné – nižší datová šířka, latence rozhodování, úložiště a spotřeba energie. První komerční VGA kamerový senzor společnosti založený na událostech se vyznačoval vysokým dynamickým rozsahem (>120 dB), nízkou spotřebou energie (26 mW na úrovni senzoru nebo 3 nW/událost). Na trh byla také uvedena verze HD (High Definition) (vyvinutá společně se společností Sony) se špičkovou velikostí pixelů (< 5 μm).

REKLAMA

Tyto senzory tvoří jádro snímací platformy Metavision®, která využívá AI k poskytování chytrého a efektivního vnímání autonomních aplikací a je vyhodnocována mnoha společnostmi v dopravním prostoru. Kromě vnímání AV a ADAS směrem dopředu se Prophesee aktivně zapojuje se zákazníky do monitorování řidiče v kabině pro aplikace L2 a L3, viz obrázek 4:

Automobilové příležitosti jsou lukrativní, ale cykly návrhu jsou dlouhé. Během posledních dvou let zaznamenala společnost Prophesee značný zájem a trakci v oblasti strojového vidění pro průmyslové aplikace. Patří mezi ně vysokorychlostní počítání, kontrola povrchu a sledování vibrací.

REKLAMA

Prophesee nedávno oznámila spolupráci s předními vývojáři systémů strojového vidění k využití příležitostí v průmyslové automatizaci, robotice, automobilovém průmyslu a internetu věcí (Internet of Things). Další bezprostřední příležitostí jsou korekce rozmazání obrazu pro mobilní telefony a aplikace AR/VR. Ty využívají snímače nižšího formátu než ty, které se používají pro dlouhodobější příležitosti ADAS/AV, spotřebovávají ještě nižší energii a pracují s výrazně nižší latencí.


Izrael je předním inovátorem v oblasti špičkových technologií s významnými rizikovými investicemi a aktivním start-up prostředím. Od roku 2015 došlo v technologickém sektoru k investicím v hodnotě asi 70 miliard USD. Část z toho je v oblasti počítačového vidění. Mobileye stála v čele této revoluce v roce 1999, kdy Amnon Shashua, přední výzkumník AI na Hebrejské univerzitě, založil společnost, aby se zaměřila na kamerové vnímání pro ADAS a AV. Společnost požádala o IPO v roce 2014 a byla koupena společností IntelINTC
v roce 2017 za 15 miliard dolarů. Dnes je snadno předním hráčem v oblasti počítačového vidění a AV oblasti a v poslední době oznámila svůj záměr podat žádost o IPO a stát se nezávislým subjektem. Mobileye měla tržby 1.4 miliardy $ ročně a mírné ztráty (75 milionů $). Poskytuje funkce počítačového vidění 50 automobilovým OEM, kteří jej nasazují na 800 modelů automobilů pro funkce ADAS. V budoucnu mají v úmyslu vést v autonomii vozidel L4 (nevyžaduje se žádný ovladač) s využitím těchto odborných znalostí počítačového vidění a schopností LiDAR založených na křemíkové fotonické platformě Intel. Ocenění Mobileye se odhaduje na ~ 50 miliard dolarů, když budou konečně zveřejněny.

REKLAMA

Champel Capital, se sídlem v Jeruzalémě, je v popředí investic do společností vyvíjejících produkty založené na počítačovém vidění pro různé aplikace od dopravy a zemědělství po zabezpečení a bezpečnost. Amir Weitman je spoluzakladatelem a řídícím partnerem a svou venture společnost založil v roce 2017. První fond investoval 20 milionů dolarů do 14 společností. Jednou z jejich investic byla společnost Innoviz, která v roce 2018 vstoupila na burzu prostřednictvím fúze SPAC a stala se jednorožcem LiDAR. Pod vedením Omera Keilafa (který pocházel z technologické jednotky zpravodajského sboru Izraelských obranných sil), společnost je dnes lídrem v nasazení LiDAR pro ADAS a AV, s mnoha úspěchy v designu u BMW a Volkswagen.

Druhý fond Champel Capital (Impact Deep Tech Fund II) byl zahájen v lednu 2022 a k dnešnímu dni získal 30 milionů USD (cílem je 100 milionů USD do konce roku 2022). Dominantní důraz je kladen na počítačové vidění s 12 miliony dolarů nasazenými v pěti společnostech. Tři z nich využívají počítačové vidění pro dopravu a robotiku.

tankU, se sídlem v Haifě zahájila činnost v roce 2018 a získala finanční prostředky ve výši 10 milionů USD. Dan Valdhorn je generálním ředitelem a je absolventem jednotky 8200, elitní high-tech skupiny v rámci izraelských obranných sil odpovědné za signální zpravodajství a dešifrování kódu. Produkty SaaS (Software as a Service) společnosti TankU automatizují a zajišťují procesy ve složitých venkovních prostředích při obsluze vozidel a řidičů. Tyto produkty používají majitelé vozových parků, soukromých vozů, čerpacích stanic a elektrických dobíjecích stanic, aby zabránili krádežím a podvodům při automatizovaných finančních transakcích. Služby pohonných hmot generují ročně přibližně 2 40 800 $ v globálních tržbách, z nichž vlastníci soukromých a užitkových vozových parků spotřebují 100 % neboli XNUMX miliard $. Maloobchodníci a majitelé vozových parků ztrácejí ročně přibližně XNUMX miliard USD kvůli krádežím a podvodům (například používání flotilové palivové karty pro neoprávněná soukromá vozidla). Podvody CNP (Card not present) a manipulace/krádež paliva jsou dalšími zdroji ztrát, zejména při použití údajů o odcizených kartách v mobilních aplikacích pro platby.

REKLAMA

Produkt TUfuel společnosti usnadňuje zabezpečenou platbu jedním klepnutím, blokuje většinu typů podvodů a upozorňuje zákazníky, když má podezření na podvod. Dělá to na základě AI motoru trénovaného na datech ze stávajících CCTV v těchto zařízeních a digitálních transakčních datech (včetně POS a dalších back-endových dat). Parametry jako trajektorie a dynamika vozidla, ID vozidla, doba jízdy, ujeté kilometry, doba čerpání paliva, množství paliva, historie paliva a chování řidiče jsou některé atributy monitorované za účelem odhalování podvodů. Tato data také pomáhají maloobchodníkům optimalizovat provoz webu, zvyšovat loajalitu zákazníků a zavádět marketingové nástroje založené na vizi. Podle generálního ředitele Dana Valdhorna jejich řešení detekuje 70 % vozového parku, 90 % kreditních karet a 70 % podvodů souvisejících s manipulací.

Sonol je společnost poskytující energetické služby, která vlastní a provozuje síť 240 stanic a obchodů se smíšeným zbožím po celém Izraeli. TUfuel je nasazen na jejich stránkách a prokázal zvýšenou bezpečnost, prevenci podvodů a loajalitu zákazníků. V USA probíhají testy produktů ve spolupráci s předním světovým dodavatelem čerpacích stanic a vybavení obchodů. Podobné iniciativy probíhají také v Africe a Evropě.

REKLAMA

Sídlo v Tel Avivu ITC byla založena v roce 2019 akademiky strojového učení z Ben-Gurionovy univerzity. ITC vytváří produkty SaaS, které „měřte dopravní tok, předvídejte zácpy a zmírněte je pomocí chytré manipulace se semafory – dříve, než se začnou tvořit zácpy.“ Podobně jako TankU využívá data z běžně dostupných kamer (již instalovaných na četných dopravních křižovatkách) k získávání aktuálních dopravních dat. Data z tisíců kamer po celém městě jsou analyzována a parametry, jako je typ vozidla, rychlost, směr pohybu a sekvence typů vozidel (nákladní vozy vs. osobní automobily), jsou extrahovány pomocí aplikace proprietárních algoritmů AI. Simulace předpovídají dopravní tok a potenciální dopravní zácpy až 30 minut předem. Semafory se na základě těchto výsledků upravují tak, aby plynulý provoz a předešlo se zácpám.

Školení systému umělé inteligence zabere jeden měsíc vizuálních dat v typickém městě a zahrnuje kombinaci učení pod dohledem a bez dozoru. Řešení ITC je již nasazeno v Tel-Avivu (v roce 25 se umístilo na 2020. místě v nejpřetíženějších městech světa) s tisíci kamer rozmístěných na stovkách křižovatek řízených semafory. Systém ITC v současnosti spravuje 75 XNUMX vozidel, u kterých se očekává další růst. Společnost instaluje a podobná schopnost v Lucembursko a zahajuje zkoušky ve velkých amerických městech. Globálně jeho řešení spravuje 300,000 XNUMX vozidel s provozními místy v Izraeli, USA, Brazílii a Austrálii. Dvir Kenig, technický ředitel, je zapálený pro řešení tohoto problému – vrátit lidem osobní čas, snížit skleníkové plyny, zvýšit celkovou produktivitu a hlavně snížit nehodovost na přeplněných křižovatkách. Podle pana Keniga „Naše nasazení ukazuje 30% snížení dopravních zácp, snížení neproduktivní doby řízení, stresu, spotřeby paliva a znečištění.“

REKLAMA

Vnitřní robotika byl založená v 2018 a nedávno získal finanční prostředky ve výši 18 milionů dolarů. Společnost se sídlem poblíž Tel-Avivu v Izraeli vyvíjí a prodává řešení autonomních dronů pro vnitřní zabezpečení, bezpečnost a monitorování údržby. Generální ředitel a spoluzakladatel Doron Ben-David má v IAI značné zkušenosti s robotikou a letectvím.IAI
(hlavní dodavatel v oblasti obrany) a MAFAT (pokročilá výzkumná organizace v rámci izraelského ministerstva obrany), která je podobná DARPA ve Spojených státech. Rostoucí investice do inteligentních budov a komerčních bezpečnostních trhů podněcují potřebu autonomních systémů, které mohou využívat počítačové vidění a další senzorické vstupy v malých i velkých vnitřních komerčních prostorách (kanceláře, datová centra, sklady a maloobchodní prostory). Indoor Robotics se zaměřuje na tento trh pomocí vnitřních dronů vybavených standardními kamerami a tepelnými a infračervenými senzory dosahu.

Ofir Bar-Levav je obchodní ředitel. Vysvětluje, že nedostatek GPS brání vnitřním dronům v tom, aby se lokalizovaly uvnitř budov (obvykle je GPS zamítnuto nebo je nepřesné). Navíc chybělo pohodlné a efektivní řešení dokování a napájení. Indoor Robotics to řeší čtyřmi kamerami namontovanými na dronech (nahoře, dolů, vlevo, vpravo) a jednoduchými senzory dosahu, které přesně mapují vnitřní prostor a jeho obsah. Data z kamer (kamery poskytují lokalizační a mapovací data) a teplotní senzory (také namontované na dronu) jsou analyzovány systémem AI, aby zjistil potenciální problémy se zabezpečením, bezpečností a údržbou a varoval zákazníka. Drony se pohánějí samy prostřednictvím „dokovací desky“ namontované na stropě, která šetří cennou podlahovou plochu a umožňuje sběr dat během nabíjení. Finanční výhody automatizace těchto světských procesů, kde je lidská práce složitá a nákladná z hlediska náboru, udržení a školení, jsou evidentní. Používání vzdušných dronů vs. pozemních robotů má také významné výhody z hlediska investičních a provozních nákladů, lepší využití podlahové plochy, svobodu pohybu bez narážení na překážky a efektivitu snímání kamerových dat. Podle pana Bar-Levava bude TAM (Total Addressable Market) společnosti Indoor Robotics v oblasti vnitřních inteligentních bezpečnostních systémů do roku 80 činit 2026 miliard USD. Mezi klíčová místa zákazníků dnes patří sklady, datová centra a kancelářské areály předních světových korporací.

REKLAMA


Počítačové vidění představuje revoluci ve hře o autonomii – v automatizaci pohybu, zabezpečení, inteligentním monitorování budov, odhalování podvodů a řízení provozu. Síla polovodičů a umělá inteligence jsou mocnými aktivátory. Jakmile počítače ovládnou tuto neuvěřitelnou smyslovou modalitu škálovatelným způsobem, možnosti jsou nekonečné.

Zdroj: https://www.forbes.com/sites/sabbirrangwala/2022/10/04/advances-in-computer-vision-propel-transportation-autonomy/