DeepMind učí umelú inteligenciu navigovať v neznámom prostredí

Mohla by sa pouličná navigácia s umelou inteligenciou orientovať v dovtedy neznámych štvrtiach, ak by mala k dispozícii dostatok testovacích dát? To je oblasť, ktorú výskumníci z DeepMind aktuálne skúmajú. Poznatky publikovali v dokumente „Cross-View Policy Learning for Street Navigation. DeepMind  je jedna z divízii materskej spoločnosti Google Alphabet.

Pozrite siDeepMind naučil umelú inteligenciu spomínať

V dokumente popisujú prenos skúseností umelej inteligencie (UI) vyškolenej na vnímanie pozemných pohľadov na cieľové časti mesta pomocou vizuálnych informácií získaných z vtáčej perspektívy pre dosiahnutie lepšej presnosti. Autorov inšpirovali zručnosti ľudí, ktorí sa dokážu rýchlo zorientovať v neznámom meste vďaka čítaniu mapy.

Schopnosť orientovať sa pomocou vizuálnych pozorovaní v neznámych prostrediach je základnou zložkou systémov s umelou inteligenciou a pretvávajúcou výzvou pre Deep Reinforcement Learning (RL), čiže posilnené hĺbkové učenie.

Jednou z oblastí, kde sa dajú takéto systémy RL testovať, je aplikácia Street View od Google. Tá poskytuje realistické fotografické snímky z pozemskej perspektívy, s rôznorodými pouličnými detailami. Takúto upravenú aplikáciu nazvali výskumníci z DeepMind Street Learn a používa sa na výskum navigácie.

Pozrite siGoogle DeepMind testuje egoizmus umelej inteligencie

Lenže nie je navigácia, ako navigácia. Systémy pouličnej navigácie orientované na cieľ zatiaľ neboli schopné navigovať do predtým nevidených oblastí bez rozsiahleho preškolenia a spoliehanie sa na simuláciu nie je najlepšie riešenie.

ZDROJ | DeepMind

Keďže letecké snímky sú ľahko prístupné aj v globálnom rozsahu, výskumníci navrhujú namiesto toho trénovať multimodálne postupy na kombinácii pozemných a leteckých záberov a potom preniesť pohľad na postupy zamerané na neznáme (cieľové) časti mesta s využitím leteckých snímok. Spoľahlivosť sa dosiahne učením rozpoznávania priestoru spoločného pre oba pohľady.

Výskumníci najprv zhromaždili regionálne letecké mapy, spárovali ich s pohľadmi na úrovni ulice na základe zodpovedajúcich geografických súradníc. Následne spustili trojstupňový proces strojového učenia, ktorý začal školením o údajoch o zdrojovom regióne, pokračoval adaptáciou pomocou pozorovania cieľového regiónu v leteckom pohľade a zakončil sa prenosom poznatkov do cieľovej oblasti pomocou pozorovania v teréne.

Systém strojového učenia vedeckého tímu zahŕňal trojicu modulov, vrátane konvolučného modulu zodpovedného za vizuálne vnímanie, modulu dlhodobej a krátkodobej pamäte (LSTM), ktorý zaznamenal funkcie špecifické pre danú lokalitu, a neurónového modulu.

Pozrite siGoogle vylepšil svoj Trekker pre Street View mimo ciest

Experiment bol nasadený v prostredí StreetAir, čo je viacúrovňové vonkajšie  prostredie ulíc ako nadstavba StreetLearn, s interaktívnou zbierkou panoramatických fotografií ulíc Street View a Google Maps. V rámci StreetAir a StreetLearn letecké snímky pokrývali New York City (Downtown NYC a Midtown NYC) a Pittsburgh (Allegheny a kampus Carnegie Mellon University) usporiadané tak, že na každej súradnici zemepisnej šírky a dĺžky prostredie pokrývalo 84 x 84 leteckých snímok rovnakej veľkosti ako pohľad zobrazený na zemi.

Výsledky sú povzbudivé a podľa autorov nový systém inteligentnej navigácie funguje omnoho presnejšie a spoľahlivejšie, ako systémy založené len na jednom (tzn. pozemnom) pohľade. Snáď sa podobné inteligentné riešenia čoskoro objavia aj v smartfónoch a autonavigáciách.

ZdrojVB

Komentáre k článku