Si të stërvitni një robot (duke përdorur inteligjencën artificiale dhe super kompjuterët)

Si të stërvitni një robot (duke përdorur inteligjencën artificiale dhe super kompjuterët)

 

Shkencëtarët kompjuterikë të UT Arlington përdorin sisteme TACC për të gjeneruar objekte sintetike për trajnimin e robotëve.

Para se të bashkohej me Universitetin e Teksasit në Arlington si Asistent Profesor në Departamentin e Shkencës dhe Inxhinierisë Kompjuterike dhe të themelonte Laboratorin Robotik të Vizionit atje, William Beksi internoi në iRobot, prodhuesi më i madh në botë i robotëve të konsumit (kryesisht përmes vakumit të tij robotik Roomba).

Për të lundruar në mjediset e ndërtuara, robotët duhet të jenë në gjendje të kuptojnë dhe të marrin vendime se si të ndërveprojnë me vendndodhjen e tyre. Studiuesit në kompani ishin të interesuar të përdorin makinerinë dhe të mësojnë thellë për të trajnuar robotët e tyre për të mësuar rreth objekteve, por duke bërë këtë kërkon një set të madh të imazheve. Ndërsa ka miliona fotografi dhe video të dhomave, asnjë nuk u shkrep nga këndvështrimi i një vakumi robotik. Përpjekjet për të trajnuar përdorimin e imazheve me perspektivë në qendër të njeriut dështuan.

Hulumtimi i Beksi përqendrohet në robotikë, vizionin kompjuterik dhe sistemet kiberne-fizike. “Në veçanti, unë jam i interesuar të zhvilloj algoritme që u mundësojnë makinerive të mësojnë nga ndërveprimet e tyre me botën fizike dhe të fitojnë në mënyrë autonome aftësi të nevojshme për të ekzekutuar detyra të nivelit të lartë,” tha ai.

Vite më vonë, tani me një grup kërkimor që përfshin gjashtë studentë të shkencave kompjuterike PhD, Beksi kujtoi problemin e trajnimit të Roomba dhe filloi të eksploronte zgjidhjet. Një qasje manuale, e përdorur nga disa, përfshin përdorimin e një kamere të shtrenjtë 360 gradë për të kapur mjedise (përfshirë shtëpitë me qira Airbnb) dhe software-in e personalizuar për t’i bashkuar imazhet në një tërësi. Por Beksi besonte se metoda manuale e kapjes do të ishte shumë e ngadaltë për të patur sukses.

Në vend të kësaj, ai gjeti në një formë të të mësuarit të thellë të njohur si rrjete kundërshtare gjeneruese, ose GAN, ku dy rrjete nervore garojnë me njëri-tjetrin në një lojë derisa ‘gjeneratori’ i të dhënave të reja mund të mashtrojë një “diskriminues”. Pasi të trajnohet, një i tillë rrjeti do të mundësonte krijimin e një numri të pafund të dhomave të mundshme ose ambienteve të jashtme, me lloje të ndryshme karrigesh ose tavolina ose automjetesh me forma pak më të ndryshme, por prapë – për një person dhe një robot – objekte të identifikueshme me dimensione dhe karakteristika të njohura.

“Ju mund t’i prishni këto objekte, t’i zhvendosni në pozicione të reja, të përdorni drita, ngjyra dhe strukturë të ndryshme dhe t’i jepni ato në një imazh trajnimi që mund të përdoret në bazën e të dhënave”, shpjegoi ai. “Kjo qasje potencialisht do të siguronte të dhëna të pakufizuara për të trajnuar një robot”.

“Projektimi manual i këtyre objekteve do të kërkonte një sasi të madhe burimesh dhe orë pune njerëzore ndërsa, nëse trajnohen si duhet, rrjetet gjeneruese mund t’i bëjnë ato në sekonda”, tha Mohammad Samiul Arshad, një student i diplomuar në grupin e Beksi të përfshirë në kërkim.

Gjenerimi i objekteve për skenat sintetike

Pas disa përpjekjeve fillestare, Beksi realizoi ëndrrën e tij për të krijuar skena të plota fotorealiste. “Ne bëmë një hap prapa dhe pame kërkimet aktuale për të përcaktuar se si të fillojmë në një shkallë më të vogël – duke gjeneruar objekte të thjeshta në mjedise.”

Beksi dhe Arshad paraqitën PCGAN, rrjeti i parë kundërshtar gjenerues i kushtëzuar për të gjeneruar re me pika të dendura me ngjyrë në një mënyrë të mbikëqyrur, në Konferencën Ndërkombëtare mbi Vizionin 3D (3DV) në Nëntor 2020. Gazeta e tyre, “Një Rrjet i Kundërshtimit Progresiv të Kushtëzuar Gjenerues për Gjenerimin e Dendur dhe Retë me Ngjyra 3D Pika, “tregon se rrjeti i tyre është i aftë të mësojë nga një grup trajnimi (që rrjedh nga ShapeNetCore, një bazë të dhënash e modelit CAD) dhe duke imituar një shpërndarje 3D të të dhënave për të prodhuar re me pika me detaje të imëta në rezolucione të shumëfishta.

“Kishte disa punë që mund të gjeneronin objekte sintetike nga këto grupe të dhënash të modelit CAD,” tha ai. “Por askush nuk mund të merret ende me ngjyrën.”

Në mënyrë që të provonin metodën e tyre në një larmi formash, ekipi i Beksi zgjodhi karriget, tavolinat, divanet, aeroplanët dhe motorët për eksperimentin e tyre. Mjeti lejon studiuesit të kenë qasje në numrin gati të pafund të versioneve të mundshme të grupit të objekteve që gjeneron sistemi i mësimit të thellë.

“Modeli ynë së pari mëson strukturën themelore të një objekti me rezolucion të ulët dhe gradualisht ndërtohet drejt detajeve të nivelit të lartë,” shpjegoi ai. “Marrëdhënia midis pjesëve të objektit dhe ngjyrave të tyre – për shembull, këmbët e karriges / tryezës janë me të njëjtën ngjyrë ndërsa ndenjësja / pjesa e sipërme janë në kontrast – mësohet gjithashtu nga rrjeti. Ne po fillojmë të vegjël, duke punuar me objekte dhe duke ndërtuar një hierarki për të bërë gjeneratë të plotë të skenës sintetike që do të ishte jashtëzakonisht e dobishme për robotikën. “

Ata gjeneruan 5,000 mostra të rastësishme për secilën klasë dhe kryen një vlerësim duke përdorur një numër metodash të ndryshme. Ata vlerësuan si gjeometrinë e reve të pikës ashtu edhe ngjyrën duke përdorur një larmi të metrikave të zakonshme në terren. Rezultatet e tyre treguan se PCGAN është i aftë të sintetizojë retë me cilësi të lartë për një grup të ndryshëm të klasave të objekteve.

Trajnimi i modelit PCGAN u bë i mundur nga burimi i thellë i të mësuarit të TACC, Maverick 2, në të cilin Beksi dhe studentët e tij ishin në gjendje të aksesonin përmes programit të Universitetit të Teksasit Hulumtimi Cyberinfrastrukturës (UTRC), i cili siguron burime kompjuterike për studiuesit në ndonjë prej Sistemit UT 14 institucione.

“Nëse doni të rrisni rezolucionin për të përfshirë më shumë pikë dhe më shumë detaje, kjo rritje vjen me një rritje të kostos llogaritëse,” vuri në dukje ai. “Ne nuk i kemi ato burime hardware në laboratorin tim, kështu që ishte thelbësore të bëhej përdorimi i TACC për ta bërë këtë.”

Përveç nevojave për llogaritjen, Beksi kërkoi hapësirë ​​të gjerë për kërkime. “Këto grupe të dhënash janë të mëdha, veçanërisht retë me pikë 3D,” tha ai. “Ne gjenerojmë qindra megabajt të të dhënave në sekondë; secila re e pikave është rreth 1 milion pikë. Ju duhet një sasi e madhe e magazinimit për këtë. “

“Botimi është vetëm një hap i vogël drejt qëllimit përfundimtar të gjenerimit të skenave sintetike të mjediseve të brendshme për avancimin e aftësive të perceptimit robotik,” tha ai.

Postime te ngjashme