Metodat e trajnimit të qenve i ndihmojnë studiuesit të mësojnë robotët me hile të reja.

Metodat e trajnimit të qenve i ndihmojnë studiuesit të mësojnë robotët me hile të reja.

Me një teknikë stërvitjeje që përdoret zakonisht për të mësuar qentë të ulen dhe të qëndrojnë, shkencëtarët kompjuterikë të Universitetit Johns Hopkins i treguan një roboti se si t’i mësojë vetes disa truke të reja, përfshirë blloqet e pirgjeve. Me metodën, roboti, i quajtur Spot, ishte në gjendje të mësonte në ditë atë që zgjat zakonisht një muaj.

Duke përdorur përforcimin pozitiv, një qasje e njohur për këdo që ka përdorur ushqime për të ndryshuar sjelljen e një qeni, ekipi përmirësoi në mënyrë dramatike aftësitë e robotit dhe e bëri atë mjaft shpejt për t’i bërë robotët e trajnimit për punën në botën reale një ndërmarrje më të realizueshme. Gjetjet janë botuar rishtas në një punim të quajtur, ” Good Robot!”

“Pyetja këtu ishte se si ta bëjmë robot të mësojë një aftësi?” tha autori kryesor Andrew Hundt, një student PhD që punon në Laboratorin e Ndërveprimit Llogaritës dhe Robotikës të Johns Hopkins. “Unë kam pasur qen, kështu që unë e di punën e shpërblimeve dhe ky ishte frymëzimi për mënyrën se si e hartova algoritmin e të mësuarit”.

Ndryshe nga njerëzit dhe kafshët që kanë lindur me tru shumë intuitiv, kompjuterët janë fletë bosh dhe duhet të mësojnë gjithçka nga e para. Por të mësuarit e vërtetë shpesh realizohet me prova dhe gabime, dhe robotistët ende po zbulojnë se si robotët mund të mësojnë në mënyrë efikase nga gabimet e tyre.

Ekipi e arriti atë këtu duke krijuar një sistem shpërblimi që punon për një robot në mënyrën se si e trajton punën për një qen. Kur një qen mund të marrë një cookie për një punë të bërë mirë, robot fitoi pikë numerike.

Hundt kujtoi se si ai një herë i mësoi qenushit të tij mikser terrier me emrin Leah komandën “lëre atë”, në mënyrë që ajo të mund të injoronte ketrat në shëtitje. Ai përdori dy lloje të ushqimeve, trajtime të zakonshme për trajnerë dhe diçka akoma më të mirë, si djathi. Kur Lea ishte ngazëllyer dhe duke nuhatur të gjitha ushqimet, nuk mori asgjë. Por kur ajo u qetësua dhe vështroi larg, ajo mori gjërat e mira. “Kjo ishte kur unë i dhashë asaj djathin dhe i thashë: ‘Lëri atë! Good Leah!'”

Në mënyrë të ngjashme, për të grumbulluar blloqe, Spot robot kishte nevojë për të mësuar se si të përqëndrohet në veprime konstruktive. Ndërsa roboti eksploronte blloqet, shpejt mësoi se sjelljet korrekte për grumbullimin fitonin pikë të larta, por ato të pasakta nuk fituan asgjë. Zgjatni dorën, por nuk kapni një bllok? Nuk ka pikë. Trokit një pirg? Padyshim që nuk ka pikë. Spot fitoi më së shumti duke vendosur bllokun e fundit mbi një pirg me katër blloqe.

Taktika e trajnimit jo vetëm që funksionoi, por u deshën vetëm disa ditë për të mësuar robotin se çfarë merrte me javë. Ekipi ishte në gjendje të zvogëlojë kohën e praktikës duke trajnuar së pari një robot të simuluar, i cili i ngjan shumë një lojë video, pastaj duke ekzekutuar prova me Spot. “Roboti dëshiron rezultatin më të lartë,” tha Hundt. “Ai shpejt mëson sjelljen e duhur për të marrë shpërblimin më të mirë. Në fakt, dikur duhej një muaj praktikë që roboti të arrinte saktësinë 100%. Ne ishim në gjendje ta bënim atë brenda dy ditësh. ” Përforcimi pozitiv jo vetëm që punoi për të ndihmuar robotin të mësojë veten të grumbullojë blloqe, me sistemin e pikave roboti njësoj shpejt mësoi disa detyra të tjera – madje edhe si të luajë një lojë të simuluar të navigimit. Aftësia për të mësuar nga gabimet në të gjitha llojet e situatave është kritike për hartimin e një roboti që mund të përshtatet me mjedise të reja. “Në fillim roboti nuk e ka idenë se çfarë po bën, por do të bëhet gjithnjë e më mirë me çdo praktikë. Ai kurrë nuk heq dorë dhe vazhdon të përpiqet të grumbullojë dhe është në gjendje të përfundojë detyrën 100% të kohës,” tha Hundt. Ekipi imagjinon se këto zbulime mund të ndihmojnë në trajnimin e robotëve shtëpiakë për të larë lavazhe dhe për të larë enët – detyra që mund të jenë të njohura në tregun e hapur dhe të ndihmojnë të moshuarit të jetojnë të pavarur. Kjo gjithashtu mund të ndihmojë në dizenjimin e makinave të përmirësuara vetë-drejtuese. “Qëllimi ynë është që në fund të zhvillojmë robotë që mund të bëjnë detyra komplekse në botën reale – si montimi i produkteve, kujdesi për të moshuarit dhe operacioni”, tha Hager. “Ne aktualisht nuk dimë si të programojmë detyra të tilla – bota është shumë komplekse. Por puna si kjo na tregon se ekziston premtimi për idenë se robotët mund të mësojnë se si të kryejnë detyra të tilla në botën reale në një vend të sigurt dhe mënyrë efikase “.

Postime te ngjashme