Pramonės naujienos

Ar "AlphaZero" verta groti?

2018-06-02

"Google" priklausanti dirbtinio intelekto įmonė "DeepMind" išleido naują dokumentą, kuriame aprašoma, kaip komanda naudojo "AlphaGo" mašinų mokymosi sistemą, kurdama naują "AlphaZero" projektą. "AlphaZero" naudoja AI technologiją, vadinamą "reinforcement learning", kuri naudoja tik pagrindines taisykles, be žmogaus patirties, nenuosekliai treniruotes ir nešiojančius lentos žaidimo AI.

AlphaZero pirmiausia užkariavo "Go" ir išplėtė kitą stalo žaidimą: tokiomis pačiomis sąlygomis sistema turėjo aštuonias valandas treniruotes ir nugalėjo pirmąjį AI, kuris nugalėjo žmones - "Li Shishi" versija AlphaGo; po 4 valandų treniruotės AI Elmo nugalėjo stipriausią šachmatų žaidimą AI Stockfish ir per 2 valandas nugalėjo stipriausią (japonų šachmatą) AI Elmo. Netgi stipriausias "Go" grotuvas, "AlphaGo", nebuvo išgelbėtas. Mokėsi 34 valandas, "AlphaZero" pagamino "AlphaGo Zero", kuris išmoko 72 valandas.

Diagrama / Nugalėtojų skaičius, atkovimas ar praradimas žaidime iš "AlphaZero" perspektyvos (iš "DeepMind" komandos)

Mokymosi stiprinimas yra toks galingas. Kas tai?

"Adit Deshpande", žinomas Los Andželo universiteto Los Andželo (angl. UCLA) internetinių puslapių leidėjas, savo tinklaraštyje paskelbė straipsnių apie gilų mokymosi tyrimų apžvalgą, kurioje paaiškinta "AlphaGo" pergalė. Savo straipsnyje jis nurodė, kad mašininio mokymo sritis gali būti suskirstyta į tris kategorijas: prižiūrimas mokymasis, nekontroliuojamas mokymasis ir mokymosi stiprinimas. Sustiprinimo mokymasis gali mokytis skirtingų veiksmų skirtingose ​​situacijose ar aplinkoje, kad būtų pasiekti geriausi rezultatai.

Nuotrauka / Adit Deshpande dienoraštis "Giliųjų mokymosi tyrimų apžvalga". 2 savaitė. Sustiprinimas

Mes įsivaizduojame nedidelį robotą mažame kambaryje. Mes nepradėjome šio roboto paleisti ar vaikščioti ar imtis bet kokių veiksmų. Tai tik stovi ten. Mes norime, kad jis pereitų į kambario kampą, gausite atlygio taškus, kai pateksite į jį ir prarasite taškus kiekvieną kartą. Tikimės, kad robotas iki galo pasieks nurodytą vietą, o robotas gali judėti keturiose kryptimis: į rytus, į pietus, į vakarus ir į šiaurę. Robotai iš tiesų yra labai paprasti. Koks elgesys yra vertingiausias? Žinoma, tai yra paskirta vieta. Norint gauti didžiausią atlygį, mes galime leisti tik robotams naudoti veiksmus, kurie maksimaliai padidina vertę.
Nuotrauka / Adit Deshpande dienoraštis "Giliųjų mokymosi tyrimų apžvalga". 2 savaitė. Sustiprinimas

Kokia yra "AlphaZero" žmogaus šachmatų sprogimo vertė?

AlphaGo Zero yra proveržis, taip pat yra "AlphaZero"? Užsienio ekspertai analizavo, kad pastarieji turėjo keturias technologijos laimėjimus:

Pirma, "AlphaGo Zero" optimizuoja pagal laimėtojo santykį, tik įvertina pergalę, du neigiamus rezultatus; Ir "AlphaZero" yra pagal rezultatą, kad būtų galima atlikti optimizavimą, atsižvelgė į tokią galimybę kaip kaklaraištis.

Antra, "AlphaGo Zero" pakeis lentos kryptį sustiprinimui, o "AlphaZero" nebus. Eiti laivą sukrauti, o šachmatais ir šachmatais nėra, todėl "AlphaZero" yra labiau universalus.

Trys "AlphaGo Zero" ir toliau pasirinks geriausią pakeitimo rodiklio versiją, o "AlphaZero" atnaujina tik neuroninį tinklą, sumažindamas blogų rezultatų mokymo riziką.

4. Hiperparametrai "AlphaGo Zero" paieškos skyriuje yra gaunami naudojant "Bayesian" optimizavimą. Atranka turės didelę įtaką vertinimo rezultatui. "AlphaZero" visoms žaidimams pakartoja tą patį hiperparametrą, todėl nereikia atlikti konkrečių žaidimo pakeitimų.

Ketvirtoji vyresnio amžiaus mašinų mokymosi architekto Tu Weiwei paradigma pasakė "geek parke", kad "AlphaZero" turi permainų ir apribojimų:

Pirma, DeepMind Šio darbo pagrindas - įrodyti "AlphaGo Zero" universalumo strategiją šachmatų problemai spręsti; šiame metode nėra ypatingos svarbos. "AlphaZero" iš tikrųjų yra "AlphaGo Zero" strategijos išplėstinė versija iš "Eiti į kitus panašius stalo žaidimus" ir pranoksta kitą technologiją pagrįstą stalo žaidimų AI. Jie buvo geriausi anksčiau.

Antra, "AlphaZero" yra tik "universali" variklis panašiems stalo žaidimams, turintiems gerai apibrėžtą ir tobulą informacinį žaidimą. "AlphaZero" vis tiek susidurs su sudėtingesnių kitų problemų.

Anksčiau, kai "Ryukyu Sun Jian" interpretavo "AlphaGo Zero", jis sakė: "Fortifikuotą mokymąsi galima išplėsti į daugelį kitų sričių, ir tai nėra taip paprasta naudoti realiame pasaulyje. Pavyzdžiui, sustiprinant mokymąsi galima naudoti naujų narkotikų ir naujų vaistų tyrinėjimui. Reikia ieškoti struktūros. Po paieškos, jis yra pagamintas medicinoje. Tada, kaip tikrai išbandyti vaistą, yra veiksmingas. Ši uždaro ciklo kaina yra labai brangu ir labai lėta. Jums labai sunku padaryti taip paprasta, kaip žaisti šachmatais. & Quot;

Trečia, "AlphaZero" taip pat reikia daugybę kompiuterinių resursų, kad būtų galima palyginti palyginti "paprastą" šachmatų problema ir kaina yra labai didelė. Pasak "Geek" parkų, "DeepMind" šiame dokumente teigė, kad jie naudojo 5000 pirmosios kartos TPU, kad generuotų savaime žaismingus žaidimus, o 64-osios kartos TPU naudojo neuroninius tinklus. Anksčiau kai kurie ekspertai sakė tam tikrai žiniasklaidai, kad nors TPU spektaklis yra nuostabus, kainos bus labai didelės. Kai kurie investuotojai iš tarptautinės rizikos kapitalo organizacijos taip pat susipažino su šiuo ratu. Vienas iš žodžių yra: "Ši brangioji lustė, aš tiesiog žiūriu ..."

Ketvirta, dabartinis "AlphaZero" gali būti toli nuo "Go God" eiti. Laimingi žmonės neatspindi Dievo. Dabartinė tinklo struktūra ir mokymo strategija nėra optimali. Tiesą sakant, verta tolesnio tyrimo.

Nors yra tam tikrų apribojimų, jo taikymo scenarijus verta kasti. Yra daugybė kitų mokslinių tyrimų sričių, į kurias verta atkreipti dėmesį į mokslinių tyrimų kryptis, dėl kurių mašinų mokymasis tampa bendresnis, pvz., "AutoML", migracijos mokymasis ir kt. Tuo pat metu verta atkreipti dėmesį į tai, kaip toliau gauti bendresnį AI variklį mažesnėmis sąnaudomis (skaičiavimo išlaidomis, domeno ekspertų išlaidomis) ir padaryti AI vertingesnę praktinėse programose.

Drip trips yra speciali zona. "Geek" parkų duomenimis, didžėjai naudoja dirbtinio intelekto technologijas, kad vairuotojai ir keleiviai atitiktų nepagrįstą tiesinį atstumą (galbūt per upes) į užduotis. Keleiviams, kurie praleido laiką automobiliams, buvo daug techninio optimizavimo. Jie taip pat susidūrė su problemomis ir jiems sunkiai dirbo: mokydamiesi dirbtinio intelekto sistemoms, gali būti naudojamos tokios technologijos kaip GPU klasteriai. Tačiau, kai suderinami vairuotojai ir keleiviai, reikalingas realaus laiko veikimas ir sumažėja konfigūracija. Todėl, kaip užtikrinti tikslumą, taip pat atliekamas tyrimas. Darbuotojai tiria šį klausimą.

Tačiau Tu Weiwei patvirtino "DeepMind" pastangas "universalaus dirbtinio intelekto" link.