EITC/AI/ARL Advanced Reinforcement Learning estas la eŭropa IT Certification-programo pri la aliro de DeepMind al plifortikiga lernado en artefarita inteligenteco.
La instruplano de la EITC/AI/ARL Altnivela Plifortiga Lernado temigas teoriajn aspektojn kaj praktikajn kapablojn en plifortigaj lernadoteknikoj de la perspektivo de DeepMind organizita ene de la sekva strukturo, ampleksante ampleksan videodidaktikan enhavon kiel referenco por ĉi tiu EITC-Atestado.
Plifortiga lernado (RL) estas areo de maŝina lernado koncernita al kiel inteligentaj agentoj devas agi en medio por maksimumigi la nocion de akumula rekompenco. Plifortikiga lernado estas unu el tri bazaj maŝinaj lernadparadigmoj, kune kun kontrolita lernado kaj senpaga lernado.
Plifortikiga lernado diferencas de kontrolata lernado pro tio, ke ne necesas ke oni prezentu etikeditajn enirajn/elirajn parojn, kaj ke ne bezonu suboptimumajn agojn esti eksplicite korektitaj. Anstataŭe la fokuso estas trovi ekvilibron inter esplorado (de neesplorita teritorio) kaj ekspluatado (de aktuala scio).
La medio estas tipe deklarita en la formo de decida procezo de Markov (MDP), ĉar multaj plifortigaj lernaj algoritmoj por ĉi tiu kunteksto uzas dinamikajn programajn teknikojn. La ĉefa diferenco inter la klasikaj dinamikaj programaj metodoj kaj plifortigaj lernaj algoritmoj estas, ke ĉi tiuj lastaj ne supozas scion pri ĝusta matematika modelo de la MDP kaj ili celas grandajn MDPojn, kie ĝustaj metodoj fariĝas neefektivaj.
Pro sia ĝeneraleco, plifortiga lernado estas studata en multaj fakoj, kiel ekzemple teorio de ludoj, teorio de kontrolo, operacia esplorado, informa teorio, simulado-bazita optimumigo, multi-agentaj sistemoj, svarma inteligenteco kaj statistiko. En la operacia esplorado kaj kontrolliteraturo, plifortiga lernado nomiĝas proksimuma dinamika programado, aŭ neŭro-dinamika programado. La problemoj de intereso pri plifortiga lernado ankaŭ estis studitaj en la teorio de optimuma kontrolo, kiu temas plejparte pri la ekzisto kaj karakterizado de optimumaj solvoj, kaj algoritmoj por ilia ĝusta komputado, kaj malpli pri lernado aŭ aproksimado, precipe en la foresto de matematika modelo de la medio. En ekonomiko kaj ludoteorio, plifortiga lernado povas esti uzita por klarigi kiel ekvilibro povas ekesti sub saltita racieco.
Baza plifortikigo estas modeligita kiel Markov-decidprocezo (MDP). En matematiko, Markov-decida procezo (MDP) estas diskreta-tempa stokasta kontrola procezo. Ĝi provizas matematikan kadron por modeligi decidadon en situacioj kie rezultoj estas parte hazardaj kaj parte sub la kontrolo de decidanto. MDPoj utilas por studi problemojn pri optimumigo solvitajn per dinamika programado. MDPoj estis konataj almenaŭ jam en la 1950-aj jaroj. Kerna korpo de esplorado pri decidoj de Markov rezultiĝis el la libro de Ronald Howard de 1960, Dinamika Programado kaj Markov-Procezoj. Ili estas uzataj en multaj fakoj, inkluzive de robotiko, aŭtomata kontrolo, ekonomio kaj fabrikado. La nomo de MDPoj venas de la rusa matematikisto Andrey Markov ĉar ili estas etendaĵo de Markov-ĉenoj.
Ĉe ĉiu tempopaŝo, la procezo estas en iu stato S, kaj la decidanto povas elekti ajnan agon haveblan en ŝtato S. La procezo respondas ĉe la venonta tempopaŝo hazarde moviĝante en novan staton S ', kaj donante la decidanto responda rekompenco Ra (S, S ').
La probablo, ke la procezo moviĝas al sia nova stato S ', estas influita de la elektita ago a. Specife, ĝi estas donita per la ŝtata transira funkcio Pa (S, S '). Tiel, la sekva stato S 'dependas de la nuna stato S kaj la ago de la decidanto a. Sed donita S kaj a, ĝi estas kondiĉe sendependa de ĉiuj antaŭaj statoj kaj agoj. Alivorte, la ŝtataj transiroj de MDP kontentigas la Markov-econ.
Markov-decidaj procezoj estas etendaĵo de Markov-ĉenoj; la diferenco estas la aldono de agoj (permesante elekton) kaj rekompencojn (donante instigon). Male, se nur unu ago ekzistas por ĉiu ŝtato (ekz. "Atendi") kaj ĉiuj kompensoj samas (ekz. "Nulo"), decida procezo de Markov reduktiĝas al ĉeno de Markov.
Plifortiga lerna agento interagas kun sia medio laŭ diskretaj tempaj paŝoj. Ĉiufoje t, la agento ricevas la nunan staton S (t) kaj rekompencas r (t). Ĝi tiam elektas agon a (t) el la aro de disponeblaj agoj, kiu poste estas sendita al la medio. La medio moviĝas al nova stato S (t + 1) kaj la rekompenco r (t + 1) asociita kun la transiro estas determinita. La celo de plifortiga lernagento estas lerni politikon, kiu maksimumigas la atendatan akumulan rekompencon.
Formuli la problemon kiel MDP supozas, ke la agento rekte observas la nunan median staton. Ĉi-kaze la problemo laŭdire havas plenan observeblon. Se la agento nur havas aliron al subaro de ŝtatoj, aŭ se la observitaj statoj estas koruptitaj de bruo, laŭdire la agento havas partan observeblon, kaj formale la problemo devas esti formulita kiel Parte observinda decida procezo de Markov. Ambaŭkaze la aro de agoj disponeblaj al la agento povas esti limigita. Ekzemple, la stato de konta saldo povus esti limigita al pozitiva; se la nuna valoro de la ŝtato estas 3 kaj la ŝtata transiro provas redukti la valoron per 4, la transiro ne estos permesita.
Kiam la agado de la agento estas komparata al tiu de aganto, kiu agas optimume, la diferenco de agado estigas la nocion de bedaŭro. Por agi proksime optime, la agento devas rezoni pri la longtempaj konsekvencoj de siaj agoj (te maksimumigi estontan enspezon), kvankam la tuja rekompenco asociita kun ĉi tio povus esti negativa.
Tiel, plifortiga lernado aparte taŭgas por problemoj, kiuj inkluzivas longtempan kontraŭ mallongtempan rekompencon. Ĝi estis aplikita sukcese al diversaj problemoj, inkluzive de robota kontrolo, lifta planado, telekomunikadoj, triktrako, damludo kaj Go (AlphaGo).
Du elementoj faras plifortigan lernadon potenca: la uzo de specimenoj por optimumigi rendimenton kaj la uzon de funkcio-aproksimado por trakti grandajn mediojn. Danke al ĉi tiuj du ĉefaj eroj, plifortiga lernado povas esti uzata en grandaj medioj en la sekvaj situacioj:
- Modelo de la medio estas konata, sed analiza solvo ne haveblas.
- Nur simulada modelo de la medio ricevas (la temo de simulado-bazita optimumigo).
- La sola maniero kolekti informojn pri la medio estas interagi kun ĝi.
La unuaj du el ĉi tiuj problemoj povus esti konsiderataj planaj problemoj (ĉar iu formo de modelo disponeblas), dum la lasta povus esti konsiderata kiel aŭtenta lernoproblemo. Tamen plifortiga lernado konvertas ambaŭ planajn problemojn al maŝinaj lernaj problemoj.
La interŝanĝo de esplorado kontraŭ ekspluatado estis plej funde studita per la plurarmila bandita problemo kaj por finhavaj ŝtataj spacaj MDPoj en Burnetas kaj Katehakis (1997).
Plifortikiga lernado postulas lertajn esplorajn me mechanismsanismojn; hazarde elekti agojn, sen referenco al laŭtaksa probabla distribuo, montras malbonan rendimenton. La kazo de (malgrandaj) finhavaj decidoj de Markov estas relative bone komprenata. Tamen, pro la manko de algoritmoj, kiuj bone skalas laŭ la nombro da ŝtatoj (aŭ skalas al problemoj kun senfinaj stataj spacoj), simplaj esploraj metodoj estas la plej praktikaj.
Eĉ se la afero pri esplorado estas ignorata kaj eĉ se la ŝtato estis observebla, la problemo restas uzi pasintan sperton por ekscii, kiuj agoj kondukas al pli altaj akumulaj kompensoj.
Por konatigi vin detale kun la atesta instruplano, vi povas pligrandigi kaj analizi la suban tabelon.
La EITC/AI/ARL Altnivela Plifortiga Lernado-Atestado-Instruplano referencoj al liberaj didaktikaj materialoj en videoformo. Lernadprocezo estas dividita en paŝon post paŝo strukturo (programoj -> lecionoj -> temoj) kovrante koncernajn instruplanajn partojn. Senlima konsultado kun domajnaj fakuloj ankaŭ estas provizita.
Por detaloj pri la Atestprocedo kontrolu Kiel ĝi funkcias.
Instruplanaj Referencaj Rimedoj
Kontrolo de homa nivelo per eldono Deep Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Malferma alira kurso pri profunda plifortiga lernado ĉe UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL validis por K-brakbendita bandita problemo de Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Elŝutu la kompletajn eksterretajn memlernajn preparajn materialojn por la programo EITC/AI/ARL Altnivela Plifortiga Lernado en PDF-dosiero
EITC/AI/ARL-preparaj materialoj - norma versio
EITC/AI/ARL-preparaj materialoj - plilongigita versio kun reviziaj demandoj