TD,learning,PER和Epsilon:深度學(xué)習(xí)對高等教育教學(xué)的啟示
發(fā)布時間:2019-08-11 來源: 感恩親情 點擊:
摘要:本文從研究深度學(xué)習(xí)出發(fā),提出深度學(xué)習(xí)在增強學(xué)習(xí)領(lǐng)域能被高等教育借鑒的三種重要算法:時間差分學(xué)習(xí)、優(yōu)先經(jīng)驗回放、創(chuàng)新指數(shù),通過對這些算法的具體分析,總結(jié)這些算法如何優(yōu)勢互補,綜合運用到高等教育教學(xué)實踐上,提高高等教育教學(xué)效果。
關(guān)鍵詞:深度學(xué)習(xí);時間差分學(xué)習(xí);優(yōu)先經(jīng)驗回放;創(chuàng)新指數(shù)
中圖分類號:G642.41 文獻標志碼:A 文章編號:1674-9324(2018)31-0239-03
一、引言
“深度學(xué)習(xí)”本質(zhì)上是一個計算機科學(xué)領(lǐng)域的概念。谷歌的深度學(xué)習(xí)機器人Alpha-Go在圍棋上輕松戰(zhàn)勝人類頂尖高手的故事已經(jīng)家喻戶曉。如果把中國棋院、韓國棋院、日本棋院比作世界圍棋界最頂尖的三所高校,頂尖的棋手是這三所高校最優(yōu)秀的畢業(yè)生。而Alpha-Go開發(fā)團隊里圍棋水平最高的工程師也只有業(yè)余五段,相當于小學(xué)畢業(yè)學(xué)歷,一天大學(xué)都沒有上過,但是掌握了深度學(xué)習(xí)方法的學(xué)生,結(jié)果成績遠遠超越了所有頂尖大學(xué)最優(yōu)秀的畢業(yè)生。這是一個值得思考和研究的問題。深度學(xué)習(xí)和AI(Artificial Intelligence)“人工智能”緊密相關(guān)。
計算機是通過數(shù)理邏輯運算來進行學(xué)習(xí)的,如果計算機的深度學(xué)習(xí)算法反向被人類學(xué)習(xí)借鑒,那就表明這些學(xué)習(xí)方法在數(shù)理邏輯上也是可以被證明有效的。本文從這個角度出發(fā),提出已經(jīng)在深度學(xué)習(xí)上得到檢驗有效的“算法”,反過來也可以讓人類的學(xué)習(xí)方法和效率得到提升,最后提出深度學(xué)習(xí)的研究成果對高等教育教學(xué)的啟示。
二、深度學(xué)習(xí)概述
深度學(xué)習(xí)是近十年才被提出的一個概念(Hinton[1],2006)。簡單地說深度學(xué)習(xí)就是讓計算機通過模仿人類大腦的神經(jīng)網(wǎng)絡(luò)能夠像人類一樣學(xué)習(xí)。
深度學(xué)習(xí)分為“認知”學(xué)習(xí)和“增強”學(xué)習(xí)兩大類。
。ㄒ唬┱J知學(xué)習(xí)
深度學(xué)習(xí)根據(jù)其應(yīng)用的領(lǐng)域不同,或者說模仿人腦的機能不同,分為“認知”學(xué)習(xí)和“增強”學(xué)習(xí)兩大類。
所謂“認知學(xué)習(xí)”,就是每一項輸入都有一個標準的輸出答案。例如圖像識別、語音識別、數(shù)學(xué)計算題、史實知識點,等等。因為監(jiān)督者立刻就可以反饋對或錯,所以也被稱為“有監(jiān)督的學(xué)習(xí)”。
。ǘ┰鰪妼W(xué)習(xí)
而“增強學(xué)習(xí)”和“認知學(xué)習(xí)”最大的不同就在于沒有標準答案。對于沒有標準答案的問題,就不能輕易地去否定或肯定一個與原來流行的權(quán)威理論不同的思想,而是隨著不斷地探索,會得到一些時而清晰時而模糊的反饋,要經(jīng)歷一個較長的過程才能看出最終的結(jié)果是好是壞。當下的每一步是對整體結(jié)果的“增強”。下圍棋就是這樣的,一步棋的好壞在當時并不明確,而隨著棋局的進一步展開才會顯現(xiàn),而最終的輸贏要在很多步之后才明確。因為無法立刻反饋對或錯,所以這種學(xué)習(xí)也被稱為“無監(jiān)督的學(xué)習(xí)”。
增強學(xué)習(xí)核心有三個部分:
1.狀態(tài)(State):關(guān)于當前狀態(tài)的變量。
2.行動(Action):計劃采取的行動。
3.回報(Reward)采取行動后新的狀態(tài)對原有狀態(tài)的改變。
深度學(xué)習(xí)對高等教育教研的啟發(fā)主要在“增強”學(xué)習(xí)領(lǐng)域。
高等教育和初等教育的一個重要區(qū)別是,初等教育的學(xué)習(xí)方法中“認知”占了很大的比重,而高等教育的學(xué)習(xí)方法中“增強”占了很大的比重。這并不意味著增強學(xué)習(xí)要比認知學(xué)習(xí)來得更難。只能說對計算機來說意味著不同的算法,而對人類來說則意味著不同的思維方式,不同的算法(不同的思維方式)對應(yīng)解決不同的問題。例如,讓一個建筑工程師設(shè)計一幢新的樓房要比讓他學(xué)會一門新的外語容易很多,雖然前者屬于增強學(xué)習(xí),而后者屬于認知學(xué)習(xí)。
下面就具體分析三個增強學(xué)習(xí)中的重要算法及其對高等教育教學(xué)的啟發(fā)。
三、增強學(xué)習(xí)中的三個重要算法:TD Learning,PER和Epsilon
。ㄒ唬⿻r間差分學(xué)習(xí)(Temporal Difference Learning,簡稱TD Learning)
時間差分學(xué)習(xí)是在“動態(tài)規(guī)劃”算法和“蒙特卡羅模擬”算法的基礎(chǔ)上發(fā)展起來的。
動態(tài)規(guī)劃類似于“窮舉法”,把未來可能出現(xiàn)的狀況全部羅列出來,逐個比較。它的缺陷也很明顯:當問題的復(fù)雜程度提高時(表現(xiàn)為變量的增加),它需要的計算量呈指數(shù)級增加。例如,一個真實的19*19的圍棋盤,變化有3361種,這個數(shù)字比全宇宙的原子數(shù)還要大,現(xiàn)有的任何計算機都無法計算。這也即是所謂的“維度的詛咒”(Curse of Dimensionality)。
“蒙特卡羅”模擬針對“維度的詛咒”進行優(yōu)化,不要求“窮舉”,而是用數(shù)據(jù)反復(fù)試驗來得到結(jié)果。蒙特卡羅模擬算法比動態(tài)規(guī)劃算法的運算量大大減少了,但是因為每做一次實驗都要從頭算到尾,針對復(fù)雜問題的運算量依然很大。
時間差分學(xué)習(xí)法把動態(tài)規(guī)劃和蒙特卡羅模擬結(jié)合起來,也就是說不需要每次都從頭算到尾了,只要根據(jù)當前的回報和下一個狀態(tài)值來更新現(xiàn)在的狀態(tài)就可以了。
。ǘ﹥(yōu)先經(jīng)驗回放Prioritized Experience Replay(簡稱PER)
前面講到的時間差分學(xué)習(xí)法有一個弱點,那就是容易“一葉障目,不見泰山”。造成這個弱點的一個重要原因是,深度學(xué)習(xí)所使用的實驗數(shù)據(jù)是高度相關(guān)的連續(xù)數(shù)列。解決這個問題的方法是“經(jīng)驗回放”。
深度學(xué)習(xí)領(lǐng)域的經(jīng)驗回放概念最早由Lin Long Ji[2](1993)提出。在學(xué)習(xí)過程中,經(jīng)驗(x,a,y,r)不斷被保存到一個數(shù)據(jù)集中區(qū),并且還不斷地被調(diào)用,而不是只根據(jù)最新獲取的經(jīng)驗來更新。在實際生活中,能夠記住的“經(jīng)驗”總是有限的,計算機雖然儲存容量大,但依然是有限制的。因此,一個改進的算法“優(yōu)先經(jīng)驗回放”(Prioritized Experience Replay,PER)就很重要。結(jié)合上面的時間差分學(xué)習(xí)法,那些和預(yù)期值偏離越大的“經(jīng)驗”被賦予特別高的“優(yōu)先級”,它們未來被調(diào)用的可能性就越高,這樣就避免了傳統(tǒng)學(xué)習(xí)中常見的“好了傷疤忘了疼”的重復(fù)犯錯。
相關(guān)熱詞搜索:教育教學(xué) 啟示 深度 學(xué)習(xí) TD
熱點文章閱讀