感恩親情 蒲公英文摘 > 感恩親情 >

TD,learning，PER和Epsilon：深度學(xué)習(xí)對高等教育教學(xué)的啟示

發(fā)布時間:2019-08-11 來源: 感恩親情點擊：

　　摘要：本文從研究深度學(xué)習(xí)出發(fā)，提出深度學(xué)習(xí)在增強學(xué)習(xí)領(lǐng)域能被高等教育借鑒的三種重要算法：時間差分學(xué)習(xí)、優(yōu)先經(jīng)驗回放、創(chuàng)新指數(shù)，通過對這些算法的具體分析，總結(jié)這些算法如何優(yōu)勢互補，綜合運用到高等教育教學(xué)實踐上，提高高等教育教學(xué)效果。
　　關(guān)鍵詞：深度學(xué)習(xí)；時間差分學(xué)習(xí)；優(yōu)先經(jīng)驗回放；創(chuàng)新指數(shù)
　　中圖分類號：G642.41 文獻標志碼：A 文章編號：1674-9324（2018）31-0239-03
　　一、引言
　　“深度學(xué)習(xí)”本質(zhì)上是一個計算機科學(xué)領(lǐng)域的概念。谷歌的深度學(xué)習(xí)機器人Alpha-Go在圍棋上輕松戰(zhàn)勝人類頂尖高手的故事已經(jīng)家喻戶曉。如果把中國棋院、韓國棋院、日本棋院比作世界圍棋界最頂尖的三所高校，頂尖的棋手是這三所高校最優(yōu)秀的畢業(yè)生。而Alpha-Go開發(fā)團隊里圍棋水平最高的工程師也只有業(yè)余五段，相當于小學(xué)畢業(yè)學(xué)歷，一天大學(xué)都沒有上過，但是掌握了深度學(xué)習(xí)方法的學(xué)生，結(jié)果成績遠遠超越了所有頂尖大學(xué)最優(yōu)秀的畢業(yè)生。這是一個值得思考和研究的問題。深度學(xué)習(xí)和AI（Artificial Intelligence）“人工智能”緊密相關(guān)。
　　計算機是通過數(shù)理邏輯運算來進行學(xué)習(xí)的，如果計算機的深度學(xué)習(xí)算法反向被人類學(xué)習(xí)借鑒，那就表明這些學(xué)習(xí)方法在數(shù)理邏輯上也是可以被證明有效的。本文從這個角度出發(fā)，提出已經(jīng)在深度學(xué)習(xí)上得到檢驗有效的“算法”，反過來也可以讓人類的學(xué)習(xí)方法和效率得到提升，最后提出深度學(xué)習(xí)的研究成果對高等教育教學(xué)的啟示。
　　二、深度學(xué)習(xí)概述
　　深度學(xué)習(xí)是近十年才被提出的一個概念（Hinton[1]，2006）。簡單地說深度學(xué)習(xí)就是讓計算機通過模仿人類大腦的神經(jīng)網(wǎng)絡(luò)能夠像人類一樣學(xué)習(xí)。
　　深度學(xué)習(xí)分為“認知”學(xué)習(xí)和“增強”學(xué)習(xí)兩大類。
　�。ㄒ唬┱J知學(xué)習(xí)
　　深度學(xué)習(xí)根據(jù)其應(yīng)用的領(lǐng)域不同，或者說模仿人腦的機能不同，分為“認知”學(xué)習(xí)和“增強”學(xué)習(xí)兩大類。
　　所謂“認知學(xué)習(xí)”，就是每一項輸入都有一個標準的輸出答案。例如圖像識別、語音識別、數(shù)學(xué)計算題、史實知識點，等等。因為監(jiān)督者立刻就可以反饋對或錯，所以也被稱為“有監(jiān)督的學(xué)習(xí)”。
　�。ǘ┰鰪妼W(xué)習(xí)
　　而“增強學(xué)習(xí)”和“認知學(xué)習(xí)”最大的不同就在于沒有標準答案。對于沒有標準答案的問題，就不能輕易地去否定或肯定一個與原來流行的權(quán)威理論不同的思想，而是隨著不斷地探索，會得到一些時而清晰時而模糊的反饋，要經(jīng)歷一個較長的過程才能看出最終的結(jié)果是好是壞。當下的每一步是對整體結(jié)果的“增強”。下圍棋就是這樣的，一步棋的好壞在當時并不明確，而隨著棋局的進一步展開才會顯現(xiàn)，而最終的輸贏要在很多步之后才明確。因為無法立刻反饋對或錯，所以這種學(xué)習(xí)也被稱為“無監(jiān)督的學(xué)習(xí)”。
　　增強學(xué)習(xí)核心有三個部分：
　　1.狀態(tài)（State）：關(guān)于當前狀態(tài)的變量。
　　2.行動（Action）：計劃采取的行動。
　　3.回報（Reward）采取行動后新的狀態(tài)對原有狀態(tài)的改變。
　　深度學(xué)習(xí)對高等教育教研的啟發(fā)主要在“增強”學(xué)習(xí)領(lǐng)域。
　　高等教育和初等教育的一個重要區(qū)別是，初等教育的學(xué)習(xí)方法中“認知”占了很大的比重，而高等教育的學(xué)習(xí)方法中“增強”占了很大的比重。這并不意味著增強學(xué)習(xí)要比認知學(xué)習(xí)來得更難。只能說對計算機來說意味著不同的算法，而對人類來說則意味著不同的思維方式，不同的算法（不同的思維方式）對應(yīng)解決不同的問題。例如，讓一個建筑工程師設(shè)計一幢新的樓房要比讓他學(xué)會一門新的外語容易很多，雖然前者屬于增強學(xué)習(xí)，而后者屬于認知學(xué)習(xí)。
　　下面就具體分析三個增強學(xué)習(xí)中的重要算法及其對高等教育教學(xué)的啟發(fā)。
　　三、增強學(xué)習(xí)中的三個重要算法：TD Learning，PER和Epsilon
　�。ㄒ唬⿻r間差分學(xué)習(xí)（Temporal Difference Learning，簡稱TD Learning）
　　時間差分學(xué)習(xí)是在“動態(tài)規(guī)劃”算法和“蒙特卡羅模擬”算法的基礎(chǔ)上發(fā)展起來的。
　　動態(tài)規(guī)劃類似于“窮舉法”，把未來可能出現(xiàn)的狀況全部羅列出來，逐個比較。它的缺陷也很明顯：當問題的復(fù)雜程度提高時（表現(xiàn)為變量的增加），它需要的計算量呈指數(shù)級增加。例如，一個真實的19*19的圍棋盤，變化有3361種，這個數(shù)字比全宇宙的原子數(shù)還要大，現(xiàn)有的任何計算機都無法計算。這也即是所謂的“維度的詛咒”（Curse of Dimensionality）。
　　“蒙特卡羅”模擬針對“維度的詛咒”進行優(yōu)化，不要求“窮舉”，而是用數(shù)據(jù)反復(fù)試驗來得到結(jié)果。蒙特卡羅模擬算法比動態(tài)規(guī)劃算法的運算量大大減少了，但是因為每做一次實驗都要從頭算到尾，針對復(fù)雜問題的運算量依然很大。
　　時間差分學(xué)習(xí)法把動態(tài)規(guī)劃和蒙特卡羅模擬結(jié)合起來，也就是說不需要每次都從頭算到尾了，只要根據(jù)當前的回報和下一個狀態(tài)值來更新現(xiàn)在的狀態(tài)就可以了。
　�。ǘ﹥�(yōu)先經(jīng)驗回放Prioritized Experience Replay（簡稱PER）
　　前面講到的時間差分學(xué)習(xí)法有一個弱點，那就是容易“一葉障目，不見泰山”。造成這個弱點的一個重要原因是，深度學(xué)習(xí)所使用的實驗數(shù)據(jù)是高度相關(guān)的連續(xù)數(shù)列。解決這個問題的方法是“經(jīng)驗回放”。
　　深度學(xué)習(xí)領(lǐng)域的經(jīng)驗回放概念最早由Lin Long Ji[2]（1993）提出。在學(xué)習(xí)過程中，經(jīng)驗（x，a，y，r）不斷被保存到一個數(shù)據(jù)集中區(qū)，并且還不斷地被調(diào)用，而不是只根據(jù)最新獲取的經(jīng)驗來更新。在實際生活中，能夠記住的“經(jīng)驗”總是有限的，計算機雖然儲存容量大，但依然是有限制的。因此，一個改進的算法“優(yōu)先經(jīng)驗回放”（Prioritized Experience Replay，PER）就很重要。結(jié)合上面的時間差分學(xué)習(xí)法，那些和預(yù)期值偏離越大的“經(jīng)驗”被賦予特別高的“優(yōu)先級”，它們未來被調(diào)用的可能性就越高，這樣就避免了傳統(tǒng)學(xué)習(xí)中常見的“好了傷疤忘了疼”的重復(fù)犯錯。

相關(guān)熱詞搜索：教育教學(xué) 啟示深度學(xué)習(xí) TD

熱點文章閱讀

版權(quán)所有 蒲公英文摘 www.zuancaijixie.com

91啦在线播放,特级一级全黄毛片免费,国产中文一区,亚洲国产一成人久久精品