基于學習分析的在線學業(yè)成就影響因素研究
發(fā)布時間:2019-08-07 來源: 短文摘抄 點擊:
摘要:如何利用數據和模型來預測學業(yè)成功與失敗是學習分析領域的核心問題。該文通過對現(xiàn)有文獻檢索分析出目前研究中主要影響學業(yè)成就的要素,結合對原始數據的深度處理,得到和學習相關的高級行為指標,利用機器學習中神經網絡、決策樹及線性回歸算法分別建模分析。研究發(fā)現(xiàn):學習態(tài)度、學習及時水平和投入水平是影響在線學業(yè)成就的主要因素,耐挫水平為次要因素,而互動水平、積極水平和階段成效對最終的學業(yè)成就無關。該文最后對研究結果進行了反思后認為,課程選取對研究在線學業(yè)成就要素有非常大的影響。
關鍵詞:學習分析;在線課程;學業(yè)成就;機器學習
中圖分類號:G434 文獻標識碼:A
一、引言
隨著大數據的應用普及,很多行業(yè)(如金融、零售)都發(fā)生了巨大的變化。但一直以來,教育領域是在大數據中受益最少的領域之一,缺乏“數據驅動的思維(Data-driven Mind-set)”是教育領域當今面臨的主要障礙。相對于流程清晰規(guī)范的金融系統(tǒng),教育是一個超級復雜的系統(tǒng),各類教育實踐活動產生了比金融行業(yè)要多得多的數據。因此,如何利用好教育數據,并從中發(fā)掘其背后的教育規(guī)律成了研究者最近關注的重點。自2010年起,學習分析(Learning Analytics,簡稱LA)逐漸從分析領域獨立出來,吸納數據挖掘、社會網絡分析、統(tǒng)計分析等多種分析方法,形成了一個獨立的新興領域。從此,學習分析作為分析技術在教育領域中的應用和發(fā)展,受到越來越多研究者的關注和重視。運用在教育領域的學習分析主要任務是通過對學習者產生和收集到的相關數據進行分析和闡釋,來評估學習者的學業(yè)成就、預測其學習表現(xiàn)并發(fā)現(xiàn)存在問題的過程。因此如何利用學習分析技術來預測學業(yè)成功與失敗是該領域核心問題。
二、文獻綜述
最近幾年,圍繞學業(yè)分析與學業(yè)成就這一話題,國內外學者的研究主要聚焦在學業(yè)成就模型和指標的研究上。Usamah通過對14個典型的學習分析系統(tǒng)和應用進行研究后指出,學習分析中數據輸入應該包含盡可能多的數據,而不應綁定在兩種或三種類型的數據中,并最終梳理出包含學習者往期學業(yè)表現(xiàn)、課程參與情況、學習者背景、社交表現(xiàn)等多個預測學業(yè)表現(xiàn)的重要指標。Bukralia使用學業(yè)能力、經濟水平、學業(yè)目標、技術準備、人口統(tǒng)計、課程動機與參與以及課程特征作為預測學業(yè)風險或成就的指標。G.Siemens等對學習者基本情況、學習目標、動機水平、認知風格、學習需要的數據進行收集,并對在線學習影響因素進行分析,其成果為促進學生學業(yè)成功提供了有力支撐。武法提和牟智佳基于學習者行為分析提出了以教學目標分類理論、個性化學習理論和社會認知理論為指導的,以“目標-過程-結果”為思想的學習結果分類預測框架,并以edX平臺上一門MOOC課程的學習行為數據為研究對象進行探索,通過將視頻學習次數、文本學習次數、評價參與時長、評價參與次數和論壇主題發(fā)起數作為行為指標組合,發(fā)現(xiàn)學習次數的預測效果要好于學習時長,并與學習時長和學習次數結合后的預測效果接近。李爽等基于學習者在線學習行為投入歸納出參與、堅持、專注、交互、學術挑戰(zhàn)、學習自我監(jiān)控等六個在線學業(yè)成就評價指標維度。陳子健等通過計算所有單個數據屬性和學業(yè)成績類別之間的相關系數及計算所有屬性的信息增益率兩種方法共同確定學業(yè)成績的影響因素。
通過對以上分析研究發(fā)現(xiàn),在研究內容及數據的處理上,目前大部分研究主要以理論探討、框架分析為主,部分以數據為基礎的實證分析主要是使用了在線平臺基礎的原始數據,如各類行為的時長、頻次等,對同一行為的多條數據的處理方法主要是取均值,如用所有練習的成績平均值來代表最終成績等。鑒于在線學習不同用戶的學習習慣不同、分配時間的方式不同、每個練習難度也不同,同一個學習者完成相似任務所需要的時間及次數差異都非常大,不同的學習者完成不同任務的次數和時間會相差更大,對原始數據簡單的均值處理顯然不太合理,因此需要對原始數據進行歸一化處理。如Grabe和Sigler通過研究對各類時間進行了估計,所有超過2分鐘的學習行為時間將被替換成2分鐘,選擇題答題時間最高設定為90秒,使用這種簡單規(guī)則,的確降低了數據的處理難度,在一定程度上對數據進行了歸一化處理,但同時也丟失了包含大量用戶特征的數據。在研究方法上,很多研究都通過理論分析指出了影響在線學習學業(yè)成就的因素,然后通過調查問卷或少量在線數據來建模驗證,數據處理的方式多用回歸分析或結構方程模型,很少使用大數據研究所采用的機器學習算法來進行建模并對模型進行深入分析。
三、分析框架
本研究參照上述文獻中關于學業(yè)成就框架的研究結果,對基本的原始數據進行歸一化處理后,結合文獻中研究得出的影響學業(yè)成就指標,選取了及時水平、投入水平、互動水平、耐挫水平、積極水平、學習態(tài)度、階段成效等七個維度作為分析在線學業(yè)成績的指標,并選擇了對相關底層數據進行更深入挖掘后所形成的“高級數據”作為以上維度的指標項,構建了學業(yè)成績要素分析的框架,如表1所示。使用線下成績作為學業(yè)成就的標簽數據,利用機器學習算法構建模型,分析哪些指標是影響在線學習成就的主要指標。
。ㄒ唬┑谝淮螌W習課程時間
考慮到課程的創(chuàng)建與發(fā)布時間不一定就是學習者可以學習的時間,因此本研究使用課程第一個學習者開始學習的時間為起始點,其他學習者第一次學習課程的時間與起始點之間的間隔,即為該學習者的第一次學習課程時間,該時間為相對時間,以天為單位。第一次學習課程的時間反映了學習者能否迅速開始學習活動。
。ǘ┢骄陀^題開始答題時間
客觀題開始答題時間:采用和第一次學習課程時間相同的研究方法,將從每個客觀題作業(yè)第—個學習者開始答題的時間開始,到其他學習者開始作答該客觀題作業(yè)時間結束,定義為該學習者該客觀題的開始答題時間,該時間為相對時間,以天為單位。
平均客觀題開始答題時間:某學習者某一門課程全部客觀題作業(yè)的客觀題開始答題時間的平均值定義為該學習者的平均客觀題開始答題時間。通過平均客觀題開始答題時間,可以反映出學習者開始學習課程新資源的主動性和及時性。
熱點文章閱讀