基于上市企業(yè)財務(wù)數(shù)據(jù)的貝葉斯統(tǒng)計與知識推理
發(fā)布時間:2019-08-06 來源: 感恩親情 點擊:
【摘要】本文主要使用matlab和R自帶軟件包對上市企業(yè)財務(wù)數(shù)據(jù)建立貝葉斯網(wǎng)。用matlab對建立好的貝葉斯網(wǎng)絡(luò)進行參數(shù)學習,利用多種推理引擎進行精確推理,并對結(jié)果進行比較分析。
【關(guān)鍵詞】貝葉斯網(wǎng) 精確推理 財務(wù)數(shù)據(jù)
一、引言
在上個世紀80年代以前,人工智能學術(shù)界普遍認為用概率論的方法來處理較大規(guī)模不確定問題是不切實際的,因為它在計算上太復(fù)雜,使其沒有現(xiàn)實價值。然而,隨著人工智能的不確定性問題專題會議的召開,研究者提出幾種概率近似的變換方法,特別是貝葉斯網(wǎng)絡(luò)等概率模型在實際中成功地應(yīng)用(如專家系統(tǒng)和故障分析系統(tǒng)等),使貝葉斯技術(shù)被確立為處理不確定性問題的一種主要技術(shù)。但是關(guān)于貝葉斯網(wǎng)絡(luò)的學習和推理還存在一些理論和應(yīng)用方面的問題,隨著今二十年的研究深化,這些問題逐步解決,貝葉斯網(wǎng)絡(luò)已成為當前一種重要的智能化數(shù)據(jù)分析與處理工具。貝葉斯網(wǎng)絡(luò)與其他數(shù)據(jù)挖掘方法(如決策樹,神經(jīng)網(wǎng)絡(luò),關(guān)聯(lián)規(guī)則等)相比,貝葉斯網(wǎng)絡(luò)有以下特點:貝葉斯網(wǎng)絡(luò)可以表示變量間的因果關(guān)系,這種聯(lián)系的置信度是以概率的形式來表達;貝葉斯網(wǎng)絡(luò)能夠充分利用專家經(jīng)驗和樣本數(shù)據(jù)的信息;貝葉斯網(wǎng)絡(luò)能夠方便處理有缺失值的數(shù)據(jù);貝葉斯網(wǎng)絡(luò)具有靈活的雙向推理能力,能夠有效避免數(shù)據(jù)的過度擬合和局部最優(yōu)的問題。
二、數(shù)據(jù)處理
133只股票、31個因素變量的4年數(shù)據(jù)記錄,共532條記錄。其中符號表示的含義如表2-1所示。
為唯一標識每一股票數(shù)據(jù),對股票重新編號,作為一個股票數(shù)據(jù)編號。如,第一只股票2003年的數(shù)據(jù)賦予編號1,第一只股票2002年的數(shù)據(jù)賦予編號2,以此類推。
首先對數(shù)據(jù)進行類型一致化和歸一處理,在本文把極小型、居中型和極大型的變量統(tǒng)一化成極大型,下面是對每種類轉(zhuǎn)計算公式:
把極小型指標轉(zhuǎn)化為大的計算公式:
其中M是變量x的最大值。
把中間型指標轉(zhuǎn)化為極大型指標的計算公式為:
其中m、M分別是變量x的最大值和最小值。
然后“標準化”處理法。即取
其中Xij為標準觀測值,其平均值和均方差分別為0和1。式中j(j=1,2,...,31)為第j項指標原始觀測值的平均值,Sj(j=1,2,...,31)為第j項指標原始觀測值的均方差。
不考慮變量為連續(xù)性的情況,所以必須把是連續(xù)型通過離散化處理變成離散型的變量,在這里我們通過等距對數(shù)據(jù)進行把每一個連續(xù)性的變量離散出三值1,2,3,最后經(jīng)過類型一致化、標準和離散化處理數(shù)據(jù)。
三、貝葉斯網(wǎng)絡(luò)的構(gòu)建
。ㄒ唬㎏2法建立貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)
Matlab中的貝葉斯網(wǎng)絡(luò)工具箱(BNT)提供了豐富的參數(shù)學習函數(shù),K2是其中的一種。函數(shù)調(diào)用如下:
data=xlsread("課程論文.xlsx");
data_train=data";
N=size(data,2);
ns=3*ones(1,N);
order=[19 24 25 29 23 28 13 18 14 20 22 30 10 11 12 8 16 9 4 1 2 3 5 31 17 6 7 15 21 27 26];
max_fan_in=4;
discrete_nodes=1:N;
dag_K2=learn_struct_K2(data_train,ns,order,"discrete",discrete_nodes,"max_fan_in",max_fan_in);
建立的結(jié)構(gòu)圖如下圖所示:
。ǘ┡郎椒ń⒇惾~斯網(wǎng)絡(luò)結(jié)構(gòu)
Matlab同時也提供爬山法學習函數(shù)learn_struct_hc(),所有條件都采用默認條件,調(diào)用形式如下:
data=xlsread("課程論文.xlsx");
data_train=data";
N=size(data,2);
ns=3*ones(1,N);
dag=learn_struct_hc(data_train,ns);
dag_pashan=dag;
建立的網(wǎng)絡(luò)結(jié)構(gòu)圖如下:
R軟件也提供貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的學習,下面是采用R中的爬山法建立的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)。
在使用matlab和R兩種軟件輔助建立貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)中,均采用爬山法,默認條件下,R的結(jié)構(gòu)學習時間大大小于matlab的結(jié)構(gòu)學習時間,其中R只需要幾秒鐘的時候,matlab卻用了2個多小時。
。ㄈ┴惾~斯網(wǎng)絡(luò)的精確推理
為了提高運算速度,使各種推理算法能夠有效應(yīng)用,BNT工具箱采用了引擎機制,不同的引擎根據(jù)不同的算法來完成模型轉(zhuǎn)換、細化和求解。這個推理過程如下:
BNT中提供了多種推理引擎,都有:
1.不同推理引擎對K2法建立貝葉斯網(wǎng)的精確推理比較。
使用軟件是matlab,以K2法建立的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)進行精確推理,采用不同的參數(shù)學習和推理引擎,結(jié)果如下表所示:
2.不同推理引擎對爬山法建立貝葉斯網(wǎng)的精確推理比較。
使用軟件是matlab,以爬山法建立的網(wǎng)絡(luò)結(jié)構(gòu)進行精確推理,采用不同的參數(shù)學習和推理引擎,結(jié)果如下表所示:
3.貝葉斯網(wǎng)的精確推理結(jié)論。
由表3-5至3-7可以看出,matlab中提供的推理引擎,聯(lián)合樹推理引擎比較實用,適用于各種推理。通過統(tǒng)計樣本數(shù)據(jù),發(fā)現(xiàn)當證據(jù)變量為查詢變量的父節(jié)點或者祖父節(jié)點時,適用聯(lián)合樹推理引擎的極大似然估計推理出來的結(jié)果與統(tǒng)計樣本得到的結(jié)果一致。
四、結(jié)論
。1)在網(wǎng)絡(luò)結(jié)構(gòu)學習中,運用爬山法在不同軟件輔助學習中,所用時間不同,matlab用時遠遠多于R。
。2)不同算法學習得到的網(wǎng)絡(luò)結(jié)構(gòu)不同。在同種算法學習中,使用不同軟件,學習結(jié)構(gòu)也不太一樣。
。3)在使用matlab提供的推理引擎,當證據(jù)變量為查詢變量的父節(jié)點或者祖父節(jié)點時,適用聯(lián)合樹推理引擎的極大似然估計推理出來的結(jié)果與統(tǒng)計樣本得到的結(jié)果一致。
參考文獻
[1]茆詩松.貝葉斯統(tǒng)計[M].北京:中國統(tǒng)計出版社.1999.
[2]嚴慧鑫.貝葉斯網(wǎng)精確推理算法的研究[D].吉林:吉林大學,2006.
[3]余申慶.基于條件獨立性測試的貝葉斯網(wǎng)構(gòu)建以及對股票數(shù)據(jù)的應(yīng)用分析[D].廣東:華南理工大學,2015.
[4]Pearl J F,propagation and structuring in belief networks[J].Artificial Intelligence,1986,29(3):241-288.
[5]Lauritzen S L,Spiegelhalter D J. Localcomputations with probabilities on graphical structures and their applications to expert systems[J]. Proceedings of the Royal Statistical Society,1988,B(50):154-27.
[6]張燕.基于圖模型分解的貝葉斯網(wǎng)絡(luò)學習與推理研究[D].西安:西安電子科技大學,2014.
[7]楊海深.貝葉斯網(wǎng)絡(luò)中不確定性知識推理算法及其應(yīng)用研究[D].廣東:華南理工大學,2010.
[8]王建康等.混合分布理論及應(yīng)用[J].生物數(shù)學學報,1995,10(3):338-353.
[9]張連文等.貝葉斯網(wǎng)引論[M].北京:科學出版社.2006.
[10]廖芹.數(shù)據(jù)挖掘與數(shù)學建模[M].北京:國防工業(yè)出版社.2010.
相關(guān)熱詞搜索:推理 財務(wù)數(shù)據(jù) 統(tǒng)計 上市 知識
熱點文章閱讀