曝光臺 注意防騙
網(wǎng)曝天貓店富美金盛家居專營店坑蒙拐騙欺詐消費(fèi)者
(2) 差異表法[38]。該算法簡單、直觀,可以用關(guān)系數(shù)據(jù)庫實(shí)現(xiàn)。
(3) 逐列消除法[39]。該算法對一致的決策表系統(tǒng)非常有效,不依賴于系統(tǒng)的
分辨矩陣,效率高,也易于用在關(guān)系數(shù)據(jù)庫中實(shí)現(xiàn)。
一般來講,一個決策表的條件屬性對于決策屬性的相對約簡不是唯一的,
即對于同一個決策表可能存在多個相對約簡。目前屬性約簡算法主要有:一般
約簡算法,改進(jìn)的基于分辨矩陣和邏輯運(yùn)算的屬性約簡算法,歸納式屬性約簡
算法,基于互信息的屬性約簡算法[MIBARK 算法],基于特征選擇的屬性約簡算
法等。各種算法之間的聯(lián)系和區(qū)別參見文獻(xiàn)[36],[41]。這里重點(diǎn)介紹一下本文
使用的改進(jìn)的基于分辨矩陣和邏輯運(yùn)算的屬性約簡算法。
設(shè)Redu 是決策表T 屬性約簡后得到的屬性集合,該算法描述如下:
第1 步:將核屬性列入屬性約簡后得到的屬性集合,即Redu= 0 C ;
第2 步:在可變識矩陣中找出所有不包含核屬性的屬性組合S,即
Q= {Bi:Bi∩Redu ≠ ∅,i=1,2,…,s}, S=S-Q ;
第3 步:將屬性組合S 表示為合取范式的形式,即
P= , { : ( 1,2, , ; 1,2, , )} i k ∧ ∨b i= …sk= …m ;
第4 步:將P 轉(zhuǎn)化成析取范式形式;
第5 步:根據(jù)需要選擇滿意的屬性組合。例如,如果要求屬性數(shù)最少,可以
直接選擇合取式中屬性數(shù)最少的組合;如果要求規(guī)則最簡,則需要進(jìn)一步進(jìn)行
屬性值的約簡。
3.2.3 Rough 集理論的屬性值約簡
通過屬性約簡,可以將決策表中對決策分類不必要的屬性忽略,從而實(shí)現(xiàn)決
策表的簡化,但是,屬性約簡只是一定程度上去掉了決策表中的冗余屬性,我
24
們還需要進(jìn)一步對決策表進(jìn)行處理,得到更加簡化的決策表,這就是我們說的
屬性值約簡。Rough 集理論還具有從信息表中提取規(guī)則知識的能力,事實(shí)上,對
信息表就行屬性值約簡的過程正是利用Rough 集理論提取規(guī)則的過程。
分析屬性值約簡,我們可以從值核入手。所謂值核是指,在信息表中的每
條記錄中尋找對得出決策影響最大的屬性值。目前屬性值約簡算法主要有:一
般值約簡算法(數(shù)據(jù)分析法),歸納值算法,啟發(fā)式值約簡算法,基于決策矩陣
的值約簡算法等。各種算法的比較參見文獻(xiàn)[36],[42]。由于救援輔助決策系統(tǒng)
的數(shù)據(jù)大多存儲在關(guān)系數(shù)據(jù)庫中,本文著重介紹易于在關(guān)系數(shù)據(jù)庫中實(shí)現(xiàn)的啟
發(fā)式值約簡算法。假設(shè)約簡屬性后的決策表為T′ ,算法描述如下:
第1 步:對T′ 中的每條記錄進(jìn)行逐列考察。若刪除該列后產(chǎn)生沖突記錄,則
保留沖突記錄的原該屬性值;否則,如果有重復(fù)記錄,則將重復(fù)記錄的該屬性
值標(biāo)記為'*';對于其他記錄,將該屬性值標(biāo)記為'?'。
第2 步:刪除可能產(chǎn)生的重復(fù)記錄,并考察每條含有標(biāo)記'?'的記錄。若僅
由未被標(biāo)記的屬性值即可判斷出決策,則將標(biāo)記'?'改為'*';否則,將標(biāo)記'?'
改為原屬性值;若某條記錄的所有條件屬性均被標(biāo)記,則標(biāo)記'?'改為原屬性值。
第3 步:刪除所有條件屬性均被標(biāo)記為'*'的記錄及可能產(chǎn)生的重復(fù)記錄。
第4 步:如果兩條記錄僅有一個條件屬性值不同,且其中一條記錄該屬性被
標(biāo)記為'*',那么,對該紀(jì)錄如果可由未被標(biāo)記的屬性值判斷出決策,則刪除另
外一條記錄;否則,刪除本記錄。
3.2.4 Rough 集理論解決問題的一般過程
利用Rough 集理論進(jìn)行知識約簡(屬性約簡和屬性值約簡)的一般步驟如下:
(1) 數(shù)據(jù)預(yù)處理(決策表補(bǔ)齊,決策表離散化)
對于不完備的信息表,需要將其補(bǔ)齊成完備的信息表。目前常用的決策表
補(bǔ)齊算法主要有Mean Completer 算法, Combinatorial Completer 算法,
ROUSDITA 算法等。如果某些條件屬性或決策屬性的值域?yàn)檫B續(xù)值(如浮點(diǎn)型數(shù)
據(jù)),則在處理前必須進(jìn)行離散化處理,對于有些離散數(shù)據(jù),有時也需要將離散
值進(jìn)行更高層次的離散化。目前常用的離散化算法有等距離劃分法,等頻率劃
分法,Semi Naïve Scaler 算法,布爾邏輯和Rough 集理論相結(jié)合的離散化算
法,基于斷點(diǎn)重要性的離散化算法,基于屬性重要性的離散化算法等。各種算
法詳細(xì)介紹參見文獻(xiàn)[35],[36]。
(2) 決策表屬性約簡
首先檢查決策表的一致性,如果決策表不一致,則將其轉(zhuǎn)化成一致的決策
25
表。然后,根據(jù)不同的條件環(huán)境以及人們對屬性約簡的要求和期望的實(shí)際情況,
選擇不同的屬性約簡算法,使得到的約簡結(jié)果盡可能的少并且符合人們的期望。
(3) 決策表值約簡
在屬性約簡的基礎(chǔ)上,采用合適的值約簡算法進(jìn)一步簡化決策表,從決策
表中提取出決策規(guī)則。
3.2.5 利用Rough 集理論時要注意的問題
利用Rough 集理論可以從歷史數(shù)據(jù)中提取出決策規(guī)則,可以用這些提取出來
的規(guī)則可以輔助決策者對未來事件做出決策。但是,在智能信息的實(shí)際處理過
程中,經(jīng)常遇到對事物的描述(決策屬性)是定性的和定量的混合使用,表達(dá)可
能層次分明,也可能雜亂無序,定性的概念還可能是模糊的,定量的數(shù)據(jù)也可
能是不確定的等。具體說來主要有以下幾個方面的問題:
① 決策系統(tǒng)中的數(shù)據(jù)類型通常多種多樣。
② 決策系統(tǒng)中的數(shù)據(jù)有可能不完整(不完備)。
③ 決策系統(tǒng)中的數(shù)據(jù)有可能相矛盾(不相容)。
④ 決策系統(tǒng)的數(shù)據(jù)量往往是動態(tài)增加的。
對于前三個問題,我們需要在數(shù)據(jù)預(yù)處理階段予以解決。如果數(shù)據(jù)類型多種
多樣,那么就要進(jìn)行離散歸一化處理;如果數(shù)據(jù)不完整,就要進(jìn)行決策表補(bǔ)齊;
如果數(shù)據(jù)不相容,就要根據(jù)實(shí)際要求進(jìn)行去噪聲處理。各種情況的具體討論和
研究請查閱相關(guān)文獻(xiàn)。
對于第四個問題,由于決策系統(tǒng)中的數(shù)據(jù)量動態(tài)增加,那么對應(yīng)的決策規(guī)則
也應(yīng)該隨之變化。但是,我們不可能在數(shù)據(jù)記錄每增加一條,就將整個知識約
簡過程再進(jìn)行一次以提取新的決策規(guī)則,這樣做耗時耗力,效率低下。對于數(shù)
據(jù)量不斷增加的決策系統(tǒng),比較合理的解決辦法是增量式知識獲取算法[43]。該
算法的主要思想(對于一條新加入的記錄)如下:
中國航空網(wǎng) m.k6050.com
航空翻譯 www.aviation.cn
本文鏈接地址:
民用機(jī)場應(yīng)急救援管理系統(tǒng)關(guān)鍵技術(shù)研究(8)