1,關聯(lián)規(guī)則的采樣
挖掘關聯(lián)規(guī)則的任務通常與事務處理與關系數(shù)據(jù)庫相關,該任務需要反復遍歷數(shù)據(jù)庫,因此在大數(shù)據(jù)集上將花費大量的時間。有很多的算法可以改進關聯(lián)規(guī)則算法的效率與精度,但在精度保證的前提下,采樣是最直接與最簡單的改進效率的方法。
2.分類的采樣
分類一般分為三種類型:決策樹、神經(jīng)網(wǎng)絡及統(tǒng)計方法(如無偏差分析),在這些算法中均有使用采樣的案例。分類的采樣一般有四種,一種是隨機采樣,另外三種是非隨機采樣,分別是“壓縮重復”、“窗口”及“分層”。
3.聚類的采樣
在聚類中進行采樣有若干的用途。有些聚類算法使用采樣進行初始化工作,例如,利用采樣得到的樣本得到初始化的參數(shù),然后再對大數(shù)據(jù)集進行聚類。當處理大數(shù)據(jù)集時,需要降低算法使用的空間。為了得到較好的聚類,根據(jù)數(shù)據(jù)的分布情況需要采用不同的采樣方法。隨機采樣仍然是一種常規(guī)的方法,在隨機采樣忽略了小的聚類的情況下,一般采用非隨機采樣的方法。非隨機采樣的方法中最常用的是分層采樣。例如,在密度差別很大的數(shù)據(jù)集中,根據(jù)密度的不同,采樣的樣本數(shù)量可以不同,在密度較高的區(qū)域采樣的次數(shù)少一些,而在密度稀疏的區(qū)域,采樣的次數(shù)多一些。
4.擴充(Scaling-Up)的數(shù)據(jù)挖掘算法的采樣
擴充是指利用已有的數(shù)據(jù)挖掘算法能夠高斂地處理大數(shù)據(jù)集。當數(shù)據(jù)挖掘的算法初期是處理小數(shù)據(jù)集的情況下,處理大數(shù)據(jù)集就會受到限制。在這種情況下,一般會采用分而抬之的方法:將大數(shù)據(jù)集分解成較小的互不重疊的數(shù)據(jù)集,利用己有算法進行處理,然后,將小數(shù)據(jù)集得出的結(jié)果合并成最終的結(jié)果。需要注意的是,這種方法等價于將困難轉(zhuǎn)嫁到合并步驟,即需要復雜的處理才能得到正確的結(jié)果。因此,整體的復雜性沒有降低。