1. Trang chủ >
  2. Luận Văn - Báo Cáo >
  3. Công nghệ thông tin >

6 KHAI PHÁ LUẬT KẾT HỢP ĐA MỨC

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (38.55 MB, 109 trang )


67



a k liộ Ih n g khai phỏ d liu nờn cung c a p kh nng khai phỏ cỏc lut kt hp

iliiộu m c tru tng kh ỏc nhau.



Vớ d : liu D cỏc tỏc v mua bỏn.

Cỏc mc dó mua



TD



TI



Mỏy tớnh l>n IBM, Mỏy in Sony den trng



T?



Phn mm giỏo dc Microsoft, Phn mm qun lý li chớnh Microsoft



T3



Chut Logitech,



T4



Mỏy tớnh bn IBM , Phn mm qun lý li chớnh Microsoft



T5



Mỏy tớnh bn IBM



...



Bng 2. O: C SD L D cỏc tỏc v mua bỏn.

Gi s bng trn cho bit cỏc tỏc v bỏn hng ca mt ca hng mỏy tớnh:

cỏc mc bỏn c trong tỏc v cựng nh danh tỏc v TD. Khỏi nim phõn cp

(hierarchy) cho cỏc mc ch ra trong hỡnh 2 . 1 ớ sau:



Hỡnh 2.11 : Khỏi nim phõn cp ca cỏc mc.

Khỏi nim phõn cp c xỏc nh tun l t mc thp n mc cao, en

khỏi nim lng quỏi hu. Trong hỡnh 2.11 trn, khỏi nim phAn cp cú 4 mc: mc



68



0. 1, 2 v 3. Ta qui c cỏc mc (lỏnh sd t trờn xung, bl u ỡr mc 0 nỳt gc

cholỏt c ( mc lng quỏi nht).

Mc i bao gm; mỏy tớnh, phn mm, mỏy in, ph kin.

Mc 2 bao gm: mỏy lớnh bn, mỏy lớnh laptop, mỏy in mu,mỏy iằ den



trng. ...

Mc 3 l mc c th, riờng bit nht cựa phõn cp ny.

C ỏc m c tro n g b n g 2 . 0 l m c th p nht c a khỏi n im p h õn c p trong hỡnh



2.11. Khú cú th tỡm cỏc mu mua ỏng quan tõm trong mc nguyờn thu ny.

Chng hn: mỏy tớnh bn IBM hoc mỏy in Sony en trng mi chỳng ch xut

hin Irong m t phn rt nh c a c ỏ c tỏc v thỡ khú c ú th tỡm c ỏ c lut ki hp bao



gm chỳng. Tuy nhiờn, nu tng quỏt "mỏy in Sony en trng" thnh "mỏy in en

trng" thỡ lỡm lu t k t h p gi a m ỏy tớn h bn IB M " v "m ỏy ill en trng" (l hon



l "mỏy lớnh bn IBM" v mỏy in Sony en trng.

Cỏc lut c sinh ra t khai phỏ lut kt hp vớ khỏt nim phõn cp c

gi l cỏc iut kt hp nhiu mc hay ỏ mc ( multilevel association rules) vỡ

chỳng d cp n hn mt mc khỏi nim.



3.6.2: Cỏc cỏch tip cn khai phỏ lut kt hp ) mc.

Cú th khai phỏ cỏc hit kt hp da mc mt cỏch hiu quõ vi vic s dung

kliỳi nim phn cp nh th no?



Cú ằlt s c ỏ ch ti p c n vn d d a trờn k h u n g lm v ic ụ h tr v d til)

cy. Nhỡn chung , ngi la s dng chin lc t trờn xung( top - down), dú tớnh

tớch lu cho cỏ c tp m c trong mi m c khỏi nim , bl u m c khỏi nim i v i

xu n g m e th p hn, tn c khỏi nim riờn g bit h n, c h o n khi kh ụ n g cũn t p m c



ph bin no tỡm c. iu ú cú ngha l: trong mt ln it c cỏc tp mc ph

bin m c khỏi n im Ih nht l dc tỡm , sau d ú cỏc cp m c ph bin m c khỏi

nim th hai i dc tỡm, v c tip tc nh vy ...Vi mi mc, cú th s dng bt

k thut toỏn no phỏt hin lp mc ph bin, chng hn nh thut toỏn priori

hoc c ỏ c ci tin c a nú. Cú m t s ci ớin cho c ỏ c h ti p cn ny nh sau: [II]





S dng h tr cc tiu ging nhau cho tt c cỏc mc; Ngng h tr



nh nhau c s dng khi khai phỏ mi mc Irựu tng. Vớ d: trong hỡnh 2.12



69



sau, ngtỡg h 1' 5% Jớc s dng. C hai "mỏy lớnh" v "mỏy lớnh laplp u

lỡm c l ph hin trong khi "mỏy tớnh bn" !hỡ khụng .

Mc 1

In i n S l i p p y 5 %



Mc 2

ininsupp=5ớộ



Hỡnh 2.12: Khai phỏ nhiu mc vi h trgiụhg nhmt

Khi s dng ngng h tr cc tiu ging nhau, thự tc tỡm kim lự n

gin. Phng phỏp ny ii gin trong trng hp ngi dung yờu cu chớ mt

ngng h ir xỏc nh, Tuy nhicn , vi h tr ging nhớiu ny sớnh mt s khú

khỏn. Nú khụng phũ hp vú cỏc mc m



mc Ihp hn ca s tru tng nú s cú



tớnh ph bin cao hn. Nu ngng h tr t quỏ cao cú th s mt mt s kt

hp cú ớch cỏc mc tru tng thp. Nu ngng h tr t quỏ thp cú th số

sinh ra nhiu lut kt lip khụng cn quan tõm cỏc mc tru tng cao. iu d



dn n cỏch tip cn khỏc c trỡnh by sau õy.





H llỡp d h tr cc tiu cỏc mc thp hn: Mi mc tru tng cú mi



ngng h tr cc tiu ca chớnh nú. Mc tru tng thp hn cú ngừng tng ng

nh han. Vớ d: trong hỡnh 2.3 sau, ngng h tr cho mc tru tng l l 5%,

mc 2 l 3%. Trong cỏch ny, "mỏy tớnh" , "mỏy tớnh laptop v "mỏy tớnh bn"

lt c dcu tỡm c l ph bin.

Mc 1

m m supp=5%



Mc 2

minsupp=3%

Hỡnh2.13: Khai phỏ nhiờu mc vi giõm h tr



70



Kill khai phỏ lut kt hp nhiu mc vi cỏch gim h Ir, cú mi sụ' cỏch

tỡm kim cú th la chn:

+ Mc ny



n



mc khỏc mt cỏch c lp level - by - level independent):



dú l tỡm kim hon ton (heo chiu rng, ú khụng cú



tri



hc c s ca cỏc ip



mc ph biờn c dựng (a. M nỳớ u c xộl m khụng chỳ ý nỳt chu

ó xột cú l ph bin hay khng.

+ i qua cỏc mc cú chn lc ( level-cross filtering): Mt mc mc th i l

dc xộl nu v ch nu nỳt cha ca nú mc th (i-1) l ph bin. Hay núi cỏch

khỏc, l nghiờn cớựi iti kt hp riờng bit hn t lut (ng quỏt hn. Nu I11 nỳt i

ph bin thỡ cỏc nỳt con ỏ c xột, nu khụng cỏc nỳt hõp bn ca tiú b la,



i u



dú gim khng gian tỡm kim. Vớ d trong hỡnh 2.14 sau, cỏc nỳt thp hon cựa nỳi



"mỏy tớnh) l khng c x ộ i, vỡ "mỏy lớnh" l khụng ph bin.

Mỳc

miôsupjF=l2%



Mr 2

imusup|i=3/ớ>



"Mỏy lớnh laptop [ khng xộ! ]



Mỏy tớnh bn { khụng xột j



Hỡnh 2.14: Khai phỏ nhiu mc vi gim h t r , thc hin c hi mc dn.

i qua cỏc mc [c bi !i)p k mc ( k- item,set): Tp k mc mc th i lỡ)

dc xộ! nu v ch nu nú cú cha tp k mc mc th (i-i) ph bin. Vớ d,

hỡnh 2. 5 sau ch ra lp 2 mc { mỏy tớnh, mỏy in) l ph bin, do ú cỏc n ỳ t :

{mỏy tớnh laptop,mỏy in en trng}

{mỏy tớnlỡ laplopằmỏy iu mu}

(mỏy tớnh bn ,mỏy in en li ỏng}

mỏy tớnh bn,mỏy in mu}

l c xội.



71



Mỏy lớnh v mỏy in



Mc 1



[ supp=10%ớ



mmsupp=5%



Mc 2

minsiớpp=:2%



Hỡnh 2.15: Khai phỏ nhiu mc vi gim h tr , thc hin lc ben k- mc.



So sỏnh cỏc phng phỏp trụn ta thy:

Cỏch cỏc mc cựng h tr cc tiu d a n xột mt s lii cỏc tp mc

khụng ph bin v tỡm ra cỏc lut kt hp ớt quan ung.

Cỏch di qua cỏc mc cú ic cho phộp cỏc h thng khai phỏ ch xột cỏc con

ca lp k mc ph bin.

Khỏi nim phõn cỏp i hu ớch trong khai phỏ liu, nú cho phộp khỏm phỏ

ui thc cỏc mc tru tng khỏc nhau, nh cỏc lut kl hp a mc. Tuy nliin khi

cỏc lut kt hp a mc c tỡm ra, mt s lut s rỳt gn. Vớ d xem 2 lut sau:

(r )



mỏy tớnh bn -> mỏy in en trng [supp=8%, conf=7Q%]



(r2)



mỏy tớnh bn IBM -> mỏy in en trng [supp=2%, conf=72%]



Nu cỏ hai lut cựng c tỡm thy thỡ iut r2 cú ớch gỡ?. Nu lut r2 cú tớnh

tng quỏt nh hn m khụng a ra c chụng tin gỡ mi thỡ n nờn b loi b. Lut

rl cú th ihu c t lut r2 bng phộp th "mỏy tớnh bn " cho mỏy tớnh d bn

IBM" ong khỏi nim phõn cp.

Túm li, phn ny ta ó xem xột cỏc lut kt hp a mc da trờn khỏi nim

plõn cp. Cỏc lut kt hp a mc cú th dc khai phỏ bi mt s chin lc, da

ỡrờrt xỏc nh ngng h tr cc tiu nh Ih no cho mi mc tru tng. Khi dựng

dỡin lc h thp ngng h tr cho mc Ihp hn, phng phỏp lớu bt khụng gian



72



tỡm kim bao gin cỏch lc khi qua cỏc mc. Lut kt hp a mc tỡm dc cú th

cn thu gn, giõm bL

Kt lun cita chng 2:



Xut phỏt t bi toỏn ban u l phõn tớch cỏc tỏc v bỏn l ca siờu th,

chng ny dó trỡnh by mt sụ' vn ộ c bn ca khai phỏ lut kt hp. Mt s

thut toỏn tiờu biu khai phỏ lut kt hp ó dc trỡnh by. Hai thut toỏn: thut

toỏn kinh din Apriori tỡm tp mc ph bin theo cỏch sớnh cỏc ng c v thut toỏn

FP-growth tỡm tp mc ph biti khụng sinh cỏc ỳig c ó c trỡnh by chi lit.

Thut toỏn FP-growth l mt thul ioỏn hiu qu mi xut hin gn õyằ nú khng

cn n cỏc kin Ihc toỏn hc phc tp m n gin ch s dng mt cu trỳc d

liu c bil - mt bin th cựa cõy prefix ( prefix tree). Thut toỏn tỡm lut kỡ hp

i cỏc tp mc ph bin cng ó c trỡnh by v phõn tớch.

Vn d ỏnh giỏ phc lp ca thut loỏn dó c da v bi toỏn tỡm cỏc

clique hat phớa dy d. phc tp tớnh toỏn ca bi toỏn tỡm clique hai phớa ó

(ic bit ộn t Au trong lý thuyt th v núi chung l NP-khú . Núi cỏch khỏc,

lỡúi chung phc tp Ihut toỏn tỡm cỏc tp mc ph bin l NP-khú, song trong

Ilỡc t, thi gian lỡm cỏc tp mc ph bin l tuyn tớnh vi kớch Ihc ca CSDL vỡ

cỏc CSDL thng l rt ớha v cỏc llỡut toỏn dó dựng mt s k thut ta hiu qu.

Vn d khai phỏ lut ki hp nh lng, lut kt hp da mc dc d cp

v trỡnh by mt s cỏch lip cn c bn gii quyt.



73



CHNG 3



K H A I PH LUT K T H P ểNG



Nh ó trỡnh by trờn, khai phỏ lut kt hp gm 2 bc: Tỡm tt c cỏc tp

mc ph bin v sinh ra cỏc lut t cỏc tp mc ph bin ó Um c. Bc th nhiớt

ũi hi s tớnh loỏằ ln, nhng thut toỏn nh thut toỏn Apriori ũi hũi nhiu ln

duyt qua CSDL. Bc th hai ũi lii tớnh toỏn ớt hn, song gp phi mt vn l:

cú th sinh ra quỏ nhiu lut, vt khi s kim soỏt ca ngi khai ph hoc ngi

dựng èrong ú cú nhiu lut khụng cn Ihit. Trong chng ny s ch ra rng: nong

bc th nht, khụng cn thit phi khai phỏ tt c cỏc tp mc ph bin m ch cn

khai phỏ cỏc tp mc ph bin úng. Cỏc lp mc ph bin úng ny nh hn rt

nhiu so vi tp c cỏc tp mc ph bin. Hn na, bt k mt lut kt hp no

c sinh ra l mt tp mc ph bin cng tng ng vi cỏc lut sinh ra t cỏc

tp mc ph bin úng. iu ú dn n cú th loi bũ cỏc lut khụng cn thit.

Chng ny trỡnh by c s







thuyt ca khai phỏ tp mc ph bin úng v



sinh cỏc lut kt hp. Cỏc ớht toỏn khai phỏ tp mc ph bin úng cng ó c

nghiờn cu v cú nhiu lỏc gi ó d xut mt s thut toỏn hiu qu, õy trỡnh

by thut toỏn CHARM, mt thut toỏn khai phỏ tp mc ph bin dúng mi xut

hin gn õy v c ỏnh giỏ l khỏ hiu qu [19].

4.1 TP MC PH BIN ểNG:

Ta kớ hiu: I tp cỏc mc, T~\ 1 , 2 .......n } - lp cỏc nh danh ca cỏc

!ỏc



v



(se t



of transaction



id e n tifie rs



). CSDL



i q u a n h n h p h õ n ụ C X



T . Nu



mc i xut hin trong tỏc v (, chỳng ta vit (i, e 8 hoc i ụ t . Vớ d : xem CSDL

hmh 3. , dú H A ,C ,D ,T , w v T= 11,2,3,4,5,61.



74



mue c u a C ớ'I H S ir A rth u r

M ark

C o n a n D oyle

T w ain

D

T



C ỏc



Jane

A g a th a

C h ristie

A lớste n

A

c

CS DL

Transcation Items

1

A C TW



P. G .

W o c ie h o u se

w



C ỏ c tõp m u e phtớ b iởn v ỏ i m in su p p -5 0 %



S u p p o rt



I te m s e ts



100% (6)



c



2



C DW



3



ACTW



4



A C OW



5



AC DTW



67% (4)



6



C DT



50% <3)



83% <5>



w. cw

A, O, T, AC, AW

CD, CT. ACW

AT, DW, TW, ACT, ATW

CDW, CT W, ACTW



Hinh 3.1 : C SD L bỏn sch minh hoa cho tõp mue pho bien dúng.

Tõp Xc: I goớ l tõp mue v lõp Y e T goi l tõp cỏc dinh danh tid.set . De

thuõn tiờn, ta ki hiờu tõp mue ( A, C, W} l ACW v tõp dinh danh {2,4,5} l 245.

Dỷ hụ tro cua tõp mue X, ki hiờu l supp(X), l sụ' cỏc tỏc vu trong do no xuõt

hitn. Tõp mue X l phụ biờh nờ'u dụ hụ tro cỹanụ supp(X)> minsupp.

Mot luõl kột hop l biộu thực Xj



X 2 , dú XĂv X2 l cỏc tõp mue v X ( r\



X2- 0 - Dụ hụ trg cỹu luAt l supp( XĂ u X2) v dụ tin cõy l p=supp( X f U X2)/

sujpp{ X , ) . Mụt luõt l tin cõy nờ'u p> minconf.

Kột nụù Galois:

Gia su 8 c I x T l quan hờ nhi phõn- CSDL cho khai ph luõt kột hop. X c l

v Y ỗT. Cỏc ỏnh xa:

t : I T , t
>

i : T - > l , t ( Y ) = { x e l/V y e Y , xụyj

dinh nghùa mụt kột nụ'i Galois giffa cỏc tõp cú thự tuf P(I) v P(T) (l tõp cỏc tõp con

cỹa I v T). Hùnh 3.2.a minh hoa hai ỏnh xa.



Xem Thêm
Tải bản đầy đủ (.pdf) (109 trang)

×