1. Trang chủ >
  2. Luận Văn - Báo Cáo >
  3. Công nghệ thông tin >

CHƯƠNG 3 KHAI PHÁ LUẬT KẾT HỢP ĐÓNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (38.55 MB, 109 trang )


74



mue c u a C ớ'I H S ir A rth u r

M ark

C o n a n D oyle

T w ain

D

T



C ỏc



Jane

A g a th a

C h ristie

A lớste n

A

c

CS DL

Transcation Items

1

A C TW



P. G .

W o c ie h o u se

w



C ỏ c tõp m u e phtớ b iởn v ỏ i m in su p p -5 0 %



S u p p o rt



I te m s e ts



100% (6)



c



2



C DW



3



ACTW



4



A C OW



5



AC DTW



67% (4)



6



C DT



50% <3)



83% <5>



w. cw

A, O, T, AC, AW

CD, CT. ACW

AT, DW, TW, ACT, ATW

CDW, CT W, ACTW



Hinh 3.1 : C SD L bỏn sch minh hoa cho tõp mue pho bien dúng.

Tõp Xc: I goớ l tõp mue v lõp Y e T goi l tõp cỏc dinh danh tid.set . De

thuõn tiờn, ta ki hiờu tõp mue ( A, C, W} l ACW v tõp dinh danh {2,4,5} l 245.

Dỷ hụ tro cua tõp mue X, ki hiờu l supp(X), l sụ' cỏc tỏc vu trong do no xuõt

hitn. Tõp mue X l phụ biờh nờ'u dụ hụ tro cỹanụ supp(X)> minsupp.

Mot luõl kột hop l biộu thực Xj



X 2 , dú XĂv X2 l cỏc tõp mue v X ( r\



X2- 0 - Dụ hụ trg cỹu luAt l supp( XĂ u X2) v dụ tin cõy l p=supp( X f U X2)/

sujpp{ X , ) . Mụt luõt l tin cõy nờ'u p> minconf.

Kột nụù Galois:

Gia su 8 c I x T l quan hờ nhi phõn- CSDL cho khai ph luõt kột hop. X c l

v Y ỗT. Cỏc ỏnh xa:

t : I T , t
>

i : T - > l , t ( Y ) = { x e l/V y e Y , xụyj

dinh nghùa mụt kột nụ'i Galois giffa cỏc tõp cú thự tuf P(I) v P(T) (l tõp cỏc tõp con

cỹa I v T). Hùnh 3.2.a minh hoa hai ỏnh xa.



75



,n

u



C ỏ c t ỏ c v



Cỏc mc



X

)







W



Y



n w



1



i



b) Toỏn



Hỡnh 3.2: a)Kớ ni Gaois



t dúng Round-trip



t(X) l tp tt c cỏc tỏc v ( tidset) cha tp mc X, tng t i(Y) l tp mc c

cha trong tt c cỏc tỏc v Irong Y. Vớ d: ớ(ACW)=tl345 v (245)=CDW.

t(X)= n x ô X t(x) v i(Y)= n y e Y i( y ) , v ớ d; t(ACW) = t(A)

123456 n 12345 = 1345. Cng vy, i(245) - i(2) n i(4)



r\ t(C) r\ t(W) as 1345



n i(5) = CDW n



ACDW



o ACDTW = CDW,



Kt ni Galois tho món cỏc ớnh ch sau:

(1) X, C



x 2 => t(X,)



3 t(X2). Vớ d: ACW c ACTW , ta cú t(ACW) = 1345



=2135 =t(ACTW).

(2) Y,c Y2



i(Y l) 2 ỡ (Y2). V ớ d: 245 s 2456 , ta cú i(245>= C D W a CD=



i(2456)

(3) X C i(t(X)) v Y c t(i(Y)). Vớ d: AC C i(t(AC)) = i{1345) = ACW.

Xỏc nh Cj,(X)= i o t(X) a i(t(X ằ v c= t o i(Y) = t(ỡ(Y)) ( tc l cỏc ỏnh x

hp) thỡ; cu : P(I) -> P(I) v c ,i: P(T)



P(T) c hai u i cỏc toỏn t úng trờn cỏc



tp mc v cỏc tp nh danh. Ngi ta gi i o t v t o i l roun-trip. Hỡnh 3.2.b

minh ho round-trip ny bt u vi tp mc X.



Toỏn t úng v tp úng:

Cho tp hp



s, hm c: P(S) P(S) gi l toỏn t úng trờn s nu vi mi X,





Y C s , c tho món cỏc tớnh cht sau:

[. M



r n g (e x te n s io n ): X C



c{X).



76



2. i iu ( monoợonicity): nu X ầ Y lili c(X) c c(Y).

3. Khụng lóng (Icmpotency) : c(c(X)) = C(X).

Tp con X ca s gi l úng nu c(X) = X.

Hỡnh 3.3 v 3.4 minh ho cỏc tp mc ph bin v lp mc ph bin dúng.

C tõỡ c 19 tp mc ph bin vi minsupp = 50% c t chc thnhdncựng



vi



tp nh danh idset ca nú v ? lp úớtg nhõn c bng cỏch ly hpca cỏc lp

mc ph bin cú cựng (p d till (lanh. Trong cỏc lp dúng cú 2 tp mc ph bin cc

di l ACTW v CDW. Vớ d ch ra rng: nu <7 l tp mc ph bin, & ! tp

úng, v M l lp ph bin cc i thỡ a cú: M Q ờ Ê <7

tỡm tp X cú lp ph bin khng ta tỡm tp úng nh nht cha X. Nu

khụng ln ti tp ny thỡ X khụng phi tp ph bin. Vớ d: kim tra ATW cú ph

bn khng chỳng ta tim c ACTW l tp úng nh nht cha nú, do ú ATW l

tp ph bin v cú cựng tn xul nh ACTW. Mt khỏc, DT l khụng ph bin vỡ

khụng cú tp ph bin ng no cha nú.



Hỡnh 3.3 : Cỏc tp mc ph bin



77



Cho bt k tp mc úng X no u tn ti mt tp nh danh úng Y m

Y=t(X) v X=i(Y) ( ngc li cho b't k tp dinh anh úng no cng ln li mt



78



lp mc dúng tng ng), Mi cp tp mc úng v tp nh (lanh iún dc gi l

mt khỏi nim concept).

Khỏi nim x ( X Y| l khỏi nim con ca x 2 X Y2 c vit l

X, X Y, < x 2 X Y2 nu X, ầ x 2 ( tng ng nu Y 2c Y ).

Tp cỏc tp mc ph bin úng nh hn rt nhiu so vi tp cỏc tp irtc ph

bin. Phộp hi v phộp luyn trờn cỏc khỏi nim c xỏc nh nh sau:

Phộp tuyn:
Phộp hi : (X, X Y, ) A ( x 2 X Y2 ) = ( X, n x ) X c,Ă( Y, u Y2)

Vớ d: (ACDW X 45 ) V ( CDT X 56 ) = ci( ( ACDW
ACDTW X 5.

(ACDW X 45 ) A ( CDT X 56 ) = ( ACDW n C U T ) X cti( 45 o 56)= CD X

c,j(456)= CT) X 2456.

Ta xỏc nh h ỡr ca tp úng X hay khỏi nim XxY l s cỏc phn t

ca tp dnh anh úng Y=t(X), tc l: supp(X)= I Y I t(X) I . Tp mc úng hay

khỏi nim dc gỡ l ph bin nu li tr ca nú ớt nht bng minsupp. HèI113.4

ó ch ra tt c cỏc khỏi nim ph bin vi minsupp = 50% ( tc l s cỏc phn t

ca tp nh danh ớt nht l 3}



f)nh lý 1 : h tr cựa tp mc X bt k bng h tr ca toỏn t úng ca nú,



lc : suppKX)- supp(cu(X)),

Chng minh: h tr ca tp mc X l s cỏc rỏc v ú nú xut hin, tc l s



phn l



c a Lp



nh danh t(X), supp(X)



=



t ( X) i . VI supp(ch(X))= I t(cĂ,(X)) I,



chng minh nh lý ta phi ch ra l t(X)= t(eĂ,(X)).

Vi C l toỏn l úng, nú tho món tớnh m rng t(X) ầ c(j(t(X)) =

j,

Z

i(i(t(X)))=t(cil(X)), Do ú t(X) C t(ci((X)) , Mt khc C cng l toỏn l úng, X ầ

j,

csl(X) suy ra t(X) 2 t(cu(X)) do tớnh cht ca kt ni Galois, Suy ra 1{X) = l{c(i{X})



nh lý ny cho thy tl c cỏc tp mc ph bin c xỏc nh duy nht bi

cỏc tp mc úng ( hoc cỏc khỏi nim ph bin). Hn na, tp cỏc tp mc ph



79



bin dúng nhũ hn lp cỏc tp Ănc ph bin, v c bit nhũ hu (rong trng

hp cỏc d liu dy ( dense) . Mỡnh ho cho iu ny cú th thy trong V d trn:

I

ch cú 7 lp mc ph bin úng trong khi ú cú 19 tp mc ph bin. Vớ ny cho

Ihy rừ ớch li ca khai phỏ cỏc lut kt hp ng,

4.2 SINH LUT:



Ta nhc li, lut kt hp l biu Ihc cú dng X) -> p x 2 , ú: Xj , x 2 ỗ l .

h tr ca nú bng |t(XĂvj x 2)| v tin cy cựa nú l p= t(XU x 2}| / |t(X |)[.

Chỳng ta quan tỏm ằ cỏc lut cú h Ir ln hn hoc bng h tr cc tiu

minsupp v tin cy ln hu hoc bng tin cy cc tiu minconf.

Sụ' cỏc lut kt hp tỡm c cú th rt ln , Nu mt tp mc ph bin cú k

mc thỡ nú cú th sinh ra ti 2k-2 lut ( hm m cựa chiu di ca tp mc ph bin),

do dú cỏc lp mc ph bin cng ln thớ sụ' ut cú th sinh ra cng ln.

Tuy nhiờn ngi ta ó ch ra rng khụng cn thit khai phỏ cỏc iut t tt c

cỏc tp mc ph bin bi vỡ cú rt nhiu lut trong ú l tha, ch cn khai phỏ cỏc

lut sinh ra ỡ cỏc tp mc ph bin úng.

nh lý 2: Lut X,



x 2 tng ng vi lut cit(Xj) ->* cit(X2) , ú paq,



Chng minh: Theo nh ý 1 trờn h tr ca p mc X bng h tr cựa tp



mc dúng ca nú ci((X ) . Vy ta cú

f e ( A 'i) u M ,* a ) ) | __ \ K d i(X )n tM X - 2 ))\ _ |
"

m m

n te i

' ..M51



_



Nh vy cú nhiu tp mc ph bin ỏnh x ti cung mt tp mc ph bin

úng. Gi s S| cú n tp mc v tp cỏc toỏn t úng ca nú i C|, s 2 cú m tp mc

v tp toỏn t úng l c 2, ngi ta ch ra rng cú n, m-1 lut gia hai tp mc khụng

dúng sinh trc tip t S| ti s, l khng cn thit. Tt c chỳng tng ng vi lut



c,-> pc 2. Mn na, cú m . n -1 lut sinh trc tip t s 2 ti S| l cng khụng cn Ihit

v chỳng tng ng vi lut C2-ằ 1 C| . Vớ d: xem hỡnh 3.4 trờn, ta thy cỏc tp

1

mc D v C ỏnh x li tp mc dúng CD, cỏc tp mc w v c w ỏnh x túi lp

úng cw . Cỏc lut D~ằ 1/4 w , D -ằ^4 c w , CD -ằ,V w tng ng vi lut gia

4

hai lp úng CD->va cw . Mt khỏc, xộr cỏc lut w v /5 D , W-ằ-V CD , C W -*V I)

5

S



80



lng dng vi lut cw~ằvs CD. Ta nờn ch a n ngi dựng cỏc lut ulng quỏt

nlỡl ( cỏc lut khỏc l dc bit iin, chỳng cha Ihờm 1 hoc nhiu hn cỏc mc

phn tin hoc kt lun), lc l cỏc lut:D



w v W D. Nh vy s dng

>ớ/5



cỏc tp ph bin úng ta sinh ra 2 lut thay cho 8 lul nh vớ d trờn. Th nghim

trờn CSD. v cỏc ioớ nm, vi minsupp=lO%, ngi ta tỡm c 574513 tp mc

ph bin, trong ú ch cú 4897 lp mc ph bin úng, gp hn 100 ln.

4.3 THUT TON CHARM:



Da trụn c s lý thuyt v tp úng nhiu tỏc gi ó phỏt trin cỏc thut ioỏn

tỡm tp mc ph bin úng v lut kt hp khỏ hiu qu. ó cú nhiu thut toỏn

c gii thiu. Trong phn ny số trỡnh by thut toỏn CHARM, mt thul toỏn

mi v hiu qu tỡm tp mc ph bin úng.

Thut ton CHARM [19] (hc hin



duyt



trn c khụng gian cỏc tp mc v



khụng gian cỏc tp nh danh ( tidset). Thut toỏn trỏnh c vic tớnh toỏn tỡm

(t c cỏc tp con cú th ca tp mc dúng khi tỡm cỏc tp dúng, hiu qu hn lin

chin lc



t ỡ m t i lờ n ( b o t t o m - u p ) .



Tớnh cht



n y l q u a n



trng



t r o n g k ia i p h ỏ



cỏc CSDL dy vi cỏc lp mc ph bin di. Duyl qua c khng gian lp mc v

khng



g ia n



cỏc



l p d in h



(lanh cho



p h ộ p th u t to ỏ n



CHARM s



phng



dng m t



phỏp lỡm kim mi, b qua ằhiu mc lỡm tp ph bin úng thay cho phi lớnh

nliiu lp con khng úng. Hn na, thut (oỏn CHARM s dng hai chin lc lia:

t a c ỏ c n g c n u t p c o n c a n ú k h ụ n g p h b i n n g



ihi



ta c ỏ c



nhỏnh



d a tr ụ n



lớnh cht khụng úng ( noil closure property), bt k tp mc khụng úng no du b

l ia .



Cui



c ự n g , th u t



toỏn CHARM



k h ụ n g s d n g c u MC l i u



cõy bm



( hash



Iretớ), phộp toỏn c s c s dng l hp hai tp mc v giao hai tp nh danh.

Hỡnh 3,5 l dn cỏc tp con dy cho CSDL hỡnh3.L í tng ca thut

toỏn CHARM l duvt trờn cỏc nỳt cựa dn d kim tra xem nỳt con cú phỏi l tp

ph bin khụng, Tt c cỏc tp khụng ph bin cng nh cỏc nhỏnh khng phi tp

úng u b ta. Mi nỳt con ca mt nỳt c kl hp vúi cỏc nỳt con khỏc cựng

mc. Vớ d trong hỡnh 3,5 , A kt hp vi c, D , T v w to ra cỏc con AC, AD,

AT v AW. Thut toỏn CHARM thc hin tỡm kim theo chiu sõu trụn cỏc dn

con.



81



Gi s cho bt k tp mc X no ta u tỡm c cp tidsei t(X) ( lp nh

anh cỏc tỏc v cha X) v ngc li cho bt k tp tỡdset Y no ta u tỡm c tp

mc i(Y) ca n. Thut toỏn CHARM tớnh tt c cỏc khỏi nim ph bin t CSDL

vo. Nhc li, mt khỏi nim l cp X X Y trong ú X=i(Y) l tp mc úng v

Y=t{X) l tp nh danh úng. Chỳng ta cú th bt u duyớ cỏc khỏi nim trong

khụng gian cỏc tp mc hoc khng gian tp nh danh, Tuy nhiờn, s cỏc mc nh

hn nhiu s cỏc tỏc v v vỡ ta quan tõm n cỏc tp mc úng, ta bt u tỡm vi

cỏc mc n v cỏc tidset kt hp ca chỳng.



Hỡnh 3.6: Tớnh cht c bn ca cỏc tp mc v tp nh danh.



82



Cỏc lớnh cht ca him eớia cp tp mc - lp nh danh:

Cho f : P(ớ)



N l ỏnh x 1-1 t cỏc tp mc n tp s t nhiờn N. Vi hai



tp mc bõỡ k X( v x 2, chdng a núi X) < x 2 nu v ch nu f(X,) <



. f xỏc



nh ml Irt t trờn cỏc lp mc .

Vớ d : nu f xỏc nh Irl t t in thỡ tp mc AC < AD. Mt vớ d khỏc,

nu f sp xp cỏc tp mc theo trt l tng dn ca h tr th khi ú AD < AC

nu supp(AD) < supp(AC).

Gi s rng la dang xộl nhỏnh X X t(X), v ta mun kt hp nú vi nhỏnh

cựng mc x 2 X t(X õy X| < x 2. Tớnh toỏn chớnh ca thut toỏn CHARM da

trờn cỏc tớnh cht sau:

( 1) Nu t(Xj) = t(X.j> thỡ t(X ,uX 2) = t(X,) n t(X2) = t(X,) = t(X2). Do vy ta

cú th thay mi xut hin cựa X| vi X (w X 2 v loi b x 2 lrong cỏc tp xột sau ny,

vỡ loỏn l úng ca nú l xỏc nh ớ toỏn t úng ca XUX2

(2) N ut(X 1 c t ( X 2)th ỡt(X ,u X 2) = 5(X!) n t ( X 2) = l(X1 * t(X2).

)

)

Ta cú ih thay mi xui hin ca X| vi X[UX2 vỡ nu X[ xut hin bt k lỏc

v no thỡ x 2 cng luụn xut hin. Nhng vỡ t(X|) * ớ(X2} ta khụng th loi b x 2

,

lỡú sinh ra tp úng khỏc.

(3) Nu t(X|) => i{X2) lUỡ ớ(X ,uX 2) = t(X,) n t(X2) = t(X2) * KX,).

Trong trng hp ny, ta thay mi xut hin cựa x 2 vi X ,u X 2 vỡ khi X,

xut hin thỡ X( cng luụn xut hớn. Tuy nhiờn Xt sinh ra tp úng khỏc nờn nú

phi c gi li.

(4) Nu i(Xj) * t(X2) thỡ I(X,UX2) = t(Xj) n l(X2) * t(X2) * t(X,). Trong

trng hp ny khụng ioi lp no, c hai X( v x 2 dn n cỏc tp úng kbỏc nhau.

Hỡnh 3.6 mụ t 4 tớnh cht trờn. Ta thy rng ch cú cỏc tp nh danh tidset

l c duy trỡ sau khi ta kt hp hai cp tp mc - tp nh danh. Vớ d: nu hai lp

nh danh bng nhau, mt trong hai tp b ta { tớnh cht I ). Nu mt tp nh danh

l tp con ca tp nh danh khỏc thỡ tp nh danh kt qu bng vi tp nh anh

nh hn t tp cha v ta loi b tp cha ú ( tớnh cht 2 v 3). Cui cựng, nu cỏc tp

nh danh khụng bng nhau thi hai tp ny v tp giao ca chỳng cỏc tp úng.



83



Vớ tl: trc kh Iiỡnh by tbul toỏn, ta xem 4 lớnh cht c bn ca cp lp

mc - lp nh danh ny dc ỏp dng trong thut toỏn CHARM khai phỏ lp

mc ph bin úng.



Ban u ta cú 5 nhỏnh tng ng vi 5 mc v tp nh danh tớdset ca

chỳng{ õy minsupp=3), sinh ra cỏc con ca mc A ( hoc cp A X 1345)

chỳng ta cn kt hp nú vi tt c cỏc nỳt cựng mc sau nú ( bờn phi nú), Khi kt

bp hai cp x Ă X t(Xj) v x 2 X t(X2), cp nhn c l (X)UX2) X (t(X |)nt(X 2)). Núi

cỏch khỏc chỳng ta cn ly giao cỏc tp nh danh ỡidset tng ng mi khi la kt

hp bai hay nhiu lp mc.

Khi ta kt hp A vi c , ta thy tớnh cht 2 tho món, tc : 1(A) =1345 ầ

123456 = 1(C). Do vy ta cú th b A v thay nú bi AC, Kl hp A vi D sinh ra

lp khng ph bin ACD, nú b ta di. Kt hp vi T sinh ra cp ACT X 135 , lớnh

cht 4 tho món õy, o vy khụng tp no b ta. Khi chỳng ta kct hp A vi w

chỳng ta thy i(A) ầ 1(W). Theo tớnh cht 2, ta thay tt c s xut hin m khụng b

2

ta ca A vi W. Do vy , AC thnh ACW v ACT thnh ACTW. Kt thỳc nhỏnh

vi nỳt gc l A.

Vi nhỏnh c , khi kt hp c vi D , tớnh cht 3 tho món, lc l t(C)



t( ).



Diu ny cú ngha l khi D xut liin lili c un xut hin. Do ú D cú th loi b ,

lon b ihỏtih D b ta v nút con CD ihay th D. Hon ton tng t di vi T v w

. C hai nhỏnh u b ta v thay th bi CT v c w ( l con ca C ) , Tip tc cỏch dú



84



.xung mc situ tip theo, ta xột nt CD . Kt hp nú vúi CT sinh ra tp mc khũng

ph biờn CDT, lp ny b ta. Kl hp vi c w sinh ra CDW v VI tớnh chl 4 iho

Itỡón, khụng lp no b loi b. Tg t kt hp cựa CT v c w sinh ra CTW.

Nliỏilli ó s lý xong.

Cui cựng,



chỳng



ta loi b CTW X ớ 35 vỡ n c cha trong ACTW



X



135 .



Til thy rng ch cn 10 bc xỏc nh c tt c 7 cp mc ph bin dúng.

Thut toỏn CH ARM :

ChARM ỗ X X 7~, HIHUHP):

I. Nodes- 7j X tj) ; A |i(Jj)|

5 Ch ARM-ẩxtend {Nodes, C)



ChARM'PROPERTy (Nodes, NewN):

10. if(|Yj > W>ôHp)then

11.

lfi(JTi) = t[Xj) then //Property 1

12.

Remove X j from Nodes

13.

Replace al! X j with X

C hARM-Extekd (Nodes, C):

14.

else If (A'j) C (Xj) then //Property 2

3. For each Y X i(Xi) in Nodes

,

15.

Replace ail X i with X

4

NewN ô0 and X * J *

5.

else ifi(X i) D t(X j ) then//Property 3

for each X j x t(X j) in Nodes, with /(/) > /(t) 16.

17.

Remove X j from Nodes

6.

X = X U X j andY a t(Xi) n t{X j)

18.

Add X x Y to NewN

7.

CHARM-PaoPERTY(NodessNewN)

19.

else if i(Arj) ^ t(X j) then //Property 4

8.

if NowN ^ 0 then C hARM-Extend {NewN)

20.

Add X x Y to NewN

9.

C C U X //if X is not subsum

ed



>ằtinsvp}



Thut toỏn bt u vi khi lo cỏc mc n ( 1 mc) v tp tisec ca chỳng

trong dũng I . Tớnh toỏn chớnh thc hin trong CHARM-EXTEND v ir vộ tp



C ik



lp mc ph bin ng c . Hm CHARM-PROPERTY kim ira rng buc v h

tr v kim tra xem nt cú tlio mn 4 lớnh cht ó nờu trờn.



ỏnh giỏ th u t toỏn CHARM : [19]

Tớnh ỳng n ca thut toỏn CHARM c th hin trong nh lý sau.

Dinh lý 3: ( lớnh dng dn) Thui toỏn CHARM tỡm ra tt c cỏc tp mc ph bin



úng.

ỏnh giỏ chi phớ thi gian v chi phớ vo ra nh sau:

inh lý 4: (thi gian ) Thi gian thc hiờn thut toỏn CHARM l 0 ( l. C| ), ú c



l tp tt c cỏc tp mc ph bin úngằ 1 l i tp nh danh trung bỡnh.



Xem Thêm
Tải bản đầy đủ (.pdf) (109 trang)

×