Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (38.55 MB, 109 trang )
67
a k liộ Ih n g khai phỏ d liu nờn cung c a p kh nng khai phỏ cỏc lut kt hp
iliiộu m c tru tng kh ỏc nhau.
Vớ d : liu D cỏc tỏc v mua bỏn.
Cỏc mc dó mua
TD
TI
Mỏy tớnh l>n IBM, Mỏy in Sony den trng
T?
Phn mm giỏo dc Microsoft, Phn mm qun lý li chớnh Microsoft
T3
Chut Logitech,
T4
Mỏy tớnh bn IBM , Phn mm qun lý li chớnh Microsoft
T5
Mỏy tớnh bn IBM
...
Bng 2. O: C SD L D cỏc tỏc v mua bỏn.
Gi s bng trn cho bit cỏc tỏc v bỏn hng ca mt ca hng mỏy tớnh:
cỏc mc bỏn c trong tỏc v cựng nh danh tỏc v TD. Khỏi nim phõn cp
(hierarchy) cho cỏc mc ch ra trong hỡnh 2 . 1 ớ sau:
Hỡnh 2.11 : Khỏi nim phõn cp ca cỏc mc.
Khỏi nim phõn cp c xỏc nh tun l t mc thp n mc cao, en
khỏi nim lng quỏi hu. Trong hỡnh 2.11 trn, khỏi nim phAn cp cú 4 mc: mc
68
0. 1, 2 v 3. Ta qui c cỏc mc (lỏnh sd t trờn xung, bl u ỡr mc 0 nỳt gc
cholỏt c ( mc lng quỏi nht).
Mc i bao gm; mỏy tớnh, phn mm, mỏy in, ph kin.
Mc 2 bao gm: mỏy lớnh bn, mỏy lớnh laptop, mỏy in mu,mỏy iằ den
trng. ...
Mc 3 l mc c th, riờng bit nht cựa phõn cp ny.
C ỏc m c tro n g b n g 2 . 0 l m c th p nht c a khỏi n im p h õn c p trong hỡnh
2.11. Khú cú th tỡm cỏc mu mua ỏng quan tõm trong mc nguyờn thu ny.
Chng hn: mỏy tớnh bn IBM hoc mỏy in Sony en trng mi chỳng ch xut
hin Irong m t phn rt nh c a c ỏ c tỏc v thỡ khú c ú th tỡm c ỏ c lut ki hp bao
gm chỳng. Tuy nhiờn, nu tng quỏt "mỏy in Sony en trng" thnh "mỏy in en
trng" thỡ lỡm lu t k t h p gi a m ỏy tớn h bn IB M " v "m ỏy ill en trng" (l hon
l "mỏy lớnh bn IBM" v mỏy in Sony en trng.
Cỏc lut c sinh ra t khai phỏ lut kt hp vớ khỏt nim phõn cp c
gi l cỏc iut kt hp nhiu mc hay ỏ mc ( multilevel association rules) vỡ
chỳng d cp n hn mt mc khỏi nim.
3.6.2: Cỏc cỏch tip cn khai phỏ lut kt hp ) mc.
Cú th khai phỏ cỏc hit kt hp da mc mt cỏch hiu quõ vi vic s dung
kliỳi nim phn cp nh th no?
Cú ằlt s c ỏ ch ti p c n vn d d a trờn k h u n g lm v ic ụ h tr v d til)
cy. Nhỡn chung , ngi la s dng chin lc t trờn xung( top - down), dú tớnh
tớch lu cho cỏ c tp m c trong mi m c khỏi nim , bl u m c khỏi nim i v i
xu n g m e th p hn, tn c khỏi nim riờn g bit h n, c h o n khi kh ụ n g cũn t p m c
ph bin no tỡm c. iu ú cú ngha l: trong mt ln it c cỏc tp mc ph
bin m c khỏi n im Ih nht l dc tỡm , sau d ú cỏc cp m c ph bin m c khỏi
nim th hai i dc tỡm, v c tip tc nh vy ...Vi mi mc, cú th s dng bt
k thut toỏn no phỏt hin lp mc ph bin, chng hn nh thut toỏn priori
hoc c ỏ c ci tin c a nú. Cú m t s ci ớin cho c ỏ c h ti p cn ny nh sau: [II]
S dng h tr cc tiu ging nhau cho tt c cỏc mc; Ngng h tr
nh nhau c s dng khi khai phỏ mi mc Irựu tng. Vớ d: trong hỡnh 2.12
69
sau, ngtỡg h 1' 5% Jớc s dng. C hai "mỏy lớnh" v "mỏy lớnh laplp u
lỡm c l ph hin trong khi "mỏy tớnh bn" !hỡ khụng .
Mc 1
In i n S l i p p y 5 %
Mc 2
ininsupp=5ớộ
ớ
Hỡnh 2.12: Khai phỏ nhiu mc vi h trgiụhg nhmt
Khi s dng ngng h tr cc tiu ging nhau, thự tc tỡm kim lự n
gin. Phng phỏp ny ii gin trong trng hp ngi dung yờu cu chớ mt
ngng h ir xỏc nh, Tuy nhicn , vi h tr ging nhớiu ny sớnh mt s khú
khỏn. Nú khụng phũ hp vú cỏc mc m
mc Ihp hn ca s tru tng nú s cú
tớnh ph bin cao hn. Nu ngng h tr t quỏ cao cú th s mt mt s kt
hp cú ớch cỏc mc tru tng thp. Nu ngng h tr t quỏ thp cú th số
sinh ra nhiu lut kt lip khụng cn quan tõm cỏc mc tru tng cao. iu d
dn n cỏch tip cn khỏc c trỡnh by sau õy.
H llỡp d h tr cc tiu cỏc mc thp hn: Mi mc tru tng cú mi
ngng h tr cc tiu ca chớnh nú. Mc tru tng thp hn cú ngừng tng ng
nh han. Vớ d: trong hỡnh 2.3 sau, ngng h tr cho mc tru tng l l 5%,
mc 2 l 3%. Trong cỏch ny, "mỏy tớnh" , "mỏy tớnh laptop v "mỏy tớnh bn"
lt c dcu tỡm c l ph bin.
Mc 1
m m supp=5%
Mc 2
minsupp=3%
Hỡnh2.13: Khai phỏ nhiờu mc vi giõm h tr
70
Kill khai phỏ lut kt hp nhiu mc vi cỏch gim h Ir, cú mi sụ' cỏch
tỡm kim cú th la chn:
+ Mc ny
n
mc khỏc mt cỏch c lp level - by - level independent):
dú l tỡm kim hon ton (heo chiu rng, ú khụng cú
tri
hc c s ca cỏc ip
mc ph biờn c dựng (a. M nỳớ u c xộl m khụng chỳ ý nỳt chu
ó xột cú l ph bin hay khng.
+ i qua cỏc mc cú chn lc ( level-cross filtering): Mt mc mc th i l
dc xộl nu v ch nu nỳt cha ca nú mc th (i-1) l ph bin. Hay núi cỏch
khỏc, l nghiờn cớựi iti kt hp riờng bit hn t lut (ng quỏt hn. Nu I11 nỳt i
ph bin thỡ cỏc nỳt con ỏ c xột, nu khụng cỏc nỳt hõp bn ca tiú b la,
i u
dú gim khng gian tỡm kim. Vớ d trong hỡnh 2.14 sau, cỏc nỳt thp hon cựa nỳi
"mỏy tớnh) l khng c x ộ i, vỡ "mỏy lớnh" l khụng ph bin.
Mỳc
miôsupjF=l2%
Mr 2
imusup|i=3/ớ>
"Mỏy lớnh laptop [ khng xộ! ]
Mỏy tớnh bn { khụng xột j
Hỡnh 2.14: Khai phỏ nhiu mc vi gim h t r , thc hin c hi mc dn.
i qua cỏc mc [c bi !i)p k mc ( k- item,set): Tp k mc mc th i lỡ)
dc xộ! nu v ch nu nú cú cha tp k mc mc th (i-i) ph bin. Vớ d,
hỡnh 2. 5 sau ch ra lp 2 mc { mỏy tớnh, mỏy in) l ph bin, do ú cỏc n ỳ t :
{mỏy tớnh laptop,mỏy in en trng}
{mỏy tớnlỡ laplopằmỏy iu mu}
(mỏy tớnh bn ,mỏy in en li ỏng}
mỏy tớnh bn,mỏy in mu}
l c xội.
71
Mỏy lớnh v mỏy in
Mc 1
[ supp=10%ớ
mmsupp=5%
Mc 2
minsiớpp=:2%
Hỡnh 2.15: Khai phỏ nhiu mc vi gim h tr , thc hin lc ben k- mc.
So sỏnh cỏc phng phỏp trụn ta thy:
Cỏch cỏc mc cựng h tr cc tiu d a n xột mt s lii cỏc tp mc
khụng ph bin v tỡm ra cỏc lut kt hp ớt quan ung.
Cỏch di qua cỏc mc cú ic cho phộp cỏc h thng khai phỏ ch xột cỏc con
ca lp k mc ph bin.
Khỏi nim phõn cỏp i hu ớch trong khai phỏ liu, nú cho phộp khỏm phỏ
ui thc cỏc mc tru tng khỏc nhau, nh cỏc lut kl hp a mc. Tuy nliin khi
cỏc lut kt hp a mc c tỡm ra, mt s lut s rỳt gn. Vớ d xem 2 lut sau:
(r )
mỏy tớnh bn -> mỏy in en trng [supp=8%, conf=7Q%]
(r2)
mỏy tớnh bn IBM -> mỏy in en trng [supp=2%, conf=72%]
Nu cỏ hai lut cựng c tỡm thy thỡ iut r2 cú ớch gỡ?. Nu lut r2 cú tớnh
tng quỏt nh hn m khụng a ra c chụng tin gỡ mi thỡ n nờn b loi b. Lut
rl cú th ihu c t lut r2 bng phộp th "mỏy tớnh bn " cho mỏy tớnh d bn
IBM" ong khỏi nim phõn cp.
Túm li, phn ny ta ó xem xột cỏc lut kt hp a mc da trờn khỏi nim
plõn cp. Cỏc lut kt hp a mc cú th dc khai phỏ bi mt s chin lc, da
ỡrờrt xỏc nh ngng h tr cc tiu nh Ih no cho mi mc tru tng. Khi dựng
dỡin lc h thp ngng h tr cho mc Ihp hn, phng phỏp lớu bt khụng gian
72
tỡm kim bao gin cỏch lc khi qua cỏc mc. Lut kt hp a mc tỡm dc cú th
cn thu gn, giõm bL
Kt lun cita chng 2:
Xut phỏt t bi toỏn ban u l phõn tớch cỏc tỏc v bỏn l ca siờu th,
chng ny dó trỡnh by mt sụ' vn ộ c bn ca khai phỏ lut kt hp. Mt s
thut toỏn tiờu biu khai phỏ lut kt hp ó dc trỡnh by. Hai thut toỏn: thut
toỏn kinh din Apriori tỡm tp mc ph bin theo cỏch sớnh cỏc ng c v thut toỏn
FP-growth tỡm tp mc ph biti khụng sinh cỏc ỳig c ó c trỡnh by chi lit.
Thut toỏn FP-growth l mt thul ioỏn hiu qu mi xut hin gn õyằ nú khng
cn n cỏc kin Ihc toỏn hc phc tp m n gin ch s dng mt cu trỳc d
liu c bil - mt bin th cựa cõy prefix ( prefix tree). Thut toỏn tỡm lut kỡ hp
i cỏc tp mc ph bin cng ó c trỡnh by v phõn tớch.
Vn d ỏnh giỏ phc lp ca thut loỏn dó c da v bi toỏn tỡm cỏc
clique hat phớa dy d. phc tp tớnh toỏn ca bi toỏn tỡm clique hai phớa ó
(ic bit ộn t Au trong lý thuyt th v núi chung l NP-khú . Núi cỏch khỏc,
lỡúi chung phc tp Ihut toỏn tỡm cỏc tp mc ph bin l NP-khú, song trong
Ilỡc t, thi gian lỡm cỏc tp mc ph bin l tuyn tớnh vi kớch Ihc ca CSDL vỡ
cỏc CSDL thng l rt ớha v cỏc llỡut toỏn dó dựng mt s k thut ta hiu qu.
Vn d khai phỏ lut ki hp nh lng, lut kt hp da mc dc d cp
v trỡnh by mt s cỏch lip cn c bn gii quyt.
73
CHNG 3
K H A I PH LUT K T H P ểNG
Nh ó trỡnh by trờn, khai phỏ lut kt hp gm 2 bc: Tỡm tt c cỏc tp
mc ph bin v sinh ra cỏc lut t cỏc tp mc ph bin ó Um c. Bc th nhiớt
ũi hi s tớnh loỏằ ln, nhng thut toỏn nh thut toỏn Apriori ũi hũi nhiu ln
duyt qua CSDL. Bc th hai ũi lii tớnh toỏn ớt hn, song gp phi mt vn l:
cú th sinh ra quỏ nhiu lut, vt khi s kim soỏt ca ngi khai ph hoc ngi
dựng èrong ú cú nhiu lut khụng cn Ihit. Trong chng ny s ch ra rng: nong
bc th nht, khụng cn thit phi khai phỏ tt c cỏc tp mc ph bin m ch cn
khai phỏ cỏc tp mc ph bin úng. Cỏc lp mc ph bin úng ny nh hn rt
nhiu so vi tp c cỏc tp mc ph bin. Hn na, bt k mt lut kt hp no
c sinh ra l mt tp mc ph bin cng tng ng vi cỏc lut sinh ra t cỏc
tp mc ph bin úng. iu ú dn n cú th loi bũ cỏc lut khụng cn thit.
Chng ny trỡnh by c s
lý
thuyt ca khai phỏ tp mc ph bin úng v
sinh cỏc lut kt hp. Cỏc ớht toỏn khai phỏ tp mc ph bin úng cng ó c
nghiờn cu v cú nhiu lỏc gi ó d xut mt s thut toỏn hiu qu, õy trỡnh
by thut toỏn CHARM, mt thut toỏn khai phỏ tp mc ph bin dúng mi xut
hin gn õy v c ỏnh giỏ l khỏ hiu qu [19].
4.1 TP MC PH BIN ểNG:
Ta kớ hiu: I tp cỏc mc, T~\ 1 , 2 .......n } - lp cỏc nh danh ca cỏc
!ỏc
v
(se t
of transaction
id e n tifie rs
). CSDL
i q u a n h n h p h õ n ụ C X
T . Nu
mc i xut hin trong tỏc v (, chỳng ta vit (i, e 8 hoc i ụ t . Vớ d : xem CSDL
hmh 3. , dú H A ,C ,D ,T , w v T= 11,2,3,4,5,61.
74
mue c u a C ớ'I H S ir A rth u r
M ark
C o n a n D oyle
T w ain
D
T
C ỏc
Jane
A g a th a
C h ristie
A lớste n
A
c
CS DL
Transcation Items
1
A C TW
P. G .
W o c ie h o u se
w
C ỏ c tõp m u e phtớ b iởn v ỏ i m in su p p -5 0 %
S u p p o rt
I te m s e ts
100% (6)
c
2
C DW
3
ACTW
4
A C OW
5
AC DTW
67% (4)
6
C DT
50% <3)
83% <5>
w. cw
A, O, T, AC, AW
CD, CT. ACW
AT, DW, TW, ACT, ATW
CDW, CT W, ACTW
Hinh 3.1 : C SD L bỏn sch minh hoa cho tõp mue pho bien dúng.
Tõp Xc: I goớ l tõp mue v lõp Y e T goi l tõp cỏc dinh danh tid.set . De
thuõn tiờn, ta ki hiờu tõp mue ( A, C, W} l ACW v tõp dinh danh {2,4,5} l 245.
Dỷ hụ tro cua tõp mue X, ki hiờu l supp(X), l sụ' cỏc tỏc vu trong do no xuõt
hitn. Tõp mue X l phụ biờh nờ'u dụ hụ tro cỹanụ supp(X)> minsupp.
Mot luõl kột hop l biộu thực Xj
X 2 , dú XĂv X2 l cỏc tõp mue v X ( r\
X2- 0 - Dụ hụ trg cỹu luAt l supp( XĂ u X2) v dụ tin cõy l p=supp( X f U X2)/
sujpp{ X , ) . Mụt luõt l tin cõy nờ'u p> minconf.
Kột nụù Galois:
Gia su 8 c I x T l quan hờ nhi phõn- CSDL cho khai ph luõt kột hop. X c l
v Y ỗT. Cỏc ỏnh xa:
t : I T , t
>
i : T - > l , t ( Y ) = { x e l/V y e Y , xụyj
dinh nghùa mụt kột nụ'i Galois giffa cỏc tõp cú thự tuf P(I) v P(T) (l tõp cỏc tõp con
cỹa I v T). Hùnh 3.2.a minh hoa hai ỏnh xa.