Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (38.55 MB, 109 trang )
60
FR U TÍTEM (m
ÉQ EN
SEĨS ỉn_8up 5 50%
)
ITEMS
J a n s Auaton
A gatha Christi A
Sir Arthur Conan Doyle
Mark Twain
F, G. W odshouss
DATABASE
T ranscation
Items
1
ACTW
2
c Dw
3
ACTW
4
AC D w
5
A C DT w
6
CDT
Hình 2.8: a) C SD L bán sách
A
c
p
T
w
Support
Itemsets
100% {«}
c
83% (5)
w, cw
A, D,T, AC, AW
CD, CT, ACW
AT, ow, TW, ACT, A7W
m (â )
CDW. CTW, ACÎW
67% (4)
M al Fraquwtilsmsôts; CO . ACfW
axim
IV
Association Rulaa wîih Confidenç* “ 100%
A “* c (4/4)
A —W
C
<4/4) T —c (3/3)
W
A ”**w(4/4)
AJ-+C (3/3)
AT**CW(3Q)
A -* cw (4/4) A — W
■
T
<3/3) m-»AC m
A W -c (4/4) A T ~**w(3ß)
D -*‘C(4M
)
C
T -*“0(4/4}
D "'*' c (3/3) AĩW-C(3ữ)
W
W-C(5fi)
T
W A(3/3) cíw- aímí
Association Riổ*a with Confidants >=
Vf-~A(4IS)
Ỷ/ A (4/6)
C
c —w m
b) Các luật kết hợp với độ ĩin cậy conf-80%
CSDL cho việc khai phá luật kết hợp được xem như một đổ thị hai phía rất
lớn, với u là tập của các Ihuộc tính, V là tập các định danh (TIDset), và mồi cặp
{item, lid) là một cạnh. Việc lìm lất cả các tập mục phổ biến tương ứng với tìm tất cà
càc dique hai phía có ràng buộc, I X T, trong đổ I £ u , T C V và Ị TI ầ. mìnsup.
Như vậy bài toán tìm tất cà các tập mục phổ biến tưcmg đương với bài toán tìm các
clique hai phía trong đồ thị ỉai với ràng buộc ITI > = minsup. Do đó việc đánh gi ú
độ phức tạp cùa các thuật loán khai phá luật kết hợp được quy về việc đánh giá độ
phức tạp của bài toán lìm các clique hai phía trong đồ thị lai. Việc đánh giá độ phức
tạp thuật toán của bài toán clique đã được giải quyết từ lâu. Hình 2.9 biểu diễn dồ
thị hôi phía của CSDL và ciique hai phía cực đại ACTW X 135 (tạp mục phổ biến
cực dại ACTW).
Óỉ
Hình 2.9: Cỉique hai phía ràng buộc cực đại ACTW
<=K
I
p
T
=K
NP-Complete
X
>=K
p
p
ịỉ|t|T |
ỉ 35
N P -C oiplete
p
NP-Coniplete
NP-Compỉete
p
Hình 2.10: Độ phức tạp của việc khai phá
Hình 2.10 là kết quả đánh giấ độ phức tạp cửa vấn đề tìm các clique hai phía
cực đại với các hạn chế trên kích thước của I (các mục) và T (độ hỗ trợ). Ví dụ, vấn
đề xác định cổ tổn tại mội clique hai phía cực đại mà ĩ + T > K (với K iỉ\ hồng số) }à
62
bài toán có clộ phức tạp p, lớp các bài toán có độ phức tạp đa Ihức. Mặt khác, vấn dề
quyết định có lổn lại mội clique hai phía cực đại với I + T = K là bài toán NP - đầy
dù. Thuộc lớp các bài toán khó với thời gian ìhực hiện thuật toán không phải là da
thức. Định lý sau để cộp đến vấn đề tính số các clique cực đại trong đồ thị hai phía
là cực kỳ khó khăn.
Định tý I . Xác định số các clique liai phía cực đại trong đồ thị hai phía là #p
- dẩy đủ.
Kết quả tính độ phức tạp ờ trên vẫn còn chưa thỏa đáng chỉ áp đụng cho đổ
thị hai phía chung. Chúng ta nên tập trung vào các trường hợp đặc biệt mà có ihể tìm
lời giài với thời gian da thức. May thay đối với việc khai phá luật kết hợp trên thực
tế dồ thị hai phía (CSDL) rất thưa (sparse), chúng ta có ihể đạt được độ phức tạp
tuyến tính theo kích thước của dồ thị.
Đối vdi các đổ thị thưa độ phức tạp cho việc tìm tất cả các clique hai phía lằ
hàm tuyến tính với số các ìhuộc tính Yầ các tác vụ.
Định lý 2s Tất cả các clique hai phía cực đại có thể được tính toán trong thời
gian 0 (V . 22i. (U + V)).
Điều này là không thực tế đối vởi các CSDL lớn bởi vì hằng số trẽn quá [ỚỈ1 .
Tuy nhiên, trỗn Uìực tế kết quả lại rất khuyến khích, ta có thể phân tích như sau:
•
Nếu tập các thuộc tính có rn thuộc tính ( tức có m item) thì không gian tìm
kiếm các tập mục phổ biến là 2 m ( tất cả các tập con của tập m phần tử ) , hàm mũ
cùa m . Tìm tất cả các tâp mục plìổ biến như trên đẫ phốn rích, nó tương ứng vớì bài
toán clique hai phía đẩy đủ, nõn chác chắn có độ phức tạp NP_Comp!ete. Tuy nhiẽn
tiếu ta giả sử có giói hạn chiều dài của tác vụ thì nhiệm vụ tìm tất cả các lập mục
phổ biến về cơ bản tuyến tính với kích thước của CSDL, đô phírc tạp là 0 ( r.n .2 ‘ ),
Trong đó:
1) ià số tác vu Irong CSDL,
! là đ ộ d à i c ủ a tậ p m ụ c p h ổ b iế n d à i n h ấ l {
length o f the loiỊiịesl
frequent ilemset)
r là số các lập mục phổ biến cực đại (number o f maximal frequent
if aniseis)
63
•
Trong bước sinh luật: nếu tạp mục phổ biến có kích thước k thì có 2*-2 Utậí
có độ liu cậy tiềm năng có Ihổ được sinh ra ( tính từ cách chọn phần tiền dề là tập
con thực sự khác rỗng của lập k mục).
Độ phức tạp của bước sính luật là:
ỡ( f , 2 1) , ở dó:
f là sô' các tập mục phổ biến (number o f frequent iĩemsets),
1 là độ dài tập mục phổ biến dài nhất ( longest frequent itemaeỉ).
Kết quả phân tích trên nói íên rằng : trong thực tế, do các CSDL rất thưa, tức
là chiều dài của tác vụ rất n h ỏ , các thuật toán khai phá luật kết hợp có thể đạí được
dộ phức tạp tuyến tính vói kích thước của CSDL ( số item và sô' tác vụ).
3.5. K H A I PHÁ L U Ậ T K Ế T HỢP ĐỊNH LƯỢNG
Khai phá luật kết hợp đmh lượng là quá trình khai phá các luật kết hợp cho
các CSDL với các thuộc tính cú giá trị không đơn giản ỉà giá trị nhị phân ( boolean).
Đôi với các luật kết hợp định lượng X — Y, X và Y có thể là sự kết hợp của các giá
>
trị nhị phân, phân loại, khoảng số,
Phát hiện ỉuật kết hợp định lượng (quantivive association rule) gồm hai kỹ
thuật chính: [11,21]
- Ánh xạ các thuộc tính nhận gíá trị trong khoảng nào đó thành các thuộc lính
nhị phân.
- Chuyển thuộc tính giá trị số (hành một thuộc tính.
Xét ví dụ về CSDL dữ liệu thống kê về điều tra dân số như sau:
SSN#
tuổi
giớLtính
đã_kết_hôn
số_con
lương
006
26
nam
sai
0
250000
345
54
Nữ
đứng
2
550000
743
37
nam
sai
1
800000
Tìm hiểu thông tin trong các cột:
SSN#: là định danh cho mỗi hàng, khi khai phá dữ liệu ta không quan tâm
đến cột này.
Tuổi: thuộc tính này nhận nhiều giá trị 11Ó không phải là thuộc tính nhị phân.
Để khai phá dữ liệu dạng này la ánh xạ thuộc tính nhận giá trị trong khoáng nào đó
64
[hành các Ihuộc lính nhị píuìn. Ví dụ la ánh xạ tuổi lừ 0 - 2 1 Ihàtìỉi “r<ÍMiẻ’\ 22 - 35
Ihành “iré”, 35 - 55 tlnmh “Iruiig-nicn”, v.v...
Giới-lính: nhận một Irong hai giá trị “nam” và “nữ”, do vậy ta có Ihể chuyển
Ihuộe tính này thành hai thuộc tính.
Đã_kcl._hổn : tương tự như thuốc lính giới_tính ta chuyển thành hai
th u ộ c
lính “diÃ_kết_liôn” và “Chưa_kếl_hỏn”.
Số.„con: ánh xạ thuộc tính này thành các khoẳỉig “không_có_con”,
“mộLcon”, “nbiôu_con” .
Lương:
ánh
xạ
thuộc
tính
nằy
thành
các
khoảng
“lương_ít”,
“lư ơngjrungjbình’\ vằ “lưưng_cao”.
Việc ánh xạ phài hoàn toàn rõ ràng đối vối người khai phá dữ liệu. Với các
ánh xạ trên dữ liệu của ví dụ trở thành CSDL với 14 thuộc tính;
1 rất J rẻ
2 uỏ
3 T ru n g _ n iỗ n
4 g ià
5 Nmn
6 Nữ
7 đã_ kếí_hôn
8 chưa_kẻt_hôn
9 khỏng_có_con
10 một_con
11 nhiều_con
12 lương_ít
13 lương_iristìg_bhili
14 iương„cao.
65
Dữ liệu ilạng ASCII
Dạng nhị phân
BEGÌNJDATA
BEGIN_DATA
2 5 8 9 12
0 1 00 1 00 i 100 100
3 6 7 11 13
00 ỉ 00 i 1 0 0 0 1 0 i 0
3 5 7 10 14
00 ỉ 010 ỉ 0 0 1 0 0 0 1
END..DATA
END_DATA
Bảng 2.9: Dữ liêu thống ké về (tiều tra dân sô'sau khi ánh xạ.
V í d ụ sau khi khai phá ta được c á c lu ật kết h ợ p d ạ n g tuổi 6 [40, 50] A
đã_.kết_hôn - » lương = 550000. Sau khi tấl cả c á c luật được sinh ra, các luật được
nhóm lại th eo từng nh ó m g iá trị. V í dụ: luật tuổi « 5 0 A đã_kết__hôn -> lương =
5 0 0 0 0 0 k ế t h ợ p với lu ậ t tuổi = 5 5 A đ ã _ k ếl_ h ô iì - > tươ ng = 5 0 0 0 0 0 th ành luật tuổi
e [50, 55 ] A đ ã _ k ế t_ h ô n •-> lương = 500000, C ách n ày có nh iều hạn c h ế chẳng hạn
có q u á n h iề u g iá trị ch o m ỗi thuộc tính.
Như vậy , khai phá luật kết hợp định lượng gồm ba bước chính:
- Tiền xử ịỷ . nhiệm vụ chính của bước này là chuyển đổi các thuộc tính số,
phân loại thành các thuộc tính nhị phân để có thể sử dụng được các thuật toán khai
phá luật luật kết hợp nhị phân. Bằng cách gán giá trị sô' cho các thuộc tính phân loại,
ánh xạ các khoảng giá trị của thuộc tính số thành tập các thuộc tính. Điểm quan
trọng của bước này là phải xác định các khoảng của thuộc tính số sao cho phù hợp,
vì nó ảnh hưởng lới việc khai phá đữ liệu. Người ta đã nghiên cứu và có thuật toán
để chia khoảng các thuộc tính số sao cho phù hợp, Sau khi đã tìm được các khoảng
giá trị trong mỗi khoầng được ánh xạ thành các thuộc tính.
- Tìm tâp muc phổ biến\ sử dụng các thuật toán khai phá luật kết hợp nhị
phân để rtm các tập mục phổ biến với CSDL đã ánh xạ.
- Sinh hỉâi : sử d ụ n g thủ tục sinh lu ậ t từ c á c tập m ụ c phố biến. V iệc sình luật
đã trình bày trong phần trên.
Vấn đề quan trọng trong quá trình phát hiện luật kết hợp định lượng là ánh xạ
các thuộc tính số thành các thuộc cính nhị phẵn sao cho phù hợp. Vì:
o
Nếu số các khoảng chia cho một thuộc tính định ỉượng lớn thì độ hỗ
trợ eho mỗi khoảng chia có thể nhố. Dẫn đến việc không lim thấy
66
được một số luật bao gồm các thuộc tính này bởi vì độ hỗ trợ của
chúng nhỏ.
o
Có một số Ihông tin bị mất khi ta chia khoảng cho các thuộc tính định
lượng. Một số ỉuật có độ tin cậy cực tiểu chỉ khi một thuộc tính trong
phần tiền đề bao gồm giá trị đơn (hoặc là một khoảng nhỏ). Thỏng tin
bị mất này tăng khi kích ỉhước cùa khoảng írở nên lớn.
Chia thuộc tính định lượng làm nhiều khoảng nảy sinh các vấn đề:
□ Thời gian thực hiện: Nếu một thuộc tính định lượng có n giá trị (n
khoảng), sẽ có trung bình 0 (n2) dãy (thể hiện) bao gồm các giá trị hay
các khoảng. Do đó, số các thuộc tính trong một bản ghi bùng nổ, làm
tâng thời gian thực hiện của thuật toán.
Q Nhiều luật: Nếu một giá trị hoặc một khoảng của thuộc tính định
lượng có độ hỗ ƯỢ cực tiểu, sô' lượng các luật bùng nổ. Rất nhiều luật
không phải là íuậỉ cẩn quan tâm. Nếu ta tránh mất mát thông tin Ihì
thời gian thực hiện thuật toán tăng và sinh ra các luật không mong
muốn. Do vậy cần có sự thỏa hiệp giữa việc giảm tlìời gian thực hiện
(chia ít khoảng) với việc giảm thỗng tin mất mát (chia nhiều khoảng).
Jiuyong Li, Hong Shen và Rodney Topor trường đại học Cìriíìh,
Austrailia đã xây dựng thuật toán trộn thuộc tính số. Thuật toán cho
kết quả là lập các khoảng của các thuộc tính định lượng sao cho phù
hợp với các giá trị của thuộc tính đó.
3.6 KHAI PHÁ LUẬT KẾT HỢP ĐA MỨC
3.6.1: Luật kết hựp đa mức
Trong nhiều ứng đụng, khổ có Ìhể tìm được luật kết hợp mạnh trong các mục
dữ (iệu
ở mức
trừu tượng gốc (primiũve) bài vì tính thưa thớt của dữ liệu trong
không gian đa chiều, Khám phá các luật kết hợp mạnh ở các mức khái niệm cao có
(hể miêu tả tri thức có nghĩa phổ ỉhỏng. Tuy nhiên, các luật tìm được đó cổ thế là
tầm thường với người này nhưng lại là mới iạ, quan trọng với người khác. Do vậy,
67
a k ’ lié Ih ố n g khai phá dữ liệu nên cung c a p khả năng đổ khai phá các luật kết hợp ớ
ỉiliiéu m ứ c trừu tượng kh ác nhau.
Ví dụ : đữ liệu D các tác vụ mua bán.
Các mục dã mua
TĨD
TI
Máy tính để l>àn IBM, Máy in Sony den trắng
T?
Phẩn mềm giáo dục Microsoft, Phần mềm quản lý lài chính Microsoft
T3
Chuột Logitech,
T4
Máy tính đổ bàn IBM , Phần mềm quản lý lài chính Microsoft
T5
Máy tính để bàn IBM
...
Bảng 2. ÍO: C SD L D các tác vụ mua bán.
Giả sử bảng trẽn cho biết các tác vụ bán hàng của một cửa hàng máy tính:
các mục bán được trong tác vụ cùng định danh tác vụ TÍD. Khái niệm phân cấp
(hierarchy) cho các mục chỉ ra trong hình 2 . 1 í sau:
Hình 2.11 : Khái niệm phân cấp của các mục.
Khái niệm phân cấp đưực xác định tuần lự từ mức thấp đến mức cao, đen
khái niệm lổng quái hưu. Trong hình 2.11 trẽn, khái niệm phAn cấp có 4 mức: mức