1. Trang chủ >
  2. Luận Văn - Báo Cáo >
  3. Công nghệ thông tin >

4, CƠ SỞ LÝ THUYẾT CỦA LUẬT KẾT HỢP

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (38.55 MB, 109 trang )


60



FR U TÍTEM (m

ÉQ EN

SEĨS ỉn_8up 5 50%

)



ITEMS

J a n s Auaton

A gatha Christi A

Sir Arthur Conan Doyle

Mark Twain

F, G. W odshouss

DATABASE

T ranscation



Items



1



ACTW



2



c Dw



3



ACTW



4



AC D w



5



A C DT w



6



CDT



Hình 2.8: a) C SD L bán sách



A

c

p

T

w



Support



Itemsets



100% {«}



c



83% (5)



w, cw



A, D,T, AC, AW

CD, CT, ACW

AT, ow, TW, ACT, A7W

m (â )

CDW. CTW, ACÎW



67% (4)



M al Fraquwtilsmsôts; CO . ACfW

axim

IV

Association Rulaa wîih Confidenç* “ 100%

A “* c (4/4)

A —W

C

<4/4) T —c (3/3)

W

A ”**w(4/4)

AJ-+C (3/3)

AT**CW(3Q)

A -* cw (4/4) A — W



T

<3/3) m-»AC m

A W -c (4/4) A T ~**w(3ß)

D -*‘C(4M

)

C

T -*“0(4/4}

D "'*' c (3/3) AĩW-C(3ữ)

W

W-C(5fi)

T

W A(3/3) cíw- aímí

Association Riổ*a with Confidants >=

Vf-~A(4IS)

Ỷ/ A (4/6)

C

c —w m

b) Các luật kết hợp với độ ĩin cậy conf-80%



CSDL cho việc khai phá luật kết hợp được xem như một đổ thị hai phía rất

lớn, với u là tập của các Ihuộc tính, V là tập các định danh (TIDset), và mồi cặp

{item, lid) là một cạnh. Việc lìm lất cả các tập mục phổ biến tương ứng với tìm tất cà

càc dique hai phía có ràng buộc, I X T, trong đổ I £ u , T C V và Ị TI ầ. mìnsup.

Như vậy bài toán tìm tất cà các tập mục phổ biến tưcmg đương với bài toán tìm các

clique hai phía trong đồ thị ỉai với ràng buộc ITI > = minsup. Do đó việc đánh gi ú

độ phức tạp cùa các thuật loán khai phá luật kết hợp được quy về việc đánh giá độ

phức tạp của bài toán lìm các clique hai phía trong đồ thị lai. Việc đánh giá độ phức

tạp thuật toán của bài toán clique đã được giải quyết từ lâu. Hình 2.9 biểu diễn dồ

thị hôi phía của CSDL và ciique hai phía cực đại ACTW X 135 (tạp mục phổ biến

cực dại ACTW).



Óỉ



Hình 2.9: Cỉique hai phía ràng buộc cực đại ACTW



<=K



I



p



T



=K



NP-Complete



X



>=K



p



p



ịỉ|t|T |



ỉ 35



N P -C oiplete



p



NP-Coniplete



NP-Compỉete



p



Hình 2.10: Độ phức tạp của việc khai phá



Hình 2.10 là kết quả đánh giấ độ phức tạp cửa vấn đề tìm các clique hai phía

cực đại với các hạn chế trên kích thước của I (các mục) và T (độ hỗ trợ). Ví dụ, vấn

đề xác định cổ tổn tại mội clique hai phía cực đại mà ĩ + T > K (với K iỉ\ hồng số) }à



62



bài toán có clộ phức tạp p, lớp các bài toán có độ phức tạp đa Ihức. Mặt khác, vấn dề

quyết định có lổn lại mội clique hai phía cực đại với I + T = K là bài toán NP - đầy

dù. Thuộc lớp các bài toán khó với thời gian ìhực hiện thuật toán không phải là da

thức. Định lý sau để cộp đến vấn đề tính số các clique cực đại trong đồ thị hai phía

là cực kỳ khó khăn.

Định tý I . Xác định số các clique liai phía cực đại trong đồ thị hai phía là #p

- dẩy đủ.



Kết quả tính độ phức tạp ờ trên vẫn còn chưa thỏa đáng chỉ áp đụng cho đổ

thị hai phía chung. Chúng ta nên tập trung vào các trường hợp đặc biệt mà có ihể tìm

lời giài với thời gian da thức. May thay đối với việc khai phá luật kết hợp trên thực

tế dồ thị hai phía (CSDL) rất thưa (sparse), chúng ta có ihể đạt được độ phức tạp

tuyến tính theo kích thước của dồ thị.

Đối vdi các đổ thị thưa độ phức tạp cho việc tìm tất cả các clique hai phía lằ

hàm tuyến tính với số các ìhuộc tính Yầ các tác vụ.

Định lý 2s Tất cả các clique hai phía cực đại có thể được tính toán trong thời



gian 0 (V . 22i. (U + V)).

Điều này là không thực tế đối vởi các CSDL lớn bởi vì hằng số trẽn quá [ỚỈ1 .

Tuy nhiên, trỗn Uìực tế kết quả lại rất khuyến khích, ta có thể phân tích như sau:





Nếu tập các thuộc tính có rn thuộc tính ( tức có m item) thì không gian tìm



kiếm các tập mục phổ biến là 2 m ( tất cả các tập con của tập m phần tử ) , hàm mũ

cùa m . Tìm tất cả các tâp mục plìổ biến như trên đẫ phốn rích, nó tương ứng vớì bài

toán clique hai phía đẩy đủ, nõn chác chắn có độ phức tạp NP_Comp!ete. Tuy nhiẽn

tiếu ta giả sử có giói hạn chiều dài của tác vụ thì nhiệm vụ tìm tất cả các lập mục

phổ biến về cơ bản tuyến tính với kích thước của CSDL, đô phírc tạp là 0 ( r.n .2 ‘ ),

Trong đó:

1) ià số tác vu Irong CSDL,

! là đ ộ d à i c ủ a tậ p m ụ c p h ổ b iế n d à i n h ấ l {



length o f the loiỊiịesl



frequent ilemset)



r là số các lập mục phổ biến cực đại (number o f maximal frequent

if aniseis)



63







Trong bước sinh luật: nếu tạp mục phổ biến có kích thước k thì có 2*-2 Utậí



có độ liu cậy tiềm năng có Ihổ được sinh ra ( tính từ cách chọn phần tiền dề là tập

con thực sự khác rỗng của lập k mục).

Độ phức tạp của bước sính luật là:



ỡ( f , 2 1) , ở dó:



f là sô' các tập mục phổ biến (number o f frequent iĩemsets),

1 là độ dài tập mục phổ biến dài nhất ( longest frequent itemaeỉ).

Kết quả phân tích trên nói íên rằng : trong thực tế, do các CSDL rất thưa, tức

là chiều dài của tác vụ rất n h ỏ , các thuật toán khai phá luật kết hợp có thể đạí được

dộ phức tạp tuyến tính vói kích thước của CSDL ( số item và sô' tác vụ).



3.5. K H A I PHÁ L U Ậ T K Ế T HỢP ĐỊNH LƯỢNG



Khai phá luật kết hợp đmh lượng là quá trình khai phá các luật kết hợp cho

các CSDL với các thuộc tính cú giá trị không đơn giản ỉà giá trị nhị phân ( boolean).

Đôi với các luật kết hợp định lượng X — Y, X và Y có thể là sự kết hợp của các giá

>

trị nhị phân, phân loại, khoảng số,

Phát hiện ỉuật kết hợp định lượng (quantivive association rule) gồm hai kỹ

thuật chính: [11,21]

- Ánh xạ các thuộc tính nhận gíá trị trong khoảng nào đó thành các thuộc lính

nhị phân.

- Chuyển thuộc tính giá trị số (hành một thuộc tính.

Xét ví dụ về CSDL dữ liệu thống kê về điều tra dân số như sau:

SSN#



tuổi



giớLtính



đã_kết_hôn



số_con



lương



006



26



nam



sai



0



250000



345



54



Nữ



đứng



2



550000



743



37



nam



sai



1



800000



Tìm hiểu thông tin trong các cột:

SSN#: là định danh cho mỗi hàng, khi khai phá dữ liệu ta không quan tâm

đến cột này.

Tuổi: thuộc tính này nhận nhiều giá trị 11Ó không phải là thuộc tính nhị phân.

Để khai phá dữ liệu dạng này la ánh xạ thuộc tính nhận giá trị trong khoáng nào đó



64



[hành các Ihuộc lính nhị píuìn. Ví dụ la ánh xạ tuổi lừ 0 - 2 1 Ihàtìỉi “r<ÍMiẻ’\ 22 - 35

Ihành “iré”, 35 - 55 tlnmh “Iruiig-nicn”, v.v...

Giới-lính: nhận một Irong hai giá trị “nam” và “nữ”, do vậy ta có Ihể chuyển

Ihuộe tính này thành hai thuộc tính.

Đã_kcl._hổn : tương tự như thuốc lính giới_tính ta chuyển thành hai



th u ộ c



lính “diÃ_kết_liôn” và “Chưa_kếl_hỏn”.

Số.„con: ánh xạ thuộc tính này thành các khoẳỉig “không_có_con”,

“mộLcon”, “nbiôu_con” .

Lương:



ánh



xạ



thuộc



tính



nằy



thành



các



khoảng



“lương_ít”,



“lư ơngjrungjbình’\ vằ “lưưng_cao”.

Việc ánh xạ phài hoàn toàn rõ ràng đối vối người khai phá dữ liệu. Với các

ánh xạ trên dữ liệu của ví dụ trở thành CSDL với 14 thuộc tính;

1 rất J rẻ

2 uỏ

3 T ru n g _ n iỗ n

4 g ià



5 Nmn

6 Nữ

7 đã_ kếí_hôn

8 chưa_kẻt_hôn

9 khỏng_có_con



10 một_con

11 nhiều_con

12 lương_ít

13 lương_iristìg_bhili

14 iương„cao.



65



Dữ liệu ilạng ASCII



Dạng nhị phân



BEGÌNJDATA



BEGIN_DATA



2 5 8 9 12



0 1 00 1 00 i 100 100



3 6 7 11 13



00 ỉ 00 i 1 0 0 0 1 0 i 0



3 5 7 10 14



00 ỉ 010 ỉ 0 0 1 0 0 0 1



END..DATA



END_DATA



Bảng 2.9: Dữ liêu thống ké về (tiều tra dân sô'sau khi ánh xạ.

V í d ụ sau khi khai phá ta được c á c lu ật kết h ợ p d ạ n g tuổi 6 [40, 50] A

đã_.kết_hôn - » lương = 550000. Sau khi tấl cả c á c luật được sinh ra, các luật được

nhóm lại th eo từng nh ó m g iá trị. V í dụ: luật tuổi « 5 0 A đã_kết__hôn -> lương =

5 0 0 0 0 0 k ế t h ợ p với lu ậ t tuổi = 5 5 A đ ã _ k ếl_ h ô iì - > tươ ng = 5 0 0 0 0 0 th ành luật tuổi

e [50, 55 ] A đ ã _ k ế t_ h ô n •-> lương = 500000, C ách n ày có nh iều hạn c h ế chẳng hạn

có q u á n h iề u g iá trị ch o m ỗi thuộc tính.



Như vậy , khai phá luật kết hợp định lượng gồm ba bước chính:

- Tiền xử ịỷ . nhiệm vụ chính của bước này là chuyển đổi các thuộc tính số,

phân loại thành các thuộc tính nhị phân để có thể sử dụng được các thuật toán khai



phá luật luật kết hợp nhị phân. Bằng cách gán giá trị sô' cho các thuộc tính phân loại,

ánh xạ các khoảng giá trị của thuộc tính số thành tập các thuộc tính. Điểm quan

trọng của bước này là phải xác định các khoảng của thuộc tính số sao cho phù hợp,



vì nó ảnh hưởng lới việc khai phá đữ liệu. Người ta đã nghiên cứu và có thuật toán

để chia khoảng các thuộc tính số sao cho phù hợp, Sau khi đã tìm được các khoảng

giá trị trong mỗi khoầng được ánh xạ thành các thuộc tính.



- Tìm tâp muc phổ biến\ sử dụng các thuật toán khai phá luật kết hợp nhị

phân để rtm các tập mục phổ biến với CSDL đã ánh xạ.

- Sinh hỉâi : sử d ụ n g thủ tục sinh lu ậ t từ c á c tập m ụ c phố biến. V iệc sình luật

đã trình bày trong phần trên.



Vấn đề quan trọng trong quá trình phát hiện luật kết hợp định lượng là ánh xạ

các thuộc tính số thành các thuộc cính nhị phẵn sao cho phù hợp. Vì:

o



Nếu số các khoảng chia cho một thuộc tính định ỉượng lớn thì độ hỗ

trợ eho mỗi khoảng chia có thể nhố. Dẫn đến việc không lim thấy



66



được một số luật bao gồm các thuộc tính này bởi vì độ hỗ trợ của

chúng nhỏ.

o



Có một số Ihông tin bị mất khi ta chia khoảng cho các thuộc tính định

lượng. Một số ỉuật có độ tin cậy cực tiểu chỉ khi một thuộc tính trong

phần tiền đề bao gồm giá trị đơn (hoặc là một khoảng nhỏ). Thỏng tin

bị mất này tăng khi kích ỉhước cùa khoảng írở nên lớn.



Chia thuộc tính định lượng làm nhiều khoảng nảy sinh các vấn đề:

□ Thời gian thực hiện: Nếu một thuộc tính định lượng có n giá trị (n

khoảng), sẽ có trung bình 0 (n2) dãy (thể hiện) bao gồm các giá trị hay

các khoảng. Do đó, số các thuộc tính trong một bản ghi bùng nổ, làm

tâng thời gian thực hiện của thuật toán.

Q Nhiều luật: Nếu một giá trị hoặc một khoảng của thuộc tính định

lượng có độ hỗ ƯỢ cực tiểu, sô' lượng các luật bùng nổ. Rất nhiều luật

không phải là íuậỉ cẩn quan tâm. Nếu ta tránh mất mát thông tin Ihì

thời gian thực hiện thuật toán tăng và sinh ra các luật không mong

muốn. Do vậy cần có sự thỏa hiệp giữa việc giảm tlìời gian thực hiện

(chia ít khoảng) với việc giảm thỗng tin mất mát (chia nhiều khoảng).

Jiuyong Li, Hong Shen và Rodney Topor trường đại học Cìriíìh,

Austrailia đã xây dựng thuật toán trộn thuộc tính số. Thuật toán cho

kết quả là lập các khoảng của các thuộc tính định lượng sao cho phù

hợp với các giá trị của thuộc tính đó.



3.6 KHAI PHÁ LUẬT KẾT HỢP ĐA MỨC

3.6.1: Luật kết hựp đa mức

Trong nhiều ứng đụng, khổ có Ìhể tìm được luật kết hợp mạnh trong các mục

dữ (iệu



ở mức



trừu tượng gốc (primiũve) bài vì tính thưa thớt của dữ liệu trong



không gian đa chiều, Khám phá các luật kết hợp mạnh ở các mức khái niệm cao có

(hể miêu tả tri thức có nghĩa phổ ỉhỏng. Tuy nhiên, các luật tìm được đó cổ thế là

tầm thường với người này nhưng lại là mới iạ, quan trọng với người khác. Do vậy,



67



a k ’ lié Ih ố n g khai phá dữ liệu nên cung c a p khả năng đổ khai phá các luật kết hợp ớ

ỉiliiéu m ứ c trừu tượng kh ác nhau.



Ví dụ : đữ liệu D các tác vụ mua bán.

Các mục dã mua



TĨD



TI



Máy tính để l>àn IBM, Máy in Sony den trắng



T?



Phẩn mềm giáo dục Microsoft, Phần mềm quản lý lài chính Microsoft



T3



Chuột Logitech,



T4



Máy tính đổ bàn IBM , Phần mềm quản lý lài chính Microsoft



T5



Máy tính để bàn IBM



...



Bảng 2. ÍO: C SD L D các tác vụ mua bán.

Giả sử bảng trẽn cho biết các tác vụ bán hàng của một cửa hàng máy tính:

các mục bán được trong tác vụ cùng định danh tác vụ TÍD. Khái niệm phân cấp

(hierarchy) cho các mục chỉ ra trong hình 2 . 1 í sau:



Hình 2.11 : Khái niệm phân cấp của các mục.

Khái niệm phân cấp đưực xác định tuần lự từ mức thấp đến mức cao, đen

khái niệm lổng quái hưu. Trong hình 2.11 trẽn, khái niệm phAn cấp có 4 mức: mức



Xem Thêm
Tải bản đầy đủ (.pdf) (109 trang)

×