Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (38.55 MB, 109 trang )
7
Sự phá! triển kinh ngạc của công nghệ phần cứng máy tính trong 3 thập kỉ
qua tạo cho máy tính có sức mạnh ỉớn. Điều đó cho phép cạo ra sô' lượng khổng lổ
các CSDL và thông tin được cất giữ để quản ỉý kinh doanh, tìm thông tin, phân tích
dữ liêu.
Ngày nay, dữ liệu có thể được lưu giữ trong nhiều kiểu khác nhau. Một kiến
trúc CSDL gần đây đã nổi bật ỉên là
kho dữ liệu (data warehouse), nó lưu giữ nhiều
(iữ liệu từ nhiều nguồn khác nhau, tổ chức thống nhất để có thể tạo ra quyết định.
Công nghệ kho đữ Hệu bao gồm làm sạch dữ liệu, tích hợp dữ liệu, phần tích trực
(uyên (O L A P ),.... đó là những kĩ thuật phân tích với chức năng như là tóm tắ i, hợp
nhất, tập hợp... để có thể xem xét thông tin từ các góc độ khác nhau. Các công cụ
OLAP hỗ trợ phân tích đa chiều và cạo ra quyết định, thêm vào đó các công cụ phân
rích dữ liệu đã đòi hòi phân tích sâu như phân ỉớp dữ iiộu, phân nhóm, tìm các đặc
tính của dữ liệu,...
Cùng với việc tăng klìòng ngừng khối lượng dữ liệu, các hệ thống thồng tin
cũng (tược chuyên môn hoá, phân chia theo các lĩnh vực ứng dụng như sản xuất, tài
chính, buôn bán thị trường v.v... Như vậy, bên cạnh chức năng khai thác dữ liệu có
lính chất tác nghiệp, sự thành công trong kinh doanh không còn là năng suất của các
hộ íhông tin nữa mà ià tính linh hoại và sẵn sàng đáp lại những yêu cầu trong thực
tế, CSDL cần đem lại những "tri thức" hơn !à chính những dữ liệu đó. Các quyết
dịnh cần phài có càng nhanh càng tốt và phải chính xác dựa trên những đữ liệu sán
có trong khỉ khối lượng đữ liệu cứ sau 20 tháng lại tãng gấp đôi làm ảnh hường đến
thời gian ra quyết định cũng nhưklìả năng hiểu biết được nội dung dữ liệu. Lúc này,
các mô hình CSDL truyền thống và ngỏn ngữ SQL đã cho thấy không có khả nàng
thực hiện được công việc này. Để lấy được những ihông tin có tính ”ỉri thức" írong
khối dữ liệu khổng lồ này, người ta đã đi tìm những kỹ thuậl có khả năng hợp nhái
các dữ liệu từ các hệ thống giao dịch khác nhau, chuyển đổi Ihành một tập hợp các
cơ sở dữ liệu ổn định, có chất lượng được sử dụng chỉ riêng cho một vài mục đích
nào đó, Các kỹ thuật dó ctirơc gọi chung là kỷ thuệt tạo kho dữ liệu (data
warehousing) và môi trường các dữ liệu có đuợc gọi là các kho dữ liệu (data
warehouse).
8
Kho dữ liệu [ i ,3] là một môi trường có cấu trúc các hệ ihống ihông tin, cung
cấp clio người dùng các Ihôag Ún khó có thể truy nhập hoặc biểu dien trong cúc
CSDL tác nghiệp truyền thống, nhằm ¡nục đích hỗ trợ việc ra quyết định mang ỉính
lịch sử hoặc hiện đại. Theo W.H. Inmon, có thể định nghĩa kho dữ liệu như sau :
’'Một kho dữ liệu là một tập hợp dữ liệu tích hợp hướng chủ để có lính ổ» định, Ihay
dổi iheo thời gian nhằm hỗ trợ clio việc ra quyết định, Nói cách khác, mội kho
liộu bao gồm;
- Một hoặc nhiều công cụ (íể chiêì xuất dữ liệu từ bất kỳ dạng cấu trúc dữ liệu
nào.
- Cơ sở đữ liệu tích hợp hướng chủ đề ổn định được tổng hợp từ các dữ liệu
bẳng cách iặp các bàng dữ liệu của dữ liệu”.
Một kho đữ liệu có thể được coi là một hệ thống thông tin với những thuộc
lính sau :
- Là m ột
ca sở dữ liệu được thiết kế có nhiệm vụ phùn tích, sử dụng các
liệu từ các ứng dụng khác nhau.
* Mỗ trự cho một số người dùng có liên quan với các thòng tin liên quan.
- Là dữ liệu chỉ đọc .
- Nội đung của nó được cập nhật thường xuyên theo cách chêm thòng tin .
- Chứa các dût liệu lịch sử và hiện tại để cung cấp các xu hướng thông tin.
- Chứa các bảng dữ liệu có kích thưóc lớn.
- Một C U hòi thường
Â
trồ
vẻ một lập kết quả liôn quan đến toàn bô bảng và
các tiên kếi nhiều bảng.
Cấu trúc kho dữ liệu dược xày dựng dựa trên hệ quản trị CSDL qua» hệ, có
chức năng giống như một kho lưu trữ thông ùn trung tâm. Trong đó» (ỉữ liệu lác
nghiệp và phần xử lý được tách tiêng khỏi quá ìrình xử lý kho dữ liệu. Kho lưu trữ
trung tăm đuợc bao quanh bởi các thành phổn được thiết kế để làm cho kho dữ liệu
C ílìổ hoạt động, quản ỉý và truy nhập được từ người dùỉig đẩu cuối cũng nhu tù các
Ó
nguổn dữ liệu.
9
('ác dừ liệu iiịỊUồn
I lình 1 .1 : Cấu ÍVÚ điển hỉnh cãa kho dữ liệu
C
Như trên hình l . i cho thấy, kho dữ liệu bao gồm 7 thành phần :
- Dữ liệu nguồn (là cúc ứng (lung lác nghiệp hoặc các kho dữ liệu tác liglỉìệp
và các công cụ chiết xuất, tàm sạch và chuydn đổi dữ liệu),
- Kho dữ liệu vể dữ liệu (Metadata)
- Các kỹ thuật xốy kho
- Kho dữ iiệu thồng minh hay dữ liệu theo chỏ đề (Data marts) là nơi các dữ
liệu đưựe khoanh vùng theo chủ đề tới một gíổi hạn nào đố và có thể được (hay đổi
cho phù hợp với nhu cầu của từng bộ phận người đùng. Vứi các kho dữ ỉiệu này,
cũng có thể xây dựng một kho dữ liệu theo cách tiếp cận từng giai đoạn kế tiếp
nghĩa là với một tạp hợp các kho dữ liệu Ihông minh, ta tạo ra một kho dữ ỉiệu,
lìgược lại, một kho dữ liệu có thể được phân tích thành nhiều kho dữ liệu thông
minh,
- Các cóng cụ vẩn đáp (query), báo cáo (reporting), phãti tích trực tiếp
(OLAP) và khai phá dữ liệu (data mining). Đây chính là các cách khai thác kho dữ
liệu để đem lại những "tri thức" hơ» là đem lại chính những dữ liệu thô.
- Quản trị kho dữ liệu
- Hệ thống phân phối thông tin
Nhưng chỉ có kho dữ liệu thòi chưa đỏ để có các trì thức. Như đã để cập ở
trên, các kho dữ liệu được sử đụng theo ba cách chính:
10
- '['heo cách khai thác truyền thống, kho dữ liệu dược sử dụng dể khai thác
các thông tin bằng các công cụ vấn đáp và băo cáo. Tuy nhiên, nhờ có việc chic!
xuất, lổng hợp và chuyến dổi lừ các dữ liệu thô sang dạng dữ íiệu chấl iượng cao và
có tính ổn định, kho dữ liệu đã giúp cho việc nâng cao các kỹ thuật biếu diễn llỉông
tin ỉruyền thống (hỏi đáp và báo cáo). Bằng cách tạo ra một tầng ẩn giữa người dùng
và CSDL, các dữ liệu đầu vào của các kỹ thuật này được đặt vào một nguồn duy
nhất. Việc hợp nhất này loại bỏ được rất nhiều lỗi sinh ra do việc phải thu thập và
biểu diễn thông tin từ rất nhiều nguồn khác nhau cũng như giảm bớt được sự chậm
trễ do phải lấy các dữ liệu bị phân đoạn trong các cơ sở dữ liộu khác nhau, tránh cho
người đùng khỏi những câu lệnh SQL phức tạp. Tuy nhiên, đây mới chỉ là các khai
thác với kỹ thuật cao để đưa ra cấc dữ liệu tinh và chính xác hơn chứ chưa đưa ra
được dữ liệu "íri thức”.
- Thứ hai là các kho dữ liệu được sử dụng để hỗ trọ cho phan tích trực tuyến
(OLAP). Trong khi ngôn ngữ vấn đáp chuẩn SQL và các công eụ iằm báo cáo truyền
thống chỉ có thể miêu tả những gì có trong CSDL thì phân tích trực luyến có khả
nìing phân tích dữ liệu, xác định xem giả thuyết đứng hay sai. Tuy nhiên, phân tích
írựe tuyến ầại klìông
có khả năng dưa ta được các giả thuyết.
Hơn nữa, kích thước quá iớn và tính chất phức tạp của kho tlữ liệu iàm cho nó
rốt khó có thể được sử dụng cho những mục đích như đua ra các giả thuyết từ các
tlìông tin mà chương trình ứng dụng cung cấp (ví dụ như khó có thể đưa ra được giá
thuyết giải thích được hành vi của một nhóm khách hàng).
Trước đây, kỹ thuật học máy thường được sử đụng để tìm ra những giả thuyết
từ các ihông tin dữ liệu thu íhập được. Tuy nhiên, thực nghiêin cho thấy chúng thể
hiện khả năng rất kém khi áp dụng với các tập đữ liệu lớn trong kho dữ liệu này.
Phựơng pháp thống kê tuy ra đời đã lâu nhưng không có gì cải tiến để phù hợp với
sự phát triển của đữ liệu. Đây chính là lý do tại sao một khối lượng lớn dữ ỉiệu vẫn
chua được khai thác và thậm chí được ỉuu chủ yếu trong các kho đữ liệu không trực
tuyến (off line). Điều này đã tạo nên một iỗ hổng lớn trong việc hò !rợ phân lích và
tìm hiểu dữ liệu tạo ra khoảng cách giữa việc tạo ra dữ liệu và việc khai íhác các dữ
liệu dó. Trong khi đố, càng ngày người ta càng nhân thấy rằng nếu được phân tích
11
ihồng minh thì dữ liệu sẽ là mội nguồn tàí nguyên quý giá ưong cạnh tranh tiên
thương trường.
Một phương pháp mới đáp ứng cả nhu cầu trong khoa hạc cũng như trong
C H nghệ khai phá dữ liệu (data mining).
Ô ỊỈ
là ứng dụng chinh tiìứba cửa kho dữ liệu.
hoạt dộng thực ũễn, đó chính là
chính
Đây
1.3. QUÁ TRÌNH PHÁT HÍỆN TRI THỨC
1.3.1. Phát hiện tri thức
Yếu tố Ihành công trong mọi hoạt động kinh doanh ngày nay là việc biết sử
dụng thông tin mội cách có hiệu quả, Điều đó có nghĩa là từ các dữ liệu sẩn có phải
Om ra những thông tin tiềm ẩn có giá trị mà trước đó chưa được phái hiện, tìm ra
những xu hướng phát triển và những yếu tố tác động lên chúng. Tliực hiện công việc
đổ chính !à thực hiện quá trình phát hiện tri thức trong cơ sở dữ liệu (Knowledge
Discovery in Database - KDD) mà trong đó
kỹ thuật cho phép ta ỉáv dược các tri
thức chính ỉờ kỹ thuật khai phú dữ liệu (data mining).
Như John Naísbeiỉ đã nói ’'Chúng ta đang chìm ngập trong dữ liệu mà vẫn
đói tri ihức". Dữ liệu Ihường được cho bởi cổc giá {rị mô tá các sự kiện, hiện lưỢrtg
cụ Ihế. Còn tri thức (knowledge) là gì? Có thể có nhũng dịnh nghĩa rỗ ràng đế phân
biệt các khái niệm dữ liệu, thông tin và tri thức hay không? Khó mà (lịnh nglũa
chính xác nhưng phân hiệt chúng trong những ngữ cảnh nhất định là rất cần thiết và
có thể ịàm dược. Thống tin là một khái niệm rất rộng, khó có thể dưa ra một định
nghĩa chính xác cho khái niệm này. Cũng không thể định nghĩa cho khái niệm iri
thức cho dù chì hạn chế trong phạm vi những trị Ihức đưọc chiết suâì từ các CSDL.
Tuy nhiên, ta cố Ihể hiểu
tri thức là một biển thức trong một ngôn ngữ nào dó ciìưn
kỉ một (hoặc nhiều) mếi quan hệ giữa các thuộc tinh trong các dữ liệu đó. Các ngôn
ngữ thường được đùng để biểu diễn tri thức (trong việc pháĩ hiện tri thức từ các
CSDL) là các
khung (frames), các cây và đồ thị, các ỉtiật (rules), các công ĩh ứ c
trong
hệ thống phương trình v.v...
ví dụ
ngôn ngữ logic mệnh đề hoặc tàn từ cấp một, các
như ta có các luật miôu tả các thuộc lính của dữ liệu, các mẫu rhường xuyên xảy ra,
các nhóm đối luợng trong cơ sở dữ liệu v.v...
12
Trì thức nói ờ đây là tri thức được rút ra từ CSDL (hường đổ giải quyết một
loại các nhiệm vụ nhất định trong 1 1Ộ Lĩnh vực nhất định. Do vậy, quá trình phát
T I
hiện ỉri Ihức cũng mang
linh hướng nhiệm vụ,
không phải là phát hiện mọi trí thức
bái kỳ mà phát hiện U'i thức nhằm giải quyết lốt một nhiệm vụ íiào đó. Vì vậy, quá
irình phát hiện tri thức là quá trình hoạt động tương tác giữa người sử dụng hoặc
chuyên gia phân tích với các công cụ lin học [3J.
1,3.2. Cốc giai đoạn của quá trình phát hiện tri thức:
Mục đích của quá trình phát hiện tri íhức là rút ra tri thức từ dữ liệu trong
CSDL lớn. Quá trình KDD là quá trình gồm nhiỂu giai đoạt» và lặp l ạ i , mà trong dó
sự lặp lại có thể xuất hiện
ở bất cứ bước nào.
Quá trinh đó có thể mô lả theo mô hình
sau: [3] ( hình 1.2)
Giai đoạn Ấ: Xác định và dịnh nghĩa vấn đề: Tìm
hiểu lĩnh vực ứng dụng và
nhiệm vụ đặt ra, xác định các tri tlìức đã có và mục tiêu của người dùng. Tạo và lựa
chọn CSDL.
Giai đoạn 2: Thu thập và tiền xử lý dữ liệu,
bao gồm: làm sạch dữ liệu, rúi
gọn kích ihướe và số chiều,...
Giai đoạn 3: Khai phá dữ liệu, bao gồm:
chọn nhiệm vụ khai phá, chọn các
phương pháp khai phá và thực hiện khai phá để rút ra các mẫu, các mồ hình có ý
nghĩa dưới (lạng biểu diễn tương ứng (luật xếp loại, cây quyết định, luật sàn xuấl,
biểu thức hồi quy...)
Giai đoạn 4: Giải ihích kết quả và đánh giá các mâu, các mô hình tìm thấy ở
giai đoạn 3.
Giai (ỉoạn 5: Sử iltmg các íri thức d ã được p h á t hiện.
Cùng cố tinh chế các tri thức đã được phát hiện. Kết hợp các tri liiức (hành lìộ
iliống. Giải quyết các xung đột tiềm tàng trong tri thức khai Ihác được. Sau đó, tri
thức dược chuẩn bị sẩn cho ứng đụng.
Như vậy,
KDD ià một quả trình rứt ra tri thức từ dữ Uệu mả ¡rong đó khai
phá dữ liệu là giai đoạn chã yếu.
!3
Hình 1.2. Q iiâ trình phá! hiện tri thức
Lý luận và thực tiễn thực hiện các quá trình phát hiện tri thức mà la xốt ở dây
íà sự tiếp thu, sử dụng và phát triển nhiều thành tựu và cỗng cụ cùa các lĩnh vực đã
phát triển trước đổ như: lý thuyết nhận dạng, hệ chuyên gia, trí tuệ nhân tạo, v.v...
Nil ưng ctặc điểm cơ bản của lý luận về phát hiện tri íhức ở tlây là p h á t hiện
trực tiếp lừ dữ liệu , do
ngành đã
có lừ trước.
iri thức
đậc điểm đổ mà nó có những điểm mới. phán biệt với các
Thí dụ như với các hệ chuyên gia thì cư sở tri Ihức dược hình
thành lừ kinh nghiệm và kiến thức của các chuyên gia là chú yếu, vói nhiổu bài »oán
nhận citing thì ihường lập các dạng mẫu là cho trước v.v... còn
dối với lỷ thuyết phái
hiện (ri ìhức thì các u i thức, các dựng m ẫu, cức giả thuyết détt dược p h ả i hiệti lữ
việc kh a i thác các kho d ữ liệu .
Néu phát hiện tri thức là toàn bộ quá trình trừu xuất tri thức từ các CSDL llìí
khai
phá d ữ
liệu là giai đoạn
chả yếu
của qúa trình dó- Như trên đã trình bày, trong
quá tành phát hiện tri thức, khâu khai phá dữ liệu được thực liiện sau các khâu linh
lọc và tiền xử lý dữ liệu, lức là việc khai phá để lìm ra các mẫu hình có ý nghĩa ctuợc
tiến hành trên tập dữ tiêu có hy vọng là sẽ thích hợp với nhiệm vụ khai phá đó chứ
14
không phải ià khai phá hếl dữ liệu với một thời gian đủ dài đổ lấy được một mẫu
không thực sự có ích như khái niệm trong thống kê trước đây. Vì vậy, khai phá dữ
liệu thuồng bao gồm việc thử tìm mô hình phù hợp vái tập dữ liệu và tìm kiếm các
mẫu từ tập dữ liệu theo mô hình dó. Thí dụ ìa có mổ hình là một luật kết họp ỉhl
mẫu là các yếu tố tham gia cùng với các độ hỗ uợ (support) và độ tin cậy
(confidence) trong các luật tương ứng.
Nếu xét về mật ý íưởng và mục đích ứng đụng, khai phá dữ liệu là một nhu
cầu tấi yếu, mội sự nhạy cảni đáp lại sự mong mỏi của giới kỉnh đoanh thì về mặì kỹ
ỉhuât, đó thực sự là một khó khăn và là cả sự thách thức đối với những nhà khoa học.
Khai phá dữ liệu được xây dựng dựa trên việc sử dụng
các giải
thuật mới, được (lịnh
hướng theo nhu cầu kinh doanh để có thể giải quyếl tự động các bài toán kinh doanh
bảng các kỹ thuật dễ dùng và có thể hiểu được.
Khai phá dữ liệu không thuộc một ngành công nghiệp nào. Nó sử dụng các
kỹ thuật thông minh để khai phá các tri thức tiềm ẩn trong dữ liệu. Có thể coi khai
phá dừ liệu ngày nay đang
ở trạng
thái giống như việc quàn trị dữ liệu vào niũrng
[lãm 60, khi mà cấc ứng dụng quản íậ dữ liệu đều không tuân theo một nguyên lác
chung nào cho đến khi mô hình dữ liệu quan hệ ra đờỉ cùng với sức mạnh cùa ngôn
ngũ vấn đáp đã thúc đẩy việc phát triển các ứng dụng quản trị dữ liệu lên nhanh
chổng, Tuy vậy, hiện nay trên thế giới đã có rất nhiều ngành công nghiệp sử dụng
kỹ ihuẠt khai phá dữ liêu đổ phục vụ cho hoại động kinh doanh của mình và đã hước
đáu thành công như ngành tỉli chính, y học, hoá học, bào hiểm, sản xuất, giao thòng,
hàng không v.v... Các kết quả đạl được cho thấy mặc dù kỹ thuật khai plìá dữ liệu
hiện nay vẫn còn nhiều vấn đề nổi cộm, nhưng vối những tri ihức mà chuyôrv gịa con
người cũng chưa cung cấp được thì khai phá dữ iiệu cổ một tiềm năng to lớn trong
việc lạo ra những lợi nhuận đáng kể trong nền kinh tế.
1.4 KHAI PHÁ D ữ LIỆU:
Khai phá dữ Liệu (Data mining - DM) là một khái niệm ra đời vào những năm
cuối của thập kỷ 80. N ó
bao hờm một loạt các kỹ thuật nhằm phái hiện ra các thông
ủn có giá trị tiềm ẩn trong, các tập dữ liệu Ịởn (các
kho dữ liệu), v ề bàu chất, khai
15
phá dữ liệu liên quan đến việc
phân tích các dữ liệu và sử dụng các kỹ thuật để tìm
ra các m ầu hình có tính chinh quy ịregularities) trong tập d ữ liệu.
[3]
1.4.1 Kiến trúc cùa hệ thống khai phá cỉữ liệu :
Khai phá dữ liệu Ut mội bước trong quá trình phát hiện trì thức từ số lưựng
lớn clữ liệu đã lưu trữ trong các CSDL, kho dữ liệu hoặc các nơi lưu giữ khác, Bước
này có thể tương tác lẫn nhau giữa người sử đụng hoặc
cơ sở tri
thức, những mẫu
đáng quan tâm được đưa đến cho người đùng hoậc ĩưu giữ như là tri thức mới ĩrong
cư sở tri thức.
Kiến trúc của hệ thống khai phá dữ liệu có thế có các thành phần chính sau [11]:
(hình 1,3)
+ CSDL, kho dữ liệu hoặc kho lưu trữ khác: đó là một hoặc mộl tập các
CSDL, kho dữ liệu... Các kĩ thuật làm sạch dữ liệu và tích hợp dữ liệu có thổ thực
hiện trên dữ liệu .
+ Cư sở tri thức: đó là lĩnh vực tri thức được dùng để hướng dẫn việc rim hoặc
đánh giá các mẫu kết quả tìm dược,
+ Data mining engine: bao gồm tập các modul chức năng dể Ihực hiện các
nhiệm vụ như là rnô tả đặcdiểm, kết hợp, phan lớp, phân nhóm dữ liệu,...
+ Module đánh giá mẫu: TliùnU phẩn này sử dụng các độ đo và tương lác với
các modul khai phá DL đổ tạp trung vào tìm các mẫu cẩn quan lảm.
+ Biểu diễn dạng dồ hoạ : mociul này giao tiếp giữa người dùng và hệ thống
khai phá dữ liệu.
16
Hình 1.3:
Kiến trúc hệ thống khai phú dừ liệu.
1-4.2. Quá trình khai phá dữ iỉệu
Các giải thuật khai phá dữ liệu thường được miêu tả như những chương trình
hoạt động trực tiếp trên tệp dữ liệu. Với các phương pháp học máy và thông kè trước
đây, thường till bước đầu tiên là các giải thuật nạp toàn bộ tệp dữ liệu vào trong bộ
nhớ. Khi chuyển sang các ứng đụng công nghiệp liên quan đến việc khai phá các
kho dữ liệu lớn, mô hình này không thể đáp ứng được. Khồng chỉ bởi vì nó khống
thổ nạp hết dữ ìiệu vào trong bộ nhớ mà còn vì khó có thể chiết xuất dữ liệu ra các
tệp dơn gián để phân tích được,
Quá trình khai phá dữ liệu dược thể hiện bồi mô hình sau [3Ị:
17
+ Xác định nhiệm vụ: Xãc định chính xác vấn đề cần giải quyết.
+ Xác định các đữ liệu liên quan dùng để xây đựng giải pháp.
+ Thu thập các dữ liệu có liên quan và xừ lý chứng thành dạng sao cho giải
thuật khai phá dữ liệu có thể hiểu được, ò đây có thể gặp một sô' vấn đề: dữ liệu
phải được sao ra nhiều bản (nếu được chiết suất vào các tệp), quản lý tập cáctệp dữ
iiệu, phải lặp đi lặp lại nhiều lẩn toàn bộ quá trình (nếu mô hình đữ ỉiệu ihay
đổi
v.v...)
4- Chọn thuật toán khai phá dữ ĩiệu thích bợp và thực hiện việc khai phá dữ
liệu: nhằm tìm được các mẫu (pattern) có ý nghĩa dưới dạng biểu diễn tương ứng với
các ý nghĩa dó.
1.4.3. Nhiệm vụ chính của khai phá dữ tiêu :
Mục đích của khai phá dữ liệu ià các chiết xuất tri thức từ dữ liệu. Do đó, ta
có thể coi mục đích chính của khai thác dữ liệu sẽ là
(prediction). Các
mô tả (description) vò dự đoán
mẫu mà khai phá dữ liệu phát hiện được nhằm vào các mục đích
này.
Dự đoán liên quan đến việc sử đụng các biến hoặc các trường trong cơ sờ dữ
ỉiệu để chiết xuất ra các mẫu là các dự đoán những giá trị chưa biết hoặc những giá
trị trong tương lai của các biến đáng quan tâm. Mô tả tập trung vào việc tìm kiếm
các mẫu mô lả dữ liệu mà con người có thể hiểu được.
Để đạt được hai mục đích này, nhiệm vụ chính của khai phá dữ iiệu bao gổm
như sau :