1. Trang chủ >
  2. Luận Văn - Báo Cáo >
  3. Công nghệ thông tin >

CHƯƠNG 1 TỔNG QUAN VỂ CƠ SỞ DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (38.55 MB, 109 trang )


7



Sự phá! triển kinh ngạc của công nghệ phần cứng máy tính trong 3 thập kỉ

qua tạo cho máy tính có sức mạnh ỉớn. Điều đó cho phép cạo ra sô' lượng khổng lổ

các CSDL và thông tin được cất giữ để quản ỉý kinh doanh, tìm thông tin, phân tích

dữ liêu.

Ngày nay, dữ liệu có thể được lưu giữ trong nhiều kiểu khác nhau. Một kiến

trúc CSDL gần đây đã nổi bật ỉên là



kho dữ liệu (data warehouse), nó lưu giữ nhiều



(iữ liệu từ nhiều nguồn khác nhau, tổ chức thống nhất để có thể tạo ra quyết định.

Công nghệ kho đữ Hệu bao gồm làm sạch dữ liệu, tích hợp dữ liệu, phần tích trực

(uyên (O L A P ),.... đó là những kĩ thuật phân tích với chức năng như là tóm tắ i, hợp

nhất, tập hợp... để có thể xem xét thông tin từ các góc độ khác nhau. Các công cụ

OLAP hỗ trợ phân tích đa chiều và cạo ra quyết định, thêm vào đó các công cụ phân

rích dữ liệu đã đòi hòi phân tích sâu như phân ỉớp dữ iiộu, phân nhóm, tìm các đặc

tính của dữ liệu,...

Cùng với việc tăng klìòng ngừng khối lượng dữ liệu, các hệ thống thồng tin

cũng (tược chuyên môn hoá, phân chia theo các lĩnh vực ứng dụng như sản xuất, tài

chính, buôn bán thị trường v.v... Như vậy, bên cạnh chức năng khai thác dữ liệu có

lính chất tác nghiệp, sự thành công trong kinh doanh không còn là năng suất của các

hộ íhông tin nữa mà ià tính linh hoại và sẵn sàng đáp lại những yêu cầu trong thực

tế, CSDL cần đem lại những "tri thức" hơn !à chính những dữ liệu đó. Các quyết

dịnh cần phài có càng nhanh càng tốt và phải chính xác dựa trên những đữ liệu sán

có trong khỉ khối lượng đữ liệu cứ sau 20 tháng lại tãng gấp đôi làm ảnh hường đến

thời gian ra quyết định cũng nhưklìả năng hiểu biết được nội dung dữ liệu. Lúc này,

các mô hình CSDL truyền thống và ngỏn ngữ SQL đã cho thấy không có khả nàng

thực hiện được công việc này. Để lấy được những ihông tin có tính ”ỉri thức" írong

khối dữ liệu khổng lồ này, người ta đã đi tìm những kỹ thuậl có khả năng hợp nhái

các dữ liệu từ các hệ thống giao dịch khác nhau, chuyển đổi Ihành một tập hợp các

cơ sở dữ liệu ổn định, có chất lượng được sử dụng chỉ riêng cho một vài mục đích

nào đó, Các kỹ thuật dó ctirơc gọi chung là kỷ thuệt tạo kho dữ liệu (data

warehousing) và môi trường các dữ liệu có đuợc gọi là các kho dữ liệu (data

warehouse).



8



Kho dữ liệu [ i ,3] là một môi trường có cấu trúc các hệ ihống ihông tin, cung

cấp clio người dùng các Ihôag Ún khó có thể truy nhập hoặc biểu dien trong cúc

CSDL tác nghiệp truyền thống, nhằm ¡nục đích hỗ trợ việc ra quyết định mang ỉính

lịch sử hoặc hiện đại. Theo W.H. Inmon, có thể định nghĩa kho dữ liệu như sau :

’'Một kho dữ liệu là một tập hợp dữ liệu tích hợp hướng chủ để có lính ổ» định, Ihay

dổi iheo thời gian nhằm hỗ trợ clio việc ra quyết định, Nói cách khác, mội kho
liộu bao gồm;

- Một hoặc nhiều công cụ (íể chiêì xuất dữ liệu từ bất kỳ dạng cấu trúc dữ liệu

nào.



- Cơ sở đữ liệu tích hợp hướng chủ đề ổn định được tổng hợp từ các dữ liệu

bẳng cách iặp các bàng dữ liệu của dữ liệu”.

Một kho đữ liệu có thể được coi là một hệ thống thông tin với những thuộc

lính sau :

- Là m ột



ca sở dữ liệu được thiết kế có nhiệm vụ phùn tích, sử dụng các


liệu từ các ứng dụng khác nhau.

* Mỗ trự cho một số người dùng có liên quan với các thòng tin liên quan.

- Là dữ liệu chỉ đọc .

- Nội đung của nó được cập nhật thường xuyên theo cách chêm thòng tin .

- Chứa các dût liệu lịch sử và hiện tại để cung cấp các xu hướng thông tin.

- Chứa các bảng dữ liệu có kích thưóc lớn.

- Một C U hòi thường

Â



trồ



vẻ một lập kết quả liôn quan đến toàn bô bảng và



các tiên kếi nhiều bảng.

Cấu trúc kho dữ liệu dược xày dựng dựa trên hệ quản trị CSDL qua» hệ, có

chức năng giống như một kho lưu trữ thông ùn trung tâm. Trong đó» (ỉữ liệu lác

nghiệp và phần xử lý được tách tiêng khỏi quá ìrình xử lý kho dữ liệu. Kho lưu trữ

trung tăm đuợc bao quanh bởi các thành phổn được thiết kế để làm cho kho dữ liệu

C ílìổ hoạt động, quản ỉý và truy nhập được từ người dùỉig đẩu cuối cũng nhu tù các

Ó

nguổn dữ liệu.



9



('ác dừ liệu iiịỊUồn



I lình 1 .1 : Cấu ÍVÚ điển hỉnh cãa kho dữ liệu

C



Như trên hình l . i cho thấy, kho dữ liệu bao gồm 7 thành phần :

- Dữ liệu nguồn (là cúc ứng (lung lác nghiệp hoặc các kho dữ liệu tác liglỉìệp

và các công cụ chiết xuất, tàm sạch và chuydn đổi dữ liệu),

- Kho dữ liệu vể dữ liệu (Metadata)

- Các kỹ thuật xốy kho

- Kho dữ iiệu thồng minh hay dữ liệu theo chỏ đề (Data marts) là nơi các dữ

liệu đưựe khoanh vùng theo chủ đề tới một gíổi hạn nào đố và có thể được (hay đổi

cho phù hợp với nhu cầu của từng bộ phận người đùng. Vứi các kho dữ ỉiệu này,

cũng có thể xây dựng một kho dữ liệu theo cách tiếp cận từng giai đoạn kế tiếp

nghĩa là với một tạp hợp các kho dữ liệu Ihông minh, ta tạo ra một kho dữ ỉiệu,

lìgược lại, một kho dữ liệu có thể được phân tích thành nhiều kho dữ liệu thông

minh,

- Các cóng cụ vẩn đáp (query), báo cáo (reporting), phãti tích trực tiếp

(OLAP) và khai phá dữ liệu (data mining). Đây chính là các cách khai thác kho dữ

liệu để đem lại những "tri thức" hơ» là đem lại chính những dữ liệu thô.

- Quản trị kho dữ liệu

- Hệ thống phân phối thông tin

Nhưng chỉ có kho dữ liệu thòi chưa đỏ để có các trì thức. Như đã để cập ở

trên, các kho dữ liệu được sử đụng theo ba cách chính:



10



- '['heo cách khai thác truyền thống, kho dữ liệu dược sử dụng dể khai thác

các thông tin bằng các công cụ vấn đáp và băo cáo. Tuy nhiên, nhờ có việc chic!

xuất, lổng hợp và chuyến dổi lừ các dữ liệu thô sang dạng dữ íiệu chấl iượng cao và

có tính ổn định, kho dữ liệu đã giúp cho việc nâng cao các kỹ thuật biếu diễn llỉông

tin ỉruyền thống (hỏi đáp và báo cáo). Bằng cách tạo ra một tầng ẩn giữa người dùng

và CSDL, các dữ liệu đầu vào của các kỹ thuật này được đặt vào một nguồn duy

nhất. Việc hợp nhất này loại bỏ được rất nhiều lỗi sinh ra do việc phải thu thập và

biểu diễn thông tin từ rất nhiều nguồn khác nhau cũng như giảm bớt được sự chậm

trễ do phải lấy các dữ liệu bị phân đoạn trong các cơ sở dữ liộu khác nhau, tránh cho

người đùng khỏi những câu lệnh SQL phức tạp. Tuy nhiên, đây mới chỉ là các khai

thác với kỹ thuật cao để đưa ra cấc dữ liệu tinh và chính xác hơn chứ chưa đưa ra

được dữ liệu "íri thức”.

- Thứ hai là các kho dữ liệu được sử dụng để hỗ trọ cho phan tích trực tuyến

(OLAP). Trong khi ngôn ngữ vấn đáp chuẩn SQL và các công eụ iằm báo cáo truyền

thống chỉ có thể miêu tả những gì có trong CSDL thì phân tích trực luyến có khả

nìing phân tích dữ liệu, xác định xem giả thuyết đứng hay sai. Tuy nhiên, phân tích

írựe tuyến ầại klìông



có khả năng dưa ta được các giả thuyết.



Hơn nữa, kích thước quá iớn và tính chất phức tạp của kho tlữ liệu iàm cho nó

rốt khó có thể được sử dụng cho những mục đích như đua ra các giả thuyết từ các

tlìông tin mà chương trình ứng dụng cung cấp (ví dụ như khó có thể đưa ra được giá

thuyết giải thích được hành vi của một nhóm khách hàng).

Trước đây, kỹ thuật học máy thường được sử đụng để tìm ra những giả thuyết

từ các ihông tin dữ liệu thu íhập được. Tuy nhiên, thực nghiêin cho thấy chúng thể

hiện khả năng rất kém khi áp dụng với các tập đữ liệu lớn trong kho dữ liệu này.

Phựơng pháp thống kê tuy ra đời đã lâu nhưng không có gì cải tiến để phù hợp với

sự phát triển của đữ liệu. Đây chính là lý do tại sao một khối lượng lớn dữ ỉiệu vẫn

chua được khai thác và thậm chí được ỉuu chủ yếu trong các kho đữ liệu không trực

tuyến (off line). Điều này đã tạo nên một iỗ hổng lớn trong việc hò !rợ phân lích và

tìm hiểu dữ liệu tạo ra khoảng cách giữa việc tạo ra dữ liệu và việc khai íhác các dữ

liệu dó. Trong khi đố, càng ngày người ta càng nhân thấy rằng nếu được phân tích



11



ihồng minh thì dữ liệu sẽ là mội nguồn tàí nguyên quý giá ưong cạnh tranh tiên

thương trường.

Một phương pháp mới đáp ứng cả nhu cầu trong khoa hạc cũng như trong



C H nghệ khai phá dữ liệu (data mining).

Ô ỊỈ

là ứng dụng chinh tiìứba cửa kho dữ liệu.



hoạt dộng thực ũễn, đó chính là

chính



Đây



1.3. QUÁ TRÌNH PHÁT HÍỆN TRI THỨC

1.3.1. Phát hiện tri thức

Yếu tố Ihành công trong mọi hoạt động kinh doanh ngày nay là việc biết sử

dụng thông tin mội cách có hiệu quả, Điều đó có nghĩa là từ các dữ liệu sẩn có phải

Om ra những thông tin tiềm ẩn có giá trị mà trước đó chưa được phái hiện, tìm ra

những xu hướng phát triển và những yếu tố tác động lên chúng. Tliực hiện công việc

đổ chính !à thực hiện quá trình phát hiện tri thức trong cơ sở dữ liệu (Knowledge

Discovery in Database - KDD) mà trong đó



kỹ thuật cho phép ta ỉáv dược các tri



thức chính ỉờ kỹ thuật khai phú dữ liệu (data mining).

Như John Naísbeiỉ đã nói ’'Chúng ta đang chìm ngập trong dữ liệu mà vẫn

đói tri ihức". Dữ liệu Ihường được cho bởi cổc giá {rị mô tá các sự kiện, hiện lưỢrtg

cụ Ihế. Còn tri thức (knowledge) là gì? Có thể có nhũng dịnh nghĩa rỗ ràng đế phân

biệt các khái niệm dữ liệu, thông tin và tri thức hay không? Khó mà (lịnh nglũa

chính xác nhưng phân hiệt chúng trong những ngữ cảnh nhất định là rất cần thiết và

có thể ịàm dược. Thống tin là một khái niệm rất rộng, khó có thể dưa ra một định

nghĩa chính xác cho khái niệm này. Cũng không thể định nghĩa cho khái niệm iri

thức cho dù chì hạn chế trong phạm vi những trị Ihức đưọc chiết suâì từ các CSDL.

Tuy nhiên, ta cố Ihể hiểu



tri thức là một biển thức trong một ngôn ngữ nào dó ciìưn



kỉ một (hoặc nhiều) mếi quan hệ giữa các thuộc tinh trong các dữ liệu đó. Các ngôn

ngữ thường được đùng để biểu diễn tri thức (trong việc pháĩ hiện tri thức từ các

CSDL) là các



khung (frames), các cây và đồ thị, các ỉtiật (rules), các công ĩh ứ c



trong



hệ thống phương trình v.v...



ví dụ



ngôn ngữ logic mệnh đề hoặc tàn từ cấp một, các



như ta có các luật miôu tả các thuộc lính của dữ liệu, các mẫu rhường xuyên xảy ra,

các nhóm đối luợng trong cơ sở dữ liệu v.v...



12



Trì thức nói ờ đây là tri thức được rút ra từ CSDL (hường đổ giải quyết một

loại các nhiệm vụ nhất định trong 1 1Ộ Lĩnh vực nhất định. Do vậy, quá trình phát

T I

hiện ỉri Ihức cũng mang



linh hướng nhiệm vụ,



không phải là phát hiện mọi trí thức



bái kỳ mà phát hiện U'i thức nhằm giải quyết lốt một nhiệm vụ íiào đó. Vì vậy, quá

irình phát hiện tri thức là quá trình hoạt động tương tác giữa người sử dụng hoặc

chuyên gia phân tích với các công cụ lin học [3J.

1,3.2. Cốc giai đoạn của quá trình phát hiện tri thức:

Mục đích của quá trình phát hiện tri íhức là rút ra tri thức từ dữ liệu trong

CSDL lớn. Quá trình KDD là quá trình gồm nhiỂu giai đoạt» và lặp l ạ i , mà trong dó

sự lặp lại có thể xuất hiện



ở bất cứ bước nào.



Quá trinh đó có thể mô lả theo mô hình



sau: [3] ( hình 1.2)



Giai đoạn Ấ: Xác định và dịnh nghĩa vấn đề: Tìm



hiểu lĩnh vực ứng dụng và



nhiệm vụ đặt ra, xác định các tri tlìức đã có và mục tiêu của người dùng. Tạo và lựa

chọn CSDL.



Giai đoạn 2: Thu thập và tiền xử lý dữ liệu,



bao gồm: làm sạch dữ liệu, rúi



gọn kích ihướe và số chiều,...



Giai đoạn 3: Khai phá dữ liệu, bao gồm:



chọn nhiệm vụ khai phá, chọn các



phương pháp khai phá và thực hiện khai phá để rút ra các mẫu, các mồ hình có ý

nghĩa dưới (lạng biểu diễn tương ứng (luật xếp loại, cây quyết định, luật sàn xuấl,

biểu thức hồi quy...)



Giai đoạn 4: Giải ihích kết quả và đánh giá các mâu, các mô hình tìm thấy ở

giai đoạn 3.

Giai (ỉoạn 5: Sử iltmg các íri thức d ã được p h á t hiện.



Cùng cố tinh chế các tri thức đã được phát hiện. Kết hợp các tri liiức (hành lìộ

iliống. Giải quyết các xung đột tiềm tàng trong tri thức khai Ihác được. Sau đó, tri

thức dược chuẩn bị sẩn cho ứng đụng.

Như vậy,



KDD ià một quả trình rứt ra tri thức từ dữ Uệu mả ¡rong đó khai



phá dữ liệu là giai đoạn chã yếu.



!3



Hình 1.2. Q iiâ trình phá! hiện tri thức

Lý luận và thực tiễn thực hiện các quá trình phát hiện tri thức mà la xốt ở dây

íà sự tiếp thu, sử dụng và phát triển nhiều thành tựu và cỗng cụ cùa các lĩnh vực đã

phát triển trước đổ như: lý thuyết nhận dạng, hệ chuyên gia, trí tuệ nhân tạo, v.v...

Nil ưng ctặc điểm cơ bản của lý luận về phát hiện tri íhức ở tlây là p h á t hiện



trực tiếp lừ dữ liệu , do

ngành đã



có lừ trước.



iri thức



đậc điểm đổ mà nó có những điểm mới. phán biệt với các



Thí dụ như với các hệ chuyên gia thì cư sở tri Ihức dược hình



thành lừ kinh nghiệm và kiến thức của các chuyên gia là chú yếu, vói nhiổu bài »oán

nhận citing thì ihường lập các dạng mẫu là cho trước v.v... còn



dối với lỷ thuyết phái



hiện (ri ìhức thì các u i thức, các dựng m ẫu, cức giả thuyết détt dược p h ả i hiệti lữ

việc kh a i thác các kho d ữ liệu .



Néu phát hiện tri thức là toàn bộ quá trình trừu xuất tri thức từ các CSDL llìí

khai



phá d ữ



liệu là giai đoạn



chả yếu



của qúa trình dó- Như trên đã trình bày, trong



quá tành phát hiện tri thức, khâu khai phá dữ liệu được thực liiện sau các khâu linh

lọc và tiền xử lý dữ liệu, lức là việc khai phá để lìm ra các mẫu hình có ý nghĩa ctuợc



tiến hành trên tập dữ tiêu có hy vọng là sẽ thích hợp với nhiệm vụ khai phá đó chứ



14



không phải ià khai phá hếl dữ liệu với một thời gian đủ dài đổ lấy được một mẫu

không thực sự có ích như khái niệm trong thống kê trước đây. Vì vậy, khai phá dữ

liệu thuồng bao gồm việc thử tìm mô hình phù hợp vái tập dữ liệu và tìm kiếm các

mẫu từ tập dữ liệu theo mô hình dó. Thí dụ ìa có mổ hình là một luật kết họp ỉhl

mẫu là các yếu tố tham gia cùng với các độ hỗ uợ (support) và độ tin cậy

(confidence) trong các luật tương ứng.

Nếu xét về mật ý íưởng và mục đích ứng đụng, khai phá dữ liệu là một nhu

cầu tấi yếu, mội sự nhạy cảni đáp lại sự mong mỏi của giới kỉnh đoanh thì về mặì kỹ

ỉhuât, đó thực sự là một khó khăn và là cả sự thách thức đối với những nhà khoa học.

Khai phá dữ liệu được xây dựng dựa trên việc sử dụng



các giải



thuật mới, được (lịnh



hướng theo nhu cầu kinh doanh để có thể giải quyếl tự động các bài toán kinh doanh

bảng các kỹ thuật dễ dùng và có thể hiểu được.

Khai phá dữ liệu không thuộc một ngành công nghiệp nào. Nó sử dụng các

kỹ thuật thông minh để khai phá các tri thức tiềm ẩn trong dữ liệu. Có thể coi khai

phá dừ liệu ngày nay đang



ở trạng



thái giống như việc quàn trị dữ liệu vào niũrng



[lãm 60, khi mà cấc ứng dụng quản íậ dữ liệu đều không tuân theo một nguyên lác

chung nào cho đến khi mô hình dữ liệu quan hệ ra đờỉ cùng với sức mạnh cùa ngôn

ngũ vấn đáp đã thúc đẩy việc phát triển các ứng dụng quản trị dữ liệu lên nhanh

chổng, Tuy vậy, hiện nay trên thế giới đã có rất nhiều ngành công nghiệp sử dụng

kỹ ihuẠt khai phá dữ liêu đổ phục vụ cho hoại động kinh doanh của mình và đã hước

đáu thành công như ngành tỉli chính, y học, hoá học, bào hiểm, sản xuất, giao thòng,

hàng không v.v... Các kết quả đạl được cho thấy mặc dù kỹ thuật khai plìá dữ liệu

hiện nay vẫn còn nhiều vấn đề nổi cộm, nhưng vối những tri ihức mà chuyôrv gịa con

người cũng chưa cung cấp được thì khai phá dữ iiệu cổ một tiềm năng to lớn trong

việc lạo ra những lợi nhuận đáng kể trong nền kinh tế.



1.4 KHAI PHÁ D ữ LIỆU:

Khai phá dữ Liệu (Data mining - DM) là một khái niệm ra đời vào những năm

cuối của thập kỷ 80. N ó



bao hờm một loạt các kỹ thuật nhằm phái hiện ra các thông



ủn có giá trị tiềm ẩn trong, các tập dữ liệu Ịởn (các



kho dữ liệu), v ề bàu chất, khai



15



phá dữ liệu liên quan đến việc



phân tích các dữ liệu và sử dụng các kỹ thuật để tìm



ra các m ầu hình có tính chinh quy ịregularities) trong tập d ữ liệu.



[3]



1.4.1 Kiến trúc cùa hệ thống khai phá cỉữ liệu :

Khai phá dữ liệu Ut mội bước trong quá trình phát hiện trì thức từ số lưựng

lớn clữ liệu đã lưu trữ trong các CSDL, kho dữ liệu hoặc các nơi lưu giữ khác, Bước

này có thể tương tác lẫn nhau giữa người sử đụng hoặc



cơ sở tri



thức, những mẫu



đáng quan tâm được đưa đến cho người đùng hoậc ĩưu giữ như là tri thức mới ĩrong

cư sở tri thức.

Kiến trúc của hệ thống khai phá dữ liệu có thế có các thành phần chính sau [11]:

(hình 1,3)

+ CSDL, kho dữ liệu hoặc kho lưu trữ khác: đó là một hoặc mộl tập các

CSDL, kho dữ liệu... Các kĩ thuật làm sạch dữ liệu và tích hợp dữ liệu có thổ thực

hiện trên dữ liệu .

+ Cư sở tri thức: đó là lĩnh vực tri thức được dùng để hướng dẫn việc rim hoặc

đánh giá các mẫu kết quả tìm dược,

+ Data mining engine: bao gồm tập các modul chức năng dể Ihực hiện các

nhiệm vụ như là rnô tả đặcdiểm, kết hợp, phan lớp, phân nhóm dữ liệu,...

+ Module đánh giá mẫu: TliùnU phẩn này sử dụng các độ đo và tương lác với

các modul khai phá DL đổ tạp trung vào tìm các mẫu cẩn quan lảm.



+ Biểu diễn dạng dồ hoạ : mociul này giao tiếp giữa người dùng và hệ thống

khai phá dữ liệu.



16



Hình 1.3:



Kiến trúc hệ thống khai phú dừ liệu.



1-4.2. Quá trình khai phá dữ iỉệu

Các giải thuật khai phá dữ liệu thường được miêu tả như những chương trình

hoạt động trực tiếp trên tệp dữ liệu. Với các phương pháp học máy và thông kè trước

đây, thường till bước đầu tiên là các giải thuật nạp toàn bộ tệp dữ liệu vào trong bộ

nhớ. Khi chuyển sang các ứng đụng công nghiệp liên quan đến việc khai phá các

kho dữ liệu lớn, mô hình này không thể đáp ứng được. Khồng chỉ bởi vì nó khống

thổ nạp hết dữ ìiệu vào trong bộ nhớ mà còn vì khó có thể chiết xuất dữ liệu ra các

tệp dơn gián để phân tích được,

Quá trình khai phá dữ liệu dược thể hiện bồi mô hình sau [3Ị:



17



+ Xác định nhiệm vụ: Xãc định chính xác vấn đề cần giải quyết.

+ Xác định các đữ liệu liên quan dùng để xây đựng giải pháp.

+ Thu thập các dữ liệu có liên quan và xừ lý chứng thành dạng sao cho giải

thuật khai phá dữ liệu có thể hiểu được, ò đây có thể gặp một sô' vấn đề: dữ liệu

phải được sao ra nhiều bản (nếu được chiết suất vào các tệp), quản lý tập cáctệp dữ

iiệu, phải lặp đi lặp lại nhiều lẩn toàn bộ quá trình (nếu mô hình đữ ỉiệu ihay



đổi



v.v...)

4- Chọn thuật toán khai phá dữ ĩiệu thích bợp và thực hiện việc khai phá dữ

liệu: nhằm tìm được các mẫu (pattern) có ý nghĩa dưới dạng biểu diễn tương ứng với

các ý nghĩa dó.



1.4.3. Nhiệm vụ chính của khai phá dữ tiêu :

Mục đích của khai phá dữ liệu ià các chiết xuất tri thức từ dữ liệu. Do đó, ta

có thể coi mục đích chính của khai thác dữ liệu sẽ là



(prediction). Các



mô tả (description) vò dự đoán



mẫu mà khai phá dữ liệu phát hiện được nhằm vào các mục đích



này.

Dự đoán liên quan đến việc sử đụng các biến hoặc các trường trong cơ sờ dữ

ỉiệu để chiết xuất ra các mẫu là các dự đoán những giá trị chưa biết hoặc những giá

trị trong tương lai của các biến đáng quan tâm. Mô tả tập trung vào việc tìm kiếm

các mẫu mô lả dữ liệu mà con người có thể hiểu được.

Để đạt được hai mục đích này, nhiệm vụ chính của khai phá dữ iiệu bao gổm

như sau :



Xem Thêm
Tải bản đầy đủ (.pdf) (109 trang)

×