1. Trang chủ >
  2. Luận Văn - Báo Cáo >
  3. Công nghệ thông tin >

Chương 3. PHÂN TÍCH DỮ LIỆU ĐÀO TẠO TẠI TRƯỜNG CĐSP HƯNG YÊN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.45 MB, 71 trang )


45



Chuyên môn. Ngoài những môn học chung bắt buộc như Triết học, Kinh tế chính trị,

Chủ nghĩa xã hội khoa học, Tư tưởng Hồ Chí minh, Tâm lý học đại cương…, đối với

mỗi chuyên ngành đều có các môn học riêng đặc thù [9].

Hiện tại, trường CĐSP Hưng Yên sử dụng phần mềm Microsoft Office Excel để

tổng hợp và quản lý điểm, kết quả học tập của sinh viên như bảng sau.

Bảng 3.2 Kết quả học tập của sinh viên niên khoá 2004 – 2007

lưu trong bảng tính Excel



3.2. Thể hiện dữ liệu đào tạo

Tuỳ theo từng công việc, mục đích mà việc thể hiện dữ liệu ở các mức chi tiết

hay tổng quát khác nhau hay có các góc nhìn khác nhau về dữ liệu... Có rất nhiều công

cụ đáp ứng được việc thể hiện dữ liệu đó như OLAP trong SQL Server, Matlap,

Microsoft Office Excel…

Dữ liệu đào tạo ở trường CĐSP Hưng Yên bao gồm dữ liệu về kết tuyển sinh và

kết quả học tập của HSSV, số lượng dữ liệu cho một khoá học không phải quá lớn. Dữ

liệu đào tạo đã được chuyển sang phần mềm Microsoft Office Excel vì vậy tác giả sử

dụng ngay một số tính năng của Microsoft Office Excel để thể hiện dữ liệu đào tạo. Để

biết được các thông tin về sinh viên như thông tin các nhân, điểm tổng kết các môn

học, học kỳ, năm học, toàn khoá, danh sách sinh viên phải thi lại, học lại, phải ngừng

học, bị đuổi học, danh sách sinh viên được học bổng … Có thể sử dụng tính năng quản

lý cửa sổ như chia cửa sổ (Split), đóng băng dòng, cột (Freeze) kết hợp với thanh cuộn

ngang dọc để duyệt bảng tính một cách dễ dàng. Nếu muốn lọc dữ liệu theo một điều

kiện nào đó chúng ta có thể sử dụng tính năng lọc dữ liệu (Filter)…



46



Hình 3.1 Một số tính năng duyệt, lọc dữ liệu trong Microsoft Office Excel



Đối với người quản lý họ cần xem dữ liệu ở mức khái quát hơn, chúng ta có thể

sử dụng tính năng PivotTable and PivotChartReport của Microsoft Office Excel để

tổng hợp và thể hiện dữ liệu.



Hình 3.2 Kết quả tuyển sinh & học tập của sinh viên niên khoá 2004 - 2007



Microsoft Office Excel đã đáp ứng được một số yêu cầu cơ bản về thể hiện dữ

liệu. Nhu cầu thể hiện dữ liệu rất đa dạng, phong phú và vô cùng, chúng ta có thể sử

dụng các công cụ mạnh khác để đáp ứng các nhu cầu đó.



3.3. Chuẩn hoá dữ liệu và rời rạc hoá dữ liệu

3.3.1. Chuẩn hoá dữ liệu

Dữ liệu đào tạo thu thập được có rất nhiều, chứa nhiều thông tin khác nhau. Nếu

đưa tất cả dữ liệu đó vào phân tích thì kết quả thu được rất loãng, chứa nhiều thông tin

nhiễu, thời gian phân tích lâu. Do thời gian có hạn, nên trong khuôn khổ luận này chỉ

giới hạn và tổng hợp một số thuộc tính điển hình phản ánh kết quả thi tuyển sinh và

kết quả học tập của sinh viên. Sau khi, loại bỏ những thuộc tính “thừa”, tính điểm

trung bình theo các khối kiến thức, toàn khoá trong CSDL giao tác sinh viên niên khoá

2004-2007 ta được bảng các thuộc tính như sau.



47

Bảng 3.3 Danh sách thuộc tính trong CSDL giao tác sinh viên

niên khoá 2004-2007 đã loại bỏ thuộc tính thừa và gộp thuộc tính

STT Thuộc tính

Ý nghĩa

1 ID

Mã sinh viên (mã giao tác)

2 Nganh

Ngành thí sinh dự thi

3 phai

Giới tính

4 Khuvuc

Khu vực dự thi

5

Chính sách (điểm xét tuyển đầu vào khác nhau theo chính

chinhsach

sách:3 Không ưu tiên; 2-ưu tiên 1điểm, 1-ưu tiên 2 điểm khi

xét tuyển)

6 namtn

Năm tốt nghiệp phổ thông

7 dm_tc

Tổng điểm thi đầu vào

8

Điểm trung bình các môn Mác Lê Nin, Tư tưởng Hồ Chí

ChinhTri

Minh, Lịch sử Đảng.

9

Điểm trung bình các môn Tâm lý, Giáo dục, Quản lý hành

TamLyGDuc

chính nhà nước.

10 DCchung

Điểm trung bình đại cương chung

11 Supham

Điểm trung bình sư phạm

12 Chuyenmon Điểm trung bình chuyên môn trung bình

13 TBCTK

Điểm trung bình chung toàn khóa



Bảng 3.3 tổng hợp các thuộc tính phản ánh quan hệ giữa kết quả thi tuyển sinh và

kết quả học tập của sinh viên. Trong khuôn khổ nghiên cứu này tác giả khai phá trên

các bảng dữ liệu khác nhau để trả lời cho một số câu hỏi cụ thể ở phần 2.2.2. Khi đó,

ta chia bảng 3.3 thành các bảng theo chủ đề như sau:

Bảng 3.4 Quan hệ giữa điểm thi đầu vào và kết quả học tập của sinh viên

STT

1

2

3



Thuộc tính

ID

dm_tc

TBCTK



Ý nghĩa

Mã sinh viên (mã giao tác)

Tổng điểm thi đầu vào

Điểm trung bình chung toàn khóa



Bảng 3.5 Thái độ học tập giữa các khối kiến thức của sinh viên

STT Thuộc tính

1 ID

2 dm_tc

3

ChinhTri

4



TamLyGDuc



5 DCchung

6 Supham

7 Chuyenmon



Ý nghĩa

Mã sinh viên (mã giao tác)

Tổng điểm thi đầu vào

Điểm trung bình các môn Mác Lê Nin, Tư tưởng Hồ Chí

Minh, Lịch sử Đảng.

Điểm trung bình các môn Tâm lý, Giáo dục, Quản lý hành

chính nhà nước.

Điểm trung bình đại cương chung

Điểm trung bình sư phạm

Điểm trung bình chuyên môn trung bình



48



Bảng 3.6 Quan hệ giữa giới tính, năm tốt nghiệp phổ thông với kết quả học tập của sinh viên

STT

1

2

3

4

5



Thuộc tính

ID

phai

namtn

dm_tc

TBCTK



Ý nghĩa

Mã sinh viên (mã giao tác)

Giới tính

Năm tốt nghiệp phổ thông

Tổng điểm thi đầu vào

Điểm trung bình chung toàn khóa



Bảng 3.7 Quan hệ giữa thi đỗ năm đầu, các năm sau với kết quả học tập của sinh viên

STT

1

2

3

4

5

6

7

8

9



Thuộc tính

ID

namtn

dm_tc

ChinhTri

TamLyGDuc

DCchung

Supham

Chuyenmon

TBCTK



Ý nghĩa

Mã sinh viên (mã giao tác)

Năm tốt nghiệp phổ thông

Tổng điểm thi đầu vào

Điểm trung bình các môn Mác Lê Nin, Tư tưởng Hồ Chí

Minh, Lịch sử Đảng.

Điểm trung bình các môn Tâm lý, Giáo dục, Quản lý hành

chính nhà nước.

Điểm trung bình đại cương chung

Điểm trung bình sư phạm

Điểm trung bình chuyên môn trung bình

Điểm trung bình chung toàn khóa



Bảng 3.8 Quan hệ giữa khu vực thường trú với kết quả học tập của sinh viên

STT

1

2

3



Thuộc tính

ID

Khuvuc

TBCTK



Ý nghĩa

Mã sinh viên (mã giao tác)

Khu vực dự thi

Điểm trung bình chung toàn khóa



Bảng 3.9 Quan hệ chính sách ưu tiên với kết quả học tập của sinh viên

STT Thuộc tính

1 ID

2

chinhsach

3 TBCTK



Ý nghĩa

Mã sinh viên (mã giao tác)

Chính sách (điểm xét tuyển đầu vào khác nhau theo chính

sách:3 Không ưu tiên; 2-ưu tiên 1điểm, 1-ưu tiên 2 điểm khi

xét tuyển)

Điểm trung bình chung toàn khóa



Bảng 3.10 Quan hệ giữa điểm thi đầu vào với kết quả học tập theo các ngành của sinh viên

STT

1

2

3



Thuộc tính

ID

Nganh

TBCTK



Ý nghĩa

Mã sinh viên (mã giao tác)

Ngành thí sinh dự thi

Điểm trung bình chung toàn khóa



49



3.3.2. Rời rạc hoá dữ liệu

Thuật toán khai phá luật kết hợp mà tác giả cài đặt chỉ áp dụng được với dữ liệu

nhị phân trong khi CSDL giao tác sinh viên phần lớn chưa là dữ liệu nhị phân, chủ yếu

là dữ liệu số. Vì vậy, tác giả rời rạc hoá các thuộc tính chưa nhị phân trong CSDL giao

tác sinh viên chuyển sang thuộc tính nhị phân để có được đầu vào đúng với bài toán.

Một số phƣơng pháp rời rạc hoá [4]:

 Trường hợp 1: Nếu A là thuộc tính số rời rạc hoặc thuộc tính hạng mục có miền

giá trị hữu hạn dạng {V1, V2,…, Vk} và k đủ nhỏ (k<100) thì biến đổi thuộc tính

này thành k thuộc tính nhị phân A_V1, A_V2,…, A_Vk. Giá trị của thuộc tính

A_Vi = 1 (hoặc True nếu giá trị của thuộc tính A ban đầu bằng Vi) ngược lại giá

trị của A_Vi = 0 (hoặc False).

 Trường hợp 2: Nếu A là thuộc tính số liên tục hoặc A là thuộc tính số rời rạc

hay thuộc tính hạng mục có miền giá trị hữu hạn dạng {V1, V2,…, Vp} (p lớn)

thì biến đổi thuộc tính A thành q thuộc tính nhị phân ,

,…,. Giá trị của thuộc tính =

1 (hoặc True) nếu giá trị của thuộc tính A ban đầu nằm trong khoảng

[starti…endi], ngược lại giá trị của thuộc tính = 0 (hoặc False).

Với cách rời rạc hoá như trên, một số thuộc tính trong CSDL giao tác sinh viên

được rời rạc hoá như sau:

 Thuộc tính Khuvuc: với thực tế dữ liệu của trường, giá trị của thuộc tính là “2”

và “2NT”. Thuộc tính Khuvuc được rời rạc thành Khu vuc:2NT và “Khu vuc:2”.

 Thuộc tính chinhsach: rời rạc hoá thành chinhsach:1, chinhsach:2, chinhsach:3.

 Thuộc tính namtn, trong phạm vi luận văn này chỉ xét đến sinh viên thi đỗ năm

đầu (namtn=2004) hay các năm sau. Thuộc tính namtn được rời rạc thành hai

thuộc namtn2004 và namtntruoc2004.

 Do tổng điểm đầu vào đối với các ngành khác nhau là khác nhau. Hơn nữa,

chúng ta cũng không thể nói một thí sinh có tổng điểm thi đầu vào ngành 1(Toán

– Tin) khối A được 23 điểm cao hơn thí sinh khác thi ngành 3 (Tiểu học) khối D1

được 22 điểm. Bởi vì, các khối thi khác nhau có môn thi khác nhau và độ khó của

đề thi cũng khác nhau. Vì vậy, thuộc tính dm_tc (tổng điểm đầu vào) tác giả rời

rạc hoá theo các chuyên ngành và chia làm ba tập: Khá, Trung bình khá và Trung

bình yếu.

Việc chia các thuộc tính thuộc về điểm thành ba tập: “Khá, Trung bình khá và

Trung bình yếu” như sau:



50



 Đối với thuộc tính tổng điểm đầu vào:

Bước1. Chia danh sách tổng điểm đầu vào thành các tập con theo chuyên

ngành, ta được Li. Sắp xếp Li theo thứ từ giảm dần.

Bước 2. Với mỗi Li,thực hiện như sau: chọn một phần ba phần đầu của danh

sách Li cho vào tập “Khá”; chọn một phần ba phần cuối của danh sách Li

cho vào tập “Trung bình yếu”. Phần còn lại cho vào tập “Trung bình khá“.

 Đối với các thuộc tính điểm trung bình một số môn học chung, điểm trung bình

của các khối kiến thức, điểm trung bình toàn khoá (DiemTB):

Tác giả tham khảo quyết định 04/QĐ ngày 11/2/1999 của Bộ Giáo dục –

Đào tạo về việc ban hành qui chế về tổ chức đào tạo, kiểm tra, thi và công

nhận tốt nghiệp Đại học, Cao đẳng hệ chính qui để chia DiemTB làm ba tập

như trên. Việc cho DiemTB vào các tập trên được thực hiện như sau:

Nếu 7.0<= DiemTB <=10.0 cho nó vào tập “Khá”;

Nếu 6.0<= DiemTB <7.0 cho nó vào tập “TB khá”;

Nếu 0.0<= DiemTB <6.0 cho nó vào tập “TB yếu”;

Việc chia làm ba tập như trên cũng chỉ mang tính chất tương đối và thể hiện được

tính mờ ngay ở tên của các tập. Khi đó mỗi thuộc tính thuộc về điểm ban đầu sẽ tương

ứng với 3 thuộc tính điểm Khá, Trung bình khá và Trung bình yếu. Kết quả của việc

rời rạc hoá được CSDL giao tác như sau:

Bảng 3.11 Rời rạc hoá thuộc tính trong CSDL giao tác sinh viên niên khoá 2004-2007

STT

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17



Thuộc tính ban đầu

ID



Nganh



phai

Khuvuc



chinhsach



Thuộc tính rời rạc

ID

Nganh:Toan-Tin

Nganh:Toan-Ly

Nganh: Tieu hoc

Nganh:Sinh-KTNN

Nganh: Van-Dia

Nganh: Tieng Anh

Nganh: My thuat

Nganh: Am nhac

Nganh: Mam non

phai: nu

phai: nam

Khu vuc:2NT

Khu vuc:2

Chinh sach: 1

Chinh sach: 2

Chinh sach: 3



51

STT

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40



Thuộc tính ban đầu

namtn



dm_tc



ChinhTri



TamLyGDuc



DCchung



Supham



Chuyenmon



TBCTK



Thuộc tính rời rạc

Nam TN PT: 2004

Nam TN PT: truoc 2004

Tong diem dau vao: Kha

Tong diem dau vao: TB kha

Tong diem dau vao: TB yeu

Diem TB cac mon Chinh tri: Kha

Diem TB cac mon Chinh tri: TB kha

Diem TB cac mon Chinh tri: TB yeu

Diem TB cac mon Tam ly-Giao duc: Kha

Diem TB cac mon Tam ly-Giao duc: TB kha

Diem TB cac mon Tam ly-Giao duc: TB yeu

Diem TB cac mon Dai cuong chung: Kha

Diem TB cac mon Dai cuong chung: TB kha

Diem TB cac mon Dai cuong chung: TB yeu

Diem TB cac mon Su pham: Kha

Diem TB cac mon Su pham: TB kha

Diem TB cac mon Su pham: TB yeu

Diem TB cac mon Chuyen mon: Kha

Diem TB cac mon Chuyen mon: TB kha

Diem TB cac mon Chuyen mon: TB yeu

Diem TB chung toan khoa: Kha

Diem TB chung toan khoa: TB kha

Diem TB chung toan khoa: TB yeu



Bảng 3.12 Một số thuộc tính trước khi rời rạc hoá trong CSDL giao tác

sinh viên niên khoá 2004-2007



52

Bảng 3.13 Một số thuộc tính sau khi rời rạc hoá trong CSDL giao tác

sinh viên niên khoá 2004-2007



3.4. Cài đặt chƣơng trình

3.4.1 Yêu cầu hạ tầng kỹ thuật

3.4.1.1. Yêu cầu về thiết bị

Máy vi tính với cấu hình như sau:

 Tối thiểu: CPU 1.6 GHz, RAM 512 MB, màn hình 1024x768, đĩa cứng 5400

RPM.

 Đề nghị: 2.2 GHz hoặc cao hơn CPU, RAM 1024 MB hoặc cao hơn, màn hình



1280x1024, đĩa cứng 7200 RPM hoặc cao hơn.



3.4.1.2. Yêu cầu về phần mềm:

 Hệ điều hành: Microsoft Windows XP, Microsoft Windows Server 2003,

Windows Vista, Win 7.

 Công nghệ: .NET Framework 3.0.

 Môi trường lập trình: Microsoft Visual Basic 2008.



3.4.3. Một số màn hình tiêu biểu



Hình 3.3 Xây dựng cây FP từ cơ sở dữ liệu giao tác



53



Hình 3.4 Giao diện chương trình khai phá dữ liệu với thuật toán Apriori



Hình 3.5 Luật kết hợp tìm được khi chạy chương trình với thuật toán Apriori



54



Hình 3.6 Giao diện chương trình khai phá dữ liệu với thuật toán FP-Growth



Hình 3.7 Luật kết hợp tìm được khi chạy chương trình với thuật toán FP-Growth



55



3.5. Kết quả

3.5.1 Một số luật kết hợp tìm đƣợc

Khi chạy chương trình với đầu vào theo định hướng tìm luật kết hợp giữa kết quả

tuyển sinh và kết quả học tập của sinh viên và thay đổi giá trị của min_ sup, min_conf

thì thu được rất nhiều luật. Dưới đây là một số luật đại diện ban đầu:

Bảng 3.14 Một số luật tìm được khi chạy chương trình

TT

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35



Một số luật

Điểm đầu vào: Khá => Điểm TBC toàn khoá: Khá

Điểm đầu vào: TB khá => Điểm TBC toàn khoá: Khá

Điểm đầu vào: TB yếu => Điểm TBC toàn khoá: Khá

Điểm đầu vào: Khá => Điểm Đại cương chung: Khá

Điểm đầu vào: Khá => Điểm Đại cương chung: TB khá

Điểm đầu vào: Khá => Điểm Đại cương chung: TB yếu

Điểm đầu vào: Khá => Điểm chuyên môn: Khá

Điểm đầu vào: Khá => Điểm chuyên môn: TB khá

Điểm đầu vào: Khá => Điểm sư phạm: Khá

Điểm đầu vào: Khá => Điểm sư phạm: TB khá

Điểm đầu vào: Khá => Điểm Chính trị: Khá

Điểm đầu vào: Khá => Điểm Chính trị: TB khá

Điểm đầu vào: Khá => Điểm Chính trị: TB yếu

Điểm đầu vào: Khá => Điểm Tâm lý-Giáo dục: Khá

Điểm đầu vào: Khá => Điểm Tâm lý-Giáo dục: TB khá

Điểm đầu vào: Khá => Điểm Tâm lý-Giáo dục: TB yếu

Điểm đầu vào: Khá, Giới tính: Nữ => Điểm Chính trị: TB khá

Điểm đầu vào: Khá, Giới tính: Nữ => Điểm Chính trị: TB yếu

Điểm đầu vào: Khá, Giới tính: Nữ => Điểm Tâm lý-Giáo dục: TB khá

Điểm đầu vào: Khá, Giới tính: Nữ => Điểm Tâm lý-Giáo dục: TB yếu

Điểm đầu vào: Khá, Giới tính: Nam => Điểm Tâm lý-Giáo dục: TB

yếu

Giới tính: Nữ => Điểm TBC toàn khoá: Khá

Giới tính: Nữ => Điểm TBC toàn khoá: TB khá

Giới tính: Nữ => Điểm TBC toàn khoá: TB yếu

Giới tính: Nam => Điểm TBC toàn khoá: TB khá

Giới tính: Nam => Điểm TBC toàn khoá: TB yếu

Giới tính: Nữ, Thi đỗ năm đầu => Điểm TBC toàn khoá: Khá

Giới tính: Nữ, Thi đỗ năm đầu => Điểm TBC toàn khoá: TB khá

Giới tính: Nữ, Thi đỗ năm đầu => Điểm TBC toàn khoá: TB yếu

Giới tính: Nam, Thi đỗ năm đầu => Điểm TBC toàn khoá: TB khá

Giới tính: Nam, Thi đỗ năm đầu => Điểm TBC toàn khoá: TB yếu

Giới tính: Nam, Thi đỗ các năm sau => Điểm TBC toàn khoá: Khá

Giới tính: Nam, Thi đỗ các năm sau => Điểm TBC toàn khoá: TB khá

Giới tính: Nam, Thi đỗ các năm sau => Điểm TBC toàn khoá: TB yếu

Giới tính: Nữ, Điểm đầu vào: Khá => Điểm TBC toàn khoá: Khá



Độ hỗ

trợ

9.84%

6.97%

7.38%

3.28%

16.39%

9.02%

9.84%

17.21%

16.39%

11.48%

2.46%

16.80%

9.43%

2.46%

15.57%

10.66%

16.39%

8.61%

15.57%

9.43%



Độ tin

cậy

34.29%

17.89%

22.78%

11.43%

57.14%

31.43%

34.29%

60.00%

57.14%

40.00%

8.57%

58.57%

32.86%

8.57%

54.29%

37.14%

59.70%

31.34%

56.72%

34.33%



1.23%

22.95%

55.74%

7.38%

9.02%

4.10%

11.48%

22.95%

3.69%

2.87%

1.23%

1.23%

6.15%

2.87%

9.84%



100.00%

26.79%

65.07%

8.61%

62.86%

28.57%

30.11%

60.22%

9.68%

70.00%

30.00%

12.00%

60.00%

28.00%

35.82%



Xem Thêm
Tải bản đầy đủ (.pdf) (71 trang)

×