Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.45 MB, 71 trang )
45
Chuyên môn. Ngoài những môn học chung bắt buộc như Triết học, Kinh tế chính trị,
Chủ nghĩa xã hội khoa học, Tư tưởng Hồ Chí minh, Tâm lý học đại cương…, đối với
mỗi chuyên ngành đều có các môn học riêng đặc thù [9].
Hiện tại, trường CĐSP Hưng Yên sử dụng phần mềm Microsoft Office Excel để
tổng hợp và quản lý điểm, kết quả học tập của sinh viên như bảng sau.
Bảng 3.2 Kết quả học tập của sinh viên niên khoá 2004 – 2007
lưu trong bảng tính Excel
3.2. Thể hiện dữ liệu đào tạo
Tuỳ theo từng công việc, mục đích mà việc thể hiện dữ liệu ở các mức chi tiết
hay tổng quát khác nhau hay có các góc nhìn khác nhau về dữ liệu... Có rất nhiều công
cụ đáp ứng được việc thể hiện dữ liệu đó như OLAP trong SQL Server, Matlap,
Microsoft Office Excel…
Dữ liệu đào tạo ở trường CĐSP Hưng Yên bao gồm dữ liệu về kết tuyển sinh và
kết quả học tập của HSSV, số lượng dữ liệu cho một khoá học không phải quá lớn. Dữ
liệu đào tạo đã được chuyển sang phần mềm Microsoft Office Excel vì vậy tác giả sử
dụng ngay một số tính năng của Microsoft Office Excel để thể hiện dữ liệu đào tạo. Để
biết được các thông tin về sinh viên như thông tin các nhân, điểm tổng kết các môn
học, học kỳ, năm học, toàn khoá, danh sách sinh viên phải thi lại, học lại, phải ngừng
học, bị đuổi học, danh sách sinh viên được học bổng … Có thể sử dụng tính năng quản
lý cửa sổ như chia cửa sổ (Split), đóng băng dòng, cột (Freeze) kết hợp với thanh cuộn
ngang dọc để duyệt bảng tính một cách dễ dàng. Nếu muốn lọc dữ liệu theo một điều
kiện nào đó chúng ta có thể sử dụng tính năng lọc dữ liệu (Filter)…
46
Hình 3.1 Một số tính năng duyệt, lọc dữ liệu trong Microsoft Office Excel
Đối với người quản lý họ cần xem dữ liệu ở mức khái quát hơn, chúng ta có thể
sử dụng tính năng PivotTable and PivotChartReport của Microsoft Office Excel để
tổng hợp và thể hiện dữ liệu.
Hình 3.2 Kết quả tuyển sinh & học tập của sinh viên niên khoá 2004 - 2007
Microsoft Office Excel đã đáp ứng được một số yêu cầu cơ bản về thể hiện dữ
liệu. Nhu cầu thể hiện dữ liệu rất đa dạng, phong phú và vô cùng, chúng ta có thể sử
dụng các công cụ mạnh khác để đáp ứng các nhu cầu đó.
3.3. Chuẩn hoá dữ liệu và rời rạc hoá dữ liệu
3.3.1. Chuẩn hoá dữ liệu
Dữ liệu đào tạo thu thập được có rất nhiều, chứa nhiều thông tin khác nhau. Nếu
đưa tất cả dữ liệu đó vào phân tích thì kết quả thu được rất loãng, chứa nhiều thông tin
nhiễu, thời gian phân tích lâu. Do thời gian có hạn, nên trong khuôn khổ luận này chỉ
giới hạn và tổng hợp một số thuộc tính điển hình phản ánh kết quả thi tuyển sinh và
kết quả học tập của sinh viên. Sau khi, loại bỏ những thuộc tính “thừa”, tính điểm
trung bình theo các khối kiến thức, toàn khoá trong CSDL giao tác sinh viên niên khoá
2004-2007 ta được bảng các thuộc tính như sau.
47
Bảng 3.3 Danh sách thuộc tính trong CSDL giao tác sinh viên
niên khoá 2004-2007 đã loại bỏ thuộc tính thừa và gộp thuộc tính
STT Thuộc tính
Ý nghĩa
1 ID
Mã sinh viên (mã giao tác)
2 Nganh
Ngành thí sinh dự thi
3 phai
Giới tính
4 Khuvuc
Khu vực dự thi
5
Chính sách (điểm xét tuyển đầu vào khác nhau theo chính
chinhsach
sách:3 Không ưu tiên; 2-ưu tiên 1điểm, 1-ưu tiên 2 điểm khi
xét tuyển)
6 namtn
Năm tốt nghiệp phổ thông
7 dm_tc
Tổng điểm thi đầu vào
8
Điểm trung bình các môn Mác Lê Nin, Tư tưởng Hồ Chí
ChinhTri
Minh, Lịch sử Đảng.
9
Điểm trung bình các môn Tâm lý, Giáo dục, Quản lý hành
TamLyGDuc
chính nhà nước.
10 DCchung
Điểm trung bình đại cương chung
11 Supham
Điểm trung bình sư phạm
12 Chuyenmon Điểm trung bình chuyên môn trung bình
13 TBCTK
Điểm trung bình chung toàn khóa
Bảng 3.3 tổng hợp các thuộc tính phản ánh quan hệ giữa kết quả thi tuyển sinh và
kết quả học tập của sinh viên. Trong khuôn khổ nghiên cứu này tác giả khai phá trên
các bảng dữ liệu khác nhau để trả lời cho một số câu hỏi cụ thể ở phần 2.2.2. Khi đó,
ta chia bảng 3.3 thành các bảng theo chủ đề như sau:
Bảng 3.4 Quan hệ giữa điểm thi đầu vào và kết quả học tập của sinh viên
STT
1
2
3
Thuộc tính
ID
dm_tc
TBCTK
Ý nghĩa
Mã sinh viên (mã giao tác)
Tổng điểm thi đầu vào
Điểm trung bình chung toàn khóa
Bảng 3.5 Thái độ học tập giữa các khối kiến thức của sinh viên
STT Thuộc tính
1 ID
2 dm_tc
3
ChinhTri
4
TamLyGDuc
5 DCchung
6 Supham
7 Chuyenmon
Ý nghĩa
Mã sinh viên (mã giao tác)
Tổng điểm thi đầu vào
Điểm trung bình các môn Mác Lê Nin, Tư tưởng Hồ Chí
Minh, Lịch sử Đảng.
Điểm trung bình các môn Tâm lý, Giáo dục, Quản lý hành
chính nhà nước.
Điểm trung bình đại cương chung
Điểm trung bình sư phạm
Điểm trung bình chuyên môn trung bình
48
Bảng 3.6 Quan hệ giữa giới tính, năm tốt nghiệp phổ thông với kết quả học tập của sinh viên
STT
1
2
3
4
5
Thuộc tính
ID
phai
namtn
dm_tc
TBCTK
Ý nghĩa
Mã sinh viên (mã giao tác)
Giới tính
Năm tốt nghiệp phổ thông
Tổng điểm thi đầu vào
Điểm trung bình chung toàn khóa
Bảng 3.7 Quan hệ giữa thi đỗ năm đầu, các năm sau với kết quả học tập của sinh viên
STT
1
2
3
4
5
6
7
8
9
Thuộc tính
ID
namtn
dm_tc
ChinhTri
TamLyGDuc
DCchung
Supham
Chuyenmon
TBCTK
Ý nghĩa
Mã sinh viên (mã giao tác)
Năm tốt nghiệp phổ thông
Tổng điểm thi đầu vào
Điểm trung bình các môn Mác Lê Nin, Tư tưởng Hồ Chí
Minh, Lịch sử Đảng.
Điểm trung bình các môn Tâm lý, Giáo dục, Quản lý hành
chính nhà nước.
Điểm trung bình đại cương chung
Điểm trung bình sư phạm
Điểm trung bình chuyên môn trung bình
Điểm trung bình chung toàn khóa
Bảng 3.8 Quan hệ giữa khu vực thường trú với kết quả học tập của sinh viên
STT
1
2
3
Thuộc tính
ID
Khuvuc
TBCTK
Ý nghĩa
Mã sinh viên (mã giao tác)
Khu vực dự thi
Điểm trung bình chung toàn khóa
Bảng 3.9 Quan hệ chính sách ưu tiên với kết quả học tập của sinh viên
STT Thuộc tính
1 ID
2
chinhsach
3 TBCTK
Ý nghĩa
Mã sinh viên (mã giao tác)
Chính sách (điểm xét tuyển đầu vào khác nhau theo chính
sách:3 Không ưu tiên; 2-ưu tiên 1điểm, 1-ưu tiên 2 điểm khi
xét tuyển)
Điểm trung bình chung toàn khóa
Bảng 3.10 Quan hệ giữa điểm thi đầu vào với kết quả học tập theo các ngành của sinh viên
STT
1
2
3
Thuộc tính
ID
Nganh
TBCTK
Ý nghĩa
Mã sinh viên (mã giao tác)
Ngành thí sinh dự thi
Điểm trung bình chung toàn khóa
49
3.3.2. Rời rạc hoá dữ liệu
Thuật toán khai phá luật kết hợp mà tác giả cài đặt chỉ áp dụng được với dữ liệu
nhị phân trong khi CSDL giao tác sinh viên phần lớn chưa là dữ liệu nhị phân, chủ yếu
là dữ liệu số. Vì vậy, tác giả rời rạc hoá các thuộc tính chưa nhị phân trong CSDL giao
tác sinh viên chuyển sang thuộc tính nhị phân để có được đầu vào đúng với bài toán.
Một số phƣơng pháp rời rạc hoá [4]:
Trường hợp 1: Nếu A là thuộc tính số rời rạc hoặc thuộc tính hạng mục có miền
giá trị hữu hạn dạng {V1, V2,…, Vk} và k đủ nhỏ (k<100) thì biến đổi thuộc tính
này thành k thuộc tính nhị phân A_V1, A_V2,…, A_Vk. Giá trị của thuộc tính
A_Vi = 1 (hoặc True nếu giá trị của thuộc tính A ban đầu bằng Vi) ngược lại giá
trị của A_Vi = 0 (hoặc False).
Trường hợp 2: Nếu A là thuộc tính số liên tục hoặc A là thuộc tính số rời rạc
hay thuộc tính hạng mục có miền giá trị hữu hạn dạng {V1, V2,…, Vp} (p lớn)
thì biến đổi thuộc tính A thành q thuộc tính nhị phân
1 (hoặc True) nếu giá trị của thuộc tính A ban đầu nằm trong khoảng
[starti…endi], ngược lại giá trị của thuộc tính
Với cách rời rạc hoá như trên, một số thuộc tính trong CSDL giao tác sinh viên
được rời rạc hoá như sau:
Thuộc tính Khuvuc: với thực tế dữ liệu của trường, giá trị của thuộc tính là “2”
và “2NT”. Thuộc tính Khuvuc được rời rạc thành Khu vuc:2NT và “Khu vuc:2”.
Thuộc tính chinhsach: rời rạc hoá thành chinhsach:1, chinhsach:2, chinhsach:3.
Thuộc tính namtn, trong phạm vi luận văn này chỉ xét đến sinh viên thi đỗ năm
đầu (namtn=2004) hay các năm sau. Thuộc tính namtn được rời rạc thành hai
thuộc namtn2004 và namtntruoc2004.
Do tổng điểm đầu vào đối với các ngành khác nhau là khác nhau. Hơn nữa,
chúng ta cũng không thể nói một thí sinh có tổng điểm thi đầu vào ngành 1(Toán
– Tin) khối A được 23 điểm cao hơn thí sinh khác thi ngành 3 (Tiểu học) khối D1
được 22 điểm. Bởi vì, các khối thi khác nhau có môn thi khác nhau và độ khó của
đề thi cũng khác nhau. Vì vậy, thuộc tính dm_tc (tổng điểm đầu vào) tác giả rời
rạc hoá theo các chuyên ngành và chia làm ba tập: Khá, Trung bình khá và Trung
bình yếu.
Việc chia các thuộc tính thuộc về điểm thành ba tập: “Khá, Trung bình khá và
Trung bình yếu” như sau:
50
Đối với thuộc tính tổng điểm đầu vào:
Bước1. Chia danh sách tổng điểm đầu vào thành các tập con theo chuyên
ngành, ta được Li. Sắp xếp Li theo thứ từ giảm dần.
Bước 2. Với mỗi Li,thực hiện như sau: chọn một phần ba phần đầu của danh
sách Li cho vào tập “Khá”; chọn một phần ba phần cuối của danh sách Li
cho vào tập “Trung bình yếu”. Phần còn lại cho vào tập “Trung bình khá“.
Đối với các thuộc tính điểm trung bình một số môn học chung, điểm trung bình
của các khối kiến thức, điểm trung bình toàn khoá (DiemTB):
Tác giả tham khảo quyết định 04/QĐ ngày 11/2/1999 của Bộ Giáo dục –
Đào tạo về việc ban hành qui chế về tổ chức đào tạo, kiểm tra, thi và công
nhận tốt nghiệp Đại học, Cao đẳng hệ chính qui để chia DiemTB làm ba tập
như trên. Việc cho DiemTB vào các tập trên được thực hiện như sau:
Nếu 7.0<= DiemTB <=10.0 cho nó vào tập “Khá”;
Nếu 6.0<= DiemTB <7.0 cho nó vào tập “TB khá”;
Nếu 0.0<= DiemTB <6.0 cho nó vào tập “TB yếu”;
Việc chia làm ba tập như trên cũng chỉ mang tính chất tương đối và thể hiện được
tính mờ ngay ở tên của các tập. Khi đó mỗi thuộc tính thuộc về điểm ban đầu sẽ tương
ứng với 3 thuộc tính điểm Khá, Trung bình khá và Trung bình yếu. Kết quả của việc
rời rạc hoá được CSDL giao tác như sau:
Bảng 3.11 Rời rạc hoá thuộc tính trong CSDL giao tác sinh viên niên khoá 2004-2007
STT
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Thuộc tính ban đầu
ID
Nganh
phai
Khuvuc
chinhsach
Thuộc tính rời rạc
ID
Nganh:Toan-Tin
Nganh:Toan-Ly
Nganh: Tieu hoc
Nganh:Sinh-KTNN
Nganh: Van-Dia
Nganh: Tieng Anh
Nganh: My thuat
Nganh: Am nhac
Nganh: Mam non
phai: nu
phai: nam
Khu vuc:2NT
Khu vuc:2
Chinh sach: 1
Chinh sach: 2
Chinh sach: 3
51
STT
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
Thuộc tính ban đầu
namtn
dm_tc
ChinhTri
TamLyGDuc
DCchung
Supham
Chuyenmon
TBCTK
Thuộc tính rời rạc
Nam TN PT: 2004
Nam TN PT: truoc 2004
Tong diem dau vao: Kha
Tong diem dau vao: TB kha
Tong diem dau vao: TB yeu
Diem TB cac mon Chinh tri: Kha
Diem TB cac mon Chinh tri: TB kha
Diem TB cac mon Chinh tri: TB yeu
Diem TB cac mon Tam ly-Giao duc: Kha
Diem TB cac mon Tam ly-Giao duc: TB kha
Diem TB cac mon Tam ly-Giao duc: TB yeu
Diem TB cac mon Dai cuong chung: Kha
Diem TB cac mon Dai cuong chung: TB kha
Diem TB cac mon Dai cuong chung: TB yeu
Diem TB cac mon Su pham: Kha
Diem TB cac mon Su pham: TB kha
Diem TB cac mon Su pham: TB yeu
Diem TB cac mon Chuyen mon: Kha
Diem TB cac mon Chuyen mon: TB kha
Diem TB cac mon Chuyen mon: TB yeu
Diem TB chung toan khoa: Kha
Diem TB chung toan khoa: TB kha
Diem TB chung toan khoa: TB yeu
Bảng 3.12 Một số thuộc tính trước khi rời rạc hoá trong CSDL giao tác
sinh viên niên khoá 2004-2007
52
Bảng 3.13 Một số thuộc tính sau khi rời rạc hoá trong CSDL giao tác
sinh viên niên khoá 2004-2007
3.4. Cài đặt chƣơng trình
3.4.1 Yêu cầu hạ tầng kỹ thuật
3.4.1.1. Yêu cầu về thiết bị
Máy vi tính với cấu hình như sau:
Tối thiểu: CPU 1.6 GHz, RAM 512 MB, màn hình 1024x768, đĩa cứng 5400
RPM.
Đề nghị: 2.2 GHz hoặc cao hơn CPU, RAM 1024 MB hoặc cao hơn, màn hình
1280x1024, đĩa cứng 7200 RPM hoặc cao hơn.
3.4.1.2. Yêu cầu về phần mềm:
Hệ điều hành: Microsoft Windows XP, Microsoft Windows Server 2003,
Windows Vista, Win 7.
Công nghệ: .NET Framework 3.0.
Môi trường lập trình: Microsoft Visual Basic 2008.
3.4.3. Một số màn hình tiêu biểu
Hình 3.3 Xây dựng cây FP từ cơ sở dữ liệu giao tác
53
Hình 3.4 Giao diện chương trình khai phá dữ liệu với thuật toán Apriori
Hình 3.5 Luật kết hợp tìm được khi chạy chương trình với thuật toán Apriori
54
Hình 3.6 Giao diện chương trình khai phá dữ liệu với thuật toán FP-Growth
Hình 3.7 Luật kết hợp tìm được khi chạy chương trình với thuật toán FP-Growth
55
3.5. Kết quả
3.5.1 Một số luật kết hợp tìm đƣợc
Khi chạy chương trình với đầu vào theo định hướng tìm luật kết hợp giữa kết quả
tuyển sinh và kết quả học tập của sinh viên và thay đổi giá trị của min_ sup, min_conf
thì thu được rất nhiều luật. Dưới đây là một số luật đại diện ban đầu:
Bảng 3.14 Một số luật tìm được khi chạy chương trình
TT
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
Một số luật
Điểm đầu vào: Khá => Điểm TBC toàn khoá: Khá
Điểm đầu vào: TB khá => Điểm TBC toàn khoá: Khá
Điểm đầu vào: TB yếu => Điểm TBC toàn khoá: Khá
Điểm đầu vào: Khá => Điểm Đại cương chung: Khá
Điểm đầu vào: Khá => Điểm Đại cương chung: TB khá
Điểm đầu vào: Khá => Điểm Đại cương chung: TB yếu
Điểm đầu vào: Khá => Điểm chuyên môn: Khá
Điểm đầu vào: Khá => Điểm chuyên môn: TB khá
Điểm đầu vào: Khá => Điểm sư phạm: Khá
Điểm đầu vào: Khá => Điểm sư phạm: TB khá
Điểm đầu vào: Khá => Điểm Chính trị: Khá
Điểm đầu vào: Khá => Điểm Chính trị: TB khá
Điểm đầu vào: Khá => Điểm Chính trị: TB yếu
Điểm đầu vào: Khá => Điểm Tâm lý-Giáo dục: Khá
Điểm đầu vào: Khá => Điểm Tâm lý-Giáo dục: TB khá
Điểm đầu vào: Khá => Điểm Tâm lý-Giáo dục: TB yếu
Điểm đầu vào: Khá, Giới tính: Nữ => Điểm Chính trị: TB khá
Điểm đầu vào: Khá, Giới tính: Nữ => Điểm Chính trị: TB yếu
Điểm đầu vào: Khá, Giới tính: Nữ => Điểm Tâm lý-Giáo dục: TB khá
Điểm đầu vào: Khá, Giới tính: Nữ => Điểm Tâm lý-Giáo dục: TB yếu
Điểm đầu vào: Khá, Giới tính: Nam => Điểm Tâm lý-Giáo dục: TB
yếu
Giới tính: Nữ => Điểm TBC toàn khoá: Khá
Giới tính: Nữ => Điểm TBC toàn khoá: TB khá
Giới tính: Nữ => Điểm TBC toàn khoá: TB yếu
Giới tính: Nam => Điểm TBC toàn khoá: TB khá
Giới tính: Nam => Điểm TBC toàn khoá: TB yếu
Giới tính: Nữ, Thi đỗ năm đầu => Điểm TBC toàn khoá: Khá
Giới tính: Nữ, Thi đỗ năm đầu => Điểm TBC toàn khoá: TB khá
Giới tính: Nữ, Thi đỗ năm đầu => Điểm TBC toàn khoá: TB yếu
Giới tính: Nam, Thi đỗ năm đầu => Điểm TBC toàn khoá: TB khá
Giới tính: Nam, Thi đỗ năm đầu => Điểm TBC toàn khoá: TB yếu
Giới tính: Nam, Thi đỗ các năm sau => Điểm TBC toàn khoá: Khá
Giới tính: Nam, Thi đỗ các năm sau => Điểm TBC toàn khoá: TB khá
Giới tính: Nam, Thi đỗ các năm sau => Điểm TBC toàn khoá: TB yếu
Giới tính: Nữ, Điểm đầu vào: Khá => Điểm TBC toàn khoá: Khá
Độ hỗ
trợ
9.84%
6.97%
7.38%
3.28%
16.39%
9.02%
9.84%
17.21%
16.39%
11.48%
2.46%
16.80%
9.43%
2.46%
15.57%
10.66%
16.39%
8.61%
15.57%
9.43%
Độ tin
cậy
34.29%
17.89%
22.78%
11.43%
57.14%
31.43%
34.29%
60.00%
57.14%
40.00%
8.57%
58.57%
32.86%
8.57%
54.29%
37.14%
59.70%
31.34%
56.72%
34.33%
1.23%
22.95%
55.74%
7.38%
9.02%
4.10%
11.48%
22.95%
3.69%
2.87%
1.23%
1.23%
6.15%
2.87%
9.84%
100.00%
26.79%
65.07%
8.61%
62.86%
28.57%
30.11%
60.22%
9.68%
70.00%
30.00%
12.00%
60.00%
28.00%
35.82%