Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.87 MB, 67 trang )
1.1.2.2 Nắn chỉnh biến dạng
Ảnh thu nhận thƣờng bị biến dạng do các thiết bị quang học và
điện tử.
Hình 1.2: Mô hình việc nắn chỉnh biến dạng
Để khắc phục ngƣời ta sử dụng các phép chiếu, các phép chiếu
thƣờng đƣợc xây dựng trên tập các điểm điều khiển.
Giả sử (P i , P i' ) in1 có n các tập điều khiển
Tìm hàm f: P i f(P i ) sao cho:
Giả sử ảnh bị biến đổi chỉ bao gồm: Tịnh tiến, quay, tỷ lệ, biến dạng
bậc nhất tuyến tính. Khi đó hàm f có dạng:
f (x, y) = (a1x + b1y + c1, a2x + b2y + c2)
Ta có:
Để cho φ → min
5
Giải hệ phƣơng trình tuyến tính tìm đƣợc a1, b1, c1
Tƣơng tự tìm đƣợc a2, b2, c2
Xác định đƣợc hàm f
1.1.2.3 Khử nhiễu
Có 2 loại nhiễu cơ bản trong quá trình thu nhận ảnh
- Nhiễu hệ thống: Nhiễu có quy luật có thể khử bằng các phép biến
đổi.
- Nhiễu ngẫu nhiên: Vết bẩn không rõ nguyên nhân → khắc phục
bằng các phép lọc.
1.1.2.4 Chỉnh mức xám
Nhằm khắc phục tính không đồng đều của hệ thống gây ra. Thông
thƣờng có 2 hƣớng tiếp cận:
- Giảm số mức xám: Thực hiện bằng cách nhóm các mức xám gần
nhau thành một bó. Trƣờng hợp chỉ có hai mức xám thì chính là chuyển về
ảnh đen trắng. Ứng dụng: In ảnh màu ra máy in đen trắng.
- Tăng số mức xám: Thực hiện nội suy ra các mức xám trung gian
bằng kỹ thuật nội suy. Kỹ thuật này nhằm tăng cƣờng độ mịn cho ảnh
1.1.2.5 Trích chọn đặc điểm
Các đặc điểm của đối tƣợng đƣợc trích chọn tuỳ theo mục đích nhận
dạng trong quá trình xử lý ảnh. Có thể nêu ra một số đặc điểm của ảnh
sau đây:
- Đặc điểm không gian: Phân bố mức xám, phân bố xác suất, biên
độ, điểm uốn...
6
- Đặc điểm biến đổi: Các đặc điểm loại này đƣợc trích chọn bằng
việc thực hiện lọc vùng (zonal filtering). Các bộ vùng đƣợc gọi là “mặt nạ
đặc điểm” (feature mask) thƣờng là các khe hẹp với hình dạng khác nhau
(chữ nhật, tam giác, cung tròn,...)
- Đặc điểm biên và đƣờng biên: Đặc trƣng đƣờng biên của đối
tƣợng rất hữu ích trong việc trích chọn các thuộc tính bất biến và đƣợc
dùng khi nhận dạng đối tƣợng. Các đặc điểm này có thể đƣợc trích chọn
nhờ toán tử gradient, toán tử la bàn, toán tử Laplace, toán tử “chéo không”
(zero crossing),...
Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các
đối tƣợng ảnh chính xác, với tốc độ tính toán cao và dung lƣợng nhớ lƣu
trữ giảm xuống.
1.1.2.6 Nhận dạng
Xét trên phƣơng diện tổng quát, nhận dạng đối tƣợng là một công
việc đƣợc thực hiện hàng ngày của những sinh vật sống và là khả năng vốn
có và cần thiết của sinh vật để thích nghi với môi trƣờng. Công việc này
đƣợc thực hiện trong trong những tình huống khác nhau nhƣ là tìm kiếm
nguồn thức ăn, di trú, phát hiện ra thú dữ hay là để nhận biết những ngƣời
bạn v..v.. một cách rất hiệu quả. Nhận dạng đối tƣợng đƣợc xem nhƣ là một
khái niệm nhận thức rộng nó có thể là một nhiệm vụ rất đơn giản, ví dụ nhƣ
khi một vi sinh vật biến mất khỏi môi trƣờng không đủ độ pH, hay là
những nhiệm vụ phức tạp đòi hỏi khả năng suy luận, mô tả và hiểu biết
nhất định, ví dụ khi một ngƣời phải tìm một cái kéo từ ngăn thứ hai đếm từ
dƣới lên của một cái tủ.
Nhận dạng tự động (automatic recognition), mô tả đối tƣợng, phân
loại và phân nhóm các mẫu là những vấn đề quan trọng trong thị giác máy,
đƣợc ứng dụng trong nhiều ngành khoa học khác nhau. Tuy nhiên, một câu
hỏi đặt ra là: Mẫu (pattern) là gì? Watanabe, một trong những ngƣời đi đầu
trong lĩnh vực này đã định nghĩa: “Ngƣợc lại với hỗn loạn (chaos), mẫu là
một thực thể (entity), đƣợc xác định một cách ang áng (vaguely defined) và
có thể gán cho nó một tên gọi nào đó”. Ví dụ mẫu có thể là ảnh của vân tay,
ảnh của một vật nào đó đƣợc chụp, một chữ viết, khuôn mặt ngƣời hoặc
một ký đồ tín hiệu tiếng nói. Khi có một mẫu nào đó, để nhận dạng hoặc
phân loại mẫu đó có thể:
7
Hoặc phân loại có mẫu (supervised classification), chẳng hạn phân
tích phân biệt (discriminant analyis), trong đó mẫu đầu vào đƣợc
định danh nhƣ một thành phần của một lớp đã xác định.
Hoặc phân loại không có mẫu (unsupervised classification hay
clustering) trong đó các mẫu đƣợc gán vào các lớp khác nhau dựa
trên một tiêu chuẩn đồng dạng nào đó. Các lớp này cho đến thời
điểm phân loại vẫn chƣa biết hay chƣa đƣợc định danh.
Những ứng dụng của các hệ thống nhận dạng mẫu nói chung và hệ
thống nhận dạng trong xử lý ảnh với dữ liệu hình ảnh là rất lớn và bao trùm
một phạm vi rộng lớn của cuộc sống. Sau đây là một số ví dụ trong một vài
hoạt động chuyên ngành:
Nông nghiệp:
Phân tích cây trồng.
Đánh giá đất trồng.
Thiên văn học:
Phân tích ảnh chụp từ kính viễn vọng.
Tự động hoá quang phổ học.
Sinh học:
Tự động hoá tế bào học.
Đặc trƣng của các nhiễm sắc thể.
Các nghiên cứu di truyền học.
Quản lý công dân:
Phân tích và điều khiển luồng giao thông.
Định mức sự tăng trƣởng của thành phố.
Quản lý kinh tế:
Dự đoán thị trƣờng chứng khoán.
Phân tích hiệu suất của doanh nghiệp.
Kỹ thuật:
Phát hiện lỗi trong những sản phẩm đƣợc chế tạo.
8
Nhận dạng ký tự.
Nhận dạng tiếng nói.
Những hệ thống dẫn đƣờng tự động.
Phân tích sự ô nhiễm.
Địa chất:
Phân loại các loại đá.
Ƣớc lƣợng những tài nguyên khai thác.
Phân tích nguồn tài nguyên địa chất sử dụng những hình ảnh
vệ tinh.
Phân tích địa chấn.
Y học:
Phân tích điện tâm đồ.
Phân tích điện não đồ.
Phân tích những hình ảnh nội khoa.
Quân sự:
Phân tích ảnh chụp không gian.
Phát hiện và phân loại các sóng ra đa và sóng siêu âm.
Tự động phát hiện mục tiêu.
Bảo mật:
Phát hiện các dấu vân tay.
Những hệ thống giám sát và báo động.
Trong các ứng dụng rõ ràng là không thể chỉ dùng có một cách tiếp
cận đơn lẻ để phân loại “tối ƣu” do vậy cần sử dụng cùng một lúc nhiều
phƣơng pháp và cách tiếp cận khác nhau. Do vậy, các phƣơng thức phân
loại tổ hợp hay đƣợc sử dụng khi nhận dạng và nay đã có những kết quả có
triển vọng dựa trên thiết kế các hệ thống lai bao gồm nhiều mô hình
kết hợp.
Việc giải quyết bài toán nhận dạng trong những ứng dụng mới, nảy
sinh trong cuộc sống không chỉ tạo ra những thách thức về thuật giải, mà
còn đặt ra những yêu cầu về tốc độ tính toán. Đặc điểm chung của tất cả
9
những ứng dụng đó là những đặc điểm đặc trƣng cần thiết thƣờng là nhiều,
không thể do chuyên gia đề xuất, mà phải đƣợc trích chọn dựa trên các thủ
tục phân tích dữ liệu.
1.1.2.7 Nén ảnh
Nhằm giảm thiểu không gian lƣu trữ. Thƣờng đƣợc tiến hành theo cả
hai cách khuynh hƣớng là nén có bảo toàn và không bảo toàn thông tin.
Nén không bảo toàn thì thƣờng có khả năng nén cao hơn nhƣng khả năng
phục hồi thì kém hơn. Trên cơ sở hai khuynh hƣớng, có 4 cách tiếp cận cơ
bản trong nén ảnh:
- Nén ảnh thống kê: Kỹ thuật nén này dựa vào việc thống kê tần suất
xuất hiện của giá trị các điểm ảnh, trên cơ sở đó mà có chiến lƣợc mã hoá
thích hợp. Một ví dụ điển hình cho kỹ thuật mã hoá này là *.TIF
- Nén ảnh không gian: Kỹ thuật này dựa vào vị trí không gian của
các điểm ảnh để tiến hành mã hoá. Kỹ thuật lợi dụng sự giống nhau của các
điểm ảnh trong các vùng gần nhau. Ví dụ cho kỹ thuật này là mã
nén *.PCX
- Nén ảnh sử dụng phép biến đổi: Đây là kỹ thuật tiếp cận theo
hƣớng nén không bảo toàn và do vậy, kỹ thuật thƣờng nến hiệu quả hơn.
*.JPG chính là tiếp cận theo kỹ thuật nén này.
- Nén ảnh Fractal: Sử dụng tính chất Fractal của các đối tƣợng ảnh,
thể hiện sự lặp lại của các chi tiết. Kỹ thuật nén sẽ tính toán để chỉ cần lƣu
trữ phần gốc ảnh và quy luật sinh ra ảnh theo nguyên lý Fractal.
1.2 Phát hiện mặt ngƣời trong xử lý ảnh
1.2.1 Bài toán
Phát hiện khuôn mặt ngƣời (Face Detection) là một kỹ thuật máy
tính để xác định các vị trí và các kích thƣớc của các khuôn mặt ngƣời trong
các ảnh bất kỳ (ảnh kỹ thuật số). Kỹ thuật này nhận biết các đặc trƣng của
khuôn mặt và bỏ qua những thứ khác, nhƣ: Toà nhà, cây cối, cơ thể, …
Phát hiện khuôn mặt đƣợc coi nhƣ một giai đoạn quan trọng trong hệ
thống nhận dạng khuôn mặt. Việc xác định chính xác vị trí và kích thƣớc
các khuôn mặt trong ảnh là một trong những yếu tố quyết định để giai đoạn
kiểm tra xem khuôn mặt vừa tìm thấy là ai đƣợc chính xác.
10
1.2.2 Những khó khăn của bài toán phát hiện khuôn mặt
Bài toán nhận dạng mặt ngƣời là bài toán đã đƣợc nghiên cứu từ
những năm 70. Tuy nhiên, đây là một bài toán khó nên những nghiên cứu
hiện tại vẫn chƣa đạt đƣợc kết quả mong muốn. Chính vì thế vấn đề này
vẫn đang đƣợc nhiều nhóm trên thế giới quan tâm nghiên cứu. Khó khăn
của bài toán nhận dạng mặt ngƣời nói chung và bài toán phát hiện khuôn
mặt nói riêng có thể kể nhƣ sau:
1.2.2.1 Tƣ thế, góc chụp
Ảnh chụp khuôn mặt có thể thay đổi rất nhiều bởi vì góc chụp giữa
camera và khuôn mặt. Chẳng hạn nhƣ: chụp thẳng, chụp nghiêng, chụp từ
trên xuống, chụp từ dƣới lên,... Với các tƣ thế khác nhau, các thành phần
trên khuôn mặt nhƣ mắt, mũi, miệng có thể bị khuất một phần hoặc thậm
chí khuất hết.
Hình 1.3: Hƣớng mặt nghiêng
Hình 1.4: Máy ảnh đặt phía trên và sau lƣng ngƣời chụp
1.2.2.2 Sự xuất hiện hoặc thiếu một số thành phần của khuôn mặt
Các đặc trƣng nhƣ: Râu mép, râu hàm, mắt kính,... có thể xuất hiện
hoặc không. Vấn đề này làm cho bài toán càng trở nên khó hơn rất nhiều.
11
Hình 1.5: Ngƣời đeo kính đen và đội mũ
1.2.2.3 Sự biểu cảm của khuôn mặt
Biểu cảm của khuôn mặt ngƣời có thể làm ảnh hƣởng đáng kể lên
các thông số của khuôn mặt. Chẳng hạn, cùng một khuôn mặt một ngƣời,
nhƣng có thể sẽ rất khác khi họ cƣời hoặc sợ hãi,...
Hình 1.6: Một khuôn mặt biểu cảm phức tạp
1.2.2.4 Sự che khuất:
Khuôn mặt có thể bị che khuất bởi các đối tƣợng khác hoặc các
khuôn mặt khác.
Hình 1.7: Khuôn mặt bị che khuất một phần
12
1.2.2.5 Điều kiện của ảnh
Ảnh đƣợc chụp trong các điều kiện khác nhau về: chiếu sáng, về tính
chất camera (máy kỹ thuật số, máy hồng ngoại,...) ảnh hƣởng rất nhiều đến
chất lƣợng ảnh khuôn mặt.
Hình 1.8: Ảnh chụp trong nhà
Hình 1.9: Ảnh chụp ngoài trời
Hình 1.10: Ảnh chụp ngƣợc sáng
13
Hình 1.11: Ảnh bị chói do đèn
Một vài ví dụ cho việc các hệ thống phát hiện và nhận dạng mặt
ngƣời hoạt động không hiệu quả:
Vào năm 2001, Sở cảnh sát Tampa đã lắp đặt một hệ thống camera
có gắn phần mềm nhận diện khuôn mặt tại quận Ybor City vốn nổi tiếng về
các hoạt động về đêm nhằm giảm bớt tỉ lệ tội phạm trong khu vực này.
Nhƣng kế hoạch này đã hoàn toàn thất bại, và nó bị đình chỉ vào năm 2003
do thiếu hiệu quả. Bởi những ngƣời sống trong khu vực này đã đeo mặt nạ
và thực hiện hành vi phạm tội khiến cho camera không thể nhận diện đƣợc
bất kỳ ai.
Sân bay Logan ở Boston cũng đã nhờ những ngƣời tình nguyện thực
hiện hai bài kiểm tra hệ thống nhận diện khuôn mặt riêng biệt tại các điểm
chốt an ninh của sân bay. Sau một khoảng thời gian kiểm tra 3 tháng, kết
quả thu đƣợc thật đáng thất vọng. Theo nhƣ Trung tâm thông tin bảo mật
điện tử, hệ thống này chỉ đạt tỉ lệ chính xác là 61.4%, buộc các nhà quản lý
sân bay phải tính đến những lựa chọn an ninh khác.
14
CHƢƠNG 2
PHÁT HIỆN MẶT NGƢỜI TRONG ẢNH
THEO HƢỚNG TIẾP CẬN THÀNH PHẦN
2.1 Sử dụng kỹ thuật PCA
2.1.1 Các khái niệm cơ bản
Phần này giới thiệu về các khái niệm toán học sẽ đƣợc sử dụng trong
PCA. Các khái niệm đó bao gồm: Độ lệch chuẩn (Standard deviation),
phƣơng sai (variance), hiệp phƣơng sai (covariance), vec tơ riêng
(eigenvector), giá trị riêng (eigenvalue).
2.1.1.1 Độ lệch chuẩn
Để hiểu độ lệch chuẩn, chúng ta cần một tập dữ liệu. Giả sử
ta có tập:
X = [1 2 4 6 12 15 25 45 68 67 65 98]
X là ký hiệu đại diện cho tập số, mỗi số riêng biệt đƣợc ký hiệu X i
(Ví dụ X3 = 4). Phần tử đầu tiên là X1 và n là số lƣợng phần tử của tập hợp.
Khi đó trung bình của mẫu có công thức:
X
n
i 1
Xi
n
X Là ký hiệu trung bình của mẫu, tuy nhiên trung bình mẫu không
nói lên đƣợc nhiều điều ngoại trừ cho ta biết nó là một điểm giữa. Ví dụ với
hai tập dữ liệu
[0 8 12 20] và
[8 9 11 12]
Có trung bình mẫu bằng nhau nhƣng lại khá khác nhau. Sự khác biệt
ở đây chính là khoảng cách của dữ liệu. Và độ lệch chuẩn là đại lƣợng để
đo khoảng cách này. Ta có thể hiểu độ lệch chuẩn là khoảng cách trung
bình từ trung bình mẫu đến các điểm của dữ liệu.
Ta có công thức: s
n
i 1
(X i X i )2
(n 1)
15