Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (853.9 KB, 156 trang )
Tự Động Hóa Đài 116
GVHD:
Phan Đình Mãi – Nguyễn Thanh Liêm
2. Cách Thức Tổng Hợp Tiếng Nói Dùng Trong Text – To – Speech :
Module xử lý tiếng nói được hiện thực trong đề tài là một ứng dụng của Text – to –
speech nên chúng em phải tìm hiểu về nó.
Vậy Text - to - speech là gì :
Text-to-speech là một bộ phận của nhận dạng tiếng nói (Speech Recognition). Text to
speech là một quá trình chuyển dạng văn bản (text) sang tiếng nói (speech)
Phân loại Text – to – speech :
Text – to – speech được phân loại dựa vào phương pháp được sử dụng để chuyển văn
bản sang tiếng nói.Text – to – speech được phân thành các loại sau:
a). Concatenated Word:
Trong một hệ thống Concatenated word, những từ và ngữ được thu âm trước, khi
nhận được một chuỗi cần đọc, hệ thống sẽ tách ra thành các từ, tìm các từ đã được thu âm,
kết hợp với nhau và phát âm.
b). Tổng hợp:
Text – to – speech sử dụng phương pháp tổng hợp tạo âm giống những gì được tạo
bởi giọng con người và cung cấp nhiều bộ lọc mô phỏng chiều dài, cổ họng, khoang miệng,
hình dạng môi và vị trí lưỡi.Âm thanh được tạo bởi kỹ thuật tổng hợp hiện tại có xu hướng
ít giống giọng con người hơn âm được tạo bởi diphone concatenation nhưng có thể đạt được
những chất lượng khác nhau của giọng bằng cách thay đổi một vài thông số.
c). Hai âm tố:(Diphone Concatenation)
Phương pháp này nối những đoạn ngắn âm thanh được số hóa lại với nhau và tạo ra
âm thanh liên tục. Mỗi diphone bao gồm hai âm vị (phonemes), một âm vị bắt đầu âm ,âm
vị còn lại kết thúc âm. Ví dụ từ "hello" bao gồm những âm vị sau: " h eh l oe" .Những
diphone tương ứng là "silence - h h -eh eh -l l-oe oe-silence .
Diphone được tạo bằng cách thu giọng người và xác định một cách cẩn thận tỉ mỉ vị
trí bắt đầu và kết thúc của những âm vị. Mặc dù kỹ thuật này có thể tạo âm giống thật, phải
tốn công sức để làm việc này và giọng không cố định bởi những âm vị chỉ đặc trưng bởi
ngôn ngữ của người phát âm.
3. Tại Sao Sử Dụng Text – To – Speech ?
SVTH: Nguyễn Hữu Phú – Trần Lê Trung
Trang 56
Tự Động Hóa Đài 116
GVHD:
Phan Đình Mãi – Nguyễn Thanh Liêm
Một ứng dụng sử dụng Text – to – speech khi nó có nhu cầu trao đổi thông tin một
cách rõ ràng với người sử dụng và khi việc ghi âm từ và ngữ không thỏa đáng. Nói chung
Text – to – speech tốt hơn ghi âm vì:
− Việc ghi âm tốn một dung lượng lưu trữ quá lớn hoặc quá phung phí khi ghi âm.
− Ghi âm là không thể vì ứng dụng không biết điểm bắt đầu thời gian mà nó sẽ phát
âm.
4. Những Lý Do Cho Việc Thực Thi Text – To – Speech
Text - to -speech cho thấy một số lợi ích. Nói chung Text-to-speech hữu dụng cho
những cụm từ ngắn hoặc cho những trường hợp việc thu âm trước không thực
tế.Text-to-speech có những ứng dụng thực tế sau :
a). Đọc văn bản động :
Text – to – speech hữu dụng cho những cụm từ thay đổi quá nhiều không thể thu âm
và lưu trữ khi dùng tất cả những cách thay thế có thể. Ví dụ : đọc thời gian là một ứng dụng
của Text – to – speech .
b). Proofreading : (kiểm chứng việc đọc)
Kiểm chứng việc đọc có thể nghe được của văn bản, số và giúp người sử dụng nắm
được những lỗi gõ bàn phím do kiểm chứng việc đọc trực giác.
c). Tiết kiệm không gian lưu trữ :
Text – to – speech hữu dụng cho những cụm từ cần quá nhiều vùng lưu trữ nếu
chúng được thu âm trước ở định dạng số hóa âm.
d). Lưu ý người dùng về những sự kiện :
Text – to – speech làm việc rất hiệu quả với những thông báo. Ví dụ để thông báo
cho người sử dụng công việc in đã hoàn thành, ứng dụng có thể "nói" "Printing complete"
thay vì hiển thị một hộp thoại và yêu cầu người dùng click OK.
e). Cung cấp phản hồi rõ ràng :
Text – to – speech cung cấp phản hồi rõ ràng khi phản hồi trực quan không đủ hoặc
không thể. Ví dụ : Mắt người sử dụng có thể đang bận với một công việc khác chẳng hạn
như đang chép dữ liệu từ một tờ giấy. Người sử dụng có ít chú có thể dựa vào Text – to –
speech như là phương tiện nền của phản hồi từ máy tính.
5. Những Ưng Dụng Tiềm Năng Của Text – To – Speech :
Sử dụng Text – to – speech phụ thuộc vào ứng dụng. Sau đây là một vài ý tưởng ứng
dụng của nó:
a). Trò chơi và giáo dục
Text – to – speech hữu dụng trong trò chơi và giáo dục, cho phép những ký tự trong
ứng dụng "nói" thật sự với người sử dụng thay vì hiển thị. Tất nhiên cũng có thể thu âm lời
nói. Một ứng dụng sẽ sử dụng Text – to – speech thay vì thu âm trong trường hợp luôn luôn
SVTH: Nguyễn Hữu Phú – Trần Lê Trung
Trang 57
Tự Động Hóa Đài 116
GVHD:
Phan Đình Mãi – Nguyễn Thanh Liêm
có thể sử dụng concatenated word /phrase Text – to – speech để thay thế ghi âm khi nó thật
sự chỉ dùng thu âm những cụm từ hoặc tư. Người thiết kế ứng dụng có thể dễ dàng thu âm
toàn bộ những câu được thực thi bởi Text – to – speech.
b). Telephone:
Text – to – speech được ứng dụng trong hộp thư thoại, phần mềm trả lời tự động và
được mở rộng cho E – mail, sách, và những loại dữ liệu khác.
6. Hạn Chế Của Text – to – speech:
a). Chất lượng giọng nói của Text – to – speech Hầu hết các phương pháp Text – to
– speech có thể đọc từng từ riêng biệt rất tốt. Tuy nhiên, ngay khi máy đọc 1 câu, rất dễ xác
định đó là giọng đọc tổng hợp bởi vì nó thiếu ngôn điệu (nhịp ngắt, trọng âm) nghĩa là sự
biến tố dấu nhấn và thời gian đọc. Và vì lý do đó, hầu hết giọng nói của Text – to – speech
rất khó nghe và đòi hỏi sự tập trung cao.
Vài phương pháp Text – to – speech cho phép một ứng dụng định nghĩa những đoạn
Text – to – speech gắn với ngôn điệu của con người, làm cho giọng tổng hợp rõ ràng hơn.
Phương pháp Text – to – speech cung cấp khả năng này bằng cách ghi âm trước giọng nói
của con người, cho phép người phát triển ứng dụng thay đổi ngữ điệu và tốc độ phát âm của
văn bản đang được đọc.
Về hiệu quả, cách làm trên là một thuật toán nén giọng hiệu quả. Mặc dù văn bản với
ngôn điệu đòi hỏi nhiều vùng lưu trữ hơn văn bản ASCII (1Kbyte / phút), trong trường hợp
ghi âm trước yêu cầu vùng lưu trữ ít nhất là 30Kbyte/phút. Những nhân tố ảnh hưởng đến
giọng nói tổng hợp :
b). Sự xúc cảm (emotion):
Mặc dù nhiều phương pháp Text – to – speech có thể phân tích và thể hiện những
dấu chấm câu như dấu chấm, dấu phẩy, dấu chấm cảm, dấu hỏi, nhưng không có phương
pháp Text – to – speech nào có thể thể hiện giọng nói như con người.
c). Sự phát âm sai (mispronounciation):
Text – to – speech sử dụng một tập những quy luật phát âm để chuyển văn bản sang
âm vị. Điều này dễ dàng với ngôn ngữ có phiên âm bảng chữ cái (chẳng hạn như với Tiếng
Việt). Nếu Text – to – speech phát âm sai 1 từ, cách duy nhất mà người sử dụng có thể thay
đổi cách phát âm là thêm cả âm vị (đây không phải là công việc dễ dàng) hoặc chọn một
chuỗi của những từ phát âm giống nhau, kết hợp tạo cách phát âm đúng.
Trên đây là những khái niệm chung nhất, những ứng dụng hiện nay của Text-tospeech mà chúng ta cần phải nắm được trước khi nghiên cứu đến ứng dụng đọc Tiếng Việt
được phát triển trong đề tài.
II. SƠ LƯỢC VỀ CẤU TRÚC TIẾNG VIỆT:
1. Các Đặc Tính Cơ Bản Của Tiếng Việt :
SVTH: Nguyễn Hữu Phú – Trần Lê Trung
Trang 58
Tự Động Hóa Đài 116
GVHD:
Phan Đình Mãi – Nguyễn Thanh Liêm
− Âm tiết tiếng Việt tương đối cách biệt : trong tiếng Việt các âm của các từ trong
một câu phát âm hầu như tách biệt nhau, nghĩa là các từ đó được phát âm hoàn toàn độc lập,
không có hiện tượng đọc nối nhau như trong tiếng Anh.
− Tiếng Việt tương đối nhất quán giữa cách phát âm và cách viết : nguyên tắc chính
của chữ viết tiếng Việt là ký âm, nghĩa là đọc sao viết vậy. Nhưng sau các cuộc nghiên cứu
trên tiếng Việt đã chỉ ra một số bất đồng trong hệ thống chữ viết, mặc dù vậy, nhìn chung
tiếng Việt vẫn nhất quán giữa đọc và viết.
− Hiện tượng môi hóa : trong tiếng Việt có một số âm môi như ô, u. Các phụ âm
đứng trước các âm này sẽ bị hiện tượng biến đổi sóng âm, gọi là hiện tượng môi hóa. Ví dụ :
trong các từ bu, tô thì phụ âm b, t sẽ phát âm khác đi so với đứng trong các từ khác.
2. Hệ Thống Ngữ Am Tiếng Việt :
2.1. Khái niệm :
Chuỗi lời nói con người được phân chia thành nhiều đoạn nhỏ như câu, cụm từ, từ,…
và cuối cùng là âm tiết. Âm tiết là đơn vị phát âm nhỏ nhất, không phân chia được nữa dù
nói chậm đến đâu (mà vẫn giữ đúng ý nghĩa âm tiết đó).
Mỗi âm tiết bao gồm nhiều yếu tố ngữ âm tạo thành và các yếu tố ngữ âm hầu như
phát âm cùng lúc để tạo nên đúng âm tiết đó. Bên cạnh đó, người ta còn xem âm tiết bao
gồm nhiều yếu tố đoạn tính – là các yếu tố có giới hạn phân đoạn trong âm tiết như phụ âm,
nguyên âm và âm đệm – và các yếu tố siêu đoạn tính – là các yếu tố không có giới hạn trong
âm tiết như ngữ điệu, thanh điệu.
Đặc điểm riêng của âm tiết tiếng Việt là đơn âm và mang thanh điệu.
2.2. Cấu trúc âm tiết tiếng Việt
Thanh Điệu
Phần vần
Am Đầu
Am đệm
Âm chính
Âm cuối
Một âm tiết tiếng Việt gồm 3 phần :
− Thanh điệu : là yếu tố luôn có mặt trong mọi âm tiết tiếng Việt.
− Âm đầu : yếu tố mở đầu âm tiết, thường độc lập với phần còn lại.
− Phần vần : gồm 3 phần :
SVTH: Nguyễn Hữu Phú – Trần Lê Trung
Trang 59