I. SƠ LƯỢC VỀ TIẾNG NÓI :

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (853.9 KB, 156 trang )

 Tự Động Hóa Đài 116

GVHD:

Phan Đình Mãi – Nguyễn Thanh Liêm

2. Cách Thức Tổng Hợp Tiếng Nói Dùng Trong Text – To – Speech :

Module xử lý tiếng nói được hiện thực trong đề tài là một ứng dụng của Text – to –

speech nên chúng em phải tìm hiểu về nó.

Vậy Text - to - speech là gì :

Text-to-speech là một bộ phận của nhận dạng tiếng nói (Speech Recognition). Text to

speech là một quá trình chuyển dạng văn bản (text) sang tiếng nói (speech)

Phân loại Text – to – speech :

Text – to – speech được phân loại dựa vào phương pháp được sử dụng để chuyển văn

bản sang tiếng nói.Text – to – speech được phân thành các loại sau:

a). Concatenated Word:

Trong một hệ thống Concatenated word, những từ và ngữ được thu âm trước, khi

nhận được một chuỗi cần đọc, hệ thống sẽ tách ra thành các từ, tìm các từ đã được thu âm,

kết hợp với nhau và phát âm.

b). Tổng hợp:

Text – to – speech sử dụng phương pháp tổng hợp tạo âm giống những gì được tạo

bởi giọng con người và cung cấp nhiều bộ lọc mô phỏng chiều dài, cổ họng, khoang miệng,

hình dạng môi và vị trí lưỡi.Âm thanh được tạo bởi kỹ thuật tổng hợp hiện tại có xu hướng

ít giống giọng con người hơn âm được tạo bởi diphone concatenation nhưng có thể đạt được

những chất lượng khác nhau của giọng bằng cách thay đổi một vài thông số.

c). Hai âm tố:(Diphone Concatenation)

Phương pháp này nối những đoạn ngắn âm thanh được số hóa lại với nhau và tạo ra

âm thanh liên tục. Mỗi diphone bao gồm hai âm vị (phonemes), một âm vị bắt đầu âm ,âm

vị còn lại kết thúc âm. Ví dụ từ "hello" bao gồm những âm vị sau: " h eh l oe" .Những

diphone tương ứng là "silence - h h -eh eh -l l-oe oe-silence .

Diphone được tạo bằng cách thu giọng người và xác định một cách cẩn thận tỉ mỉ vị

trí bắt đầu và kết thúc của những âm vị. Mặc dù kỹ thuật này có thể tạo âm giống thật, phải

tốn công sức để làm việc này và giọng không cố định bởi những âm vị chỉ đặc trưng bởi

ngôn ngữ của người phát âm.

3. Tại Sao Sử Dụng Text – To – Speech ?

 SVTH: Nguyễn Hữu Phú – Trần Lê Trung

Trang 56

 Tự Động Hóa Đài 116

GVHD:

Phan Đình Mãi – Nguyễn Thanh Liêm

Một ứng dụng sử dụng Text – to – speech khi nó có nhu cầu trao đổi thông tin một

cách rõ ràng với người sử dụng và khi việc ghi âm từ và ngữ không thỏa đáng. Nói chung

Text – to – speech tốt hơn ghi âm vì:

− Việc ghi âm tốn một dung lượng lưu trữ quá lớn hoặc quá phung phí khi ghi âm.

− Ghi âm là không thể vì ứng dụng không biết điểm bắt đầu thời gian mà nó sẽ phát

âm.

4. Những Lý Do Cho Việc Thực Thi Text – To – Speech

Text - to -speech cho thấy một số lợi ích. Nói chung Text-to-speech hữu dụng cho

những cụm từ ngắn hoặc cho những trường hợp việc thu âm trước không thực

tế.Text-to-speech có những ứng dụng thực tế sau :

a). Đọc văn bản động :

Text – to – speech hữu dụng cho những cụm từ thay đổi quá nhiều không thể thu âm

và lưu trữ khi dùng tất cả những cách thay thế có thể. Ví dụ : đọc thời gian là một ứng dụng

của Text – to – speech .

b). Proofreading : (kiểm chứng việc đọc)

Kiểm chứng việc đọc có thể nghe được của văn bản, số và giúp người sử dụng nắm

được những lỗi gõ bàn phím do kiểm chứng việc đọc trực giác.

c). Tiết kiệm không gian lưu trữ :

Text – to – speech hữu dụng cho những cụm từ cần quá nhiều vùng lưu trữ nếu

chúng được thu âm trước ở định dạng số hóa âm.

d). Lưu ý người dùng về những sự kiện :

Text – to – speech làm việc rất hiệu quả với những thông báo. Ví dụ để thông báo

cho người sử dụng công việc in đã hoàn thành, ứng dụng có thể "nói" "Printing complete"

thay vì hiển thị một hộp thoại và yêu cầu người dùng click OK.

e). Cung cấp phản hồi rõ ràng :

Text – to – speech cung cấp phản hồi rõ ràng khi phản hồi trực quan không đủ hoặc

không thể. Ví dụ : Mắt người sử dụng có thể đang bận với một công việc khác chẳng hạn

như đang chép dữ liệu từ một tờ giấy. Người sử dụng có ít chú có thể dựa vào Text – to –

speech như là phương tiện nền của phản hồi từ máy tính.

5. Những Ưng Dụng Tiềm Năng Của Text – To – Speech :

Sử dụng Text – to – speech phụ thuộc vào ứng dụng. Sau đây là một vài ý tưởng ứng

dụng của nó:

a). Trò chơi và giáo dục

Text – to – speech hữu dụng trong trò chơi và giáo dục, cho phép những ký tự trong

ứng dụng "nói" thật sự với người sử dụng thay vì hiển thị. Tất nhiên cũng có thể thu âm lời

nói. Một ứng dụng sẽ sử dụng Text – to – speech thay vì thu âm trong trường hợp luôn luôn

 SVTH: Nguyễn Hữu Phú – Trần Lê Trung

Trang 57

 Tự Động Hóa Đài 116

GVHD:

Phan Đình Mãi – Nguyễn Thanh Liêm

có thể sử dụng concatenated word /phrase Text – to – speech để thay thế ghi âm khi nó thật

sự chỉ dùng thu âm những cụm từ hoặc tư. Người thiết kế ứng dụng có thể dễ dàng thu âm

toàn bộ những câu được thực thi bởi Text – to – speech.

b). Telephone:

Text – to – speech được ứng dụng trong hộp thư thoại, phần mềm trả lời tự động và

được mở rộng cho E – mail, sách, và những loại dữ liệu khác.

6. Hạn Chế Của Text – to – speech:

a). Chất lượng giọng nói của Text – to – speech Hầu hết các phương pháp Text – to

– speech có thể đọc từng từ riêng biệt rất tốt. Tuy nhiên, ngay khi máy đọc 1 câu, rất dễ xác

định đó là giọng đọc tổng hợp bởi vì nó thiếu ngôn điệu (nhịp ngắt, trọng âm) nghĩa là sự

biến tố dấu nhấn và thời gian đọc. Và vì lý do đó, hầu hết giọng nói của Text – to – speech

rất khó nghe và đòi hỏi sự tập trung cao.

Vài phương pháp Text – to – speech cho phép một ứng dụng định nghĩa những đoạn

Text – to – speech gắn với ngôn điệu của con người, làm cho giọng tổng hợp rõ ràng hơn.

Phương pháp Text – to – speech cung cấp khả năng này bằng cách ghi âm trước giọng nói

của con người, cho phép người phát triển ứng dụng thay đổi ngữ điệu và tốc độ phát âm của

văn bản đang được đọc.

Về hiệu quả, cách làm trên là một thuật toán nén giọng hiệu quả. Mặc dù văn bản với

ngôn điệu đòi hỏi nhiều vùng lưu trữ hơn văn bản ASCII (1Kbyte / phút), trong trường hợp

ghi âm trước yêu cầu vùng lưu trữ ít nhất là 30Kbyte/phút. Những nhân tố ảnh hưởng đến

giọng nói tổng hợp :

b). Sự xúc cảm (emotion):

Mặc dù nhiều phương pháp Text – to – speech có thể phân tích và thể hiện những

dấu chấm câu như dấu chấm, dấu phẩy, dấu chấm cảm, dấu hỏi, nhưng không có phương

pháp Text – to – speech nào có thể thể hiện giọng nói như con người.

c). Sự phát âm sai (mispronounciation):

Text – to – speech sử dụng một tập những quy luật phát âm để chuyển văn bản sang

âm vị. Điều này dễ dàng với ngôn ngữ có phiên âm bảng chữ cái (chẳng hạn như với Tiếng

Việt). Nếu Text – to – speech phát âm sai 1 từ, cách duy nhất mà người sử dụng có thể thay

đổi cách phát âm là thêm cả âm vị (đây không phải là công việc dễ dàng) hoặc chọn một

chuỗi của những từ phát âm giống nhau, kết hợp tạo cách phát âm đúng.

 Trên đây là những khái niệm chung nhất, những ứng dụng hiện nay của Text-tospeech mà chúng ta cần phải nắm được trước khi nghiên cứu đến ứng dụng đọc Tiếng Việt

được phát triển trong đề tài.

II. SƠ LƯỢC VỀ CẤU TRÚC TIẾNG VIỆT:

1. Các Đặc Tính Cơ Bản Của Tiếng Việt :

 SVTH: Nguyễn Hữu Phú – Trần Lê Trung

Trang 58

 Tự Động Hóa Đài 116

GVHD:

Phan Đình Mãi – Nguyễn Thanh Liêm

− Âm tiết tiếng Việt tương đối cách biệt : trong tiếng Việt các âm của các từ trong

một câu phát âm hầu như tách biệt nhau, nghĩa là các từ đó được phát âm hoàn toàn độc lập,

không có hiện tượng đọc nối nhau như trong tiếng Anh.

− Tiếng Việt tương đối nhất quán giữa cách phát âm và cách viết : nguyên tắc chính

của chữ viết tiếng Việt là ký âm, nghĩa là đọc sao viết vậy. Nhưng sau các cuộc nghiên cứu

trên tiếng Việt đã chỉ ra một số bất đồng trong hệ thống chữ viết, mặc dù vậy, nhìn chung

tiếng Việt vẫn nhất quán giữa đọc và viết.

− Hiện tượng môi hóa : trong tiếng Việt có một số âm môi như ô, u. Các phụ âm

đứng trước các âm này sẽ bị hiện tượng biến đổi sóng âm, gọi là hiện tượng môi hóa. Ví dụ :

trong các từ bu, tô thì phụ âm b, t sẽ phát âm khác đi so với đứng trong các từ khác.

2. Hệ Thống Ngữ Am Tiếng Việt :

2.1. Khái niệm :

Chuỗi lời nói con người được phân chia thành nhiều đoạn nhỏ như câu, cụm từ, từ,…

và cuối cùng là âm tiết. Âm tiết là đơn vị phát âm nhỏ nhất, không phân chia được nữa dù

nói chậm đến đâu (mà vẫn giữ đúng ý nghĩa âm tiết đó).

Mỗi âm tiết bao gồm nhiều yếu tố ngữ âm tạo thành và các yếu tố ngữ âm hầu như

phát âm cùng lúc để tạo nên đúng âm tiết đó. Bên cạnh đó, người ta còn xem âm tiết bao

gồm nhiều yếu tố đoạn tính – là các yếu tố có giới hạn phân đoạn trong âm tiết như phụ âm,

nguyên âm và âm đệm – và các yếu tố siêu đoạn tính – là các yếu tố không có giới hạn trong

âm tiết như ngữ điệu, thanh điệu.

Đặc điểm riêng của âm tiết tiếng Việt là đơn âm và mang thanh điệu.

2.2. Cấu trúc âm tiết tiếng Việt

Thanh Điệu

Phần vần

Am Đầu

Am đệm

Âm chính

Âm cuối

Một âm tiết tiếng Việt gồm 3 phần :

− Thanh điệu : là yếu tố luôn có mặt trong mọi âm tiết tiếng Việt.

− Âm đầu : yếu tố mở đầu âm tiết, thường độc lập với phần còn lại.

− Phần vần : gồm 3 phần :

 SVTH: Nguyễn Hữu Phú – Trần Lê Trung

Trang 59

Xem Thêm

I. SƠ LƯỢC VỀ TIẾNG NÓI :

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về