1. Trang chủ >
  2. Luận Văn - Báo Cáo >
  3. Công nghệ thông tin >

Định nghĩa tóm tắt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (657.47 KB, 53 trang )


18

Chương 2. Bài tốn tóm tắt văn bản và một số phương pháp tóm tắt văn bản


2.1. Bài tốn tóm tắt văn bản


2.1.1. Định nghĩa tóm tắt


Tóm tắt văn bản là quá trình làm giảm đi độ dài hoặc độ phức tạp của một văn bản mà không mất đi nội dung chính của văn bản [18].Bài tốn tóm tắt văn bản có đầu vào là
văn bản nguồn và một tham số được gọi là tỷ lệ trích xuất. Tỷ lệ trích xuất của văn bản thường bằng độ dài của bản tóm tắt chia cho độ dài của văn bản nguồn. Output của bài
tốn là văn bản tóm tắt.
Trước đây, các dạng tóm tắt văn bản đều do con người xử lý, nghĩa là do người đọc rồi rút ra ý chính, sắp xếp các ý theo một thứ tự hợp lý sau đó dùng lời văn của người tóm
tắt để trình bày lại một cách ngắn gọn nội dung chính của văn bản. Do con người tóm tắt nên văn bản ln đảm bảo được tính mạch lạc của của nó. Tuy nhiên, cũng vì thế mà văn
bản tóm tắt khơng tránh khỏi mang dấu ấn chủ quan của người xử lý.
Nhìn chung, các bài tốn tóm tắt văn bản cần đảm bảo các yêu cầu như cần phản ánh trung thành nội dung của văn bản được tóm tắt; có tính bao qt tồn độ nội dung chính
của văn bản; đảm bảo tỷ lệ trích xuất văn bản; tính mạch lạc, tính chặt chẽ của văn bản, ...
Tóm tắt văn bản liên quan tới việc “xử lý” ngơn ngữ. Có thể nói xử lý ngơn ngữ tự động trên máy tính là một trong những vấn đề khó nhất của Cơng Nghệ Thơng Tin. Khó
là nằm ở chỗ làm sao cho máy hiểu được ngôn ngữ con người, từ việc hiểu nghĩa từng từ trong mỗi hoàn cảnh cụ thể, đến việc hiểu nghĩa một câu, rồi hiểu cả văn bản. Mấu chốt ở
đây là bản chất phức tạp của ngôn ngữ con người, đặc biệt là sự đa nghĩa và nhập nhằng nghĩa của ngơn ngữ. Thêm nữa, có một khác biệt sâu sắc nữa là con người ngầm hiểu và
dùng quá nhiều common sense lẽ thường trong khi rất khó làm cho máy hiểu những điều này. [2]
19
2.1.2. Phân loại tóm tắt văn bản Có nhiều cách phân loại tóm tắt văn bản khác nhau tuy nhiên sự phân loại chỉ mang
tính tương đối, phụ thuộc vào việc tóm tắt trên cơ sở nào. Ở đây, khóa luận phân loại tóm tắt như dựa vào input, output, mục đích tóm tắt [9]. Nếu dựa vào input ta có tóm tắt đa
văn bản, đơn văn bản; tóm tắt miền cụ thể và tóm tắt miền tổng quát; tóm tắt một kiểu văn bản cụ thể... Dựa vào mục đích thì tóm tắt được chia thành tóm tắt generic, query-based;
tóm tắt indicative và information; hay tóm tắt background. Dựa vào output thì chia ra thành hai kiểu là extract và abstract.
• Tóm tắt trên cơ sở input sẽ trả lời cho câu hỏi “Cái gì sẽ được tóm tắt”. Các chia này sẽ cho ta nhiều cách phân loại con khác nhau. Cụ thể như:
- Kiểu văn bản bài báo, bản tin, thư, báo cáo …. Với cách phân loại này, tóm tắt văn bản là bài báo sẽ khác với tóm tắt thư, tóm tắt báo cáo khoa học do những đặc trưng
văn bản quy định.
- Định dạng văn bản: tóm tắt văn bản free-form, tóm tắt văn bản có cấu trúc. Với văn bản có cấu trúc, tóm tắt văn bản thường sử dụng một mơ hình học đã xây dựng từ
trước.
- Kích thước nguồn: tóm tắt đa văn bản, tóm tắt văn bản đơn. Một vài hệ thống sẽ tạo ra một bản tóm tắt dựa trên một tài liệu đơn, trong khi một vài hệ thống khác có thể sử
dụng nhiều nguồn tài liệu. Những hệ thống này được biết như các hệ thống multi- document summarization.
Tóm tắt nhiều nguồn văn bản dựa trên việc nối nhiều văn bản với nhau.
- Miền cụ thể y tế hay tổng quát. • Tóm tắt trên cơ sở mục đích thực chất là làm rõ cách tóm tắt, mục đích tóm tắt là
gì, tóm tắt phục vụ đối tượng nào ... - Nếu phụ thuộc vào đối tượng đọc tóm tắt thì tóm tắt cho chun gia khác cách tóm
tắt cho các đối tượng đọc thơng thường. - Tóm tắt sử dụng trong IR sẽ khác với tóm tắt phục vụ cho việc sắp xếp.
20
- Dựa trên mục đích tóm tắt, còn có thể chia ra thành tóm tắt Indicative và tóm tắt Informative. Tóm tắt Indicative chỉ ra loại của thơng tin, ví dụ như là “alert”. Còn tóm tắt
Informative chỉ ra nội dung của thơng tin.
- Tóm tắt Query-based hay tóm tắt General. Tóm tắt general mục đích chính là tìm ra một đoạn tóm tắt cho tồn bộ văn bản mà nội dung của đoạn văn bản sẽ bao qt tồn
bộ nội dung của văn bản đó. Tóm tắt query-based sẽ tóm tắt dựa trên một truy vấn người dùng, tìm ra một đoạn trong văn bản phù hợp với truy vấn đó.
• Tóm tắt trên cơ sở output cũng có nhiều cách phân loại. - Phân loại phụ thuộc vào ngơn ngữ lựa chọn cho tóm tắt như tóm tắt tiếng Anh,
tóm tắt tiếng Việt .... - Phân loại phụ thuộc vào định dạng của kết quả tóm tắt như table, paragraph, key
words. - Hay cách phân loại phổ biến là tóm tắt Extract và tóm tắt Abstract.
Extract lập danh sách các đoạn của văn bản. Extract là một tóm tắt bao gồm tồn bộ các phần quan trọng được trích ra từ văn bản nguồn.
Abstract là nhóm lại nội dung một cách mạch lạc, súc tích. Abstract là một tóm tắt ngắn gọn được viết lại từ văn bản nguồn dựa trên các ý chính đã trích rút.
Extraction dễ hơn Abstraction, abstraction cần hiểu và viết lại. Ví dụ minh họa cho sự khác nhau giữa Extract và Abstract như sau: [18]
21
2.1.3. Tóm tắt văn bản đơn Đối tượng thực nghiệm của khóa luận là các văn bản đơn. Tóm tắt văn bản đơn cũng
giống như các bài tốn tóm tắt khác, là một q trình tóm tắt tự động với đầu vào là một văn bản, đầu ra là một đoạn mô tả ngắn gọn nội dung chính của văn bản đầu vào đó. Tóm
tắt văn bản đơn là bước đệm cho việc xử lý, tóm tắt đa văn bản và các bài tốn tóm tắt phức tạp hơn.
Văn bản đơn có thể là một trang Web, một bài báo, hoặc một tài liệu với định dạng xác định ví dụ : .doc, .txt… Những phương pháp tóm tắt văn bản ra đời đầu tiên đều là
các phương pháp tóm tắt cho văn bản đơn. Chẳng hạn như với input là một trang Web, có thể tóm tắt sử dụng thêm câu truy vấn để đưa ra nội dung của bản tóm tắt. Cách làm này

Xem Thêm
Tải bản đầy đủ (.pdf) (53 trang)

×