1. Trang chủ >
  2. Luận Văn - Báo Cáo >
  3. Báo cáo khoa học >

Tóm tắt văn bản

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (657.47 KB, 53 trang )


15

1.3. Tóm tắt văn bản


Trong nhiều năm qua, có rất nhiều dự án, cơng trình nghiên cứu về bài tốn tóm tắt văn bản. Và cách tiếp cận chủ yếu của bài tốn này được chia thành hai hướng chính: một
là cách tiếp cận theo hướng trích lược shallower approaches, hai là cách tiếp cận theo hướng hiểu sâu abstract. [18]
Chiến lược tóm tắt văn bản phổ biến nhất vẫn là trích chọn câu. Các phương pháp tóm tắt văn bản truyền thống thường sử dụng phương pháp NLP linguistic và các
phương pháp thống kê để trích rút ra các câu quan trọng. Nhưng một vài vấn đề xuất hiện trong cả hai phương pháp đối với tóm tắt văn bản. Mặc dù hiệu suất cao, phương pháp
NLP có có một vài khó khăn trong việc yêu cầu sử dụng các cơng cụ phân tích ngơn ngữ chất lượng cao như phân tích bài luận và các nguồn ngơn ngữ như WordNet, Lexcial
Chain, không gian vector ngữ cảnh Context Vector Space; chúng là các nguồn tài nguyên có ích cho hệ thống tóm tắt văn bản nhưng một điểm yếu của chúng là mất quá
nhiều thời gian và chi phí để xây dựng.
Mặt khác, các phương pháp thống kê dễ hiểu và thực hiện, tuy nhiên nó bỏ qua nội dung ngữ nghĩa của các từ và các thành phần tiềm năng của chúng trong các cụm từ
multi-word multi-word phrases. Do đó, nhìn chung thì các phương pháp thống kê chỉ ra kết quả chính xác thấp. [13]
Mơ hình chung của một hệ tóm tắt văn bản dựa trên cách tiếp cận của ManiMaybury gồm có ba bước: Analysis, Transformation, Synthesis. [18]
Hình 1. Mơ hình chung của một hệ thống tóm tắt văn bản
16
Analysis
Bước này sẽ phân tích văn bản đầu vào để đưa ra những mô tả bao gồm các thơng tin dùng để tìm kiếm, đánh giá các đơn vị ngữ liệu quan trọng cũng như các tham số đầu
vào cho việc tóm tắt. Thơng qua bước này, các câu quan trọng, đặc trưng, chứa các ý chính của văn bản sẽ được trích chọn.
Transformation
Bước biến đổi sẽ biến đổi từng câu quan trọng thu được từ bước phân tích trước để giản lược các câu này. Dựa trên các dấu hiệu có thể rút gọn, về cấu trúc ngữ pháp hoặc
ngữ nghĩa, mỗi câu sẽ được giảm kích thước mà vẫn giữ được phần lớn ý mà nó hàm chứa trước khi rút gọn.
Synthesis
Từ các câu quan trọng được được chọn ra ở bước phân tích, được rút ngắn ở bước biến đổi, bước synthesis sẽ liên kết chúng lại thành đoạn theo một thứ tự nào đó hoặc theo
cấu kết ngữ pháp rồi hiển thị phù hợp với yêu cầu người dùng. [1]

1.4. Độ tương đồng giữa hai câu


Xem Thêm
Tải bản đầy đủ (.pdf) (53 trang)

×