1. Trang chủ >
  2. Luận Văn - Báo Cáo >
  3. Báo cáo khoa học >

Đặt vấn đề Nền tảng kiến thức

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (657.47 KB, 53 trang )


12

Chương 1. Tổng quan về tóm tắt văn bản và độ tương đồng câu


1.1. Đặt vấn đề


Tóm tắt văn bản thuộc lĩnh vực xử lý văn bản text processing và cũng là một bài toán tiêu biểu của xử lý ngôn ngữ tự nhiên. Xử lý văn bản cũng như text mining, Web
mining đều dựa trên các kỹ thuật của xử lý ngôn ngữ tự nhiên, mà quan trọng là việc hiểu và dùng tri thức về ngôn ngữ ở các mức độ khác nhau [14]. Đối tượng xử lý của bài tốn
tóm tắt văn bản có thể là một văn bản hay nhiều văn bản.
Do sự phát triển của Internet, thông tin được sinh ra liên tục mỗi ngày, khối lượng dữ liệu trên Web rất lớn, do đó vấn đề trùng lặp thông tin thường xuyên xảy ra. Giải pháp
cho vấn đề này đó là tóm tắt văn bản tự động. Việc tóm tắt sẽ giúp người dùng tiết kiệm thời gian đọc, cải thiện tìm kiếm cũng như tăng hiệu quả indexing cho search engine.
Tóm tắt văn bản được ứng dụng ngày một rộng rãi. Tóm tắt văn bản có thể ứng dụng trong tóm tắt các bản tin với định dạng WAP hoặc SMS cho các thiết bị PDA, điện thoại
di động. Trong máy tìm kiếm, ứng dụng tóm tắt văn bản sẽ đưa ra một đoạn mơ tả của kết quả tìm kiếm. Người dùng dựa vào đó để chọn nhưng kết quả phù hợp với mong muốn
của mình.
Hiện nay, tóm tắt văn bản được sự quan tâm đặc biệt trong các hội nghị quốc tế như hội nghị DUC Document Understanding Conference,... hoặc các trung tâm nghiên cứu
của Microsoft, IBM ...
Chính những ứng dụng rộng rãi và nhu cầu thực tiễn trên là động lực để khóa luận tập trung nghiên cứu về bài tốn tóm tắt văn bản, các phương pháp tóm tắt văn bản. Khóa
luận cũng đã đề đề xuất phương pháp tính độ tương đồng ngữ nghĩa giữa hai câu để giải quyết bài toán này.
13

1.2. Nền tảng kiến thức


1.2.1. Data Mining Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỷ 1980. Nó
bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thơng tin có giá trị tiềm ẩn trong các tập dữ liệu lớn các kho dữ liệu. Nó là một bước trong q trình tìm kiếm tri thức.
Những cơng cụ data mining có thể phát hiện những xu hướng trong tương lai, các tri thức mà data mining mang lại cho các doanh nghiệp có thể ra các quyết định kịp thời và
trả lời những câu hỏi trong lĩnh vực kinh doanh mà trước đây tốn nhiều thời gian để xử lý. Với ưu điểm trên, Data mining đã chứng tỏ được tính hữu dụng của nó trong mơi trường
kinh doanh đầy tính cạnh tranh ngày nay và được ứng dụng rộng rãi trong các lĩnh vực thương mại, tài chính, điều trị y học, giáo dục, viễn thơng..v.v.
Mục đích của khai phá dữ liệu là các tri thức chiết xuất sẽ được sử dụng cho lợi ích cạnh tranh trên thương trường và các lợi ích trong nghiên cứu khoa học. Do đó, có thể coi
mục đích chính của khai phá dữ liệu sẽ là mô tả description và dự đoán prediction. Dự đoán liên quan đến việc sử dụng các biến hoặc các trường trong cơ sở dữ liệu để chiết
xuất ra các mẫu là các dự đoán những giá trị chưa biết hoặc những giá trị trong tương lai của các biến đáng quan tâm. Mô tả tập trung vào việc tìm kiếm các mẫu mơ tả dữ liệu mà
con người có thể hiểu được. Để đạt được hai mục đích này, nhiệm vụ chính của khai phá dữ liệu bao gồm: phân lớp, phân cụm, tóm tắt, … Từ đó, có thể thấy rõ ràng rằng tóm tắt
cũng là một phần quan trọng của data mining.
1.2.2. Text Mining Trong [5], tóm tắt văn bản cũng là một trong những bài toán chủ yếu của lĩnh vực
Text Mining. Thực tế hiện nay, một phần quan trọng của các thơng tin sẵn có được lưu trữ trong cơ sở dữ liệu văn bản hoặc cơ sở dữ liệu tài liệu gồm tập hợp rất lớn các tài liệu từ
nhiều nguồn khác nhau, như các bài báo mới, các bài báo nghiên cứu, sách, thư viện điện tử, các thông điệp thư điện tử hay các trang Web. Các cơ sở dữ liệu văn bản phát triển
nhanh do sự tăng lên của lượng thơng tin điện tử có sẵn, như các xuất bản điện tử, các loại khác của tài liệu điện tử, thư điện tử, và World Wide Web có thể xem như một lượng cơ
sở dữ liệu văn bản lớn, liên kết và động.
14
Hầu hết các thơng tin trong chính phủ, cơng nghiệp, thương mại và các viện nghiên cứu đều được lưu trữ ở dạng điện tử, theo kiểu cơ sở dữ liệu văn bản. Số lượng tài liệu
điện tử này phát triển với tốc độ chóng mặt gây cho con người những khó khăn trong việc tiếp nhận nội dung chính của chúng.
Các kỹ thuật tìm kiếm thơng tin truyền thống trở nên khơng tương xứng với lượng dữ liệu văn bản ngày càng lớn. Người dùng không biết bên trong tài liệu chứa gì, thật khó
để đưa ra câu truy vấn hiệu quả cho việc phân tích và trích rút các thơng tin có ích từ dữ liệu. Người sử dụng cần các công cụ so sánh các tài liệu khác nhau, xếp hạng độ quan
trọng và độ liên quan của các tài liệu, hoặc tìm các mẫu và các xu hướng qua nhiều tài liệu. Do đó, việc tính độ tương đồng trong văn bản, độ tương đồng giữa các văn bản, tóm
tắt văn bản ... trở nên ngày càng phổ biến và là nội dung cần thiết trong khai phá text.
1.2.3. Web Mining Web cũng chứa một lượng thông tin hyperlink, thơng tin truy cập Web và các thơng
tin có ích, cung cấp nguồn tài nguyên dồi dào cho data mining. Kích thước của Web lên đến hàng trăm Terabytes và vẫn đang phát triển rất nhanh. Web được xem như một thư
viện điện tử khổng lồ. Tuy nhiên, số lượng tài liệu khổng lồ trong thư viện này lại không được sắp xếp theo bất cứ thứ tự cụ thể nào, khơng có chỉ mục, tiêu đề, tác giả, bìa trang,
bảng nội dung, ... Đây chính là khó khăn để tìm kiếm thơng tin mong muốn trong thư viện.
Khơng chỉ có Web phát triển nhanh, mà thơng tin của nó cũng ln được cập nhật. Các tin tức, thơng tin thị trường chứng khốn, thời tiết, thể thao, shopping, quảng cáo, và
một số các trang Web khác cũng được cập nhật thường xuyên trên Web. Thông tin liên kết và các bản ghi truy cập cũng được cập nhật liên tục.
Trong [12], 99 các thông tin trên mạng là khơng có ích đối với 99 người dùng Web. Thực tế, mỗi người dùng thường chỉ quan tâm một phần rất nhỏ của Web, phần còn
lại, họ khơng mấy quan tâm. Làm thế nào để những phần của Web mà người dùng quan tâm được tìm thấy? Làm thế nào có thể tìm ra những trang Web chất lượng cao trong một
topic cụ thể? Những thách thức này là động lực thúc đẩy các nghiên cứu về Web mining cũng như hệ thống tóm tắt văn bản tự động.
15

1.3. Tóm tắt văn bản


Xem Thêm
Tải bản đầy đủ (.pdf) (53 trang)

×