1. Trang chủ >
  2. Luận Văn - Báo Cáo >
  3. Công nghệ thông tin >

Độ tương đồng về thứ tự của các từ trong câu Tính độ tương đồng cho tồn bộ câu Latent Dirichlet Allocation LDA

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (657.47 KB, 53 trang )


38

3.3.1.4. Độ tương đồng về thứ tự của các từ trong câu


Mục tiêu của phần này là từ hai câu input, đưa ra được vector thứ tự từ cho mỗi câu. Ví dụ: Ta có hai câu T
1
và T
2
với T
1
: A quick brown dog jumps over the lazy fox T
2
: A quick brown fox jumps over the lazy dog Tập từ chung T = {A quick brown dog jumps over the lazy fox }
Nếu chỉ xét đến độ tương đồng về ngữ nghĩa giữa các từ trong câu thì 2 câu này giống nhau hoàn toàn. Tuy nhiên thực tế lại khác, hai câu mang ý nghĩa hoàn toàn trái
ngược nhau. Vì vậy, nãy sinh vấn đề cần phải tính đến thứ tự của các từ có trong câu [16].
Cách ước tính độ tương đồng về thứ tự của các từ trong mỗi câu như sau: - Nếu như từ trong tập từ chung mà có trong câu thì từ đó sẽ có cùng thứ tự với từ
trong câu đó. - Ngược lại, nếu như từ trong tập từ chung không giống với từ nào trong câu thì thứ
tự của nó sẽ là 0. Gọi r là vector thứ tự từ trong câu. Với hai câu T
1
và T
2
thì ta có hai vector r
1
và r
2
tương ứng như sau: r
1
= { 1 2 3 4 5 6 7 8 9 } r
2
= {1 2 3 9 5 6 7 8 4 } Công thức để tính độ tương đồng về thứ tự của từ trong câu như sau:

3.3.1.5. Tính độ tương đồng cho tồn bộ câu


Sự giống nhau về toàn bộ câu được định nghĩa là sự kết hơp giữa độ tương tự về mặt ngữ nghĩa và thứ tự của từ trong câu
|| ||
|| ||
1 ||
|| .
|| ||
. 1
,
2 1
2 1
2 1
2 1
2 1
r r
r r
s s
s s
S S
T T
S
r s
+ −
− +
= −
+ =
δ δ
δ δ
|| ||
|| ||
1
2 1
2 1
r r
r r
S
r
+ −
− =
39
Với , quyết định việc đóng góp về ngữ nghĩa và thứ tự từ tới tồn bộ
câu. 3.3.2. Phương pháp tính độ tương đồng câu sử dụng Hidden Topic
Mục tiêu chính là làm thế nào để thu được lợi từ các nguồn tài nguyên lớn của dữ liệu trực tuyến nhằm tăng tính ngữ nghĩa trong việc tính độ tương đồng câu.
Phương pháp tiếp cận vấn đề dựa trên cơ sở các nghiên cứu thành công gần đây của mơ hình phân tích topic ẩn LDA Latent Dirichlet Allocation … Ý tưởng cơ bản của mơ
hình là với mỗi lần học, ta tập hợp một tập dữ liệu lớn được gọi là “Universal dataset” và xây dựng một mơ hình học trên cả dữ liệu học và một tập giàu các topic ẩn được tìm ra từ
tập dữ liệu đó. [6]

3.3.2.1. Latent Dirichlet Allocation LDA


Latent Dirichlet Allocation LDA là một mơ hình sinh xác suất cho tập dữ liệu rời rạc như text corpora. David Blei, Andrew Ng và Michael Jordan đã phát triển LDA vào
năm 2003. LDA dựa trên ý tưởng: mỗi tài liệu là sự trộn lẫn của nhiều topic, mỗi topic là một phân bố xác suất trên các từ. Về bản chất, LDA là một mơ hình Bayesian 3 cấp
three-level hierarchical Bayes model: corpus level, document level, word level trong đó mỗi phần của một tập hợp được mơ hình như một mơ hình trộn hữu hạn trên cơ sở tập các
xác suất topic. Trong ngữ cảnh của mơ hình văn bản, xác suất topic cung cấp một biểu diễn tường minh của một tài liệu. Trong phần tiếp theo sẽ thảo luận nhiều hơn về mơ hình
sinh, ước lượng tham số cũng như inference trong LDA.
Mơ hình sinh trong LDA
Cho một corpus của M tài liệu biểu diễn bởi D={d
1
,d
2
, …, d
M
}, trong đó, mỗi tài liệu m trong corpus bao gồm N
m
từ w
i
rút từ một tập Vocabulary của các term {t
1
, …, t
v
}, V là số từ. LDA cung cấp một mơ hình sinh đầy đủ chỉ ra kết quả tốt hơn các phương
pháp trước. Quá trình sinh ra document như sau:
1 ≤

δ δ
40
Hình 8. Mơ hình biểu diễn của LDA [6]
Các khối vng trong Hình 8 biểu diễn các quá trình lặp. Tham số đầu vào:
α và β corpus-level parameter α: Dirichlet prior on
m
ϑ
r
theta β: Dirichlet prior on
k
ϕr
m
ϑ
r
theta: phân phối của topic trong document thứ m document-level parameter z
m,n
: topic index word n của văn bản m w
m,n
: word n của văn bản m chỉ bởi z
m,n
word-level variable, observed word
k
ϕr
: phân phối của các từ được sinh từ topic z
m,n
M: số lượng các tài liệu. N
m
: số lượng các từ trong tài liệu thứ m. K: số lượng các topic ẩn.
LDA sinh một tập các từ w
m,n
cho các văn bản
m
d r
bằng cách: • Với mỗi văn bản m, sinh ra phân phối topic
m
ϑ
r
cho văn bản. • Với mỗi từ, z
m,n
được lấy mẫu dựa vào phân phối topic trên. • Với mỗi topic index z
m,n
, dựa vào phân phối từ
k
ϕr
,
n m
w
,
được sinh ra.
41

k
ϕr
được lấy mẫu một lần cho tòan bộ corpus. Mơ hình sinh đầy đủ đã chú giải được biểu diễn trong Hình 9.
Hình 9. Mơ hình sinh cho LDA
Ở đây, Dir, Poiss and Mult lần lượt là các phân phối Dirichlet, Poisson, Multinomial. Lấy mẫu theo phân phối Dirichlet, Poisson, Multinomial.
Ước lượng tham số và Inference thông qua Gibbs Sampling
Cho trước một tập các văn bản, tìm xem topic model nào đã sinh ra tập các văn bản trên. Bao gồm:
-
Tìm phân phối xác suất trên tập từ đối với mỗi topic -
k
ϕr
-
Tìm phân phối topic của mỗi tài liệu
m
ϑ
r
Gibbs Sampling
-
Thuật toán nhằm lấy mẫu từ phân phối xác suất có điều kiện của 2 hoặc nhiều biến ngẫu nhiên.
-
Quá trình ước lượng tham số cho LDA gồm các bước:
42
Khởi tạo: lấy mẫu lần đầu
zero all count variables,
z m
n
,
m
n
,
t z
n
,
z
n
for all documents
[ ]
M m
, 1

do
for all words
[ ]
m
N n
, 1

in document
m
do sample topic index
n m
z
,
~Mult1K
increment document-topic count:
1 +
s m
n
increment document-topic sum:
1 +
m
n
increment topic-term count:
1 +
t s
n
increment topic-term sum:
1 +
z
n
end for end for
Hình 10. Quá trình khởi tạo lấy mẫu lần đầu
Trong đó:
z m
n
: số topic z trong văn bản m
m
n
: tổng số topic trong văn bản m
t z
n
: số term t trong topic z
z
n
: tổng số term trong topic z Mỗi lần lấy mẫu cho một từ, các tham số đối với từng term và topic trên lần lượt
được tăng lên.
43
Burn-in period: quá trình lấy mẫu lại cho đến khi đạt được một độ chính xác nhất
định
while not finished do for all documents
[ ]
M m
, 1

do for all words
[ ]
m
N n
, 1

in document
m
do -
for the current assignment of
z
to a term t for word
n m
w
,
: decrement counts and sums:
1 −
z m
n
;
1 −
m
n
;
1 −
t z
n
;
1 −
z
n
- multinomial sampling acc. To Eq. Error Reference source not found. decrements from previous step:
sample topic index
w z
z p
z
i i
r r ,
| ~
~

- use the new assignment of
z
to the term t for word
n m
w
,
to: increment counts and sums:
1 +
z m
n
r
;
1 +
t z
n
r
;
1 +
z
n
r
end for end for
Hình 11. Quá trình khởi tạo lấy mẫu lại
Trong mỗi lần lấy mẫu lại: các tham số tương ứng với các topic và term cũ giảm đi 1, các tham số tương ứng với các topic và term mới tăng lên 1.
44
Check convergence and read out parameters: Quá trình kết thúc, đọc các tham số
đầu ra
Φ

Θ
if converged and L sampling iterations since last read out then -
the different parameters read outs are averaged read out parameter set
Φ
acc. to Eq.
k
ϕr
read out parameter set
Θ
acc. to Eq.
m
ϑ
r
end if end while
Hình 12. Quá trình đọc các tham số đầu ra
2 phân phối ẩn
k
ϕr

m
ϑ
r
được tính như sau:
Ước lượng tham số
Để phát triển một bộ lấy mẫu Gibbs cho LDA, Heirich et al áp dụng phương pháp biến ẩn. Biến ẩn ở đây là
n m
z
,
, ví dụ, các topic xuất hiện với các từ
n m
w
,
của corpus. Ở đây, không cần gộp các tập tham số
Θ

Φ
bởi vì chúng chỉ là thống kê sự kết hợp giữa w
m,n
và z
m,n
tương ứng, các biến trạng thái của chuỗi Markov.

3.3.2.2. Sử dụng mơ hình chủ đề ẩn để tính độ tương đồng câu


Xem Thêm
Tải bản đầy đủ (.pdf) (53 trang)

×