Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt của hệ thống FSCANNER
Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt của hệ thống FSCANNER
Xem bên trong

Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt của hệ thống FSCANNER

55 tr. + CD-ROM + tóm tắt
Luận văn ThS. Kỹ thuật phần mềm — Trường đại học Công nghệ. Đại học Quốc gia Hà Nội, 2014

0.00

Tải về miễn phí bản đầy đủ PDF luận văn tại Link bản đầy đủ 1

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NINH THỊ THU HÀ

CÁC KỸ THUẬT XỬ LÝ NGÔN NGỮ
TRONG SỐ HÓA VĂN BẢN TIẾNG VIỆT
CỦA HỆ THỐNG FSCANNER

Ngành: Công nghệ thông tin
Chuyên ngành: Kỹ thuật phần mềm
Mã số: 60480103

LUẬN VĂN THẠC SĨ

Hà Nội – 2014

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NINH THỊ THU HÀ

CÁC KỸ THUẬT XỬ LÝ NGÔN NGỮ
TRONG SỐ HÓA VĂN BẢN TIẾNG VIỆT
CỦA HỆ THỐNG FSCANNER

Ngành: Công nghệ thông tin
Chuyên ngành: Công nghệ phần mềm
Mã số: 60480103

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. LÊ QUANG MINH

Hà Nội – 2014

LỜI CAM ĐOAN
Tôi là Ninh Thị Thu Hà, học viên cao học K19, chuyên ngành Công nghệ
phần mềm, khóa 2012-2014. Tôi xin cam đoan luận văn thạc sĩ “Các kỹ thuật xử
lý ngôn ngữ trong số hóa văn bản tiếng Việt của hệ thống FSCANNER” là công
trình nghiên cứu của riêng tôi cùng với sự hướng dẫn của TS. Lê Quang Minh.
Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công
bố trong bất kỳ công trình nào khác.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn
gốc một cách rõ ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận
văn, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà
không chỉ rõ về tài liệu tham khảo.
Hà nội, ngày 28 tháng 10 năm 2014
Tác giả

Ninh Thị Thu Hà

LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc tới TS. Lê Quang Minh – Viện Công nghệ
thông tin, Đại học Quốc gia Hà Nội, người thầy đã hướng dẫn, chỉ bảo tận tình
cho tôi trong suốt quá trình nghiên cứu và hoàn thành luận văn tốt nghiệp.
Tôi xin gửi lời cảm ơn chân thành tới các thầy cô đã và đang tham gia
giảng dạy tại trường Đại học Công nghệ – Đại học Quốc gia Hà nội. Các thầy cô
đã nhiệt tình giảng dạy và tạo mọi điều kiện thuận lợi cho tôi hoàn thành khóa
học tại trường.
Tôi xin bày tỏ lòng biết ơn tới tất cả bạn bè, đồng nghiệp và người thân đã
động viên, giúp đỡ tôi trong suốt quá trình học tập và nghiên cứu, hoàn thành
luận văn.
Tôi xin được gửi lời cảm ơn đến các tác giả, nhóm tác giả của những giáo
trình, những công trình khoa học và những bài báo khoa học mà tôi tham khảo
để hoàn thiện luận văn này.
Tác giả

MỤC LỤC
DANH MỤC CÁC TỪ VIẾT TẮT ………………………………………………………………… 1
DANH MỤC BẢNG BIỂU ……………………………………………………………………………. 2
DANH MỤC HÌNH VẼ ………………………………………………………………………………… 4
MỞ ĐẦU …………………………………………………………………………………………………….. 6
CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN XỬ LÝ NGÔN NGỮ TRONG SỐ
HÓA VĂN BẢN TIẾNG VIỆT ……………………………………………………………………… 9
1.1 Giới thiệu về xử lý ngôn ngữ tự nhiên ………………………………………………… 9
1.2 Giới thiệu một số công nghệ trong số hóa tài liệu ……………………………….. 10
1.2.1 Công nghệ nhận dạng tiếng Việt ………………………………………………… 10
1.2.2 Công nghệ soát lỗi chính tả tiếng Việt…………………………………………. 11
1.2.3 Công nghệ tách bộ và lập chỉ mục ………………………………………………. 12
1.3 Bài toán xử lý ngôn ngữ trong số hóa văn bản tiếng Việt ……………………… 13
Tổng kết chương 1 …………………………………………………………………………………….. 15
CHƯƠNG 2. CÁC KỸ THUẬT XỬ LÝ NGÔN NGỮ TRONG SỐ HÓA VĂN
BẢN ………………………………………………………………………………………………………….. 16
2.1. Một số kỹ thuật nhận dạng OCR ………………………………………………………. 16
2.1.1. Giới thiệu ……………………………………………………………………………….. 16
2.1.2. Kỹ thuật nhận dạng dựa trên mô hình máy vectơ hỗ trợ (SVM) ………. 18
2.1.3. Kỹ thuật nhận dạng dựa trên mô hình Markov ẩn (HMM) ……………… 20
2.1.4. Kỹ thuật nhận dạng dựa trên mô hình mạng nơ ron (ANN) …………….. 22
2.1.5. Cách tiếp cận nhận dạng OCR của FSCANNER …………………………… 24
2.2. Kỹ thuật soát lỗi chính tả tiếng Việt dựa trên mô hình n-gram ………………. 25
2.2.1. Giới thiệu bài toán soát lỗi chính tả tiếng Việt ……………………………… 25
2.2.2. Mô hình ngôn ngữ N-gram ……………………………………………………….. 27
2.2.3. Kỹ thuật soát lỗi dựa trên mô hình n-gram của hệ thống FSCANNER 29
2.3. Trích rút metadata …………………………………………………………………………. 30
2.3.1. Giới thiệu về metadata và chuẩn Dublin Core ………………………………. 30
2.3.2. Bài toán trích rút metadata ………………………………………………………… 32
2.3.3. Đề xuất metadata cho văn bản được số hóa ………………………………….. 34

Tổng kết chương 2 …………………………………………………………………………………….. 45
CHƯƠNG 3. THỰC NGHIỆM, ĐÁNH GIÁ ………………………………………………… 46
3.1. Các bước thực hiện chương trình của hệ thống …………………………………… 46
3.2. Xây dựng bộ dữ liệu thực nghiệm cho ảnh quét ………………………………….. 48
3.3. Tiến hành thực nghiệm …………………………………………………………………… 49
3.3.1. Mục tiêu ………………………………………………………………………………… 49
3.3.2. Cách thực hiện ………………………………………………………………………… 49
3.4. Kết quả thực nghiệm ……………………………………………………………………… 50
3.5. Đánh giá kết quả ……………………………………………………………………………. 52
Tổng kết chương 3 …………………………………………………………………………………….. 52
KẾT LUẬN ……………………………………………………………………………………………….. 53
TÀI LIỆU THAM KHẢO …………………………………………………………………………… 54

1

DANH MỤC CÁC TỪ VIẾT TẮT
STT
Từ viết
tắt
Từ đầy đủ Tiếng Việt
1 ANN Artificial Neural Network Mạng nơ-ron nhân tạo
2 API Application Programming Interface
Giao diện lập trình ứng
dụng
3 DPI Dots Per Inch Số chấm trên 1 inch
4 HMM Hiden Markov Model Mô hình Markov ẩn
5 MLP Multi Layer Perceptron
Mạng nhiều lớp truyền
thẳng Perceptron
6 NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên
7 OCR Optical Character Recognition
Nhận dạng kí tự quang
học
8 OVO One Versus One Một với một
9 OVR One Versus The Rest Một với phần còn lại
10 SVM Support Vector Machine Máy Véc tơ Hỗ trợ
2

DANH MỤC BẢNG BIỂU
Bảng 1.1. So sánh một số phần mềm nhận dạng chữ in tiếng Việt
Bảng 1.2. Một số phần mềm soát lỗi chính tả tiếng Việt và kết quả đánh giá độ
nhận biết lỗi chính tả tiếng Việt đối với các phần mềm đó.
Bảng 2.1. Tổng hợp kết quả nhận dạng OCR mô hình HMM, ANN, SVM với
các đặc trưng khác nhau
Bảng 2.2. Cấu trúc âm tiết 3 thành phần
Bảng 2.3. Cấu trúc âm tiết 4 thành phần
Bảng 2.4. Cấu trúc âm tiết 5 thành phần
Bảng 2.5. Các thành phần âm tiết của cấu trúc âm tiết 4 thành phần
Bảng 2.6. Một ví dụ trích rút metadata
Bảng 2.7. 15 yếu tố của Dublin Core Metadata.
Bảng 2.8. Đề xuất xây dựng các yếu tố metadata cho số hóa văn bản
Bảng 2.9. Tiêu đề (Title)
Bảng 2.10. Người tạo (Creator)
Bảng 2.11. Ngày tháng (Date)
Bảng 2.12. Nhà xuất bản (Publisher)
Bảng 2.13. Mô tả (Description)
Bảng 2.14. Định danh (Identifier)
Bảng 2.15. Ngôn ngữ (Language)
Bảng 2.16. Nguồn (Source)
Bảng 2.17. Người cộng tác (Contributor)
3

Bảng 2.18. Chủ đề (Subject)
Bảng 2.19. Phạm vi (Coverage)
Bảng 2.20. Kiểu /Loại (Type)
Bảng 2.21. Khổ mẫu (Format)
Bảng 2.22. Liên kết (Relation)
Bảng 2.23. Bản quyền (Right)
Bảng 2.24. Cơ quan lưu trữ (Archive)
Bảng 2.25. Phông lưu trữ (Archive fond)
Bảng 2.26. Mục lục số (List number)
Bảng 2.27. Hộp số (Folder number)
Bảng 2.28. Hồ sơ số (Record number)
Bảng 2.29. Tờ số (Page number)
Bảng 2.30. Ngày số hóa (Digitizing date)
Bảng 2.31. Người số hóa (Digitizing person)
Bảng 2.32. Tổ chức số hóa (Digitizing organization)
Bảng 2.33. Thiết bị số hóa (Digitizing equipment)
Bảng 2.34. Bảng Cơ sở dữ liệu của 25 yếu tố metadata xây dựng cho văn bản
được số hóa
Bảng 3.1. Số từ nhận dạng đúng với các mức DPI khác nhau của ảnh quét
Bảng 3.2. Số từ nhận dạng đúng với các góc xoay (lệch trái so với ảnh quét gốc)
của ảnh quét
Bảng 3.3. Số từ nhận dạng đúng với các góc xoay (lệch phải so với ảnh quét
gốc) của ảnh quét
4

DANH MỤC HÌNH VẼ
Hình 1.1. Một ví dụ kéo thả OCR trong sử dụng phần mềm Kodak Capture Pro
Hình 1.2.a. Một phần ảnh văn bản
Hình 1.2.b. Phần văn bản đã được nhận
Hình 1.3.a. Phần văn bản đã được nhận
Hình 1.3.b. Phần văn bản nhận dạng đã sửa lỗi chính tả tiếng Việt
Hình 1.4. Một ví dụ về trích rút thông tin
Hình 1.5. Sơ đồ hoạt động của việc số hóa văn bản tiếng Việt của hệ thống
FSCANNER
Hình 2.1. Sơ đồ tổng quát của một hệ thống nhận dạng OCR
Hình 2.2.a. Các lớp phân tách tuyến tính.
Hình 2.2.b. Siêu phẳng tối ưu và biên lề tương ứng, các vectơ hỗ trợ.
Hình 2.3.a: Siêu phẳng phân tách 2 lớp (Liu, 2006)
Hình 2.3.b: Siêu phẳng phân tách có lề cực đại (Liu, 2006)
Hình 2.4. Lưới các chuỗi trạng thái, các tiến trình Markov với dãy quan sát O1,
…, OT.
Hình 2.5. Mô hình một nơron nhân tạo
Hình 2.6. Mạng MLP trong nhận dạng kí tự quang học.
Hình 2.7. Mô hình Markov bậc 2
Hình 3.1. Giao diện chương trình FSCANNER
Hình 3.2. Upload văn bản trong hệ thống FSCANNER
Hình 3.3. Hệ thống FSCANNER đang nhận dạng OCR 1 file ảnh
Hình 3.4. Hệ thống FSCANNER đã xử lý văn bản xong và kết quả trích rút
metadata của văn bản đó.
5

Hình 3.5. Biểu đồ tỉ lệ % số từ nhận dạng đúng ở 7 mức DPI
Hình 3.6. Biểu đồ tỉ lệ % số từ nhận dạng đúng ở các góc xoay lệch trái
Hình 3.7. Biểu đồ tỉ lệ % số từ nhận dạng đúng ở các góc xoay lệch trái

6

MỞ ĐẦU
1. Tính cấp thiết
Công tác lưu trữ có vai trò đặc biệt quan trọng đối với các lĩnh vực của
đời sống xã hội bởi thông tin trong tài liệu lưu trữ là loại thông tin có độ tin cậy
cao do nguồn gốc hình thành, do đặc trưng pháp lý của văn bản lưu trữ quy định.
Ngày nay văn bản lưu trữ đang dần được số hóa – đó là nhu cầu cần thiết giúp
giảm chi phí và tăng năng suất trong việc quản lý.
Thực tế tại Việt Nam có rất nhiều tổ chức và doanh nghiệp đang phải lưu
trữ một lượng lớn các loại văn bản tài liệu tiếng Việt (bản cứng) do đó có nhu
cầu số hóa tài liệu, tức là chuyển các tài liệu bản cứng đó vào trong máy tính để
lưu trữ, tìm kiếm, chỉnh sửa khi cần.
Hiện nay chúng ta đã có các máy quét với tốc độ cao, có thể đáp ứng cho
việc quét các tài liệu bản cứng thành file ảnh để lưu trữ lâu dài trên máy tính.
Việc sử dụng máy quét sẽ tiết kiệm thời gian, chi phí gấp hàng trăm lần so với
việc nhập bằng tay các tài liệu bản cứng vào máy tính. Tuy nhiên, nếu quét các
tài liệu bản cứng thành các file ảnh để lưu trữ thì sẽ không thể chỉnh sửa các văn
bản đó khi cần thiết, việc tìm kiếm từ khóa hay nội dung trong văn bản quét
cũng không thể thực hiện được. Vì vậy, file ảnh thu được sau khi quét cần được
nhận dạng để thu được file văn bản có thể chỉnh sửa được trên máy tính.
Khi số lượng văn bản tài liệu rất lớn cần lưu trữ một cách thông minh để
phục vụ cho việc tìm kiếm nhanh, độ chính xác của việc tìm kiếm sẽ phụ thuộc
nhiều vào bước nhận dạng văn bản số hóa và bước trích rút metadata. Đã có
những công cụ được phát triển để giải quyết vấn đề trên và mang lại kết quả rất
khả quan. Tuy nhiên, nhằm nâng cao hiệu quả của công cụ này chúng ta cần có
những cải tiến tốt hơn nữa, giúp cho độ chính xác trong công việc nhận dạng,
tìm kiếm là tốt và nhanh hơn. Nhóm nghiên cứu của Viện Công nghệ thông tin-
Đại học Quốc gia Hà Nội đưa ra giải pháp là xây dựng hệ thống FSCANNER để
số hóa văn bản tiếng Việt.
7

2. Mục tiêu của luận văn
· Tổng quan về bài toán xử lý ngôn ngữ trong số hóa văn bản tiếng Việt,
quy trình làm việc của hệ thống số hóa văn bản FSCANNER.
· Tìm hiểu về các kỹ thuật nhận dạng OCR, kỹ thuật soát lỗi chính tả tiếng
Việt, trích rút metadata trong số hóa văn bản tiếng Việt.
· Nghiên cứu về các đặc trưng lưu trữ từ đó đề xuất xây dựng metadata cho
văn bản được số hóa.
3. Nhiệm vụ nghiên cứu
Mục đích của luận văn đề cập được đến hai phần:
· Phần lý thuyết: Trình bày tổng quan về bài toán xử lý ngôn ngữ và sơ
đồ hoạt động của việc số hóa văn bản của hệ thống FSCANNER. Sau
đó trình bày về các kỹ thuật nhận dạng OCR, kỹ thuật sửa lỗi chính tả
tiếng Việt dựa trên mô hình n-gram; Với bài toán trích rút metadata,
tìm hiểu về metadata và chuẩn Dublin Core, nghiên cứu về các đặc
trưng lưu trữ từ đó đề xuất xây dựng metadata cho văn bản được số
hóa.
· Phần phát triển ứng dụng: Thực nghiệm chọn ngưỡng góc xoay và chỉ
số DPI thích hợp nâng cao chất lượng nhận dạng OCR.
4. Phạm vi nghiên cứu
Hệ thống FSCANNER được nhóm nghiên cứu của Viện Công nghệ thông
tin- Đại học Quốc Gia Hà Nội xây dựng với mục đích quản lý và tự động số hóa
tài liệu. Đây thực sự là một bài toán lớn. Chính vì thế trong phạm vi của luận
văn chỉ tìm hiểu về quy trình thực hiện của hệ thống, tìm hiểu về một số kỹ thuật
nhận dạng OCR, kỹ thuật sửa lỗi chính tả tiếng Việt dựa trên mô hình ngôn ngữ
n-gram của hệ thống, nghiên cứu về các đặc trưng lưu trữ và đề xuất xây dựng
metadata cho văn bản được số hóa để phục vụ cho quá trình trích rút metadata.
5. Những đóng góp mới
Đề xuất chọn ngưỡng góc xoay và chỉ số DPI thích hợp đối với ảnh đầu
vào để nâng cao chất lượng nhận dạng OCR.
8

Đề xuất xây dựng metadata cho văn bản được số hóa, góp phần xác định
các thuộc tính cần thiết của metadata cho việc xây dựng hệ thống FSCANNER.
6. Bố cục luận văn
Ngoài phần mở đầu, kết luận và danh mục tài liệu tham khảo, luận văn gồm 3
chương như sau:
Chương 1: Tổng quan về bài toán xử lý ngôn ngữ trong số hóa văn bản
tiếng Việt.
Nội dung giới thiệu về bài toán xử lý ngôn ngữ tự nhiên và sơ đồ hoạt
động của việc số hóa văn bản tiếng Việt của hệ thống FSCANNER.
Chương 2: Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt
Nội dung chương 2 gồm 3 phần: giới thiệu một số kỹ thuật nhận dạng
OCR; kỹ thuật soát lỗi chính tả dựa trên mô hình ngôn ngữ n-gram; kỹ thuật
trích rút metadata, trong đó đề xuất xây dựng metadata cho văn bản được số hóa.
Chương 3: Thực nghiệm – đánh giá:
Chạy chương trình với bộ dữ liệu thực nghiệm đưa ra để chọn ngưỡng chỉ
số DPI và góc xoay thích hợp đối với ảnh quét đầu vào trước khi nhận dạng
OCR, nhằm nâng cao hiệu quả nhận dạng.
9

CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN XỬ LÝ NGÔN NGỮ
TRONG SỐ HÓA VĂN BẢN TIẾNG VIỆT
1.1 Giới thiệu về xử lý ngôn ngữ tự nhiên
Xử lý ngôn ngữ tự nhiên (NLP – Natural Language Processing) là một
lĩnh vực nghiên cứu nhằm giúp cho các hệ thống máy tính hiểu và xử lý được
ngôn ngữ của con người (ngôn ngữ nói –viết). NLP là lĩnh vực thuộc ngành
Khoa học máy tính, là một nhánh của Trí tuệ nhân tạo. Lĩnh vực xử lý ngôn ngữ
tự nhiên ra đời đã lâu, trải qua nhiều nghiên cứu và ứng dụng, ngày nay được
hiểu như là lĩnh vực giúp máy tính xử lý các vấn đề về ngôn ngữ tự nhiên để
việc giao tiếp giữa người và máy tính thuận tiện và thân thiện hơn. Dưới đây là
một số bài toán tiêu biểu của xử lý ngôn ngữ với các mức độ khác nhau về xử lý
và sử dụng ngôn ngữ tự nhiên của con người [1].
· Nhận dạng tiếng nói: Từ tiếng nói của con người nhận biết và chuyển
chúng thành dữ liệu văn bản tương ứng, ví dụ như tìm kiếm thông tin
bằng tiếng nói (search voice),…
· Tổng hợp tiếng nói: Từ dữ liệu văn bản, phân tích và chuyển thành tiếng
người nói, ví dụ thay vì đọc nội dung trên web, nó tự đọc cho chúng ta,…
· Nhận dạng chữ viết: Từ văn bản trên giấy, nhận biết từng chữ cái và
chuyển chúng thành một tệp văn bản trên máy tính. Có hai kiểu nhận
dạng: nhận dạng chữ in ví dụ như nhận dạng chữ trên sách giáo khoa rồi
chuyển nó thành văn bản như định dạng *.doc lưu trên máy tính; và nhận
dạng chữ viết tay ví dụ như nhận dạng chữ ký,…
· Dịch tự động: Từ một tệp dữ liệu văn bản trong một ngôn ngữ (ví dụ tiếng
Anh), máy tính dịch và chuyển thành một tệp văn bản trong một ngôn ngữ
khác (ví dụ tiếng Việt).
· Tóm tắt văn bản: Từ một văn bản dài máy tóm tắt thành một văn bản ngắn
gọn với những nội dung cơ bản.
· Tìm kiếm thông tin: Từ một nguồn rất nhiều tệp văn bản hay tiếng nói,
tìm ra những tệp có nội dung liên quan đến một vấn đề ta cần biết, ví dụ
điển hình như Google Search có thể tìm kiếm văn bản hay tiếng nói.

Tác giả

Ninh Thị Thu Hà

Nhà xuất bản

ĐHCN

Năm xuất bản

2014

Người hướng dẫn

Lê Quang Minh

Định danh

00050004224

Kiểu

text

Định dạng

text/pdf

Nhà xuất bản

Khoa công nghệ thông tin,

Trường đại học Công nghệ

Các đánh giá

Hiện chưa có đánh giá cho sản phẩm.

Hãy là người đầu tiên đánh giá “Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt của hệ thống FSCANNER”

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *