Nghiên cứu cải tiến một số phương pháp phân loại văn bản tự động và áp dụng trong xử lý văn bản tiếng Việt
Nghiên cứu cải tiến một số phương pháp phân loại văn bản tự động và áp dụng trong xử lý văn bản tiếng Việt
Xem bên trong

Nghiên cứu cải tiến một số phương pháp phân loại văn bản tự động và áp dụng trong xử lý văn bản tiếng Việt

108 tr. + CD-ROM
Tổng quan về phân loại văn bản (PLVB), các bước chính trong bài toán PLVB và một số phương pháp lựa chọn thuộc tính trong PLVB. Vấn đề biểu diễn văn bản trong PLVB dưới dạng vector thuộc tính và một số phương pháp giảm kích thước của không gian thuộc tính như sử dụng danh sách từ dừng, tìm gốc của từ, vấn đề trọng số và các phương pháp lựa chọn thuộc tính. Tìm hiểu các phương pháp PLVB truyền thống. Áp dụng trong PLVB tiếng Việt, đặc điểm của tiếng Việt, so sánh với các ngôn ngữ khác, thực nghiệm và kết quả thực nghiệm cho bài toán phân loại tiếng Việt. Ứng dụng phân cụm và PLVB để nâng cao độ chính xác với tập dữ liệu có nhãn nhỏ, các thuật toán tiêu biểu của phương pháp này. Trình bày việc sử dụng thuộc tính là các nhóm xâu con chính vào PLVB để tránh việc phân đoạn từ trong PLVB nhằm nâng cao độ chính xác. Giới thiệu về cài đặt các chương trình và công cụ hỗ trợ
Luận văn ThS Công nghệ phần mềm 60.48.10 Trường Đại học Công nghệ Đại học Quốc gia Hà Nội
Electronic Resources

0.00

Tải về miễn phí bản đầy đủ PDF luận văn tại Link bản đầy đủ 1

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGHIÊN CỨU CẢI TIẾN MỘT SỐ PHƯƠNG PHÁP
PHÂN LOẠI VĂN BẢN TỰ ĐỘNG VÀ ÁP DỤNG
TRONG XỬ LÝ VĂN BẢN TIẾNG VIỆT

Ngành: Công nghệ thông tin
Chuyên ngành: Công nghệ phần mềm
Mã số: 60 48 10

Hà Nội – 2008
HƯỚNG DẪN KHOA HỌC:
PSG.TS. NGUYỄN NGỌC BÌNH
LƯU TRƯỜNG HUY
LUẬN VĂN THẠC SĨ
1

MỤC LỤC
Danh sách các hình ……………………………………………………………………………… 4
Danh sách bảng ………………………………………………………………………………….. 5
Danh sách từ viết tắt ……………………………………………………………………………. 6
Bảng thuật ngữ Anh-Việt …………………………………………………………………….. 7
MỞ ĐẦU ………………………………………………………………………………………….. 8
1. Cơ sở khoa học và tính thực tiễn của đề tài. ……………………………………… 8
2. Phạm vi và mục đính nghiên cứu của để tài ……………………………………… 9
3. Bố cục và cấu trúc của luận văn ……………………………………………………… 9
CHƯƠNG 1 – TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI VĂN BẢN …… 11
1.1. Tổng quan ………………………………………………………………………………. 11
1.2. Các bước chính trong bài toán phân loại văn bản ………………………….. 13
CHƯƠNG 2 – BIỂU DIỄN VĂN BẢN TRONG PHÂN LOẠI VĂN BẢN .. 15
2.1. Các vector thuộc tính ……………………………………………………………….. 15
2.2. Việc lựa chọn thuộc tính …………………………………………………………… 16
2.2.1. Loại bỏ các từ dừng ……………………………………………………………. 16
2.2.2. Xác định gốc của từ ……………………………………………………………. 17
2.2.3. Lựa chọn thuộc tính ……………………………………………………………. 17
2.3. Một số phương pháp lựa chọn thuộc tính trong phân loại văn bản……. 17
2.3.1. Ngưỡng tần xuất văn bản (DF) …………………………………………….. 17
2.3.2. Lợi ích thông tin (IG) …………………………………………………………. 18
2.3.3. Thông tin tương hỗ (MI) ……………………………………………………… 19
2.3.4. Thống kê Chi bình phương
2 ……………………………………………… 20
2.3.5. Cường độ của từ (TS) …………………………………………………………. 21
2.3.6. Một số phương pháp khác …………………………………………………… 22
2.4. Tổng kết chương ……………………………………………………………………… 22
CHƯƠNG 3 – CÁC PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN TRUYỀN
THỐNG ………………………………………………………………………………………….. 24
3.1. Phương pháp Rocchio ………………………………………………………………. 24
3.2. Phương pháp k- Nearest Neighbour ……………………………………………. 24
3.3. Phương pháp Naïve Bayes (NB) ………………………………………………… 25
3.4. Phương pháp Linear Least Square Fit- LLSF ……………………………….. 27
2

3.5. Phương pháp Centroid- based vector …………………………………………… 28
3.6. Phương pháp SVM- Support Vector Machine ………………………………. 28
3.7. Một số phương pháp khác …………………………………………………………. 32
3.8. Phương pháp đánh giá ………………………………………………………………. 32
3.9. Tổng kết chương ……………………………………………………………………… 33
CHƯƠNG 4 – PHÂN LOẠI VĂN BẢN TIẾNG VIỆT …………………………… 35
4.1. Tiếng Việt và một số đặc điểm của tiếng Việt ………………………………. 35
4.1.1. Cấu trúc từ trong tiếng Việt …………………………………………………. 35
4.1.2. So sánh tiếng Việt và tiếng Anh …………………………………………… 37
4.2. Bài toán phân loại văn bản tiếng Việt ………………………………………….. 38
4.3. Vấn đề tách từ trong văn bản tiếng Việt ………………………………………. 39
4.3.1. Tách từ trong văn bản tiếng Việt dựa trên từ…………………………… 40
4.3.2. Tách từ trong văn bản tiếng Việt dựa trên ký tự ………………………. 41
4.3.3. Một số phương pháp tách từ trong văn bản tiếng Việt ……………… 41
4.4. Thực nghiệm và kết quả ……………………………………………………………. 47
4.5. Tổng kết chương ……………………………………………………………………… 51
CHƯƠNG 5 – ỨNG DỤNG PHÂN CỤM TRONG CẢI TIẾN PHÂN LOẠI
VĂN BẢN ………………………………………………………………………………………. 53
5.1. Giới thiệu ……………………………………………………………………………….. 53
5.2. Phân cụm dữ liệu …………………………………………………………………….. 54
5.3. Một số phương pháp phân loại văn bản sử dụng phân cụm …………….. 56
5.3.1. Phương pháp 1…………………………………………………………………… 56
5.3.2. Phương pháp 2…………………………………………………………………… 58
5.3.3. Phương pháp 3…………………………………………………………………… 61
5.4. Nhận xét…………………………………………………………………………………. 64
5.5. Thực nghiệm và kết quả thực nghiệm …………………………………………. 65
5.6.Tổng kết chương ………………………………………………………………………. 68
CHƯƠNG 6 – CẢI TIẾN GIẢI THUẬT CHIẾT XUẤT THUỘC TÍNH
NHÓM XÂU CON CHÍNH VÀ ÁP DỤNG TRONG PHÂN LOẠI VĂN
BẢN TIẾNG VIỆT …………………………………………………………………………… 70
6.1. Giới thiệu ……………………………………………………………………………….. 70
6.2. Cây hậu tố ………………………………………………………………………………. 71
3

6.3. Thuộc tính nhóm xâu con chính …………………………………………………. 73
6.3.1. Các nhóm xâu con ……………………………………………………………… 74
6.3.2. Các nhóm xâu con chính …………………………………………………….. 75
6.4. Thuật toán ………………………………………………………………………………. 77
6.5. Nhận xét và đề xuất cải tiến thuật toán và chương trình …………………. 79
6.6. Thực nghiệm và kết quả ……………………………………………………………. 80
6.7. Tổng kết chương ……………………………………………………………………… 83
CHƯƠNG 7 – CÁC CỘNG CỤ HỖ TRỢ VÀ CÁC CHƯƠNG TRÌNH ……. 85
7.1. Công cụ chiết xuất nội dung từ các web-site báo điện tử ………………… 85
7.2. Chương trình phân đoạn từ tiếng Việt và tạo các ma trận thuộc tính .. 88
7.3. Công cụ chiết xuất thuộc tính KSG và đưa ra ma trân thuộc tính …….. 91
7.4. Công cụ mở rộng tập dữ liệu kết hợp phân cụm ……………………………. 93
7.5. Phân lọai văn bản sử dụng thư viện LibSVM ………………………………. 93
7.6. Công cụ phân loại theo phương pháp kNN và Centroid based vector .. 94
KẾT LUẬN ……………………………………………………………………………………… 96
1. Nhận xét chung ………………………………………………………………………….. 96
2. Hướng phát triển ………………………………………………………………………… 98
Tài liệu tham khảo …………………………………………………………………………… 100
PHỤ LỤC A: Phân tích thiết kế chương trình phân loại văn bản tự động sử
dụng thuộc tính nhóm xâu con chính. …………………………………………………. 103
1. Yêu cầu của chương trình ………………………………………………………….. 103
2. Phân tích ………………………………………………………………………………… 103
2.1. Mô hình ca sử dụng. ……………………………………………………………. 103
2.2. Biểu đồ tuần tự hệ thống và mô hình khái niệm ……………………….. 104
3. Thiết kế …………………………………………………………………………………… 106
3.1. Thao tác trên tập ngữ liệu …………………………………………………….. 106
3.2. Xử lý thuộc tính xâu con chính. …………………………………………….. 108
3.3. Phân loại văn bản bằng phương pháp SVM …………………………….. 110
4. Cài đặt chương trình …………………………………………………………………. 111
PHỤ LỤC B: Cấu trúc đĩa CD đi kèm ………………………………………………… 113
PHỤ LỤC C: Chia sẽ dữ liệu, các công cụ và chương trình liên quan ……… 114
Chỉ mục từ ……………………………………………………………………………………… 116
4

Danh sách các hình
Hình 1-1: Các bước chính trong phân loại văn bản …………………………………. 13
Hình 1-2: Mô hình trong học máy ……………………………………………………….. 14
Hình 2-1: Biểu diễn văn bản bằng vector thuộc tính ……………………………….. 15
Hình 3-1: SVM với siêu phẳng phân chia hai nhóm dữ liệu mẫu ………………. 29
Hình 4-1: Tình hình hiện tại của bài toán tách từ tiếng Việt……………………… 40
Hình 5-1: Phân loại kết hợp phân cụm ………………………………………………….. 54
Hình 5-2: Thuật toán phân loại văn bản sử dụng phân cụm của Zeng, H.J ….. 60
Hình 5-3: Thuật toán của phân loại văn bản sử dụng phân cụm của
Kyriakopoulou, A. …………………………………………………………………………….. 63
Hình 5-4: Biểu đồ so sánh độ chính xác theo tỷ lệ tập huấn luyên …………….. 68
Hình 6-1: Cây hậu tố …………………………………………………………………………. 72
Hình 6-2: Thuật toán chiết xuất thuộc tính nhóm xâu con chính ……………….. 77
Hình 7-1: Minh họa nội dung chính của bài báo trên trang web ………………… 85
Hình 7-2: Giao diện công cụ chiết xuất nội dung ……………………………………. 86
Hình 7-3: Minh họa kết quả phân chia dữ liệu cho k-fold cross validation …. 87
Hình 7-4: Minh họa cấu trúc thư mục đầu vào chương trình phân đoạn từ tiếng
Việt và tạo các ma trận thuộc tính ……………………………………………………….. 88
Hình A-1: Biểu đồ ca sử dụng …………………………………………………………… 104
Hình A-2: Biểu đồ tuần tự hệ thống ……………………………………………………. 105
Hình A-3: Mô hình khái niệm hệ thống ………………………………………………. 106
Hình A-4: Biểu đồ lớp ca sử dụng thao tác corpus ………………………………… 107
Hình A-5: Biểu đồ tuần tự ca sử dụng thao tác corpus …………………………… 107
Hình A-6: Biểu đồ lớp KSG ……………………………………………………………… 109
Hình A-7: Biểu đồ tuần tự KSG ………………………………………………………… 109
Hình A-8: Biểu đồ lớp SVM……………………………………………………………… 110
Hình A-9: Biểu đồ tuần tự SVM ………………………………………………………… 111

5

Danh sách bảng
Bảng 3-1: Kết quả thực nghiệm của T. Joachims, so sánh phương pháp SVM
với một số phương pháp khác trên Corpus Reuters …………………………………. 31
Bảng 4-1: Cấu trúc âm tiết trong tiếng Việt …………………………………………… 35
Bảng 4-2: So sánh tiếng Việt và Tiếng anh ……………………………………………. 37
Bảng 4-3: Thống kế nguồn gốc dữ liệu trong corpus ………………………………. 49
Bảng 4-4: Thống kê dữ liệu trong corpus cho từng nhóm văn bản …………….. 50
Bảng 4-5: Kết quả phân loại sử dụng một số phương pháp truyền thống ……. 51
Bảng 5-1: Kết quả thực nghiệm phân lọai sử dụng phân cụm …………………… 67
Bảng 6-1: Sự phụ thuộc của số thuộc tính KSG với các tham số đầu vào …… 81
Bảng 6-2: Kết quả sử dụng hàm nhân tuyến tính và hàm nhân RBF ………….. 82
Bảng 6-3: So sánh phương pháp SVM và SVM+KSG…………………………….. 83
Bảng A-1: Danh sách ca sử dụng ……………………………………………………….. 104
Bảng A-2: Ánh xạ giữa lớp thiết kế và các file cài đặt …………………………… 111
6

Danh sách từ viết tắt
Từ viết tắt Từ gốc
ARAM Adaptive Resonance Associative Map
CBC Clustering Based Text Classification
Conf Confidence Weight
CSDL Cơ sở dữ liệu
DF Document Frequency
FSM Finite State Machine
GA Genetics Algorithm
HMM Hiden Markov Model
IDF Inverse Document Frequency
IG Information Gain
kNN k- Nearest Neighbour
KSG Key SubString Group
LLSP Linear Least Square Fit
LRMM Left Right Maximum Matching
MI Mutual Information
MM Maximum Matching
MM Maximum Entropy
NB Naïve Bayes
NLP Natual Language Processing
POS Part Of Speed
SVM Support Vector Machine
TBL Transformation based learning
TC Text Categorization
TF Term Frequency
TM2 Second Moment of Term
TS Term Strength
TSVM Transductive Support Vector Machine
WFST Weight Finite State Transducer

7

Bảng thuật ngữ Anh-Việt

Tiếng Anh Tiếng Việt
Bioinfomatics Tin sinh học
Centroid Trọng tâm
Context predicate Thành phần ngữ cảnh
Corpus Tập ngữ liệu
Co-training Đồng huấn luyện
Data clustering Phân cụm dữ liệu
Data mining Khai phá dữ liệu
Discriminative learning Học phân biệt
Empirical risk minimization Tối thiểu hóa rủi ro thực nghiệm
Fard clustering Phân cụm cứng
Feature Thuộc tính
Feature selection Lựa chọn thuộc tính
Generative learning Học suy diễn
Incremental clustering Phân cụm bổ sung
Incremental supervised learning Học có giám sát bổ sung
Inductive learning Học quy nạp
Key sub-string group Nhóm xâu con chính
Key-substring group feature Thuộc tính nhóm xâu con chính
Machine Learning Học máy
Mutual information Thông tin tương hỗ
Pattern regconition Nhận dạng mẫu
Reinforcement Learning Học củng cố
Stop word Từ dừng
Suffix tree Cây hậu tố
Syllable Âm tiết
Unseen new document Văn bản mới cần đoán nhận
Word clustering Phân cụm theo từ
Word stemming Xác định từ gốc
8

MỞ ĐẦU
1. Cơ sở khoa học và tính thực tiễn của đề tài.
Từ khi Internet ra đời, chúng ta đã chứng kiến sự phát triển không ngừng
về số lượng thông tin trực tuyến trên Internet. Nếu chúng ta xem World Wide
Web như một Cơ sở dữ liệu-CSDL, thì CSDL này là khổng lồ, rất hỗn tạp và
đa phương tiện, tuy nhiên trong số đó có hơn 80% lượng thông tin là dưới
dạng văn bản. Với CSDL lớn như thế, việc tìm kiếm thông tin nào đó của
chúng ta có thể không đạt kết quả như mong muốn, mặc dù thông tin này là
tồn tại ở đâu đó. Phân loại văn bản là một trong những công cụ hữu hiệu nhất
để làm giảm bớt nhưng khó khăn trong tìm kiếm thông tin, và là công cụ hết
sức quan trọng trong việc quản lý, tổ chức và sắp xếp thông tin.
Phân loại văn bản tự động là tác vụ tự động xác định một tài liệu (dạng văn
bản ở dạng ngôn ngữ tự nhiên) thuộc một hoặc một số hạng mục đã được định
trước. Phân loại văn bản là rất quan trọng và được sử dụng trong rất nhiều ứng
dụng như lọc văn bản (text filtering), tổ chức tài liệu, chống spam mail.
Trong nhưng năm cuối của thập niên 90, thế kỷ trước và những năm đầu thế
kỷ 21, nhiều phương pháp cũng như thuật toán đã được giới thiệu để giải
quyết bài toán này đặc biệt cho tiếng Anh (hay một số ngôn ngữ Âu Ấn gần
với tiếng Anh là tiếng Đức, Pháp…). Đối với một số ngôn ngữ châu Á như
tiếng Việt, tiếng Trung, tiếng Nhật và tiếng Hàn, bài toán này trở nên khó
khăn hơn do các tính chất đặc thù của các ngôn ngữ này.
Ở Việt Nam, bài toán xử lý ngôn ngữ tự nhiên, dịch tự động, tìm kiếm, tóm
tắt, và phân loại văn bản cũng đã được nhà nước, các viện nghiên cứu, các
trường đại học và các công ty công nghệ thông tin quan tâm, đầu tư nghiên
cứu và đã có nhưng thành quả nhất định và rõ rệt. Trong luận văn của mình,
tôi xin chọn hướng nghiên cứu cải tiến một số phương pháp phân loại văn bản
tự động và áp dụng trong xử lý văn bản tiếng Việt, có thừa kế các kết quả
đang có trên thế giới và ở Việt Nam, để nâng cao độ chính xác và hiệu năng
với khía cạch đặc thù của tiếng Việt với mong muốn góp một phần sức lực của
mình cho vấn đề nêu trên ở nước nhà.
9

2. Phạm vi và mục đính nghiên cứu của để tài
Luận văn tập trung chủ yếu tập trung vào các vấn đề sau:
– Tìm hiểu bài toán phân loại văn bản tự động và một số thuật toán tiêu biểu
và đã được đánh giá là hiệu quả trên thế giới như SVM (Support Vector
Machine), kNN (k- Nearest Neighbor), Naïve Bayes…
– Tìm hiểu về bài toán phân loại văn bản tiếng Việt, với các vấn đề sau:
+ Thuận lợi và khó khăn.
+ Đặc điểm của tiếng Việt, cấu trúc từ trong tiếng Việt.
+ Vấn đề phân đoạn từ trong tiếng Việt, Vietnamese word segmentation,
vấn đề tập ngữ liệu tiếng Việt (Vietnamese corpus) …
+ Áp dụng một số thuật toán vào bài toán phân loại văn bản tiếng Việt.
+ Cài đặt các công cụ và thuật toán liên quan.
+ Thực nghiệm và kết quả thực nghiệm phân loại văn bản tiếng Việt sử
dụng một số thuật toán tiêu biểu.
– Nghiên cứu một số hướng cải tiến của phân loại văn bản phù hợp với bối
cảnh Việt Nam và tiếng Việt.
+ Sử dụng phân cụm trong phân loại văn bản.
+ Sử dụng thuộc tính nhóm xâu con chính trong phân loại văn bản.
+ Cài đặt các công cụ và thuật toán liên quan.
+ Thực nghiệm và kết quả thực nghiệm.
3. Bố cục và cấu trúc của luận văn
Luận văn được cấu trúc như sau.
– Chương 1: Trình bày tổng quan về phân loại văn bản.
– Chương 2: Trình bày vấn đề biểu diễn văn bản trong phân loại văn bản
dưới dạng vector thuộc tính, và một số phương pháp giảm kích thước
của không gian thuộc tính như sử dụng danh sách từ dừng, tìm gốc của
từ, vấn đề trọng số và các phương pháp lựa chọn thuộc tính.
– Chương 3: Trình bày các phương pháp phân loại văn bản truyền thống.
– Chương 4: Áp dụng trong phân loại văn bản tiếng Việt, đặc điểm của
tiếng Việt, so sánh với các ngôn ngữ khác, thực nghiệm và kết quả thực
nghiệm cho bài toán phân loại tiếng Việt.
10

– Chương 5: Trình bày việc ứng dụng phân cụm vào phân loại văn bản để
nâng cao độ chính xác với tập dữ liệu có nhãn nhỏ, các thuật toán tiêu
biểu của phương pháp này, thực nghiệm và kết quả thực nghiệm.
– Chương 6: Trình bày việc sử dụng thuộc tính là các nhóm xâu con chính
vào phân loại văn bản để tránh việc phân đoạn từ trong phân loại văn
bản, một bài toán vẫn còn mở, và nâng cao độ chính xác, cấu trúc dữ
liệu cây hậu tố, thuật toán, thực nghiệm và kết quả thực nghiệm.
– Chương 7: Cài đặt các chương trình và cộng cụ hỗ trợ.
– Cuối cùng là kết luận và các hướng phát triển cho luận văn.
– Ba phụ A, B, C lần lượt bao gồm phân tích thiết kế chương trình phân
loại văn bản tự động sử dụng thuộc tính nhóm xâu con chính, cấu trúc
CD đính kèm và giới thiệu website chia sẻ tập ngữ liệu và chương trình.
11

CHƯƠNG 1 – TỔNG QUAN VỀ BÀI TOÁN PHÂN
LOẠI VĂN BẢN
1.1. Tổng quan
Ngày nay với lượng thông tin lớn trên Internet cũng như trong Intranet của
các tổ chức, doanh nghiệp. Nhu cầu có một công cụ trợ giúp để tìm, lọc và
quản lý tài nguyên trở nên quan trọng và cần thiết. Đây cũng là các lý do để
phân loại văn bản ra đời. Phân loại văn bản là tác vụ gán các văn bản dạng
ngôn ngữ tự nhiên vào một hoặc một số hạng mục đã định trước.

Về mặt toán học có thể định nghĩa phân loại văn bản như sau:
Cho C là tập các nhóm: C={c1,c2,…, cm}
D là tập các văn bản: D={d1,d2,…, dn}
Phân loại văn bản là một hàm fTC được định nghĩa trong (1-1):
: {0,1}fTC C D  (1-1)
Với: ( , ) 0i jfTC c d  , nếu dj không thuộc nhóm ci.
( , ) 1i jfTC c d  , nếu dj thuộc nhóm ci.
Phân loại văn bản tự động là một công cụ hết sức quan trọng trong việc
quản lý và tổ chức thông tin như là việc sắp xếp thời gian thực các email hay
các tệp vào các tổ chức thư mục, xác định chủ đề để hỗ trợ thao tác xử lý chủ
để chỉ định, hay tìm các tài liệu phụ hợp với một sở thích nào đó.

Phân loại văn bản tự động bắt đầu xuất hiện từ nhưng năm 60 và phát
triển mạnh mẽ trong thập kỷ trước. Có hai hướng tiếp cận chính để xây dựng
các hệ thống phân loại văn bản. Một số hệ thống sử dụng phương pháp dựa
trên heuristic, tương tự như trong hệ chuyên gia để phân loại và chẩn đoán.
Các kỹ sư trí thức sẽ định nghĩa các luật giữa dữ liệu đầu vào (các từ, hay các
thuộc tính) và đầu ra là các nhóm. Việc phân loại sẽ thực hiện bằng cách thực
hiện quá trình suy diễn dựa trên các đầu vào và tri thức chuyên gia để suy ra
kết quả phân loại. Cách tiếp cận thứ hai là sử dụng học máy và có sử dung tập
văn bản được phân loại bằng tay trước. Phương pháp này được đánh giá là ít
12

tốn kém, xây dựng nhanh hơn và cho độ chính xác cao hơn. Tuy nhiên, phân
loại văn bản đưa ra rất nhiều các thách thức cho học máy. Kích thước không
gian thuộc tính lớn, lên tới hàng chục nghìn khi các từ được sử dụng, thậm chí
là hơn trong một số trường hợp sử dụng các cụm từ, câu, hay xâu con, các đặc
điểm của ngôn ngữ tự nhiên như đồng nghĩa, trái nghĩa, phân phối không cân
bằng của từ vựng, chất lượng và số lượng của tập văn bản huấn luyện đều gây
ảnh hưởng kết việc phân loại, hiệu năng và kết quả của nó.

Thông thường phân loại văn bản thường được sử dụng dưới hai hình thức
là phân loại văn bản theo chủ đề và phân loại văn bản theo ngữ nghĩa.
– Phân loại văn bản theo chủ đề: đây là cách phân loại dựa vào chủ đề
mà văn bản có thể thuộc vào. Tập văn bản được phân thành các chủ đề khác
nhau.
Ví dụ: Giáo dục, Thể thao, Du lịch
– Phân loại văn bản theo ngữ nghĩa: đây là cách phân loại dựa vào ngữ
nghĩa trong văn bản đề phân loại chúng.
Ví dụ: Spam hay không spam, được đề nghị hay không được đề nghị

Nhận dạng mẫu và học máy được áp dụng vào phân loại văn bản, một số
phương pháp đã được giới thiệu và sử dụng như Mạng Neutral, Cây quyết
định, kNN, Naïve Bayes, LLFS, SVM… các phương pháp thu được các kết
quả khả quan. Gần đây, hướng nghiên cứu tập trung vào tăng độ chính xác và
hiệu năng của phân loại như giảm kích thước không gian thuộc tính, sử dụng
tập dữ liệu gán nhãn nhỏ hay kết hợp học không giám sát. Hầu hết các
phương pháp phân loại ban đầu được xây dựng và thí nghiêm cho văn bản
tiếng Anh sau đó dược áp dụng cho văn bản trên các ngôn ngữ khác. Tuy
nhiên trong nhiều trường hợp các ngôn ngữ khác nhau có những đặc điểm
khác nhau, nên các bước trong phân loại cho các ngôn ngữ khác nhau có thể
sẽ có các biến đổi và mực độ chính xác do đó cũng khó đồng nhất cho mọi
ngôn ngữ.
13

1.2. Các bước chính trong bài toán phân loại văn bản
Mô hình phân loại văn bản tổng quát gồm các bước, mô tả trong hình 1-1:
– Tiền xử lý.
– Tạo chỉ mục.
– Chọn thuộc tính.
– Áp dụng thuật toán phân loại.

Tiền xử lý là việc biểu diễn văn bản ở dạng thích hợp cho phân loại như
xóa bỏ các định dạng văn bản nếu văn bản ở dạng khác như .doc, .pdf,
.html…Tiến hành việc tách từ, bỏ đi các từ dừng và chọn gốc của từ.
Tiền xử lý
Tạo chỉ mục
Chọn thuộc tính
Áp dụng
Thuật toán

Tập văn bản

Đánh giá kết quả
Hình 1-1: Các bước chính trong phân loại văn bản
14

Tạo chỉ mục là việc tính toán trọng số cho các thuộc tính bằng cách áp
dụng các phương pháp tính trọng số như tần xuất từ TF, tần xuất từ kết hợp
tần xuất văn bản ngược TFIDF…
Chọn thuộc tính là căn cứ vào trọng số, sử dụng một số phương pháp chọn
thuộc tính như Tần xuất văn bản, Lợi ích thông tin, Thông tin tương hỗ … để
loại đi các thuộc tính không có ý nghĩa thông tin và không ảnh hưởng đến kết
quả phân loại. Việc lựa chọn thuộc tính giúp giảm kích thước không gian
thuộc tính, giảm thời gian tính toán, tránh overfitting, và tăng hiểu năng của
thuật toán sử dụng.
Áp dụng thuật toán phân loại là việc sử dụng một thuật toán phân loại hợp
lý để tiến hành huấn luyện và kiểm thử hiệu quả phân loại.
Việc đánh giá kết quả bao gồm xem xét và đánh giá thời gian huấn luyện,
thời gian kiểm thử, độ chính xác của phân loại. Các Tiêu chí thông thường là
thời gian tính toán hiệu quả và độ chính xác cao.
Trong học máy, bài toán phân loại văn bản được minh họa như trong Hình
1-2.

Hình 1-2: Mô hình trong học máy

Tác giả

Lưu Trường Huy

Nhà xuất bản

ĐHCN

Năm xuất bản

2008

Người hướng dẫn

Nguyễn Ngọc Bình

Định danh

V_L0_01537

Kiểu

text

Định dạng

text/pdf

Nhà xuất bản

Khoa công nghệ thông tin,

Trường đại học Công nghệ

Các đánh giá

Hiện chưa có đánh giá cho sản phẩm.

Hãy là người đầu tiên đánh giá “Nghiên cứu cải tiến một số phương pháp phân loại văn bản tự động và áp dụng trong xử lý văn bản tiếng Việt”

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *