Các kỹ thuật phân cụm trong khai phá dữ liệu
Các kỹ thuật phân cụm trong khai phá dữ liệu
Xem bên trong

Các kỹ thuật phân cụm trong khai phá dữ liệu

96 tr. + CD-ROM
Luận văn ThS. Hệ thống thông tin — Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội, 2009
Trình bày tổng quan về khám phá tri thức và khai phá dữ liệu: các khái niệm liên quan, các bài toán khai phá dữ liệu điển hình, các dạng dữ liệu có thể khai phá, các giai đoạn trong quá trình khai phá tri thức, các kỹ thuật tiếp cận chính trong khai phá dữ liệu … Giới thiệu về phân cụm dữ liệu (PCDL), đi sâu phân tích các vấn đề cơ bản của PCDL như bài toán PCDL, các giai đoạn của quá trình phân cụm, ứng dụng và các kỹ thuật tiếp cận phân cụm dữ liệu … Nghiên cứu các thuật toán phân cụm dữ liệu điển hình: phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa trên mật độ, phân cụm dựa trên lưới, phân cụm dữ liệu kiểu hạng mục,…và chỉ ra những ưu và nhược điểm của chúng. Trình bày về kỹ thuật phân cụm mờ trong PCDL, làm rõ hai thuật toán cơ bản được sử dụng là FCM và 3FCM. Nêu lên một số kết quả thực nghiệm cho các thuật toán phân cụm mờ
Electronic Resources

0.00

Tải về miễn phí bản đầy đủ PDF luận văn tại Link bản đầy đủ 1


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Thị Thu Hiền

Các kỹ thuật phân cụm trong khai phá dữ liệu

LUẬN VĂN THẠC SĨ

Hà Nội – 2009

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Thị Thu Hiền

Các kỹ thuật phân cụm trong khai phá dữ liệu

Ngành: Công Nghệ Thông tin
Mã số: 60.48.05

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC:

PGS.TS. Vũ Đức Thi

Hà Nội – 2009

– 1 –

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn “Các kỹ thuật phân cụm trong khai phá dữ liệu”
là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong luận văn được
sử dụng trung thực. Những kết luận của luận văn chưa từng được ai công bố trong
bất kỳ công trình nghiên cứu nào khác.

Học viên thực hiện

Nguyễn Thị Thu Hiền

– 2 –

LỜI CẢM ƠN

Luận văn được hoàn thành dưới sự hướng dẫn, chỉ bảo tận tình, chu đáo của
PGS.TS Vũ Đức Thi. Qua đây, tôi xin gửi lời cảm ơn sâu sắc đến Thầy cùng sự
giúp đỡ nhiệt tình của Thầy trong suốt quá trình tôi thực hiện luận văn.
Tôi xin cảm ơn các Thầy, Cô giáo và các Cán bộ trong trường Đại học Công
nghệ – Đại học Quốc gia Hà Nội đã truyền thụ kiến thức, kinh nghiệm học tập,
nghiên cứu khoa học cho tôi trong suốt quá trình học tập tại trường.
Tôi cũng xin gửi lời cảm ơn tới trường Đại học Sư phạm Thái Nguyên, Khoa
Toán, Tổ Tin học và các đồng nghiệp đã tạo điều kiện cho tôi thực hiện tốt kế hoạch
học tập của mình.
Cuối cùng, tôi xin bày tỏ lòng biết ơn tới gia đình tôi đã luôn bên cạnh động
viên, ủng hộ và tạo điều kiện tốt nhất cho tôi học tập và hoàn thành luận văn này.

Học viên thực hiện

Nguyễn Thị Thu Hiền
– 3 –
MỤC LỤC
LỜI CAM ĐOAN………………………………………………………………………………………… 1
LỜI CẢM ƠN …………………………………………………………………………………………….. 2
MỤC LỤC ………………………………………………………………………………………………….. 3
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ………………………………….. 5
DANH MỤC BẢNG BIỂU ………………………………………………………………………….. 6
DANH MỤC HÌNH VẼ, ĐỒ THỊ ………………………………………………………………… 7
LỜI MỞ ĐẦU …………………………………………………………………………………………….. 9
CHƯƠNG 1 – TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU …………………………….. 11
1.1. Quá trình khám phá tri thức trong cơ sở dữ liệu ……………………………….. 11
1.2. Tính liên ngành của khai phá dữ liệu ………………………………………………. 13
1.3. Các bài toán khai phá dữ liệu điển hình …………………………………………… 14
1.4. Các dạng dữ liệu có thể khai phá dữ liệu …………………………………………. 16
1.5. Hướng tiếp cận và kỹ thuật chính trong khai phá dữ liệu …………………… 16
1.6. Ứng dụng của khai phá dữ liệu ……………………………………………………….. 18
1.7. Các thách thức trong KPTT và KPDL …………………………………………….. 18
CHƯƠNG 2 – PHÂN CỤM DỮ LIỆU ………………………………………………………… 19
2.1. Bài toán phân cụm dữ liệu ……………………………………………………………… 19
2.2. Các giai đoạn của quá trình phân cụm dữ liệu ………………………………….. 20
2.3. Ứng dụng của phân cụm dữ liệu ……………………………………………………… 21
2.4. Các kiểu dữ liệu và độ đo tương tự …………………………………………………. 21
2.5. Các kỹ thuật tiếp cận phân cụm dữ liệu …………………………………………… 25
2.6. Yêu cầu đối với các thuật toán phân cụm dữ liệu ……………………………… 29
CHƯƠNG 3 – CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU ĐIỂN HÌNH ….. 30
3.1. Các thuật toán phân cụm phân hoạch ………………………………………………. 30
3.1.1. Thuật toán k-means ……………………………………………………………………………. 30
3.1.2. Thuật toán PAM ………………………………………………………………………………… 33
3.1.3. Thuật toán CLARA ……………………………………………………………………………. 35
3.1.4. Thuật toán CLARANS ……………………………………………………………………….. 37

– 4 –
3.2. Các thuật toán phân cụm phân cấp ………………………………………………….. 39
3.2.1. Thuật toán BIRCH …………………………………………………………………………….. 39
3.2.2. Thuật toán CURE ……………………………………………………………………………… 42
3.3. Các thuật toán phân cụm dựa trên mật độ …………………………………………. 44
3.3.1. Thuật toán DBSCAN …………………………………………………………………………. 44
3.3.2. Thuật toán OPTICS …………………………………………………………………………… 48
3.3.3. Thuật toán DENCLUE ………………………………………………………………………. 49
3.4. Các thuật toán phân cụm dựa trên lưới …………………………………………….. 51
3.4.1. Thuật toán STING …………………………………………………………………………….. 51
3.4.2. Thuật toán CLIQUE ………………………………………………………………………….. 53
3.4.3. Thuật toán WaveCluster …………………………………………………………………….. 53
3.5. Phân cụm dựa trên mô hình ……………………………………………………………. 54
3.5.1. Thuật toán EM ………………………………………………………………………………….. 54
3.6. Các thuật toán phân cụm dữ liệu kiểu hạng mục ……………………………….. 57
3.6.1. Thuật toán k-modes …………………………………………………………………………… 58
3.6.2. Thuật toán ROCK ……………………………………………………………………………… 61
3.6.3. Thuật toán STIRR ……………………………………………………………………………… 64
3.6.4. Thuật toán CACTUS …………………………………………………………………………. 66
3.7. Phân cụm dữ liệu hỗn hợp ……………………………………………………………… 70
3.7.1. Cơ sở toán học ………………………………………………………………………………….. 70
3.7.2. Thuật toán k-prototypes ……………………………………………………………………… 73
CHƯƠNG 4 – PHÂN CỤM DỮ LIỆU MỜ …………………………………………………. 76
4.1. Giới thiệu …………………………………………………………………………………….. 76
4.2. Thuật toán FCM ……………………………………………………………………………. 77
4.2.1. Hàm mục tiêu ……………………………………………………………………………………. 77
4.2.2. Thuật toán FCM ………………………………………………………………………………… 78
4.3. Thuật toán FCM ………………………………………………………………………….. 80
4.3.1. Hàm mục tiêu ……………………………………………………………………………………. 80
4.3.2. Thuật toán FCM ………………………………………………………………………………. 85
4.4. Một số kết quả thử nghiệm …………………………………………………………….. 85
4.4.1. Thí nghiệm dữ liệu có ngoại lai …………………………………………………………… 85
4.4.2. Phân cụm dữ liệu các nhóm có ngoại lai và xếp chồng dữ liệu ………………… 88
KẾT LUẬN ……………………………………………………………………………………………….. 91
TÀI LIỆU THAM KHẢO ………………………………………………………………………….. 92
PHỤ LỤC ………………………………………………………………………………………………….. 94
CÀI ĐẶT THỬ NGHIỆM THUẬT TOÁN K-MEANS ……………………………….. 94

– 5 –
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

Từ hoặc cụm từ Từ viết tắt Từ tiếng Anh
Cơ sở dữ liệu CSDL Database
Công nghệ thông tin CNTT Information Technology
Khám phá tri thức KPTT Knowledge Discovery
KDD Knowledge Discovery in Database
Khai phá dữ liệu KPDL Data mining
Phân cụm dữ liệu PCDL Data Clustering

– 6 –
DANH MỤC BẢNG BIỂU

Bảng 2.1. Bảng giá trị tham số ………………………………………………………………………. 22
Bảng 2.2. Các kiểu thuộc tính với các độ đo thích hợp tương ứng……………………… 25
Bảng 3.1. Bảng tổng kết các thuộc tính của các thuật toán PCDL kiểu số ………….. 55
Bảng 3.2. Bảng tổng kết các thuộc tính của các thuật toán PCDL hạng mục ……… 69
Bảng 4.1. Số lỗi tâm cụm lớn nhất của FCM và FCM theo số phần tử ngoại lai … 87
Bảng 4.2. Chuẩn Frobenius của các lỗi tâm các cụm ……………………………………….. 88
Bảng 4.3. Cực đại các lỗi tâm cụm với dữ liệu có ngoại lai ………………………………. 89
Bảng 4.4. Frobenius của các lỗi tâm cụm cho dữ liệu có ngoại lai …………………….. 89

– 7 –
DANH MỤC HÌNH VẼ, ĐỒ THỊ

Hình 1.1. Quá trình khám phá tri thức trong CSDL ………………………………………… 12
Hình 1.2. Tính đa/liên ngành của khai phá dữ liệu ………………………………………….. 13
Hình 1.3. Sơ đồ biểu diễn mô hình học máy: cần học đường nét rời …………………. 17
Hình 2.1. Quá trình phân cụm dữ liệu …………………………………………………………… 20
Hình 2.2. Các khoảng cách Euclidean và Manhattan giữa hai đối tượng ……………. 23
Hình 2.3. Phương pháp xây dựng cây phân cụm phân cấp ………………………………. 26
Hình 2.4. Mô tả phân cụm phân hoạch và phân cụm phân cấp ………………………….. 27
Hình 3.1. Ý tưởng thuật toán k-means …………………………………………………………… 30
Hình 3.2. Các bước cơ bản của thuật toán k-means …………………………………………. 31
Hình 3.3. Chi tiết thuật toán k-means …………………………………………………………….. 32
Hình 3.4. Các bước thực hiện thuật toán PAM ……………………………………………….. 35
Hình 3.5. Các bước thực hiện thuật toán CLARA …………………………………………… 36
Hình 3.6. Thuật toán CLARANS ………………………………………………………………….. 38
Hình 3.7. Thuật toán BIRCH sử dụng cây CF ………………………………………………… 40
Hình 3.8. Các bước cơ bản của thuật toán BIRCH ………………………………………….. 42
Hình 3.9. Một số cụm dữ liệu được khám phá bởi thuật toán CURE …………………. 43
Hình 3.10. Các bước cơ bản của thuật toán CURE ………………………………………….. 43
Hình 3.11. Hình dạng một số cụm được khám phá bởi thuật toán DBSCAN ……… 45
Hình 3.12. Liên thông mật độ và liên kết mật độ trong PCDL dựa trên mật độ …… 46
Hình 3.13. Thuật toán DBSCAN …………………………………………………………………… 48
Hình 3.14. Thứ tự các cụm được tăng dần trong OPTICS ………………………………… 49
Hình 3.15. Biểu diễn hàm ảnh hưởng sóng ngang và Gaussian ………………………… 50
Hình 3.16. Mô hình lưới được sử dụng bởi thuật toán STING …………………………. 51
– 8 –
Hình 3.17. Các bước thực hiện thuật toán STING …………………………………………… 52
Hình 3.18. Ứng dụng của thuật toán WaveCluster ………………………………………….. 54
Hình 3.19. Các bước thực hiện thuật toán EM ……………………………………………….. 54
Hình 3.20. Mảng hạng mục của tập dữ liệu …………………………………………………….. 60
Hình 3.21. Số các đối tượng lân cận chung của hai đối tượng dữ liệu i, j …………… 62
Hình 3.22. Tổng quan về ROCK …………………………………………………………………… 63
Hình 3.23. Các bước cơ bản của thuật toán ROCK ………………………………………… 64
Hình 3.24. Trình bày dữ liệu trong thuật toán STIRR ……………………………………… 65
Hình 3.25. Một ví dụ sử dụng CACTUS ………………………………………………………… 68
Hình 3.26: Ảnh hưởng của l trong phân cụm ……………………………………………….. 72
Hình 3.27: Thủ tục phân phối ban đầu trong thuật toán k-prototypes ………………… 74
Hình 3.28: Thủ tục phân phối lại(re-allocation) trong k-prototypes ………………….. 75
Hình 3.29: Quá trình hội tụ của thuật toán k-prototypes ………………………………….. 75
Hình 4.1. Thuật toán FCM ……………………………………………………………………………. 78
Hình 4.2. Mô phỏng kết quả các cụm được khám phá bởi thuật toán FCM …………. 79
Hình 4.3. Thuật toán FCM ………………………………………………………………………….. 85
Hình 4.4. Thực nghiệm phương pháp FCM …………………………………………………….. 86
Hình 4.5. Thực nghiệm phương pháp FCM với  = 2 ……………………………………… 86
Hình 4.6. Thực nghiệm FCM,  = 2 với các cụm có dữ liệu xếp chồng và ngoại lai .. 90
Hình 4.7. Thực nghiệm FCM với các cụm có dữ liệu xếp chồng và ngoại lai ……… 90

– 9 –

LỜI MỞ ĐẦU

Trong những năm gần đây, sự phát triển mạnh mẽ của công nghệ thông tin và
ngành công nghiệp phần cứng đã làm cho khả năng thu thập và lưu trữ thông tin của
các hệ thống thông tin tăng nhanh một cách chóng mặt. Bên cạnh đó, việc tin học
hóa một cách ồ ạt và nhanh chóng của các hoạt động sản xuất, kinh doanh cũng như
nhiều lĩnh vực hoạt động khác đã tạo ra một lượng dữ liệu lưu trữ khổng lồ. Hàng
triệu CSDL đã được sử dụng trong các hoạt động sản xuất, kinh doanh, quản lí…,
trong đó có nhiều CSDL cực lớn. Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết
là cần có những kĩ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng
lồ kia thành các tri thức có ích. Từ đó, các kĩ thuật khám phá hay còn gọi là phát
hiện tri thức trong CSDL (Knowledge Discovery in Databases) đã trở thành một
lĩnh vực thời sự của ngành công nghệ thông tin trên thế giới hiện nay.
Khai phá dữ liệu (Data Mining) là một bước trong quá trình khám phá tri thức
và được định nghĩa: là quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong
lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ liệu… Hiện nay, ngoài thuật
ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự
như: khai phá tri thức từ CSDL (knowlegde mining from databases), trích lọc dữ
liệu (knowlegde extraction), phân tích dữ liệu/mẫu (data/pattern analysis), khảo cổ
dữ liệu (data archaeology), nạo vét dữ liệu (data dredging).
Với hai mục đích chính của khai phá dữ liệu là Dự đoán (Prediction) và Mô tả
(Description), người ta thường sử dụng các phương pháp: phân lớp (Classification),
dự đoán (Prediction), tìm luật liên kết (Association Rule) và các kỹ thuật phân cụm
(Clustering) cho khai phá dữ liệu.
Phân cụm dữ liệu là quá trình nhóm các đối tượng dữ liệu tương đồng với
nhau thành các cụm. Một cụm là tập hợp các đối tượng dữ liệu tương đồng với nhau
và các đối tượng dữ liệu thuộc các cụm khác nhau không tương đồng với nhau.
Phân cụm dữ liệu nhằm mục đích chính là tìm kiếm và phát hiện các cụm hoặc các
mẫu dữ liệu tự nhiên trong cơ sở dữ liệu lớn , theo đó, cho phép người ta đi sâu vào
phân tích và nghiên cứu ch o từng cụm dữ liệu này nhằm khám phá các thông tin
tiềm ẩn, hữu ích, phục vụ cho việc ra quyết định . Các kỹ thuật chính được áp dụng
trong phân cụm dữ liệu thường phần lớn được kế thừa từ lĩnh vực thống kê , học
máy, nhận dạng,… Đến nay , phân cụm dữ liệu đã được ứng dụng rộng rãi cho việc
– 10 –
giải quyết các vấn đề trong nhiều lĩnh vực khác nhau như tài chính , thông tin địa lý ,
sinh học, nhận dạng ảnh,…
Từ những lý do trên, chúng tôi lựa chọn vấn đề “Các kỹ thuật phân cụm
trong khai phá dữ liệu” làm đề tài nghiên cứu của mình.
Luận văn sẽ trình bày một số vấn đề về khám phá tri thức trong CSDL và tập
trung nghiên cứu, trình bày về các kỹ thuật phân cụm trong KPDL. Trong luận văn,
ngoài phần mở đầu nêu lên các lý do chính lựa chọn đề tài, phần kết luận nhằm tóm
tắt các vấn đề đã tìm hiểu được, đồng thời xác định hướng nghiên cứu tiếp theo, nội
dung luận văn được trình bày trong 4 chương và phần phụ lục:
Chương 1: Trình bày tổng quan về khám phá tri thức và khai phá dữ liệu: các
khái niệm liên quan, các giai đoạn trong quá trình khám phá tri thức, các kỹ thuật
tiếp cận chính trong khai phá dữ liệu, …
Chương 2: Giới thiệu về phân cụm dữ liệu, trong đó đi sâu phân tích chi tiết
các vấn đề cơ bản trong PCDL và ý nghĩa của PCDL. Đồng thời, trình bày tóm tắt
về các đặc trưng của các phương pháp PCDL như: phân cụm phân hoạch, phân cụm
phân cấp, phân cụm dựa trên mật độ,… và nêu các kỹ thuật đánh giá kết quả PCDL.
Chương 3: Trình bày các phân tích, đánh giá đối với các thuật toán PCDL điển
hình và chỉ ra ưu, nhược điểm của chúng.
Chương 4: Trình bày về kỹ thuật phân cụm mờ trong PCDL, cụ thể là trình
bày hai thuật toán FCM (Fuzzy C-means) và FCM. Nêu lên một số kết quả thực
nghiệm cho các thuật toán phân cụm mờ.
Phụ lục: Cài đặt chương trình thử nghiệm cho thuật toán k-means.
– 11 –
CHƯƠNG 1.
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1. Quá trình khám phá tri thức trong cơ sở dữ liệu
Cuộc cách mạng của khoa học kỹ thuật đã cho phép số hóa thông tin dễ dàng,
nhanh chóng với chi phí lưu trữ thấp. Đồng thời, cùng với sự phát triển, trang bị
hiện đại của hệ thống phần mềm, phần cứng máy tính, một số lượng dữ liệu khổng
lồ đã được tích lũy, lưu trữ. Mục đích của việc thu thập và lưu trữ các kho dữ liệu
khổng lồ như vậy không ngoài mục tiêu khai phá dữ liệu nhằm phát hiện các tri thức
mới có ích cho hoạt động của con người. Chính vì vậy, kỹ thuật thống kê và các
công cụ quản trị dữ liệu cũ không thể đáp ứng được nhu cầu phân tích đầy đủ dữ
liệu rộng lớn được nữa và một khuynh hướng mới đã được ra đời, phát triển, đó là
lĩnh vực khám phá tri thức và khai phá dữ liệu.
Theo Fayyad, Piatetsky-Shapiro, Smyth, việc nghiên cứu phát triển lĩnh vực
khám phá tri thức trong CSDL (Knowledge Discovery in Databases: KDD) nhằm
giải quyết tình trạng “ngập tràn thông tin mà vẫn thiếu thốn tri thức”. [22]
Khám phá tri thức trong cơ sở dữ liệu là lĩnh vực đã, đang và sẽ được quan
tâm triển khai nghiên cứu, phát triển một cách nhanh chóng và rộng rãi. Đã có rất
nhiều các thuật ngữ khác nhau mà được coi là cùng mang nghĩa của KDD như
knowledge extraction (chiết lọc tri thức), information discovery (phát hiện thông
tin), information harvesting (thu hoạch thông tin), data archaeology (khai quật dữ
liệu) và data pattern processing (xử lý mẫu dữ liệu). Năm 1989, Fayyad, Smyth và
Piatestsky-Shapiro đã định nghĩa một cách đầy đủ về khái niệm Khám phá tri thức
trong cơ sở dữ liệu (Knowledge Discovery in Database – KDD) như sau: [12]-[22]
Khám phá tri thức trong cơ sở dữ liệu (đôi khi còn được gọi là khai phá dữ
liệu) là một quá trình không tầm thường nhận ra những mẫu có giá trị, mới, hữu ích
tiềm năng và hiểu được trong dữ liệu.
Quá trình khám phá tri thức trong CSDL được chia thành các bước như trong
hình 1.1 dưới đây:

– 12 –

Hình 1.1. Quá trình khám phá tri thức trong CSDL

– Trích lọc dữ liệu (Data Selection)
Là bước trích chọn những tập dữ liệu cần được khai thác từ các tập dữ liệu lớn
(databases, datawarehouses) ban đầu theo một số tiêu chí nhất định.
– Tiền xử lý dữ liệu (Data preprocessing)
Giai đoạn này hay bị sao lãng, nhưng thực tế nó là một bước rất quan trọng
trong quá trình khai phá dữ liệu. Tiền xử lý dữ liệu là bước làm sạch dữ liệu (xử lý
dữ liệu không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán,…), rút gọn dữ liệu
(sử dụng các phương pháp nén dữ liệu, histograms, entropy,…), rời rạc hóa dữ liệu
(dựa vào histograms, dựa vào phân khoảng,…). Sau bước này, dữ liệu sẽ nhất quán,
đầy đủ, được rút gọn và được rời rạc hóa. Có thể nói, đây là một bước rất quan
trọng vì dữ liệu này nếu không được “làm sạch – tiền xử lý – chuẩn bị trước” thì sẽ
gây nên những kết quả sai lệch nghiêm trọng.
– Biến đổi dữ liệu (Data transformation)
Là bước chuẩn hóa và làm mịn dữ liệu để đưa dữ liệu về dạng thuận lợi nhất
nhằm phục vụ cho mục đích khai thác ở bước sau.
– Khai phá dữ liệu (Data mining)
Đây là bước quan trọng và tốn nhiều thời gian nhất của quá trình khám phá tri
thức, áp dụng các kỹ thuật phân tích (phần lớn là các kỹ thuật của học máy) nhằm
khai thác, trích chọn được các mẫu thông tin, các mối liên hệ đặc biệt trong dữ liệu.

Dữ liệu
Dữ liệu đích
Dữ liệu đã
tiền xử lý
Dữ liệu
chuyển dạng
Mẫu
Tri thức
Đánh giá và biểu
diễn tri thức
Trích
chọn dữ
liệu
Tiền xử lý
dữ liệu
Biến đổi
dữ liệu
Khai phá
dữ liệu
– 13 –
– Đánh giá và biểu diễn tri thức (Knowledge representation & evaluation)
Dùng các kỹ thuật hiển thị dữ liệu để trình bày các mẫu thông tin (tri thức) và
mối liên hệ đặc biệt trong dữ liệu đã được khai thác ở bước trên theo dạng gần gũi
với người sử dụng như đồ thị, cây, bảng biểu, luật,… Đồng thời, bước này cũng
đánh giá những tri thức khám phá được theo các tiêu chí nhất định.
Trong quá trình phát hiện tri thức trong các CSDL đưọc mô tả ở trên, chúng ta
nhận thấy có sự tham gia của các kho dữ liệu. Theo W.H. Inmon [12] “kho dữ liệu
là tập hợp các dữ liệu định hướng theo chủ đề, được tích hợp từ, có tính phiên bản
theo thời gian và kiên định được dùng để hỗ trợ việc tạo quyết định cho người quản
trị”.
1.2. Tính liên ngành của khai phá dữ liệu
Khai phá dữ liệu là một khái niệm ra đời vào cuối những năm 1980. Nó được
xem là giai đoạn quan trọng nhất trong tiến trình khai phá tri thức từ cơ sở dữ liệu,
các tri thức này hỗ trợ trong việc ra quyết định trong khoa học và kinh doanh.
KPDL nhận được sự quan tâm đặc biệt của các nhà nghiên cứu trong nhiều lĩnh vực
học máy, thu nhận mẫu, CSDL, thống kê, trí tuệ nhân tạo, thu nhận tri thức đối với
hệ chuyên gia (Hình 1.2). Hệ thống KDD lôi cuốn các phương pháp, thuật toán và
kỹ thuật từ các lĩnh vực rời rạc nhau này. Mục tiêu thống nhất là trích lọc tri thức từ
dữ liệu trong ngữ cảnh các CSDL lớn. [6]-[12]-[15]

Hình 1.2. Tính đa/liên ngành của khai phá dữ liệu

Đối với các lĩnh vực học máy và thu nhận mẫu, sự đan xen với KDD trải theo
các nghiên cứu về lý thuyết và thuật toán đối với các hệ thống trích lọc mẫu và mô
hình dữ liệu (chủ yếu đối với các phương pháp khai phá dữ liệu). Trọng tâm của
KDD đối với việc mở rộng các lý thuyết và thuật toán này hướng tới bài toán tìm ra

Tác giả

Nguyễn Thị Thu Hiền

Nhà xuất bản

ĐHCN

Năm xuất bản

2009

Người hướng dẫn

Vũ Đức Thi

Định danh

V_L0_02108

Kiểu

text

Định dạng

text/pdf

Chủ đề

Hệ thống thông tin,Khai phá dữ liệu,Kỹ thuật phân cụm,Xử lý dữ liệu

Nhà xuất bản

Khoa công nghệ thông tin,

Trường đại học Công nghệ

Các đánh giá

Hiện chưa có đánh giá cho sản phẩm.

Hãy là người đầu tiên đánh giá “Các kỹ thuật phân cụm trong khai phá dữ liệu”

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *