Giải pháp lọc thư điện tử theo phân tích nội dung
Giải pháp lọc thư điện tử theo phân tích nội dung
Xem bên trong

Giải pháp lọc thư điện tử theo phân tích nội dung

79 tr. + CD-ROM
Luận văn ThS. Hệ thống thông tin — Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội, 2010
Tổng quan về lọc thư điện tử theo phân tích nội dung: giới thiệu các khái niệm liên quan đến thư điện tử, giao thức mạng sử dụng trong dịch vụ thư; tìm hiểu mô hình, thành phần tham gia quá trình lọc thư; tìm hiểu số liệu thống kê liên quan đến vấn đề thư và thư rác; nghiên cứu các kỹ thuật áp dụng trong lọc thư; so sánh các công cụ lọc thư, giải pháp lọc thư điển hình. Mô hình lọc thư điện tử đề xuất: đặt ra yêu cầu đối với mô hình lọc thư đề xuất; đề xuất mô hình lọc thư điện tử; trình bày phương pháp lọc nội dung áp dụng mô hình phân loại bayesian; mô tả chi tiết nguyên lý hoạt động và đặc tả các thành phần. Thực nghiệm và đánh giá thực nghiệm: xây dựng và thử nghiệm hệ thống thư điện tử và bộ lọc dựa trên mã nguồn mở; đánh giá dựa trên kết quả thử nghiệm
Electronic Resources

0.00

Tải về miễn phí bản đầy đủ PDF luận văn tại Link bản đầy đủ 1

2

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Đỗ Đức Nam

GIẢI PHÁP LỌC THƯ ĐIỆN TỬ THEO
PHÂN TÍCH NỘI DUNG

Ngành : Công nghệ Thông tin
Chuyên ngành : Hệ thống Thông tin
Mã số : 60 48 05

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. NGUYỄN NGỌC HÓA

Hà Nội 2009
i

MỤC LỤC
MỤC LỤC ……………………………………………………………………………………………………………. i
DANH SÁCH HÌNH VẼ ……………………………………………………………………………………. viii
MỞ ĐẦU ………………………………………………………………………………………………………… viiiv
CHƯƠNG 1. TỔNG QUAN VỀ LỌC THƯ ĐIỆN TỬ …………………………………………….. 1
1.1. Khái niệm chung ………………………………………………………………………………………… 1
1.1.1. Thư điện tử …………………………………………………………………………………………… 1
1.1.2. Các giao thức sử dụng trong hệ thống thư điện tử ……………………………………… 4
1.1.3. Vấn đề thư rác ………………………………………………………………………………………. 9
1.2. Tổng quan về lọc thư điện tử ………………………………………………………………………. 14
1.3. Mô hình chung hệ thống lọc thư………………………………………………………………….. 18
1.3.1. Trình duyệt thư ……………………………………………………………………………………. 18
1.3.2. Máy chủ thư ………………………………………………………………………………………… 18
1.4. Các phương pháp lọc thư điện tử ………………………………………………………………… 27
1.4.1. Phương pháp sử dụng DNS blacklist ……………………………………………………… 27
1.4.2. Phương pháp sử dụng SURBL list …………………………………………………………. 27
1.4.3. Kiểm tra người nhận …………………………………………………………………………….. 28
1.4.4. Kiểm tra địa chỉ …………………………………………………………………………………… 28
1.4.5. Chặn IP ………………………………………………………………………………………………. 28
1.4.6. Sử dụng bộ lọc Bayesian ………………………………………………………………………. 29
1.4.7. Sử dụng danh sách Black/white list………………………………………………………… 29
1.4.8. Kiểm tra Header ………………………………………………………………………………….. 30
1.4.9. Sử dụng tính năng Challenge/Response ………………………………………………….. 30
1.5. Một số giải pháp lọc thư thương mại điển hình …………………………………………….. 31
1.5.1. Exim mail …………………………………………………………………………………………… 34
1.5.2. Qmail …………………………………………………………………………………………………. 35
1.5.3. BayesSpam …………………………………………………………………………………………. 36
CHƯƠNG 2. MÔ HÌNH LỌC THƯ ĐIỆN TỬ ĐỀ XUẤT ……………………………………… 40
2.1. Yêu cầu đặt ra …………………………………………………………………………………………… 40
2.1.1. Nội dung lọc ……………………………………………………………………………………….. 40
2.1.2. Cơ chế lọc …………………………………………………………………………………………… 40
2.1.3. Định dạng …………………………………………………………………………………………… 41
2.1.4. Người sử dụng …………………………………………………………………………………….. 41
2.1.5. Ngữ cảnh ……………………………………………………………………………………………. 41
2.1.6. Hiệu năng …………………………………………………………………………………………… 42
2.2. Mô hình hệ thống ……………………………………………………………………………………… 42
2.2.1. Mô hình mạng …………………………………………………………………………………….. 42
ii

2.2.2. Nguyên lý hoạt động chung …………………………………………………………………… 43
2.3. Phương pháp lọc thư Bayesian ……………………………………………………………………. 44
2.3.1. Hướng tiếp cận ……………………………………………………………………………………. 44
2.3.2. Các thuộc tính phân loại ……………………………………………………………………….. 46
2.4. Mô hình chi tiết ………………………………………………………………………………………… 48
2.4.1. Kiến trúc và nguyên lý hoạt động của hệ thống ……………………………………….. 48
2.5. Đặc tả thành phần ……………………………………………………………………………………… 49
2.5.1. Bộ điểu khiển truyền thư ………………………………………………………………………. 49
2.5.2. Module Proxy gửi thư ………………………………………………………………………….. 53
2.5.3. Module Proxy nhận thư ………………………………………………………………………… 54
2.6. Các bộ lọc nội dung …………………………………………………………………………………… 56
2.6.1. Bộ lọc tiếng Việt ………………………………………………………………………………….. 56
2.6.2. Bộ lọc tiếng Anh ………………………………………………………………………………….. 58
2.6.3. Bộ lọc ảnh …………………………………………………………………………………………… 60
CHƯƠNG 3. THỰC NGHIỆM VÀ ĐÁNH GIÁ ……………………………………………………. 65
3.1. Hệ thống lọc nội dung thư mFilter ………………………………………………………………. 65
3.1.1. Môi trường tích hợp …………………………………………………………………………….. 65
3.1.2. Mô tả mô hình thử nghiệm ……………………………………………………………………. 65
3.1.3. Tích hợp các bộ lọc ……………………………………………………………………………… 66
3.2. Cài đặt, cấu hình ……………………………………………………………………………………….. 69
3.2.1. Cài đặt ………………………………………………………………………………………………… 69
3.2.2. Cấu hình …………………………………………………………………………………………….. 69
3.3. Thực nghiệm và đánh giá hệ thống ……………………………………………………………… 73
KẾT LUẬN ……………………………………………………………………………………………………….. 76
TÀI LIỆU THAM KHẢO ………………………………………………………………………………………. i
MỤC LỤC ……………………………………………………………………………………………………………. i
DANH SÁCH HÌNH VẼ ……………………………………………………………………………………… iii
MỞ ĐẦU ……………………………………………………………………………………………………………. iv
CHƯƠNG 1. TỔNG QUAN VỀ LỌC THƯ ĐIỆN TỬ …………………………………………….. 1
1.1. Khái niệm chung ………………………………………………………………………………………… 1
1.1.1. Thư điện tử …………………………………………………………………………………………… 1
1.1.2. Các giao thức sử dụng trong hệ thống thư điện tử ……………………………………… 4
1.1.3. Vấn đề thư rác ………………………………………………………………………………………. 9
1.2. Tổng quan về lọc thư điện tử ………………………………………………………………………. 14
1.3. Mô hình chung hệ thống lọc thư………………………………………………………………….. 18
1.3.1. Trình duyệt thư ……………………………………………………………………………………. 18
1.3.2. Máy chủ thư ………………………………………………………………………………………… 18
iii

1.4. Các phương pháp lọc thư điện tử ………………………………………………………………… 27
1.4.1. Phương pháp sử dụng DNS blacklist ……………………………………………………… 27
1.4.2. Phương pháp sử dụng SURBL list …………………………………………………………. 27
1.4.3. Kiểm tra người nhận …………………………………………………………………………….. 28
1.4.4. Kiểm tra địa chỉ …………………………………………………………………………………… 28
1.4.5. Chặn IP ………………………………………………………………………………………………. 28
1.4.6. Sử dụng bộ lọc Bayesian ………………………………………………………………………. 29
1.4.7. Sử dụng danh sách Black/white list………………………………………………………… 29
1.4.8. Kiểm tra Header ………………………………………………………………………………….. 30
1.4.9. Sử dụng tính năng Challenge/Response ………………………………………………….. 30
1.5. Một số giải pháp lọc thư thương mại điển hình …………………………………………….. 31
1.5.1. Exim mail …………………………………………………………………………………………… 34
1.5.2. Qmail …………………………………………………………………………………………………. 35
1.5.3. BayesSpam …………………………………………………………………………………………. 36
CHƯƠNG 2. MÔ HÌNH LỌC THƯ ĐIỆN TỬ ĐỀ XUẤT ……………………………………… 40
2.1. Yêu cầu đặt ra …………………………………………………………………………………………… 40
2.1.1. Nội dung lọc ……………………………………………………………………………………….. 40
2.1.2. Cơ chế lọc …………………………………………………………………………………………… 40
2.1.3. Định dạng …………………………………………………………………………………………… 41
2.1.4. Người sử dụng …………………………………………………………………………………….. 41
2.1.5. Ngữ cảnh ……………………………………………………………………………………………. 41
2.1.6. Hiệu năng …………………………………………………………………………………………… 42
2.2. Mô hình hệ thống ……………………………………………………………………………………… 42
2.2.1. Mô hình mạng …………………………………………………………………………………….. 42
2.2.2. Nguyên lý hoạt động chung …………………………………………………………………… 43
2.3. Phương pháp lọc thư Bayesian ……………………………………………………………………. 44
2.3.1. Hướng tiếp cận ……………………………………………………………………………………. 44
2.3.2. Các thuộc tính phân loại ……………………………………………………………………….. 46
2.4. Mô hình chi tiết ………………………………………………………………………………………… 48
2.4.1. Kiến trúc và nguyên lý hoạt động của hệ thống ……………………………………….. 48
2.5. Đặc tả thành phần ……………………………………………………………………………………… 49
2.5.1. Bộ điểu khiển truyền thư ………………………………………………………………………. 49
2.5.2. Module Proxy gửi thư ………………………………………………………………………….. 53
2.5.3. Module Proxy nhận thư ………………………………………………………………………… 54
2.6. Các bộ lọc nội dung …………………………………………………………………………………… 56
2.6.1. Bộ lọc tiếng Việt ………………………………………………………………………………….. 56
2.6.2. Bộ lọc tiếng Anh ………………………………………………………………………………….. 58
iv

2.6.3. Bộ lọc ảnh …………………………………………………………………………………………… 60
CHƯƠNG 3. THỰC NGHIỆM VÀ ĐÁNH GIÁ ……………………………………………………. 65
3.1. Hệ thống lọc nội dung thư mFilter ………………………………………………………………. 65
3.1.1. Môi trường tích hợp …………………………………………………………………………….. 65
3.1.2. Mô tả mô hình thử nghiệm ……………………………………………………………………. 65
3.1.3. Tích hợp các bộ lọc ……………………………………………………………………………… 66
3.2. Cài đặt, cấu hình ……………………………………………………………………………………….. 68
3.2.1. Cài đặt ………………………………………………………………………………………………… 68
3.2.2. Cấu hình …………………………………………………………………………………………….. 69
3.3. Thực nghiệm và đánh giá hệ thống ……………………………………………………………… 72
KẾT LUẬN ……………………………………………………………………………………………………….. 75
TÀI LIỆU THAM KHẢO ………………………………………………………………………………………. i

v

DANH SÁCH HÌNH VẼ
Hình 1. Mô hình ứng dụng hệ thống thư điện tử …………………………………………………….. 1
Hình 2. Phương thức hoạt động của hệ thống thư điện tử ………………………………………… 3
Hình 3. Ví dụ kiểm tra giao thức SMTP ……………………………………………………………….. 5
Hình 4. Sơ đồ phân phối thư. ………………………………………………………………………………. 6
Hình 5. Ví dụ về phiên giao dịch POP3 ………………………………………………………………… 8
Hình 6. Giao diện phần mềm thư điện tử Outlook Express ……………………………………. 18
Hình 7. Giao diện phần mềm thư điện tử Microsoft Outlook …………………………………. 18
Hình 8. Lược đồ khởi tạo proxy …………………………………………………………………………. 21
Hình 9. Lược đồ hoạt động của proxy server ……………………………………………………….. 22
Hình 10. Lược đồ hoạt động của Proxy client ……………………………………………………… 23
Hình 11. Lược đồ hoạt động của module lọc theo đường lên ………………………………… 24
Hình 12. Lược đồ hoạt động của module lọc theo đường xuống ……………………………. 25
Hình 13. Phân loại thư rác áp dụng lược đồ liên kết Graham …………………………………. 37
Hình 14. Phân loại thư rác áp dụng lược đồ Central Limit …………………………………….. 38
Hình 15. Mô hình kết nối có hệ thống lọc thư tại nhà cung cấp dịch vụ ISP …………… 42
Hình 16. Mạng Bayesian tương ứng với (a); (b) …………………………………………………… 46
Hình 17. Phần trăm các ký tự đặc biệt chứa trong thư …………………………………………… 48
Hình 18. Kiến trúc mô hình hệ thống lọc thư ………………………………………………………. 48
Hình 19. Sơ đồ hoạt động của Qmail ………………………………………………………………….. 52
Hình 20. Mô hình hoạt động của Proxy SMTP …………………………………………………….. 54
Hình 21. Nguyên lý hoạt động của proxy server ………………………………………………….. 55
Hình 22. Mô hình giao tiếp thông qua proxy ……………………………………………………….. 55
Hình 23. Mô hình lọc thư điện tử thực nghiệm …………………………………………………….. 65
Hình 24. Quy trình thực hiện lọc thư trong hệ thống mFilter …………………………………. 67
Hình 25. Cấu hình địa chỉ mạng ngoài ………………………………………………………………… 70
Hình 26. Cấu hình địa chỉ mạng trong ………………………………………………………………… 71
Hình 27. Cấu hình NAT ……………………………………………………………………………………. 72
Hình 28. Cấu hình địa chỉ mạng mail client ………………………………………………………… 73
Hình 29. Màn hình kết quả thực thi hệ thống thử nghiệm mFilter ………………………….. 75
Hình 1. Mô hình ứng dụng hệ thống thư điện tử …………………………………………………….. 1
Hình 2. Phương thức hoạt động của hệ thống thư điện tử ………………………………………… 3
Hình 3. Ví dụ kiểm tra giao thức SMTP ……………………………………………………………….. 5
Hình 4. Sơ đồ phân phối thư. ………………………………………………………………………………. 6
Hình 5. Ví dụ về phiên giao dịch POP3 ………………………………………………………………… 8
Hình 6. Giao diện phần mềm thư điện tử Outlook Express ……………………………………. 18
Hình 7. Giao diện phần mềm thư điện tử Microsoft Outlook …………………………………. 18
Hình 8. Lược đồ khởi tạo proxy …………………………………………………………………………. 21
Hình 9. Lược đồ hoạt động của proxy server ……………………………………………………….. 22
vi

Hình 10. Lược đồ hoạt động của Proxy client ……………………………………………………… 23
Hình 11. Lược đồ hoạt động của module lọc theo đường lên ………………………………… 24
Hình 12. Lược đồ hoạt động của module lọc theo đường xuống ……………………………. 25
Hình 13. Phân loại thư rác áp dụng lược đồ liên kết Graham …………………………………. 37
Hình 14. Phân loại thư rác áp dụng lược đồ Central Limit …………………………………….. 38
Hình 15. Mô hình kết nối có hệ thống lọc thư tại nhà cung cấp dịch vụ ISP …………… 42
Hình 16. Mạng Bayesian tương ứng với (a); (b) …………………………………………………… 46
Hình 17. Phần trăm các ký tự đặc biệt chứa trong thư …………………………………………… 48
Hình 18. Kiến trúc mô hình hệ thống lọc thư ………………………………………………………. 48
Hình 19. Sơ đồ hoạt động của Qmail ………………………………………………………………….. 52
Hình 20. Mô hình hoạt động của Proxy SMTP …………………………………………………….. 54
Hình 21. Nguyên lý hoạt động của proxy server ………………………………………………….. 55
Hình 22. Mô hình giao tiếp thông qua proxy ……………………………………………………….. 55
Hình 23. Mô hình lọc thư điện tử thực nghiệm …………………………………………………….. 65
Hình 24. Cấu hình địa chỉ mạng ngoài ………………………………………………………………… 69
Hình 25. Cấu hình địa chỉ mạng trong ………………………………………………………………… 70
Hình 26. Cấu hình NAT ……………………………………………………………………………………. 71
Hình 27. Cấu hình địa chỉ mạng mail client ………………………………………………………… 72
Hình 28. Màn hình kết quả thực thi hệ thống thử nghiệm mFilter ………………………….. 74
DANH SÁCH BẢNG BIỂU
Bảng biểu 1. Danh sách các tập lệnh trong giao thức SMTP …………………………………… 5
Bảng biểu 2. Danh sách các tập lệnh trong giao thức POP ……………………………………… 8
Bảng biểu 3. Biểu đồ tỷ lệ máy chủ thư theo quốc gia …………………………………………. 11
Bảng biểu 4. Biểu đồ tỷ lệ máy chủ thư theo loại MTA ……………………………………….. 12
Bảng biểu 5. Biểu đồ tỷ lệ các Open Relay Server ………………………………………………. 12
Bảng biểu 6. Biểu đồ tỷ lệ các MTA bị chặn ………………………………………………………. 13
Bảng biểu 7. Biểu đồ tỷ lệ thư rác theo lĩnh vực ………………………………………………….. 13
Bảng biểu 8. Biểu đồ tỷ lệ thư rác của mỗi quốc gia ……………………………………………. 14
Bảng biểu 9. Biểu đồ tỷ lệ thư rác theo khu vực ………………………………………………….. 14
Bảng biểu 10. Bảng so sánh các công cụ lọc thư theo tính năng lọc ……………………… 33
Bảng biểu 11. Kết quả thử nghiệm lọc thư tiếng Việt …………………………………………. 74
Bảng biểu 12. Kết quả thử nghiệm lọc thư tiếng Anh …………………………………………. 74
Bảng biểu 13. Kết quả thử nghiệm lọc ảnh ……………………………………………………….. 74
Bảng biểu 1. Danh sách các tập lệnh trong giao thức SMTP …………………………………… 5
Bảng biểu 2. Danh sách các tập lệnh trong giao thức POP ……………………………………… 8
Bảng biểu 3. Biểu đồ tỷ lệ máy chủ thư theo quốc gia …………………………………………. 11
Bảng biểu 4. Biểu đồ tỷ lệ máy chủ thư theo loại MTA ……………………………………….. 12
Bảng biểu 5. Biểu đồ tỷ lệ các Open Relay Server ………………………………………………. 12
Bảng biểu 6. Biểu đồ tỷ lệ các MTA bị chặn ………………………………………………………. 13
vii

Bảng biểu 7. Biểu đồ tỷ lệ thư rác theo lĩnh vực ………………………………………………….. 13
Bảng biểu 8. Biểu đồ tỷ lệ thư rác của mỗi quốc gia ……………………………………………. 14
Bảng biểu 9. Biểu đồ tỷ lệ thư rác theo khu vực ………………………………………………….. 14
Bảng biểu 10. Bảng so sánh các công cụ lọc thư theo tính năng lọc ……………………… 33
Bảng biểu 11. Kết quả thử nghiệm lọc thư tiếng Việt …………………………………………. 73
Bảng biểu 12. Kết quả thử nghiệm lọc thư tiếng Anh …………………………………………. 73
Bảng biểu 13. Kết quả thử nghiệm lọc ảnh ……………………………………………………….. 73
viii

MỞ ĐẦU
Sự phát triển của Internet đã dần tạo ra định hướng số hóa nền kinh tế toàn cầu,
số hóa các hoạt động xã hội. Sự hội tụ Viễn thông – Tin học trong quá trình phát triền
đã khẳng định xu hướng trên và ngày càng ảnh hưởng mạnh mẽ đến tất cả các quốc
gia, khu vực. Điều đó cũng đem lại hàng loạt chuyển biến hiện đại hóa trong lĩnh vực
kinh tế, xã hội. Trong đó, dịch vụ thư điện tử đóng vai trò quan trọng không thể thiếu
được đối với các lĩnh vực đó. Thư điện tử tham gia vào hầu hết các hoạt động mạng:
thương mại điển tử, giải trí, điều hành doanh nghiệp, chính phủ điện tử…
Thư rác và mã độc hại phát tán qua thư rác gây tác hại quảng bá nội dung xấu,
mất thông tin cá nhân; lãng phí truyền thông; mặt khác lượng thư rác lớn khiến cho
người dùng chán ngán với dịch vụ hữu ích này. Nhu cầu sử dụng dịch vụ thư “an
toàn” và “tin cậy” (cá nhân, tổ chức, nhà cung cấp) trở thành nhu cầu cấp thiết.
Trong những năm gần đây, nghiên cứu phát triển hệ thống lọc nội dung áp dụng
cho trong vấn đề lọc chặn thư rác và quản lý nhận được sự quan tâm đặc biệt của cá
nhân, tổ chức ở hầu hết các quốc gia trên thế giới.
Tại Việt Nam, song song với cơ sở pháp lý do nhà nước ban hành nhằm ngăn
chặn thư rác; việc xây dựng giải pháp lọc thư điện tử dựa trên phân tích nội dung hiện
đang là mục tiêu nghiên cứu của nhiều cá nhân, tập thể và đây chính là mục tiêu của
luận văn này.
Nội dung của luận văn gồm có phần mở đầu, ba chương và phần kết luận:
Chương 1: Tổng quan về lọc thư điện tử theo phân tích nội dung.
Giới thiệu các khái niệm liên quan đến thư điện tử, giao thức mạng sử dụng trong
dịch vụ thư; tìm hiểu mô hình, thành phần tham gia quá trình lọc thư; tìm hiểu số liệu
thống kê liên quan đến vấn đề thư và thư rác; nghiên cứu các kỹ thuật áp dụng trong
lọc thư; so sánh các công cụ lọc thư, giải pháp lọc thư điển hình;
Chương 2: Mô hình lọc thư điện tử đề xuất
Đặt ra yêu cầu đối với mô hình lọc thư đề xuất; đề xuất mô hình lọc thư điện tử;
trình bày phương pháp lọc nội dung áp dụng mô hình phân loại bayesian; mô tả chi
tiết nguyên lý hoạt động và đặc tả các thành phần.
Chương 3: Thực nghiệm và đánh giá thực nghiệm
Xây dựng và thử nghiệm hệ thống thư điện tử và bộ lọc dựa trên mã nguồn mở;
đánh giá dựa trên kết quả thử nghiệm.
1

CHƯƠNG 1. TỔNG QUAN VỀ LỌC THƯ ĐIỆN TỬ
1.1. Khái niệm chung
1.1.1. Thư điện tử
Thư điện tử, hay email (electronic mail), là một hệ thống chuyển nhận thư từ qua
các mạng máy tính. Email là một phương tiện thông tin rất nhanh. Một mẫu thông tin
có thể được gửi đi ở dạng mã hoá hay dạng thông thường và được chuyển qua các
mạng máy tính đặc biệt là mạng Internet. Nó có thể chuyển mẫu thông tin từ một máy
nguồn tới một hay rất nhiều máy nhận trong cùng lúc.
Ngày nay, email chẳng những có thể truyền gửi được chữ, nó còn có thể truyền
được các dạng thông tin khác như hình ảnh, âm thanh, phim, và đặc biệt các phần
mềm thư điện tử kiểu mới còn có thể hiển thị các email dạng sống động tương thích
với kiểu tệp HTML.

Hình 1. Mô hình ứng dụng hệ thống thư điện tử
2

Phần mềm thư điện tử (email software) là loại phần mềm nhằm hỗ trợ cho người
dùng việc chuyển và nhận các văn bản (thường là dạng chữ). Thông tin có thể đưa
vào phần mềm thư điện tử bằng cách thông dụng nhất qua thiết bị ngoại vi như bàn
phím hay cách phương cách khác ít dùng hơn như là dùng máy quét hình (scanner),
dùng máy ghi hình số (digital camera) đặc biệt là các Web cam. Phần mềm thư điện
tử giúp đỡ cho việc tiến hành soạn thảo, gửi, nhận, đọc, in, xoá hay lưu giữ các thư.
Có loại phần mềm thư điện tử:
– Loại phần mềm thư điện tử được cài đặt trên từng máy tính của người dùng gọi
là email client, hay phần mềm thư điện tử dùng cho máy khách. Các loại phần mềm
này bao gồm: Microsoft Outlook, Microsoft Outlook Express, Netscape Comunicator,
hay Eudora. Các phần mềm thư điện tử này còn có tên là MUA (mail user agent).
– Loại phần mềm thư điện tử không cần phải cài đặt mà nó được cung ứng bởi
các máy chủ (Web server) trên Internet gọi là WebMail, hay phần mềm thư điện tử
qua Web. Để dùng được các phần mềm loại này người dùng chỉ cần có máy tính nối
vào mạng máy tính có các trình duyệt web tương thích với các nhà cung cấp dịch vụ
WebMail. Ví dụ mail.yahoo.com, hotmail.com, gmail.com,…
Nơi cung ứng phần mềm cũng như phương tiện chuyển thư điện tử gọi là nhà
cung ứng dịch vụ thư điện tử (email sevice provider). Máy tính đảm nhiệm vai trò
cung ứng các dịch vụ thư điện tử là MTA (mail transfer agent) hay là đại lý chuyển
thư.
Để gửi và nhận thư trên hệ thống mạng, người dùng phải đăng ký một tài khoản
với nhà cung cấp dịch vụ hay server cung cấp dịch vụ mail, khi đó mỗi tài khoản sẽ
được cấp một địa chỉ email cố định. Dựa vào các địa chỉ email các người dùng trên
mạng có thể gửi thư điện thử cho nhau khi ở bất kỳ vị trí nào trên mạng. Cấu trúc
chung của một địa chỉ email bao gồm ba phần chính có dạng
định_dạnh_email@tên_miền
– Phần định_dạnh_email: Đây là một dạng tên để cho người đọc thư có thể dễ
dàng nhận ra người gửi hay nơi gửi. Tuy nhiên, trong các thư điện tử người ta có thể
không cần cho tên định dạng và lá thư điện tử vẫn được gửi đi đúng nơi.
Ví dụ: Trong địa chỉ gửi thư tới viết dưới dạng Nguyễn Người Gửi
nguyennguoigui@yahoo.com hay viết dưới dạng nguyennguoigui@yahoo.com thì
phần mềm thư điện tử vẫn hoạt động chính xác và gửi đi đến đúng địa chỉ.
Phần tên_email: Đây là phần xác định hộp thư. Thông thường, cho dễ nhớ, phần
này hay mang tên của người chủ ghép với một vài kí tự đặc biệt. Phần tên này thường
do người đăng kí hộp thư điện tử đặt ra. Phần này còn được gọi là phần tên địa
phương.
3

Phần tên_miền: Đây là tên miền của nơi cung cấp dịch vụ thư điện tử. Ngay sau
phần tên_email bắt đầu bằng chữ “@” nối liền sau đó là tên miền.
Các trường có trong một bức thư điện tử:
To – đến: chứa địa chỉ của các người nhận.
CC (carbon copies) – Gửi kèm: đây là chỗ chứa thêm địa chỉ gửi kèm, ngoài địa
chỉ chính trong phần To bên trên. Các hộp thư nhận sẽ đọc được các địa chỉ người gửi
và các địa chỉ gửi kèm này.
BCC (blind carbon copies) – Gửi kèm kín: Đây cũng là chỗ ghi các địa chỉ mà lá
thư sẽ được gửi kèm tới, nhưng các địa chỉ này sẽ được dấu kín không cho những
người trong phần To hay phần CC biết là có sự đính kèm đến các địa chỉ nêu trong
phần BCC.
Subject – Đề mục: Chỗ này thường để tóm tắt ý chính của lá thư hay chỗ ghi
ngắn gọn điều quan trọng trong thư.
Body – Nội dung của bức thư.
Phương thức hoạt động của một hệ thống thư điện tử

Hình 2. Phương thức hoạt động của hệ thống thư điện tử
Hoạt động của hệ thống email hiện nay có thể dược minh họa qua phân tích một
thí dụ như sau:
Nguyễn dùng phần mềm thư điện tử (MUA) của mình để soạn một lá thư có địa
chỉ người nhận là Trần với địa chỉ là Tran@b.org. Nguyễn nhấn nút Send và phần
mềm thư điện tử của Nguyễn áp dụng SMPT để gửi mẫu thông tin (lá thư) đến MTA,
hay máy chủ thư điện tử, của Nguyễn. Trong thí dụ thì máy chủ này là smtp.a.org
được cung cấp từ dịch vụ Internet của Nguyễn.
4

MTA này sẽ đọc địa chỉ chỗ nhận (tran@b.org) và dựa vào phần tên miền nó sẽ
tìm hỏi địa chỉ của tên miền này, nơi có máy chủ sẽ nhận email gửi đến, qua Hệ thống
Tên miền.
Máy chủ DNS của b.org là ns.b.org sẽ trả lời về một bản ghi trao đổi thư từ, đây
là bảng ghi chỉ ra cách thức làm thế nào định tuyến cho email này. Trong thí dụ thì
mx.b.org là máy chủ từ dịch vụ cung ứng Internet của Trần.
smtp.a.org gửi mẫu thông tin tới mx.b.org dùng giao thức SMTP, điều này sẽ
phân phối lá thư đến hộp thư của Trần.
Khi đọc Trần ra lệnh nhận thư trên máy (MUA) của Trần, điều này tạo ra việc lấy
về mẫu thông tin bằng cách áp dụng giao thức POP3.
Trong trường hợp Nguyễn không có MUA mà chỉ dùng Webmail chẳng hạn thì
bước 1 sẽ không xảy ra tức là MTA của Nguyễn sẽ làm việc trực tiếp. Tưong tự cho
trường hợp Trần không có MUA riêng.
Trước đây, nếu một MTA không thể gửi tới đích thì nó có thể ít nhất ngừng lại ở
chỗ gần với chỗ nhận. Sự ngừng này sẽ tạo cơ hội để máy đích có thể nhận về các
mẫu thông tin trong thời gian trễ hơn. Nhiều MTA sẽ chấp nhận tất cả mẫu thông tin
từ người gửi bất kì và tìm mọi cách để phân nó về đến máy đích. Những MTA như
vậy gọi là những ngưng đọng thư mở (open mail relays). Điều này khá cần thiết vì sự
chất lượng liên lạc của hệ thống Internet lúc đó còn yếu.
1.1.2. Các giao thức sử dụng trong hệ thống thư điện tử
Hệ thống thử điện tử được xây dựng dựa trên một số giao thức sau:
Simple Mail Transfer Protocol (SMTP),
Post Office Protocol (POP),
Multipurpose Internet Mail Extensions (MIME),
Interactive Mail Access Protocol (IMAP).
a. Giao thức truyền thư – SMTP
Giao thức truyền thư đơn giản (Simple Mail Transfer Protocol – SMTP) là giao
thức tin cậy chịu trách nhiệm phân phát thư điện tửl, nó chuyển thư từ hệ thống mạng
này sang hệ thống mạng khác, chuyển thư trong hệ thống mạng nội bộ.
Giao thức SMTP được định nghĩa trong RFC 821, là một dịch vụ ở tầng giao vận
dựa trên các kết nối tin cậy, hướng kết nối (connection-oriented) được cung cấp bởi
giao thức TCP (Transmission Control Protocol), nó sử dụng số hiệu cổng (well-
known port) 25. Sau đây là danh sách các tập lệnh trong giao thức SMTP.
5

Lệnh Cú pháp Chức năng
Recipient RCPT TO: Địa chỉ người nhận
Data DATA Bắt đầu gửi thông điệp
Reset RSET Huỷ bỏ thông điệp
Verify VRFY Kiểm tra username
Expand EXPN Mở rộng danh sách mail
Help HELP [string] Yêu cầu giúp đỡ
Quit QUIT Kết thúc phiên giao dịch SMTP
Bảng biểu 1. Danh sách các tập lệnh trong giao thức SMTP
Để sử dụng các lệnh SMTP ta dùng lệnh telnet theo port 25 trên hệ thống ở xa
sau đó gửi thư thông qua cơ chế dòng lệnh. Kỹ thuật này được sử dụng để kiểm tra hệ
thống SMTP Server, nhưng điều chính yếu ở đây là chúng ta sử dụng SMTP để minh
hoạ làm cách nào thư được gửi qua các hệ thống khác nhau. Trong ví dụ sau minh
hoạ quá trình gửi thư thông qua cơ chế dòng lệnh SMTP.

Hình 3. Ví dụ kiểm tra giao thức SMTP
Ngoài ra còn có một số lệnh khác như: SEND, SOML, SAML, và TURN được
định trong RFC 821 là những câu lệnh tuỳ chọn và không được sử dụng thường
xuyên.
6

Lệnh HELP in ra tóm tắt các lệnh được thực thi. Ví dụ ta dùng lệnh HELP RSET
chỉ định các thông tin được yêu cầu khi sử dụng lệnh RSET, Lệnh VRFY và EXPN
thì hữu dụng hơn nhưng nó thường bị khoá vì lý do an ninh mạng bởi vì nó cung cấp
cho người dùng chiếm dụng băng thông mạng. Ví dụ lênh EXPN yêu cầu liệt kê ra
danh sách địa chỉ email nằm trong nhóm thư Admin. Lệnh VRFY để lấy các thông tin
cá nhân của một tài khoản nào đó, ví dụ lệnh VRFY.
SMTP là hệ thống phân phát thư trực tiếp từ đầu đến cuối (từ nơi bắt đầu phân
phát cho đến trạm phân phát cuối cùng), điều này rất hiếm khi sử dụng. Hầu hết các
hệ thống thư sử dụng giao thức store and forward như UUCP và X.400, hai giao thức
này di chuyển thư đi qua mỗi hop, nó lưu trữ thông điệp tại mỗi hop và sau đó chuyển
tới hệ thống tiếp theo, thông điệp được chuyển tiếp cho tới khi nó tới hệ thống phân
phát cuối cùng.
Trong hình sau minh hoạ cả hai kỹ thuật store and forward và phân phát trực tiếp
tới hệ thống thư. Địa chỉ UUCP chỉ định đường đi mà thư đi qua để tới người nhận,
trong khi đó địa chỉ thư SMTP ngụ ý là hệ thống phân phát sau cùng.

Hình 4. Sơ đồ phân phối thư.
Phân phát trực tiếp (Direct delivery) cho phép SMTP phân phát thư mà không dự
vào host trung gian nào. Nếu như SMTP phân phát bị lỗi thì hệ thống cục bộ sẽ thông
báo cho người gửi hay nó đưa thư vào hàng đợi thư để phân phát sau. Bất lợi của việc
phân phát trưc tiếp (direct delivery) là nó yêu cầu hai hệ thống cung cấp đầu đủ các
thông tin điều khiển mail, một số hệ thống không thể điều khiển thư như PC, các hệ
thống mobile như laptops, những hệ thống này thường tắt máy vào cuối ngày hay
thường xuyên không trực tuyến (mail offline). Để điều khiển những trường hợp này

Tác giả

Đỗ Đức Nam

Nhà xuất bản

ĐHCN

Năm xuất bản

2009

Người hướng dẫn

Nguyễn Ngọc Hóa

Định danh

V_L0_02727

Kiểu

text

Định dạng

text/pdf

Chủ đề

An toàn dữ liệu,Hệ thống thông tin,Thư điện tử

Nhà xuất bản

Khoa công nghệ thông tin,

Trường đại học Công nghệ

Các đánh giá

Hiện chưa có đánh giá cho sản phẩm.

Hãy là người đầu tiên đánh giá “Giải pháp lọc thư điện tử theo phân tích nội dung”

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *