Đồ án Ứng dụng phương pháp phân loại văn bản Naive Bayes vào việc xây dựng chương trình mail client với khả năng lọc thư rác tự động - Phạm Thị Thơm

NỘI DUNG BÁO CÁO

Tổng quan về thư rác và sự cần thiết phải lọc thư rác.

Giải thuật phân loại văn bản Naive Bayes.

Các giao thức truyền nhận mail và ngôn ngữ lập trình java.

Các tính năng và kết quả thực thi chương trình.

Nhận xét và hướng phát triển chương trình.

Kết luận.

 

ppt26 trang | Chia sẻ: hienduc166 | Lượt xem: 1472 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Đồ án Ứng dụng phương pháp phân loại văn bản Naive Bayes vào việc xây dựng chương trình mail client với khả năng lọc thư rác tự động - Phạm Thị Thơm, để xem tài liệu hoàn chỉnh bạn click vào nút TẢI VỀ ở trên
Đề tài : Ứng dụng phương pháp phân loại văn bản Naive Bayes vào việc xây dựng chương trình mail client với khả năng lọc thư rác tự độngGiáo viên hướng dẫn : PGS.TS Nguyễn Đăng Tộ KS Nguyễn Mạnh Hiển Sinh viên thực hiện : Phạm Thị Thơm Lớp : 43THTRƯỜNG ĐẠI HỌC THỦY LỢIKHOA CÔNG NGHỆ THÔNG TINNHIỆM VỤ ĐỒ ÁNXây dựng một chương trình mail client hoàn chỉnh với khả năng lọc thư rác tự động bằng giải thuật phân loại văn bản Naive Bayes.1Nghiên cứu giải thuật phân loại văn bản Naive Bayes. Ứng dụng giải thuật đó cho phân loại thư rác.2Sử dụng các giao thức truyền nhận mail SMTP(truyền mail), POP3, IMAP4(nhận mail).3Cài đặt chương trình bằng ngôn ngữ java cho ứng dụng mail client chạy trên các máy khách.4NỘI DUNG BÁO CÁOTổng quan về thư rác và sự cần thiết phải lọc thư rác.Giải thuật phân loại văn bản Naive Bayes.Các giao thức truyền nhận mail và ngôn ngữ lập trình java.Các tính năng và kết quả thực thi chương trình.Nhận xét và hướng phát triển chương trình.Kết luận.TỔNG QUAN VỀ THƯ RÁCThư rác(spam) đang là một vấn nạn lớn với người sử dụng Email hiện nay. Con số thống kê về sự tăng trưởng của spam:Những người sử dụng email nhận được khoảng 110 bức thư không mong muốn hàng tuần.Hàng ngày có hơn 50% thư điện tử được gửi đi là thư rác.Radicati Group dự đoán rằng tỉ lệ spam sẽ chiếm 70% tổng số mail vào năm 2007 0770GIẢI THUẬT NAIVE BAYESNaive Bayes coi xác suất xuất hiện của các từ trong một văn bản là độc lập thống kê. Cơ sở của phương pháp này dựa trên định lí Bayes trong xác suất. Cần tính xác suất để một văn bản rơi vào các lớp văn bản khác nhau.Tài liệu cần phân loại sẽ được gán cho lớp văn bản nào có xác suất lớn nhất. CÔNG THỨC TÍNH XÁC SUẤT CỦA GIẢI THUẬT BAYES Xác suất để một tài liệu di thuộc vào lớp văn bản ck Xác suất hậu nghiệm cao nhấtLớp của di =CÔNG THỨC NAIVE BAYES CHO PHÂN LOẠI EMAILÝ tưởng dựa trên xác suất xuất hiện của một từ hay cụm từ trên một lớp mail.Xác suất một email là thư rác: Trong đó : c1 là lớp thư rác, c2 là lớp thư hợp lệx là một email bất kìCông thức tính P(x|ci)P(x|ci) = P(w1|ci)*P(w2|ci)**P(wn|ci)Trong đó: 	P(wk|ci) là xác suất xuất hiện của từ wk trong lớp văn bản ci (k=1n; i=1,2) 	BIỂU DIỄN TỪ KHÓA (ĐẶC TRƯNG)contentĐếm và loại spamwordLoại stopwordTách từ đơnTập từ khóa (đặc trưng)sendersubjectcontentTập spamwordKẾT HỢP PHÂN LOẠI THƯ RÁC THEO TIÊU ĐỀ VÀ ĐỊA CHỈKhả năng của một email là thư rác là: Nếu xác suất Bayes tính được vượt quá ngưỡng đặt ra (xác suất kinh nghiệm). Tiêu đề của email nằm trong tập tiêu đề thư rác. Địa chỉ người gửi email nằm trong danh sách địa chỉ của những người gửi thư rác. GIỚI THIỆU VỀ CÁC GIAO THỨC CHUYỂN NHẬN MAIL SMTP: Chuyển thư từ client đến server hoặc giữa các server với nhau. POP3: Lấy thư từ server về client. IMAP4: Lấy thư từ server về client nhưng vẫn để lại một bản sao trên server.MÔ HÌNH GỬI NHẬN THƯ ĐIỆN TỬSMTPSMTPPOP3POP3User 1User 2Gửi nhận thư qua InternetSƠ ĐỒ LỌC THƯ RÁC BẰNG GIẢI THUẬT NAIVE BAYESSPAMHAMBayes filterMô hình lọc thư kết hợpCHƯƠNG TRÌNH MAIL CLIENT Được viết bằng ngôn ngữ Java Giao diện thân thiện dễ sử dụng Các chức năngChức năng của một MailClientChức năng lọc thư rácNHỮNG KẾT QUẢ ĐẠT ĐƯỢC Chương trình thực thi trên máy khách hỗ trợ đầy đủ các giao thức cơ bản về mail là SMTP, POP3, IMAP4. Thông tin về người sử dụng được mã hóa đảm bảo tính bảo mật cao. Chương trình chạy trên mọi hệ điều hành khác nhauCÁC CHỨC NĂNG CỦA MỘT MAIL CLIENT Nhận, gửi và đọc email Các chức năng trả lời, chuyển tiếp, sao chép, xoá, di chuyển, một email Chức năng tạo sổ địa chỉ Chức năng cấu hình lại cơ sở dữ liệu Chức năng thay đổi giao diện của hệ thống và một số chức năng khácCHỨC NĂNG LỌC THƯ RÁC Lọc thư rác bằng giải thuật Naive Bayes Lọc thư rác theo tiêu đề Lọc thư rác theo địa chỉ ỨNG DỤNG CHƯƠNG TRÌNH TRONG HỆ THỐNG WRU Hệ thống mail.wru.edu.vn là hệ thống mail của trường Đại Học Thủy Lợi Giao thức sử dụng để gửi thư : SMTP Giao thức nhận thư : POP3 Máy chủ mailserver : mail.wru.edu.vn Hòm thư thử nghiệm : thompt@.wru.edu.vn GIAO DIỆN CHÍNH CỦA CHƯƠNG TRÌNHCHỨC NĂNG CẤU HÌNH LẠI DỮ LIỆUMENU CHỨA CÁC TÙY CHỌN LỌC THƯ RÁC CHỨC NĂNG TẠO SỔ ĐỊA CHỈHẠN CHẾ VÀ HƯỚNG PHÁT TRIỂN Hiện tại chương trình mới thử nghiệm trên các hòm thư của wru. Tiếp tục hoàn thiện chương trình để ứng dụng cho các dịch vụ thư điện tử hiện nay.Xét đến nội dung của các file đính kèm khi phân loại thư rác.Xây dựng bộ lọc Bayes trên Mail server để phục vụ đa người dùng.LỜI CẢM ƠNEm xin chân thành cảm ơn PGS.TS Nguyễn Đăng Tộ, KS Nguyễn Mạnh Hiển đã nhiệt tình giúp đỡ em trong suốt thời gian hoàn thành đồ án.Xin cảm ơn ThS Nguyễn Thanh Tùng, KS Bùi Văn Huyến và Trung tâm Tin học đã tạo điều kiện giúp đỡ em về máy móc và kĩ thuật để em hoàn thành đồ án.Cảm ơn gia đình và bạn bè đã giúp đỡ em cả về vật chất lẫn tinh thần trong suốt thời gian qua.Xin chân thành cảm ơn thầy cô và các bạn đã chú ý lắng nghe!

File đính kèm:

  • pptUng dung phuong phap phan loai van ban Naive Bayes vao viec xay dung chuong trinh mail client voi kh.ppt