Bài giảng Báo cáo: Phân tích quá trình khai phá dữ liệu
NỘI DUNG CỦA ĐỀ TÀI GỒM 4 PHẦN
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU
PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
PHẦN 4: CÁC ỨNG DỤNG TIỀM NĂNG
u hoặc trong các loại lưu trữ thông tin khác.Giao diện đồ hoạ cho người dùngĐánh giá mẫuMáy khai phá dữ liệuMáy chủ cơ sở dữ liệu hay kho DLLàm sạch và tích hợp dữ liệuCơ sở dữ liệuKho dữ liệuCơ sở tri thứcKIẾNTRÚC CỦA MỘTHỆKHAIPHÁĐIỂNHÌNHHình 1:PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆUDATA MINING: KHAI PHÁ DỮ LIỆUTrong đó: Máy chủ CSDL hay kho dữ liệu: Máy chủ này có trách nhiệm lấy được Những dữ liệu thích hợp dựa trên yêu cầu khai phá của người dùng. Cơ sở tri thức: Là miền tri thức được dùng để tìm kiếm hay dánh giá độ quantrọng của các hình mẫu kết quả. Máy khai phá dữ liệu: Là tập các modun để thực hiện công việc. Đánh giá mẫu: Bộ phận này tương tác với các modun khai phá dữ liệuđể tập trung vào việc duyệt tìm các mẫu được quan tâm. Giao diện đồ hoạ cho người dùng: Bộ phận này cho phép người dùng giao tiếpvới hệ thống khai phá dữ liệu. PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆUDATA MINING: KHAI PHÁ DỮ LIỆUCung cấp hỗ trợ ra quyết địnhDự báoKhái quát dữ liệu3.Lợi ích của khai phá dữ liệu?PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆUDATA MINING: KHAI PHÁ DỮ LIỆU4. Quá trình phát triển của cơ sở dữ liệú dữ liệu dẫn đến sự phát triển của Khai phá dữ liệu.Nh÷ng n¨m 1960: TËp hỵp D÷ liƯu, sù t¹o thµnh c¬ së d÷ liƯu, IMS vµ m¹ng DBMS.Nh÷ng n¨m 1970: M« h×nh d÷ liƯu cã quan hƯ, sù thi hµnh DBMS cã quan hƯNh÷ng n¨m 1980: RDBMS, tr¶ tríc cho d÷ liƯu nh÷ng m« h×nh ( Më réng - cã quan hƯ, OO, suy diƠn.) DBMS híng øng dơng ( Kh«ng gian, khoa häc, kü nghƯ)Nh÷ng n¨m 1990: Khai má D÷ liƯu, sù lu kho D÷ liƯu, nh÷ng c¬ së d÷ liƯu ®a ph¬ng tiƯn, vµ nh÷ng c¬ së d÷ liƯu M¹ngNh÷ng n¨m 2000: Qu¶n lý vµ khai má d÷ liƯu dßng khai má D÷ liƯu víi mét sù ®a d¹ng (cđa) nh÷ng øng dơng.PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆUDATA MINING: KHAI PHÁ DỮ LIỆUPHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆUDATA MINING: KHAI PHÁ DỮ LIỆUPHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆUTổng quát chung nhiệm vụ của một hệ khai phá dữ liệu có thể được phân chia thành 2 loại: Mô tả và Dự đoán.Mô tả là biểu thị các đặc điểm chung của dữ liệu trongCSDL.Dự đoán nhằm thực hiện suy luận trên dữ liệu hiện có để đưa ra dự đoán.DATA MINING: KHAI PHÁ DỮ LIỆUCác chức năng này được thể hiện qua1.Đặc trưng hóa và phân biệt: Đặc trưng hoálà việc tổng kết toàn bộ các đặc điểm hay các tính chấtchung của một lớp dữ liệu đích. Dữ liệu đó tương ứng với một lớp dongườidùng đặc tả bằng một câu truy vấn CSDLCó một số phương phát để tổng kết và biểu thị đặc trưng dữ liệu một cách hiệu quả. Chẳng hạn thao tác rool-up của hệ phân tích trựctuyến(OLAP) dữ liệu dạng khốicó thể được dùng để thực hiện tổng kết theo một chiều cụthể dưới sự điều khiển của người dùng.Dữ liệu trả về của quá trình đặc trưng hoá có thể được biểu diễn những khuôn dạng khác nhau.PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆUDATA MINING: KHAI PHÁ DỮ LIỆU2. Phân tích sự kết hợpLà khám phá ra các luật kết hợp trong một tập lớn dữ liệu. Các luật kết hợp thể hiện mối quan hệ giữa các giá trị thuộc tính mà ta nhận thấy đựơc từ tần suất xuất hiện cùng với nhau.Các luật kết hợp được khám phá từ một tập lớn các bản ghi giao dịch trong kinh doanh và những luật có ý nghĩa có thể giúp cho các nhà doanh nghiệp ra quyết định.PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆUDATA MINING: KHAI PHÁ DỮ LIỆUPHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU3. Phân lớp và dự đoánPhân lớp là quá trình tìm một tập các mô hình(hoặc các chức năng) mô tả và phân biệt các lớp dữ liệu. Các mô hình này sẽ được sử dụng cho mục đích dự đoán về lớp của một số đối tượng.Việc xây dụng mô hình dựa trên sự phân tích một tập các dữ liệu huấn luyện.một mô hình như vậy có thể được biểu diễn trongnhiều dạng: luật phân lớp(ÌF-THEN),cây quyết định,công thức toán hay mạng nơronSự dự đoán cũng bao gồm việc xác định khuynh hướng phân loại dựa trên những dữ liệu hiện có.Để phân lớp và dự đoán,có thể cần thực hiện trước một sự phân tích thích hợp. Sự phân tích đó nhằm xác định những thuộc tính không tham gia vào quá trình phân lớp và dự đoán,chúng sẽ bị loại trừ sau bước này.DATA MINING: KHAI PHÁ DỮ LIỆUPHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU4. Phân cụmKhông giống như phân lớp và dự đoán,phân cụm sẽ phân tích các đôi tượng dữ liệu khi chưa biết nhãn của lớp,nghĩa là nhãn lớp không tồn tạitrong quá trình huấn luyện dữ liệu.Phân cụm có thể được sử dụng để đưa ra những nhãn lớp.Sự phân cụm có mục đích nhóm các đối tượng lại theo nguyên tắc: Các đối tượng trong cùng một nhóm giống nhau ở mức cao nhất và các đối tượng khác nhóm có mức giống nhau ít nhất.DATA MINING: KHAI PHÁ DỮ LIỆUPHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU5. Phân tích phần tử ngoài cuộcMột cơ sở dữ liệu có thể chứa các đối tượng dữ liệu không tuân theo mô hình dữ liệu.những đối tượng như vậy gọi là phần tử ngoài cuộc.Hầu hết các phương pháp khai phá dữ liệu đêu coi phần tử ngoài cuộc lànhiễu và loại bỏ chúng. Tuy nhiên trong một số ứng dụng nào đó như phát hiện nhiễu chẳng hạn,các sựviệc hiếm khi xảy ra lại được quan tâmhơn những gì thường xuyên gặp phải.Sự phân tích dữ liệu ngoài cuộc xem như là sự khai phá các phần tử ngoàicuộc. DATA MINING: KHAI PHÁ DỮ LIỆUCó một số phương pháp để phát hiện phần tử ngoài cuộc:Dùng các test mang tính thống kê trên cơ sở một giả thiết về phân phối dữ liệu hay một mô hình xác suất cho dữ liệu.Dùng các độ đo khoảng cách,theo đó các đối tượng có một khoảng cách đáng kểđến cụm bất kì khác được xem là phần tử ngoài cuộc.Dùng các phương pháp dựa trên độ lệch để kiểm tra sự khác nhau trong nhữngđặc trưng chính của các đối tượng trong một nhóm.PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆUDATA MINING: KHAI PHÁ DỮ LIỆUPHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆUDATA MINING: KHAI PHÁ DỮ LIỆUVới hai đích chính của khai phá dữ liệu là Dự đốn (Prediction) và Mơ tả (Description), người ta thường sử dụng các phương pháp sau cho khai phá dữ liệu:-Phân loại (Classification): Kh¸m ph¸ (cđa) mét ®o¸n tríc häc hµm mµ Ph©n lo¹i mét tiÕt mơc d÷ liƯu vµo trong mét trong sè vµi líp ®Ỉt s½n. - Hồi qui (Regression): Kh¸m ph¸ (cđa) mét sù dù ®o¸n häc hµm, mµ vÏ b¶n ®å mét tiÕt mơc d÷ liƯu tíi mét biÕn dù ®o¸n gi¸ trÞ thùc tÕ. - Phân nhĩm (Clustering):Mét nhiƯm vơ miªu t¶ chung mµ trong (c¸i) ®ã Mét t×m kiÕm ®Ĩ x¸c ®Þnh Mét tËp hỵp h÷u h¹n (cđa) nh÷ng ph¹m trï hoỈc nh÷ng bã m« t¶ d÷ liƯu. - Tổng hợp (Summarization): Mét nhiƯm vơ miªu t¶ bỉ sung mµ kÐo theo nh÷ng ph¬ng ph¸p ®Ĩ t×m thÊy mét sù m« t¶ gän cho mét tËp hỵp ( HoỈc TËp con) (Cđa) d÷ liƯu. PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU DATA MINING: KHAI PHÁ DỮ LIỆU-Mơ hình ràng buộc (Dependency modeling): KÕt qu¶ t×m kiÕm (mµ) mét ®Þa ph¬ng m« h×nh mµ m« t¶ nh÷ng PhÇn phơ thuéc quan träng gi÷a nh÷ng biÕn hoỈc gi÷a nh÷ng gi¸ trÞ (cđa) mét ®Ỉc tÝnh trong mét tËp hỵp d÷ liƯu hoỈc trong mét tËp hỵp bé phËn cđa mét d÷ liƯu. - Dị tìm biến đổi và độ lệch (Change and Deviation Dectection): ViƯc kh¸m ph¸ (c¸i) quan träng nhÊt thay ®ỉi trong tËp hỵp d÷ liƯu. PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU DATA MINING: KHAI PHÁ DỮ LIỆU-Quan hệ Giao tác Huớng đối tượngHuớng đối tượng, quan hệActiveKhơng gianThời gian Text, XMLMulti-mediaHeterogeneousLegacyInductiveWWWetc.Những CSDL cần khai pháPHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆUTiến trình khai phá dữ liệu(1)Nghiên cứu lĩnh vực Rút gọn / chiều Tạo tập dữ liệu đầu vào Tiền xử lý/ làm sạch, mã hĩaChọn tác vụ Khai thác dữ liệuPHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆUChọn các thuật giải KTDLBiểu diễn tri thức KTDL: Tìm kiếm tri thứcĐánh giá mẫu tìm được Sử dụng các tri thức vừa khám phá Tiến trình khai phá dữ liệu(2)PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆUDATA MINING: KHAI PHÁ DỮ LIỆUPHẦN 4: CÁC ỨNG DỤNG TIỀM NĂNGDATA MINING: KHAI PHÁ DỮ LIỆUPHẦN 4: CÁC ỨNG DỤNG TIỀM NĂNGPhân tích và quản lý thị trường Quản lý và phân tích rủi ro Quản lý và phân tích các sai hỏngKhai thác WebKhai thác văn bản (text mining)Etc. DATA MINING: KHAI PHÁ DỮ LIỆUCác cơ sở dữ liệu lớn- Số chiều lớn - Thay đổi dữ liệu và tri thức cĩ thể làm cho các mẫu đã phát hiện khơng cịn phù hợp.- Dữ liệu bị thiếu hoặc nhiễu- Quan hệ giữa các trường phức tạp- Giao tiếp với người sử dụng và kết hợp với các tri thức đã cĩ.- Tích hợp với các hệ thống khác...PHẦN 4: CÁC ỨNG DỤNG TIỀM NĂNGBên cạnh những úng dụng tiềm năng quan trọng đó,khai phá dữ liệu cònđứng trước những thách thức như:.DATA MINING: KHAI PHÁ DỮ LIỆUTãm lỵcKhai phá dữ liệu : ViƯc kh¸m ph¸ thĩ vÞ t¹o mÉu tõ nh÷ng sè lỵng lín (cđa) D÷ liƯuMét sù tiÕn hãa tù nhiªn (cđa) c«ng nghƯ c¬ së d÷ liƯu, trong lín yªu cÇu, víi nh÷ng øng dơng réng.Mét qu¸ tr×nh KDD bao gåm sù dän dĐp d÷ liƯu,sù hỵp nhÊt d÷ liƯu,sù chän läc d÷ liƯu, sù biÕn ®ỉi, khai má d÷ liƯu, sù ®¸nh gi¸ mÉu, vµ sù biĨu diƠn kiÕn thøcKhai phá thĨ ®ỵc thùc hiƯn trong mét sù ®a d¹ng (cđa) nh÷ng kho chøa th«ng tin.Nh÷ng tÝnh ho¹t ®éng khai phá D÷ liƯu : Sù ®Ỉc trng, sù ph©n biƯt, hiƯp héi, sù ph©n lo¹i, sù xÕp nhãm, sù ph©n tÝch ngoµi vµ khuynh híngv.v..DATA MINING: KHAI PHÁ DỮ LIỆUĐỀ TÀI CỦA NHÓM 2 ĐẾN ĐÂY XIN KẾT THÚC !MỘT LẦN NỮA THAY MẶT NHÓM TÔI XIN CHÂN THÀNH CẢM ƠN THẦY CÔ VÀ CÁC BẠN Đà NHIỆT TÌNH ỦNG HỘ XIN CHÂN THÀNH CẢM ƠN !
File đính kèm:
- Qua trinh khai pha du lieu.ppt