0% found this document useful (0 votes)

9 views94 pages

Nhom 6 KHDL

idk

Uploaded by

trangle.31231026375

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

9 views94 pages

Nhom 6 KHDL

idk

Uploaded by

trangle.31231026375

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 94

ĐẠI HỌC KINH TẾ TP.

HỒ CHÍ MINH
TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ
KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH
BỘ MÔN CÔNG NGHỆ THÔNG TIN

BÁO CÁO ĐỒ ÁN HỌC PHẦN

KHOA HỌC DỮ LIỆU

Đề tài: CHIẾN LƯỢC GIỮ CHÂN KHÁCH HÀNG TRONG LĨNH VỰC VIỄN
THÔNG DỰA TRÊN VIỆC PHÂN TÍCH, DỰ ĐOÁN BỘ DỮ LIỆU TELCO
CUSTOMER CHURN

GVHD: TS.GVC Nguyễn Quốc Hùng

Nhóm thực hiện: Nhóm 06

Giao Trần Cát My (Trưởng nhóm)
Lê Thị Như Trang
Bùi Nhật Phương
Bùi Thị Thanh Ngân
Nguyễn Đinh Hân

TP. Hồ Chí Minh, Tháng 9/2024

MỤC LỤC
DANH MỤC HÌNH ẢNH.........................................................................................................4
DANH MỤC BẢNG BIỂU.......................................................................................................7
DANH MỤC TỪ VIẾT TẮT.....................................................................................................9
LỜI MỞ ĐẦU. ..........................................................................................................................9
LỜI CẢM ƠN..........................................................................................................................10
BẢNG PHÂN CÔNG CÁC THÀNH VIÊN...........................................................................10
CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI.............12
1.1 GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU.....................................................................12
1.1.1 Khái niệm dữ liệu...................................................................................................12
1.1.2 Sự phát triển của Khoa học dữ liệu........................................................................12
1.1.3 Ứng dụng tiêu biểu của Khoa học dữ liệu..............................................................13
1.2 GIỚI THIỆU ĐỀ TÀI....................................................................................................14
1.2.1 Lý do chọn đề tài:...................................................................................................14
1.2.2 Mục tiêu nghiên cứu:..............................................................................................15
1.2.3 Đối tượng và phạm vị nghiên cứu:.........................................................................15
CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP
SỬ DỤNG................................................................................................................................16
2.1 CÁC PHƯƠNG PHÁP CỦA EXCEL DÙNG ĐỂ KHAI PHÁ DỮ LIỆU...................16
2.1.1 Excel là gì?.............................................................................................................16
2.1.2 Phương pháp Thống kê mô tả.................................................................................16
2.1.1.1 Thống kê mô tả bằng công cụ Descriptive Statistics......................................17
2.1.2.2 Báo cáo tổng hợp nhóm với Subtotal..............................................................18
2.1.3 Phương pháp Phân tích tối ưu................................................................................25
2.1.4 Phương pháp Phân tích dự báo/dự đoán.................................................................29
2.1.4.1 Phương pháp Trung bình trượt (Moving Average):........................................29
2.1.4.2 Phương pháp San bằng mũ (Exponential Smoothing)....................................30
2.1.4.3 Phương pháp Hồi quy (Regression)................................................................31
2.2 PHẦN MỀM ORANGE................................................................................................36
2.2.1 Tổng quát về Orange..............................................................................................36
2.2.1.1 Giới thiệu về Orange.......................................................................................36
2.2.1.2 Các tính năng của Orange...............................................................................37

1
Báo cáo đồ án học phần Khoa học dữ liệu
2.2.2 Phương pháp phân lớp dữ liệu................................................................................40
2.2.2.1 Định nghĩa.......................................................................................................40
2.2.2.2 Một số phương pháp phân lớp dữ liệu............................................................43
2.2.2.3 Các phương pháp đánh giá mô hình phân lớp.................................................45
2.2.3 Phương pháp phân cụm dữ liệu..............................................................................50
2.2.3.1 Định nghĩa phân cụm dữ liệu..........................................................................50
2.2.3.2 Đặc điểm của phân cụm dữ liệu.....................................................................51
2.2.3.3 Một số phương pháp phân cụm dữ liệu...........................................................51
2.2.3.4 Các phương pháp đánh giá phân cụm dữ liệu.................................................53
2.2.3.5 Ứng dụng điển hình của phương pháp phân cụm:..........................................53
CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ....................54
3.1 PHÂN TÍCH BỘ DỮ LIỆU TELCO CUSTOMER CHURN.......................................54
3.1.1 Tiền xử lý dữ liệu...................................................................................................54
3.1.2 MÔ TẢ TỔNG QUÁT DỮ LIỆU..........................................................................55
3.1.3. Thống kê mô tả......................................................................................................57
3.2 PHÂN LỚP DỮ LIỆU...................................................................................................80
3.2.1 Một số phương pháp phân lớp dữ liệu....................................................................80
3.2.2 Thực hiện lựa chọn mô hình dự báo phù hợp.........................................................80
3.2.2.1 Bước 1: Xây dựng mô hình.............................................................................80
3.2.2.2 Bước 2: Sử dụng mô hình...............................................................................83
3.2.3 Đánh giá kết quả mô hình.......................................................................................87
3.2.3.1 Kết quả phân tích Test and Score....................................................................87
3.2.3.2 Ma trận nhầm lẫn (Confusion Matrix):...........................................................88
3.2.4 Dự báo....................................................................................................................91
CHƯƠNG 4. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.....................................................93
4.1 NHỮNG CÔNG VIỆC ĐÃ THỰC HIỆN.....................................................................93
4.1.1 Tóm tắt....................................................................................................................93
4.1.2 Kết luận..................................................................................................................93
4.2 HƯỚNG PHÁT TRIỂN CÁC CHIẾN LƯỢC GIỮ CHÂN KHÁCH HÀNG TRONG
DỊCH VỤ VIỄN THÔNG...................................................................................................94
4.2.1. Phân tích các yếu tố chính dẫn đến việc ngừng sử dụng dịch vụ:.........................94
4.2.2. Phân tích hành vi sử dụng dịch vụ:........................................................................94

2
Báo cáo đồ án học phần Khoa học dữ liệu
4.2.3. Phân tích ảnh hưởng của thời hạn hợp đồng và dịch vụ đi kèm:...........................94
4.2.4. Tập trung vào trải nghiệm khách hàng:................................................................95
4.2.5. Phân tích sự khác biệt về phương thức thanh toán:...............................................95
4.2.6. Xây dựng hệ thống cảnh báo sớm (Early Warning System).................................95
4.2.7. Hành vi tư vấn, bán hàng của nhân viên:..............................................................95
4.3 HẠN CHẾ CỦA ĐỀ TÀI VÀ ĐỊNH HƯỚNG NGHIÊN CỨU TIẾP THEO..............96
TÀI LIỆU THAM KHẢO.....................................................................................................96

3
Báo cáo đồ án học phần Khoa học dữ liệu
DANH MỤC HÌNH ẢNH
Hình 2. 1. Hộp thoại Subtotal...................................................................................................18
Hình 2. 2. Hộp thoại Consolidate.............................................................................................20
Hình 2. 3. Hộp thoại Create PivotTable...................................................................................21
Hình 2. 4. Thay đổi tên Field...................................................................................................22
Hình 2. 5. Sắp xếp theo thứ tự..................................................................................................22
Hình 2. 6. Hộp thoại Value Field Settings thay đổi phép tổng hợp DL...................................23
Hình 2. 7. Khai báo các tham số của bài toán trên công cụ solver...........................................25
Hình 2. 8. Công thức tính phương pháp trung bình trượt........................................................27
Hình 2. 9. Công thức tính phương pháp san bằng mũ..............................................................28
Hình 2. 10. Kết quả hồi quy tuyến tính bằng đồ thị.................................................................31
Hình 2. 11. Hộp thoại Regression............................................................................................31
Hình 2. 12. Minh hoạ tính năng Data.......................................................................................34
Hình 2. 13. Minh hoạ tính năng Visualize...............................................................................34
Hình 2. 14. Minh hoạ tính năng Model....................................................................................35
Hình 2. 15. Minh hoạ tính năng Evaluate................................................................................35
Hình 2. 16. Minh hoạ tính năng Unsupervised........................................................................36
Hình 2. 17. Mô hình phân lớp dữ liệu......................................................................................36
Hình 2. 18. Mô hình biểu diễn xây dựng mô hình phân lớp....................................................37
Hình 2. 19. Mô hình phân lớp dữ liệu mới...............................................................................38
Hình 2. 20 Minh họa phương pháp Hồi quy logistic................................................................38
Hình 2. 21 Minh họa phương pháp Cây quyết định.................................................................39
Hình 2. 22 Các biến thể của SVM............................................................................................40
Hình 2. 23 Minh họa phương pháp SVM.................................................................................40
Hình 2. 24 Minh họa các phương pháp đánh giá mô hình phân lớp........................................41
Hình 2. 25 Minh họa một ma trận nhầm lẫn............................................................................42
Hình 2. 26 Minh họa đường cong ROC...................................................................................43
Hình 2. 27 Minh họa đường cong ROC và AUC.....................................................................43
Hình 2. 28 Minh họa cho phương pháp K-fold validation.......................................................44
Hình 2. 29 Minh hoạ phương pháp phân cụm trong Mining Data...........................................45
Hình 3. 1 Mô tả các bước thực hiện.........................................................................................49
Hình 3. 2. Mẫu dữ liệu Telco Customer Churn........................................................................50
Hình 3. 3. Biểu đồ thể hiện số lượng khách hàng theo quyết định dừng lại hoặc tiếp tục sử
dụng dịch vụ.............................................................................................................................52

4
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 3. 4. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo giới tính...........53
Hình 3. 5. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa trên tuổi tác......54
Hình 3. 6. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa trên partner.......55
Hình 3. 7. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo người phụ
thuộc.........................................................................................................................................56
Hình 3. 8. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo số năm gắn
bó..............................................................................................................................................57
Hình 3. 9. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo tỷ lệ sử
dụng điện thoại của khách hàng...............................................................................................58
Hình 3. 10. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại thông qua đường
dây............................................................................................................................................59
Hình 3. 11. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo nhà cung
cấp............................................................................................................................................60
Hình 3. 12. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo tỷ lệ sử
dụng dịch vụ bảo mật trực tuyến của khách hàng....................................................................61
Hình 3. 13. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo tỷ lệ sử
dụng dịch vụ sao lưu trực tuyến của khách hàng.....................................................................62
Hình 3. 14. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ bảo vệ
thiết bị.......................................................................................................................................63
Hình 3. 15. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ hỗ trợ
kỹ thuật.....................................................................................................................................64
Hình 3. 16. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ truyền
hình trực tuyến.........................................................................................................................65
Hình 3. 17. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ phim
trực tuyến..................................................................................................................................66
Hình 3. 18. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo thời hạn hợp
đồng..........................................................................................................................................67
Hình 3. 19. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo hóa đơn giấy..68
Hình 3. 20. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo phương thức
thanh toán.................................................................................................................................69
Hình 3. 21. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo phí hàng tháng
..................................................................................................................................................72
Hình 3. 22. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo chi phí tổng...73
Hình 3. 23. Cửa sổ File và bộ dữ liệu Telco Customer Churn.................................................74
Hình 3. 24. Bộ dữ liệu Telco Customer Churn........................................................................74
Hình 3. 25. Lấy mẫu dữ liệu huấn luyện trong Data Sampler..................................................75
Hình 3. 26. Thông tin của bộ dữ liệu Telco Customer Churn khi lấy 70%.............................75
Hình 3. 27. Lấy mẫu dữ liệu kiểm thử.....................................................................................76
Hình 3. 28. Kết quả ma trận nhầm lẫn của Hồi quy Logistic (Logistic Regression)...............82

5
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 3. 29. Kết quả ma trận nhầm lẫn của SVM (Support Vector Machines)........................82
Hình 3. 30. Kết quả ma trận nhầm lẫn của Cây quyết định (Tree Decision)...........................83
Hình 3. 31. Đường cong ROC với biến y là “No”...................................................................84
Hình 3. 32. Đường cong ROC với biến y là “Yes"..................................................................84
Hình 3. 33. Tập dữ liệu kiểm thử.............................................................................................85
Hình 3. 34. Mô hình dự báo dữ liệu.........................................................................................86
Hình 3. 35. Kết quả dự báo dữ liệu theo mô hình Hồi quy Logistic........................................86

DANH MỤC BẢNG BIỂU

Bảng 2. 1. Số liệu bán hàng trong 3 tháng tại siêu thị ABC và hộp thoại Descriptive
Statistics...................................................................................................................................16
Bảng 2. 2. Kết quả trả về của công cụ Descriptive Statistics...................................................17
Bảng 2. 3. Dữ liệu doanh số của các nhân viên.......................................................................17
Bảng 2. 4. Kết quả trả về của công cụ Subtotal.......................................................................18
Bảng 2. 5. Bảng dữ liệu doanh thu bán hàng từ ba bảng dữ liệu.............................................19
Bảng 2. 6. Kết quả trả về của công cụ Consolidate..................................................................20
Bảng 2. 7. Tổng hợp dữ liệu đa chiều với PivotTable.............................................................21
Bảng 2. 8. Bảng số liệu của dự án............................................................................................24
Bảng 2. 9 Thiết lập bảng tính trong excel................................................................................24
Bảng 2. 10. Kết quả bài toán giải bằng công cụ Solver...........................................................26
Bảng 2. 11. Báo cáo kèm theo lời giải.....................................................................................26
Bảng 2. 12. Dữ liệu cùng kết quả tại cột dự báo và hộp thoại Moving Average.....................27
Bảng 2. 13. Dữ liệu cùng kết quả dự báo và hộp thoại Exponential Smoothing.....................28
Bảng 2. 14. Dữ liệu và Hộp thoại Trendline Options..............................................................30
Bảng 2. 15. Kết quả phương pháp hồi quy bằng công cụ Regression......................................32
Bảng 2. 16. Hình ảnh phần mềm Orange.................................................................................33
Bảng 3. 1. Mô tả thuộc tính - Các biến trong bộ dữ liệu:.........................................................58
Bảng 3. 2. Bảng thống kê quyết định rời đi hoặc ở lại của khách hàng...................................58
Bảng 3. 3. Bảng thống kê số lượng nhân viên tiếp tục hay dừng lại theo giới tính.................59
Bảng 3. 4. Bảng thống kê số lượng nhân viên tiếp tục hay dừng lại dựa trên tuổi tác............60
Bảng 3. 5. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại dựa trên partner..........61
Bảng 3. 6. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo người phụ
thuộc.........................................................................................................................................62
Bảng 3. 7. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo số năm gắn bó.....64

6
Báo cáo đồ án học phần Khoa học dữ liệu
Bảng 3. 8. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo tỷ lệ sử dụng
điện thoại của khách hàng........................................................................................................65
Bảng 3. 9. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại thông qua đường dây. .66
Bảng 3. 10. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo nhà cung cấp
..................................................................................................................................................67
Bảng 3. 11. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo tỷ lệ sử dụng
dịch vụ bảo mật trực tuyến của khách hàng ............................................................................68
Bảng 3. 12. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo tỷ lệ sử dụng
dịch vụ sao lưu trực tuyến của khách hàng..............................................................................69
Bảng 3. 13. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ bảo vệ
thiết bị.......................................................................................................................................71
Bảng 3. 14. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ hỗ trợ kỹ
thuật..........................................................................................................................................72
Bảng 3. 15. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ truyền
hình trực tuyến.........................................................................................................................73
Bảng 3. 16. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ phim trực
tuyến.........................................................................................................................................74
Bảng 3. 17. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo thời hạn hợp
đồng..........................................................................................................................................76
Bảng 3. 18. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo hóa đơn giấy.....77
Bảng 3. 19. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo phương thức
thanh toán.................................................................................................................................78
Bảng 3. 20. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo phí hàng tháng
($).............................................................................................................................................79
Bảng 3. 21. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo chi phí tổng($). .80

7
Báo cáo đồ án học phần Khoa học dữ liệu
DANH MỤC TỪ VIẾT TẮT

STT Tên Diễn giải

VUCA là viết tắt của lần lượt các từ Volatility -

1 Thời đại VUCA Biến động, Uncertainty-Không chắc chắn,
Complexity-Phức tạp, và Ambiguity-Mơ hồ.

2 SVM Support Vector Machine

3 Area Under the Curve - Diện tích đường cong

AUC

Receiver Operating Characteristic - một đồ thị

4 ROC được sử dụng khá phổ biến trong đánh giá các
mô hình phân loại

5 AC Accuracy - Tính chính xác

6 F1 Giá trị trung bình điều hòa

7 TP True Positive - Số lượng dự đoán chính xác

True Negative - Số lương dự đoán chính xác

8 TN
một cách gián tiếp

False Positive (Type 1 Error) - Số lượng các dự

9 FP
đoán sai lệch

9 False Negative (Type 2 Error) - Số lượng các

10 FN
dự đoán sai lệch một cách gián tiếp

11 DSL

8
Báo cáo đồ án học phần Khoa học dữ liệu
LỜI MỞ ĐẦU

Dưới tác động mạnh mẽ của kỷ nguyên số hóa như hiện nay, dữ liệu và nghiên cứu
về dữ liệu đã trở thành vấn đề then chốt, quyết định sự thành bại của nhiều doanh nghiệp,
đặc biệt là trong ngành viễn thông - một lĩnh vực không chỉ là xương sống của nền kinh tế
kỹ thuật số mà còn là một ngành công nghiệp cạnh tranh khốc liệt và không ngừng thay đổi.
Nhất là trong thời đại VUCA, một trong những thách thức lớn nhất mà các doanh nghiệp
viễn thông phải đối mặt là việc duy trì và giữ chân khách hàng trong bối cảnh thị trường
ngày càng phân mảnh và nhu cầu khách hàng ngày càng đa dạng. Mỗi sự rời bỏ của một
khách hàng không chỉ ảnh hưởng đến doanh thu mà còn ảnh hưởng sâu sắc đến uy tín và vị
thế cạnh tranh của doanh nghiệp trên thị trường, cũng như làm lung lay vị trí của họ trong
mắt người tiêu dùng. Trong đồ án này, chúng em sẽ tập trung chỉ vào việc khai thác bộ dữ
liệu Telco Customer Churn – một nguồn thông tin uy tín và quý giá về hành vi khách hàng
nằm trong lĩnh vực viễn thông. Dựa trên bộ dữ liệu này, đồ án này sẽ được áp dụng các
phương pháp phân tích dữ liệu và kỹ thuật dự đoán để làm sáng tỏ các yếu tố khiến khách
hàng rời bỏ dịch vụ. Vì thế, Nhóm 6 chúng em quyết định cùng nhau đi sâu vào đề tài
“Chiến lược giữ chân khách hàng trong lĩnh vực viễn thông dựa trên việc phân tích, dự
đoán bộ dữ liệu Telco Customer Churn”.
Thông qua việc khai thác sức mạnh của khoa học dữ liệu, đi theo trình tự từ chương
(1) giới thiệu tỉ mỉ về khoa học dữ liệu và đề tài khiến tổ nhóm tự tin lựa chọn. Đến với
chương (2), nhóm thực hiện đi sâu hơn vào tổng quan chương trình và các phương pháp sẽ
được sử dụng, ứng dụng trong bài toán thực tế. Ở chương (3), quan trọng nhất là ứng dụng
những phương pháp ấy vào bài toán thực tế và tiến hành phương pháp dự báo. Cuối cùng,
hướng đến chương (4) bằng việc đưa ra kết luận - giải pháp, song song với hướng phát triển
mà đề tài nhắm tới. Lần lượt qua từng chương, chúng em sẽ không chỉ tìm hiểu nguyên nhân
mà còn đưa ra các chiến lược hiệu quả nhờ phương pháp và kỹ thuật đặc thù, giúp doanh
nghiệp viễn thông giữ chân khách hàng, cải thiện chất lượng dịch vụ và tối ưu hóa trải
nghiệm người dùng. Tất nhiên, với tầm nhìn kết hợp tuyệt vời giữa công nghệ và kinh doanh
, đồ án này là một minh chứng minh họa cho tiềm năng của khoa học dữ liệu trong việc thúc
đẩy sự phát triển bền vững của ngành viễn thông riêng và đa ngành khác nói chung.

9
Báo cáo đồ án học phần Khoa học dữ liệu
LỜI CẢM ƠN

Tất cả nhờ sự giảng dạy tận tâm và hỗ trợ nhiệt tình của TS. Nguyễn Quốc Hùng,
giảng viên môn Khoa học dữ liệu, chúng em đã học hỏi và nắm bắt được nhiều kiến thức
quý giá, cũng như kỹ năng làm việc với Excel, Orange và các công cụ khác. Thầy không chỉ
truyền đạt kiến thức từ sách vở, mà còn dạy chúng em bằng cả tấm lòng và sự nhiệt huyết.
Chúng em thật sự biết ơn thầy vì đã luôn kiên nhẫn hướng dẫn, giải đáp từng chi tiết nhỏ
nhất. Từ tận đáy lòng, chúng em xin gửi lời cảm ơn chân thành đến thầy. Đồ án cuối kỳ này
không chỉ đơn thuần là bài thi kết thúc học phần, mà còn là cơ hội để nhóm chúng em áp
dụng và thể hiện những kiến thức quý báu về Khoa học dữ liệu mà thầy đã tận tâm truyền
đạt. Một tháng tuy ngắn ngủi, khó có thể giúp chúng em lĩnh hội trọn vẹn những tinh hoa
của môn học, nhưng chúng em đã nỗ lực hết mình trong việc chuẩn bị, chọn lọc và xử lý các
nội dung của đồ án.
Dòng chảy kiến thức là vô biên, nhưng khả năng tiếp thu của con người lại tồn tại
những giới hạn nhất định. Vì vậy, trong quá trình hoàn thiện bài tiểu luận, nhóm chúng em
khó tránh khỏi những thiếu sót và hạn chế. Nhóm chúng em rất mong nhận được những ý
kiến đóng góp chân thành, những nhận xét và phê bình quý giá từ thầy, để có thể không
ngừng hoàn thiện và nâng cao chất lượng của bài nghiên cứu này. Một lần nữa, chúng em
xin kính chúc thầy luôn dồi dào sức khỏe, tràn đầy hạnh phúc, và gặt hái thêm nhiều thành
công trên con đường sự nghiệp giảng dạy. Xin chân thành cảm ơn!

BẢNG PHÂN CÔNG CÁC THÀNH VIÊN.

Mức độ
STT Thành viên Công việc phụ trách hoàn
thành

- Chương 2:
● 2.1 Các phương pháp của excel dùng
để khai phá dữ liệu (phương pháp
phân tích dự báo)
- Chương 2:
Giao Trần Cát My ● 2.2 Phần mềm Orange (phương pháp
1 100%
(Trưởng nhóm) phân cụm dữ liệu trong Orange)
- Chương 3:
● 3.2 Phân lớp dữ liệu (chạy dữ liệu
trên Orange, mô tả cách chạy dữ
liệu)
- Làm PowerPoint

2 Lê Thị Như Trang - Chương 1: 100%

● 1.1 Giới thiệu về khoa học dữ liệu
(Khái niệm, Sự phát triển của Khoa
học dữ liệu)
- Chương 3:

10
Báo cáo đồ án học phần Khoa học dữ liệu
● 3.1 Phân tích dữ liệu (Mô tả các
bước tiền xử lý dữ liệu)
- Chương 4:
● 4.2 Hướng phát triển các chiến lược
giữ chân khách hàng
- Làm danh mục hình ảnh, bảng biểu

- Chương 2:
● 2.1 Các phương pháp của excel
dùng để khai phá dữ liệu ( phương
pháp thống kê mô tả và phương
pháp phân tích tối ưu)
3 Bùi Thị Thanh Ngân 100%
- Chương 3:
● 3.1 Phân tích dữ liệu Telco
Customer Churn (tạo bảng hoặc
biểu đồ và bình luận về các biến)
- Làm PowerPoint

● - Lời mở đầu
- Chương 1:
● 1.2 Giới thiệu về đề tài
- Chương 3:
4 Bùi Nhật Phương ● 3.1 Tạo bảng mô tả tổng quát về các 100%
biến trong bộ dữ liệu
● 3.1 Phân tích dữ liệu Telco
Customer Churn ( tạo bảng hoặc
biểu đồ và bình luận)
- Làm danh mục hình ảnh, bảng biểu

5 Nguyễn Đinh Hân - Chương 1: 100%

● 1.1 Giới thiệu về khoa học dữ liệu
(Ứng dụng tiêu biểu của của khoa
học dữ liệu)
- Chương 2:
● 2.2 Phần mềm Orange (phương
pháp phân lớp dữ liệu trong Orange)
- Chương 4:
● 4.1 Tóm tắt & Kết luận
● 4.3 Hạn chế của đề tài và hướng

11
Báo cáo đồ án học phần Khoa học dữ liệu
nghiên cứu tiếp theo

12
Báo cáo đồ án học phần Khoa học dữ liệu
CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI.
1.1 GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU
1.1.1 Khái niệm dữ liệu
Dữ liệu là tập hợp thông tin được thu thập bằng quan sát, đo lường, nghiên cứu hoặc
phân tích. Chúng có thể bao gồm các sự kiện, con số, tên, số liệu hoặc thậm chí mô tả sự vật.
Dữ liệu được tổ chức dưới dạng đồ thị, biểu đồ hoặc bảng. Các nhà khoa học dữ liệu, phân
tích viên sẽ thực hiện khai thác dữ liệu và với sự trợ giúp của dữ liệu đó sẽ giúp doanh
nghiệp, tổ chức khám phá ra những “insight” thú vị, mà trước nay họ chưa bao giờ nghĩ đến.
1.1.2 Sự phát triển của Khoa học dữ liệu
Khoa học dữ liệu là thuật ngữ không mấy xa lạ hiện nay. Cùng với sự phát triển của
thời đại chuyển đổi số, khoa học dữ liệu dần chiếm vai trò quan trọng bởi khả năng quản trị,
phân tích, dự đoán,... Thông tin và tri thức có được nhờ vào khoa học dữ liệu đóng góp rất
lớn trong việc hỗ trợ các doanh nghiệp đưa ra quyết định. Ngày nay, hầu hết các công ty và
tập đoàn lớn trên thế giới có được thành công là nhờ vào khoa học dữ liệu, các công ty ấy
đều có đội ngũ chuyên gia phân tích dữ liệu, có thể lấy ví dụ như Google, Facebook,
Youtube,... Có thể thấy rằng, khoa học dữ liệu ngày càng lan rộng tầm ảnh hưởng và giữ vai
trò ngày càng quan trọng trong cuộc sống con người (Nguyễn, 2018)
Trong khoảng hơn 30 năm (1960-1996), thuật ngữ “Khoa học dữ liệu” (data science)
đã được sử dụng trong nhiều tài liệu nói về các phương pháp tính toán. Đến tháng 11/1997,
thuật ngữ Khoa học dữ liệu mới được dùng chính thức bởi một nhà nghiên cứu tên là Chien-
Fu Jeff Wu. Trong bài thuyết trình mang tên “Statistics = Data Science?” tại Đại học
Michigan, Chien-Fu Jeff Wu đã phổ biến thuật ngữ "Khoa học dữ liệu" và nói rằng thống kê
nên được đổi tên thành Khoa học dữ liệu và nhà thống kê thành nhà Khoa học dữ liệu vì họ
đã dành phần lớn thời gian của mình để thao tác và thử nghiệm với dữ liệu (Wu, 1997)
Năm 2001, William S. Cleveland đã giới thiệu Khoa học dữ liệu như là một ngành
độc lập (Cleveland, 2001). Cùng năm này, mô hình sử dụng các ứng dụng đám mây -
Softwareas-a-Service (SaaS) được tạo ra. Đến tháng 4/2002, International Council for
Science cho ra đời Tạp chí Khoa học dữ liệu, một ấn phẩm tập trung vào các vấn đề như mô
tả hệ thống dữ liệu, ấn phẩm của họ trên internet, các ứng dụng và các vấn đề pháp lý. Vào
tháng 01/2003, Đại học Columbia bắt đầu xuất bản Tạp chí Khoa học dữ liệu, nhằm cung
cấp một công cụ cho tất cả nhân viên dữ liệu trình bày quan điểm của mình và trao đổi ý
kiến. Năm 2006, cơ sở dữ liệu mã nguồn mở không quan hệ- Hadoop được phát hành. Dựa
trên một cơ sở dữ liệu mã nguồn mở khác là Nutch. Hai vấn đề đối với việc xử lý dữ liệu lớn
là lưu trữ một lượng lớn dữ liệu và sau đó xử lý dữ liệu được lưu trữ đó. Đến năm 2008, DJ
Patil và Jeff Hammerbacher mới sử dụng thuật ngữ “nhà Khoa học dữ liệu” để xác định
công việc của họ tại LinkedIn và Facebook. Đầu năm 2010, theo T.H. Davenport và D.J.
Patil (Davenport & Patil, 2012), một vai trò mới nổi trong các doanh nghiệp nhưng nhanh
chóng trở nên nổi bật, đó là vai trò nhà khoa học dữ liệu (data scientist). Tương ứng với vai
trò này, một lĩnh vực khoa học - công nghệ mới được hình thành, đó là lĩnh vực khoa học dữ
liệu.

13
Báo cáo đồ án học phần Khoa học dữ liệu
Năm 2013, Nhóm công tác của IEEE về Khoa học dữ liệu và Phân tích nâng cao đã
được đưa ra, và hội nghị quốc tế đầu tiên về Khoa học dữ liệu và Phân tích nâng cao của
IEEE đã được tổ chức vào năm 2014. Năm 2015, Tạp chí Quốc tế về Khoa học dữ liệu và
Phân tích đã được lập bởi Springer để xuất bản tác phẩm ban đầu về Khoa học dữ liệu và
phân tích dữ liệu lớn. Tuy nhiên, khoa học dữ liệu vẫn còn được xem là một khái niệm mới,
và nó chỉ mới thật sự xuất hiện vào những thập niên đầu thế kỷ 21 và còn phải được nghiên
cứu và phát triển sâu hơn trong tương lai.
1.1.3 Ứng dụng tiêu biểu của Khoa học dữ liệu
Về công cụ tìm kiếm: Đây là ứng dụng hữu ích nhất của khoa học dữ liệu. Chúng ta
có thể sử dụng các công cụ tìm kiếm tiêu biểu như: Google, Safari, Firefox,... để tìm kiếm
thông tin trên Internet một cách dễ dàng, nhanh chóng và thuận tiện
Ứng dụng trong thương mại điện tử và dịch vụ số: Nhiều gã khổng lồ công nghệ
trong lĩnh vực thương mại điện tử và dịch vụ số như Amazon, Twitter, Google Play, Netflix,
Linkedin,... đã sử dụng các công cụ đề xuất để quảng bá sản phẩm phù hợp với sở thích
người dùng và mức độ liên quan của thông tin. Các đề xuất được đưa ra dựa trên kết quả tìm
kiếm trước đó của người dùng
Giao thông vận tải: Khoa học dữ liệu cũng tham gia vào lĩnh vực này với sản phẩm
tiêu biểu là Ô tô không người lái – hạn chế rủi ro xảy ra tai nạn giao thông.Với ngành hàng
không thì khoa học dữ liệu còn giúp vạch ra lộ trình bay, dự đoán trễ chuyến bay, tỷ lệ hủy
và phân tích các rủi ro,.. Không chỉ vậy, các công ty như Grab, Gojeck, Be,.. đang ứng dụng
khoa học dữ liệu để tối ưu hóa giá cả bằng cách sử dụng công cụ dự đoán giá dựa trên
khoảng cách, thời tiết,..., tạo ứng dụng để người dùng có thể đặt xe, đánh giá tài xế,. Cung
cấp các trải nghiệm tốt nhất cho người dùng.
Tài chính, ngân hàng: Khoa học dữ liệu đóng một vai trò đặc biệt quan trọng trong
lĩnh vực tài chính và ngân hàng. Giúp cho các doanh nghiệp, ngân hàng:
● Phân tích rủi ro tổn thất, vỡ nợ.
● Dự đoán tương lai doanh nghiệp, thị trường chứng khoán
● Dự đoán giá trị trọn đời, dự đoán các động thái trên thị trường chứng khoán của
khách hàng, dự đoán xu hướng thay đổi giá trị của chứng khoán,...
● Phát hiện hành vi gian lận của người sử dụng dịch vụ
● Quản lý dữ liệu của khách hàng, các hạng mục đầu tư bên ngoài,...
1.2 GIỚI THIỆU ĐỀ TÀI
“CHIẾN LƯỢC GIỮ CHÂN KHÁCH HÀNG TRONG LĨNH VỰC VIỄN THÔNG DỰA
TRÊN VIỆC PHÂN TÍCH, DỰ ĐOÁN BỘ DỮ LIỆU TELCO CUSTOMER CHURN”
1.2.1 Lý do chọn đề tài:
Trong bối cảnh kinh tế - xã hội đang phát triển nhanh chóng, mối quan tâm hàng đầu
của các nhà kinh tế không chỉ dừng lại ở việc phát triển thị trường hay thu hút khách hàng,
mà còn là làm sao để duy trì sự bền vững trong mối quan hệ với khách hàng. Vấn đề cốt lõi
hiện nay là tìm cách giữ chân khách hàng và đảm bảo họ trung thành với dịch vụ của doanh
nghiệp. Thực tế cho thấy, hiện tượng khách hàng rời bỏ dịch vụ đang trở thành một trong
những mối quan tâm lớn không chỉ của các doanh nghiệp, người cung cấp dịch vụ, mà còn

14
Báo cáo đồ án học phần Khoa học dữ liệu
của cả những nhà kinh tế, nhà hoạch hoạch định chính sách phát triển. Tỷ lệ rời bỏ của
khách hàng có thể bị ảnh hưởng bởi nhiều yếu tố như chi phí dịch vụ hàng tháng, phương
thức thanh toán, hay loại hình dịch vụ được cung cấp. Nếu công ty đang phải đối mặt với
tình trạng thiếu hụt khách hàng chất lượng cũng như tỷ lệ khách hàng bỏ đi cao, thì công ty
có thể sẽ gặp rắc rối lớn. Nhận thấy được độ nhức nhối của vấn đề, tổ nhóm đã dựa vào
những nhóm yếu tố trên và quyết định thực hiện đề tài “Phân tích dữ liệu khả năng rời bỏ
dịch vụ của khách hàng dựa trên bộ dữ liệu Telco Customer Churn bằng phần mềm
Orange”. Qua đó, nhóm sẽ sử dụng các biến liên quan đến hành vi tiêu dùng của khách hàng
để đánh giá mức độ và khả năng họ rời bỏ dịch vụ của doanh nghiệp.
Hơn nữa, với tư cách là sinh viên trong khối ngành kinh tế, tài chính - chúng em phải
thường xuyên phải tiếp cận các môn học cũng như số liệu liên quan chặt chẽ đến lĩnh vực
này như doanh số bán hàng, thị trường, thu nhập và thông tin cung cấp cho các nhà đầu tư.
Chính sự tiếp xúc thường xuyên với những vấn đề kinh tế này đã phần nào thúc đẩy Nhóm 6
lựa chọn đề tài có mối liên hệ mật thiết với ngành học của mình.
1.2.2 Mục tiêu nghiên cứu:
Đề tài được đưa vào nghiên cứu nhằm mục tiêu mang lại càng nhiều giá trị thực tiễn
cho các doanh nghiệp viễn thông càng tốt, nhất là trong việc tối ưu hóa tài nguyên và duy trì
tệp khách hàng lâu dài.
Cụ thể hóa mục tiêu qua từng giai đoạn, đầu tiên là xác định rõ các yếu tố chính ảnh
hưởng đến việc khách hàng rời bỏ dịch vụ, từ đó xây dựng hồ sơ khách hàng có nguy cơ rời
bỏ dịch vụ cao dựa trên các đặc điểm cụ thể. Tiếp đến, xây dựng thành công mô hình dự
đoán, trong đó sử dụng hiệu quả các thuật toán và đánh giá thành công hiệu suất mô hình dự
đoán thông qua các chỉ số. Để đo lường hiệu quả chiến lược, mục tiêu tiếp theo là có thể tính
toán được chi phí tốn kém và lợi ích của việc giữ chân khách hàng so với chi phí marketing
thu hút khách hàng mới. Mục tiêu cuối cùng mà tổ nhóm muốn hướng đến nhằm rút ra được
đề xuất hữu ích về các biện pháp cùng chiến lược giảm thiểu tỷ lệ khách hàng rời bỏ dịch
vụ, sau đó tùy chỉnh các chiến lược cho từng phân khúc khách hàng theo hướng tối ưu cá
nhân hóa dựa trên kết quả phân tích và dự đoán.
1.2.3 Đối tượng và phạm vị nghiên cứu:
❖ Nhóm đối tượng nghiên cứu:
Hướng đến thứ nhất, chính là khách hàng của các doanh nghiệp viễn thông: bao gồm
tất cả các khách hàng sử dụng dịch vụ viễn thông (dịch vụ Internet, dịch vụ bảo mật trực
tuyến, dịch vụ hỗ trợ kỹ thuật,...). Đặc biệt nhất là tập trung vào tệp khách hàng có nguy cơ
không sử dụng thêm bất kỳ dịch vụ nào nữa (Churn).
Thứ hai, nghiên cứu bộ dữ liệu Telco Customer Churn, bao gồm thông tin về đặc
điểm cá nhân, dịch vụ sử dụng, thời hạn hợp đồng, hành vi thanh toán, phí hàng tháng và các
yếu tố khác liên quan đến việc khách hàng tiếp tục sử dụng hay rời bỏ dịch vụ
❖ Phạm vi nghiên cứu:
Dựa trên thông tin của bộ dữ liệu tiêu chuẩn không nói rõ, nghiên cứu có thể dựa trên
dữ liệu giả lập hoặc thực tế từ thị trường California và chỉ giới hạn trong một quốc gia. Phụ
thuộc vào dữ liệu có sẵn và mục tiêu nghiên cứu chính, cần khoanh vùng tập trung phạm vi

15
Báo cáo đồ án học phần Khoa học dữ liệu
trong cột Churn của Telco Customer Churn, có thể thấy có mười mã bưu chính thể hiện rõ
ràng tỷ lệ churn cao nhất. Tất cả các mã bưu chính này đều tập trung ở miền Nam California
trong khu vực San Diego. Mục đích khoanh vùng phạm vi này có thể hiểu là để hiểu rõ hơn
về sự khác biệt trong tỷ lệ churn giữa các địa phương.
Nội dung phạm vi nghiên cứu chỉ tâp trung vào việc phân tích và dự đoán khả năng
“churn” của khách hàng dựa trên các dữ liệu có sẵn chứ không đi sâu vào các khía cạnh kỹ
thuật nằm ngoài phạm vi phân tích và dự đoán (như chi tiết về hạ tầng viễn thông, công nghệ
mạng lưới,..), nội dung xoay quanh phạm vi đề xuất các chiến lược và phân tích yếu tố rủi
ro.

CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG

PHÁP SỬ DỤNG.
2.1 CÁC PHƯƠNG PHÁP CỦA EXCEL DÙNG ĐỂ KHAI PHÁ DỮ LIỆU
2.1.1 Excel là gì?
Excel là một ứng dụng bảng tính do Microsoft phát triển và đã xuất hiện lần đầu vào
năm 1985 với tên gọi Microsoft Multiplan. Nó nằm trong dòng sản phẩm Office của
Microsoft, được sử dụng rộng rãi trong nhiều ngành nghề của đời sống xã hội như: kế toán,
ngân hàng, kỹ sư, giáo viên, quản lý số liệu,... . Excel có nhiều ứng dụng đa dạng trong
nhiều lĩnh vực khác nhau và được sử dụng phổ biến trong các công ty, tập đoàn với tất cả
các quy mô. Hiện nay, Microsoft Excel là một trong những kỹ năng tin học văn phòng mà
bất cứ nhà tuyển dụng nào cũng yêu cầu ứng viên vì tính thực tiễn của nó trong công việc.
Excel bao gồm một lưới ô được sắp xếp thành hàng và cột, cung cấp nhiều công cụ
và chức năng khác nhau để giúp người dùng dễ dàng thao tác khai phá và phân tích dữ liệu
theo nhu cầu. Thêm vào đó, Excel hỗ trợ việc phân tích, xử lý và trình bày dữ liệu, cũng như
tạo bảng tính, biểu đồ và đồ thị, cùng với khả năng thực hiện các phép tính để giải quyết các
vấn đề. Excel cũng là công cụ hữu ích trong việc quản lý dự án và lập kế hoạch, cung cấp
tính năng tự động tính toán, tạo báo cáo, định dạng dữ liệu và sắp xếp chúng theo nhiều cách
tùy chỉnh để theo dõi các chỉ số và dữ liệu kinh doanh.
2.1.2 Phương pháp Thống kê mô tả
Thống kê mô tả là các kỹ thuật số và đồ họa được sử dụng để tổ chức, trình bày và
phân tích dữ liệu. Hình thức thống kê mô tả được sử dụng để mô tả một biến trong mẫu phụ
thuộc vào mức độ đo lường được sử dụng. Một vài hàm thống kê thông dụng có thể kể đến
như là:
● AVERAGE: giá trị trung bình của các số cần tính
● MAX: giá trị lớn nhất trong các số được chọn
● MIN: giá trị nhỏ nhất trong các số được chọn
● COUNT: số lượng các ô có giá trị được định dạng số trong danh sách
● COUNTBLANK : số lượng các ô có giá trị rỗng trong danh sách
Ngoài ra, Excel còn cung cấp cho người dùng một số công cụ nhằm mô tả dữ liệu
như:

16
Báo cáo đồ án học phần Khoa học dữ liệu
2.1.1.1 Thống kê mô tả bằng công cụ Descriptive Statistics
➢ Cách thực hiện:
● Chuẩn bị bảng số liệu cần thống kê.
● Chọn lệnh theo thứ tự: Data → Data Analysis → Descriptive Statistics, xuất hiện
hộp thoại Descriptive Statistics.
● Khai báo các thông số Input và lựa chọn các thông số Output Options.
➢ Ví dụ: Thống kê mô tả số lượng thịt heo bán ra trong tháng 3 của siêu thị ABC (theo
đơn vị kilogram).

Bảng 2. 1. Số liệu bán hàng trong 3 tháng tại siêu thị ABC và hộp thoại Descriptive
Statistics
● Các thông số cần khai báo trong hộp thoại hiện lên:
○ Input Range: vùng dữ liệu đầu vào mà người dùng cần thống kê mô tả
○ Grouped By: nhóm vùng dữ liệu theo dạng cột (Columns) hay hàng (Rows)
○ Labels in first row: tiêu đề ở hàng đầu
○ Output Range: nơi trả kết quả
○ Summary statistics: tóm tắt kết quả thống kê
○ Confidence Level of Mean: mức độ tin cậy mong muốn
● Thực hiện thành công, Excel sẽ trả kết quả sau:

17
Báo cáo đồ án học phần Khoa học dữ liệu
Bảng 2. 2. Kết quả trả về của công cụ Descriptive Statistics
2.1.2.2 Báo cáo tổng hợp nhóm với Subtotal
Điểm khác biệt so với công cụ Descriptive statistics là ở công cụ Subtotal, nó có khả
năng thực hiện việc tổng hợp dữ liệu từng phần của cột dữ liệu kiểu số trong cơ sở dữ liệu.
Cụ thể, nó có khả năng thực hiện các nhiệm vụ như tính tổng, tìm giá trị lớn nhất và nhỏ
nhất, xác định giá trị trung bình, và thực hiện nhiều nhiệm vụ khác liên quan đến các cột
chứa dữ liệu số.
➢ Cách thực hiện:
● Sắp xếp lại dữ liệu theo cột muốn tổng hợp nhóm
● Chọn toàn bộ dữ liệu hay chọn một ô bất kỳ trong vùng dữ liệu đó
● Chọn theo thứ tự: Data → Outline → Subtotal, xuất hiện hộp thoại Subtotal
● Khai báo thông số yêu cầu trong hộp thoại
➢ Ví dụ: Thống kê doanh số của các nhân viên khác nhau trong tháng 7/2003

Bảng 2. 3. Dữ liệu doanh số của các nhân viên

18
Báo cáo đồ án học phần Khoa học dữ liệu
● Sau khi có được dữ liệu, ta thực hiện các bước như hướng dẫn. Sau đó sẽ xuất hiện
hộp thoại Subtotal.

Hình 2. 1. Hộp thoại Subtotal

● Các thông số trong hộp thoại:
○ At each change in: chọn cột cần tổng hợp nhóm
○ Use function: chọn hàm thống kê dùng để tổng hợp
○ Add subtotal to: chọn cột cần xuất dữ liệu tổng hợp
○ Replace current subtotals: thay thế kết quả thống kê trước đó
○ Page break between group: ngắt trang giữa các nhóm đã tổng hợp (nếu in,
mỗi trang là một nhóm)
○ Summary below data: cho ra tóm tắt kết quả dưới mỗi nhóm
○ Remove All: xóa tất cả các kết quả.
● Thực hiện thành công, Excel trả về như sau:

Bảng 2. 4. Kết quả trả về của công cụ Subtotal

19
Báo cáo đồ án học phần Khoa học dữ liệu
2.1.1.3 Hợp nhất dữ liệu với Consolidate
Khác với Subtotal, công cụ Consolidate cho phép hợp nhất các bảng dữ liệu khác
nhau chứ không nhất thiết phải là dạng dữ liệu theo cột. Có hai hình thức tổng hợp:
● Tổng hợp theo vị trí: với các bảng dữ liệu giống nhau về cấu trúc.
● Tổng hợp theo hạng mục (theo hàng và cột): trong trường hợp các bảng dữ liệu khác
nhau về cấu trúc.
➢ Cách thực hiện:
● Chọn vùng sẽ chứa dữ liệu được hợp nhất.
● Chọn theo thứ tự: Data → Data Tools → Consolidate, xuất hiện hộp thoại
Consolidate.
● Khai báo và chọn lựa các thông số hộp thoại yêu cầu.
➢ Ví dụ: Hợp nhất dữ liệu doanh thu bán hàng từ ba bảng DL của ba cửa hàng 1, 2 và 3 của
siêu thị ABC.

Bảng 2. 5. Bảng dữ liệu doanh thu bán hàng từ ba bảng dữ liệu

● Sau khi có được dữ liệu, ta thực hiện các bước như hướng dẫn. Sau đó sẽ xuất hiện
hộp thoại Consolidate.

20
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 2. 2. Hộp thoại Consolidate
● Các thông số trong hộp thoại:
○ Function: chọn hàm dùng để hợp nhất dữ liệu
○ Reference: tham chiếu từ các bảng dữ liệu nguồn
○ All references: xác định tất cả các tham chiếu nhằm thực hiện hợp nhất dữ
liệu
○ Top row: sử dụng tên cột của vùng nguồn
○ Left column: sử dụng các giá trị của cột đầu tiên trong vùng nguồn
○ Create links to source data: cập nhật lại dữ liệu tổng hợp mỗi khi vùng dữ
liệu nguồn thay đổi.
● Sau khi có được dữ liệu, ta thực hiện các bước như hướng dẫn. Thực hiện thành
công, Excel trả về như sau:

Bảng 2. 6. Kết quả trả về của công cụ Consolidate

21
Báo cáo đồ án học phần Khoa học dữ liệu
2.1.1.4 Tổng hợp dữ liệu đa chiều với PivotTable:
PivotTable giúp tổng hợp và phân tích dữ liệu từ nhiều góc độ, cấp độ khác nhau.
PivotTable có thể lấy DL trực tiếp từ Excel hoặc có thể sử dụng các dữ liệu từ vùng bên
ngoài như: MS SQL Server, MS Access, ...
➢ Cách thực hiện:
● Chọn một ô bất kỳ trong vùng dữ liệu.
● Chọn theo thứ tự: Insert → PivotTable, xuất hiện hộp thoại Create
PivotTable.
● Xác định dữ liệu nguồn muốn tổng hợp và vùng xuất kết quả.
● Kéo thả các tên field từ PivotTable Fields vào 4 khu vực tương ứng:
● FILTERS, ROWS, COLUMNS và VALUES.
➢ Ví dụ:

Bảng 2. 7. Tổng hợp dữ liệu đa chiều với PivotTable

Sau khi có được dữ liệu, ta thực hiện các bước như hướng dẫn. Sau đó sẽ xuất hiện hộp thoại
PivotTable.

Hình 2. 3. Hộp thoại Create PivotTable

22
Báo cáo đồ án học phần Khoa học dữ liệu
➢ Các thao tác chỉnh sửa PivotTable:
● Thay đổi tên Field:
○ Khi thả các field vào khu vực layout, PivotTable sẽ tự động tạo ô có nền đậm.
○ Nội dung trong từng ô được PivotTable tự tạo dựa vào tên field và nơi bố trí.
○ Người dùng có thể nhập lại nội dung nếu muốn bảng dữ liệu rõ ràng hơn.

Hình 2. 4. Thay đổi tên Field

● Sắp xếp:
○ Chọn mũi tên bên phải của nhãn dòng/cột cần sắp xếp.
○ Bấm vào tùy chọn sắp xếp.

Hình 2. 5. Sắp xếp theo thứ tự

23
Báo cáo đồ án học phần Khoa học dữ liệu
 Thay đổi phép tổng hợp DL:
○ Nhấn mũi tên tên xổ xuống cạnh field cần định dạng trong khu vực Values
○ Chọn Value Field Settings trong danh sách mở ra
○ Chọn phương thức xử lý trong mục Summarize value field by

Hình 2. 6. Hộp thoại Value Field Settings thay đổi phép tổng hợp DL
2.1.3 Phương pháp Phân tích tối ưu
Phương pháp phân tích tối ưu là quá trình thực hiện phân tích, đánh giá và tối ưu hóa
các quá trình, hệ thống hoặc tài nguyên.
➢ Ví dụ: Một nhà quản lý dự án nông nghiệp muốn lựa chọn phương án trồng trọt bao
nhiêu tấn lúa mì và lúa gạo để tối đa hóa lợi nhuận của dự án dựa trên các số liệu
sau:

Số liệu đầu vào đối với Loại sản phẩm Khả năng lớn nhất
một đơn vị sản phẩm của các nguồn tài
nguyên sẵn có
Lúa gạo Lúa mì

Sản lượng 12
7

50 ha
Diện tích đất (ha/tấn) 2 3

Lượng nước 4 90 m3
6

15 12 250 người
Nhân công
(người/tấn)

$18 $21
Lợi nhuận (USD/tấn)

24
Báo cáo đồ án học phần Khoa học dữ liệu
Bảng 2. 8. Bảng số liệu của dự án
● Các bước bao gồm:
○ Bước 1: Xác định biến quyết định. Gọi x1 là lượng lúa gạo, x2 là lượng lúa
mì (tấn) cần sản xuất
○ Bước 2: Xác định hàm mục tiêu cần đạt được, bao gồm những yếu tố quan
trọng cần tối ưu hoặc cải thiện. Mục tiêu bài toán là tối đa hóa lợi nhuận ta
có: P = P (lúa gạo) + P (lúa mì) = 18x1 + 21x2 → max
○ Bước 3: Xác định hệ ràng buộc mà phương pháp tối ưu phải tuân thủ. Các
ràng buộc có thể liên quan đến hạn chế về nguồn lực, kỹ thuật, chi phí,.....
■ Ràng buộc tài nguyên sử dụng: Về diện tích đất: 2x1+ 3x2 ≤ 50; Về
nước tưới: 6x1 + 4x2 ≤ 90; Về lao động: 15x1 + 12x2 ≤ 250
■ Ràng buộc tự nhiên: x1 , x2 ≥ 0
➢ Công cụ SOLVER để giải mô hình kinh tế
Bước 1: Thiết lập bảng tính

Bảng 2. 9 Thiết lập bảng tính trong excel

Bước 2: Chọn lệnh Data → Analysis → Solver

25
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 2. 7. Khai báo các tham số của bài toán trên công cụ solver
Bước 3: Khai báo các tham số của bài toán:
● Set Objective: Nhập ô chứa hàm mục tiêu
● To: Chọn Max, Min,... tùy yêu cầu của đề bài.
● By Changing Variable Cells: Nhập ô chứa các biến quyết định
● Đưa các ràng buộc vào Subject to the Contraints bằng cách nhấn nút Add.
Bước 4: Nhấn nút Solve để giải mô hình Khai báo các lựa chọn trong hộp thoại Solver
Results
● Keep Solver Solution: Giữ kết quả và in ra bảng tính.
● Restore Original Values: Huỷ kết quả vừa tìm được và trả các biến về tình trạng
ban đầu.
● Save Scenario: Lưu kết quả vừa tìm được thành một tình huống để có thể xem lại
sau này.
● Có thể xuất hiện thêm các dạng báo cáo trong kết quả: Answer, Sensitivity và
Limits.
Bước 5: Nhấn nút OK để xem kết quả

26
Báo cáo đồ án học phần Khoa học dữ liệu
Bảng 2. 10. Kết quả bài toán giải bằng công cụ Solver

Bảng 2. 11. Báo cáo kèm theo lời giải

2.1.4 Phương pháp Phân tích dự báo/dự đoán
Phân tích Dự đoán (Predictive Analysis) là một trong những phương pháp của phân
tích dữ liệu bằng việc sử dụng các dữ liệu đã được thu thập trong quá khứ, thiết kế những
thuật toán thống kê và các kỹ thuật học máy để đưa ra các kết quả dự đoán và dự báo các kết
quả có thể xảy ra trong tương lai. Nó bao gồm việc khai thác thông tin từ các tập dữ liệu lớn
để xác định các mẫu, xu hướng và mối quan hệ có thể được sử dụng để dự đoán các sự kiện
hoặc hành vi trong tương lai.

27
Báo cáo đồ án học phần Khoa học dữ liệu
2.1.4.1 Phương pháp Trung bình trượt (Moving Average):

Hình 2. 8. Công thức tính phương pháp trung bình trượt

● Trong đó:
○ Ft: giá trị dự báo của kì t
○ Dt: giá trị thực tế của kì t
○ N: tổng số kỳ trên thực tế
○ w: cửa sổ trượt (w < N)
➢ Cách thực hiện phương pháp Trung bình trượt trên Excel:
Bước 1: Chuẩn bị bảng số liệu cần tiến hành dự báo
Bước 2: Chọn lệnh Data trên thanh công cụ của Excel → Chọn Data Analysis trong
công cụ Analyze → Thấy xuất hiện hộp thoại Analysis Tool, tìm chọn vào Moving
Average, xuất hiện hộp thoại Moving Average (như hình dưới)
Bước 3: Khai báo các thông số Input và Output Option thích hợp để đưa ra kết quả
dự báo
➢ Ví dụ

Bảng 2. 12. Dữ liệu cùng kết quả tại cột dự báo và hộp thoại Moving Average
● Các thông số hiển thị trên hộp thoại Moving Average:
○ Input Range: vùng dữ liệu thực tế được chọn.

28
Báo cáo đồ án học phần Khoa học dữ liệu
○ Labels in First Row: chọn nếu hàng đầu tiên của input range có chứa tiêu đề
cột
○ Interval: số lượng các kỳ trước đó muốn tính (w).
○ Output Range: vùng xuất kết quả. Nếu ô không đủ số lượng các giá trị trước
đó để tính toán sẽ nhận giá trị lỗi #N/A.
○ Chart Output: tạo biểu đồ cùng với vùng xuất kết quả.
○ Standard Errors: tạo thêm 1 cột chứa các sai số chuẩn.
2.1.4.2 Phương pháp San bằng mũ (Exponential Smoothing)

Hình 2. 9. Công thức tính phương pháp san bằng mũ

● Trong đó:
○ Ft : giá trị dự báo kỳ t
○ Ft-1 : giá trị dự báo kỳ t-1
○ Dt-1 : giá trị thực tế của kỳ t-1
○ a : hệ số điều chỉnh (hệ số này tùy chọn sao cho 0 ≤ a ≤ 1)
➢ Cách thực hiện phơng phápTrung bình trượt trên Excel:
Bước 1: Chuẩn bị bảng số liệu cần dự báo
Bước 2: Chọn lệnh Data trên thanh công cụ của Excel → Chọn Data Analysis trong công
cụ Analyze → Thấy xuất hiện hộp thoại Analysis Tool, tìm chọn vào Exponential
Smoothing, xuất hiện hộp thoại Exponential Smoothing, xuất hiện hộp thoại Exponential
Smoothing như hình minh họa bên dưới
Bước 3: Khai báo các thông số Input và Output Option thích hợp với nhu cầu người dùng
➢ Ví dụ

Bảng 2. 13. Dữ liệu cùng kết quả dự báo và hộp thoại Exponential Smoothing
● Các thông số trong hộp thoại Exponential Smoothing:
○ Input Range: vùng dữ liệu cần tham chiếu

29
Báo cáo đồ án học phần Khoa học dữ liệu
○ Damping factor: hệ số san bằng, là giá trị điều chỉnh sự bất ổn của dữ liệu,
giá trị mặc định là Damping factor (1-a)
○ Labels: chọn nếu hàng/cột đầu tiên của input range có chứa tiêu đề
2.1.4.3 Phương pháp Hồi quy (Regression)
Phương pháp phân tích hồi quy (Regression) là phương pháp nghiên cứu sự tác động
của một hay nhiều biến độc lập (biến giải thích) đối với một biến phụ thuộc (biến được giải
thích) được lựa chọn sao cho phù hợp với nhu cầu người nghiên cứu.
Dạng tổng quát của phương trình hồi quy được biểu diễn như sau:
Y = f(X1, X2, X3, …,Xn)
● Trong đó:
○ Y: biến phụ thuộc (dependent variable)
○ Xi: các biến độc lập (independent variable)
➢ Cách thực hiện bằng hàm trong Excel:
❖ Hàm TREND: Trả về các giá trị dọc theo đường hồi quy (theo phương pháp bình
phương bé nhất)
● Cú pháp của Hàm TREND: TREND(known_y’s, known_x’s, new_x’s,
const)
● Trong đó:
○ known_y’s, known_x’s, new_x’s là các giá trị hoặc vùng địa chỉ
chứa giá trị đã biết của x, y tương ứng và giá trị mới của x.
○ Const là hằng số. Ngầm định rằng nếu const = 1 (True) thì hồi quy
theo hàm y = a + bx, nếu const = 0 (False) thì hồi quy theo hàm y =
bx.
❖ Hàm FORECAST: Dự báo giá trị tương lai dựa vào vào các giá trị hiện tại.
● Cú pháp của Hàm FORECAST: FORECAST(x, known_y’s, known_x’s)
● Trong đó:
○ x: là giá trị dùng để dự báo.
○ known_y’s: là các giá trị hoặc vùng địa chỉ của tập số liệu phụ thuộc
quan sát được.
○ known_x’s: là các giá trị hoặc vùng địa chỉ của tập số liệu độc lập
quan sát được
❖ Hàm INTERCEPT: Dùng để tính hệ số a của phương trình hồi quy đơn tuyến tính
● Cú pháp Hàm INTERCEPT: INTERCEPT(known_y’s, known_x’s)
● Trong đó:
○ known_y’s: các giá trị hoặc vùng địa chỉ của tập số liệu phụ thuộc
quan sát được.
○ known_x’s: các giá trị hoặc vùng địa chỉ của tập số liệu độc lập quan
sát được

30
Báo cáo đồ án học phần Khoa học dữ liệu
❖ Hàm SLOPE: Dùng để tính toán hệ số b của phương trình hồi quy đơn tuyến tính
● Cú pháp Hàm SLOPE: SLOPE(known_y’s, known_x’s)
● Trong đó:
○ known_y’s: là các giá trị hoặc vùng địa chỉ của tập số liệu phụ thuộc
quan sát được.
○ known_x’s: là các giá trị hoặc vùng địa chỉ của tập số liệu độc lập
quan sát được
❖ Hàm CORREL: Dùng để tính hệ số tương quan giữa X và Y
● Cú pháp Hàm CORREL: CORREL(array1, array2)
● Trong đó: array1, array2 tương ứng là tập số liệu phụ thuộc và tập số liệu
độc lập quan sát được.
➢ Cách thực hiện dự báo bằng đồ thị:
Bước 1: Chuẩn bị bảng số dữ liệu cần tiến hành dự báo
Bước 2: Chọn lần lượt vùng địa chỉ chứa biến phụ thuộc Y, và vùng địa chỉ chứa biến độc
lập X tương ứng
Bước 3: Vẽ đồ thị dạng Scatter
Bước 4: Click chuột phải vào Data series, chọn Add Trendline
Bước 5: Tùy chọn hiển thị trong Trendline Options
● Linear: dạng đường thẳng
● Display Equation on chart
● Display R-squared value on chart

Bảng 2. 14. Dữ liệu và Hộp thoại Trendline Options

31
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 2. 10. Kết quả hồi quy tuyến tính bằng đồ thị
➢ Cách thực hiện bằng công cụ Regression
Bước 1: Chuẩn bị bảng số dữ liệu cần tiến hành dự báo
Bước 2: Chọn lệnh Data trên thanh công cụ của Excel → Chọn Data Analysis trong công cụ
Analyze → Thấy xuất hiện hộp thoại Analysis Tool, tìm chọn vào Regression, xuất hiện hộp
thoại Regression,minh họa như hình bên dưới:

Hình 2. 11. Hộp thoại Regression

Bước 3: Khai báo các thông số Input và Output Options thích hợp
○ Input Y Range : Vùng địa chỉ chứa các biến phụ thuộc Y
○ Input X Range : Vùng địa chỉ chứa các biến độc lập X (Có thể chọn nhiều
biến X trong trường hợp hồi quy đa biến)

32
Báo cáo đồ án học phần Khoa học dữ liệu
○ Labels: Tích vào mục này để khẳng định ô (các ô) đầu tiên không chứa dữ
liệu
○ Constant is Zero: Tích vào mục này để khẳng định hệ số tự do của hàm hồi
quy tuyến tính a = 0
● Trong đó:
○ Confidence Level: Độ tin cậy của hồi quy (mặc định là 95%) bằng 1- α, với
α là mức ý nghĩa hay xác suất mắc sai lầm loại một, bác bỏ H0 trong khi H0
đúng.
○ Output Range: Vùng hoặc ô phía trên bên trái của vùng chứa kết quả.
○ New Worksheet Ply: xuất kết quả ra một sheet khác
○ New Workbook: xuất kết quả ra một file Excel mới
○ Residuals: sai số do ngẫu nhiên
○ Standardized Residuals: chuẩn hóa sai số
○ Residuals Plots: đồ thị sai số
○ Line Fit Plots: Đồ thị hàm hồi quy tuyến tính
○ Normal Probability Plots: Đồ thị xác suất phân phối chuẩn

Bảng 2. 15. Kết quả phương pháp hồi quy bằng công cụ Regression

33
Báo cáo đồ án học phần Khoa học dữ liệu
2.2 PHẦN MỀM ORANGE
2.2.1 Tổng quát về Orange

Bảng 2. 16. Hình ảnh phần mềm Orange

2.2.1.1 Giới thiệu về Orange
Có thể nói, Khai phá dữ liệu (Data Mining) và Học máy (Machine Learning) là 2
trong số các lĩnh vực quan trọng trong thời đại 4.0 hiện nay nhưng 2 lĩnh vực này không dễ
dàng để có thể khám phá và nghiên cứu một cách nhanh chóng, hiệu quả hay đơn giản. Khai
phá dữ liệu và Học máy luôn đòi hỏi những công cụ, phần mềm có tính kỹ thuật số cao, có
khả năng xử lý và phân tích dữ liệu bằng nhiều cách đa dạng, chất lượng cao. Vì vậy, sự ra
đời của nhiều phần mềm như RapidMiner, Weka, … đã giúp ích rất nhiều cho con người
trong 2 lĩnh vực này, và phần mềm Orange cũng là một trong số đó, được ra đời nhằm hỗ trợ
con người trong việc nghiên cứu và giải quyết những vấn đề khó nhằn về lĩnh vực Khai phá
dữ liệu và Học máy.
Phần mềm Orange được biết đến bởi việc tích hợp các công cụ khai phá dữ liệu mã
nguồn mở và học máy thông minh. Việc tích hợp các công cụ đa dạng đã giúp các thao tác
trên Orange trở nên đơn giản, tiện dụng hơn rất nhiều so với các công cụ trước đó, càng ấn
tượng hơn khi Orange đã được lập trình bằng Python với một giao diện trực quan, sinh động
và tạo sự tương tác dễ dàng với người dùng. Với sự đa dạng các tính năng, phần mềm
Orange có thể giúp người dùng phân tích được những dữ liệu từ đơn giản đến phức tạp, tạo
ra những đồ họa đẹp mắt và thú vị làm cho việc làm việc với dữ liệu trở nên hấp dẫn hơn.
Ngoài ra, phần mềm Orange cũng hỗ trợ làm cho việc phân tích, khai thác dữ liệu và học
máy trở nên dễ dàng hơn rất nhiều cho cả người dùng mới và các chuyên gia trong lĩnh vực
liên quan. Các tính năng (widgets) của Orange cũng cung cấp đa dạng các chức năng từ cơ
bản đến nâng cao như đọc dữ liệu, hiển thị dữ liệu dưới dạng bảng, lựa chọn thuộc tính đặc
điểm của dữ liệu theo nhu cầu sử dụng, đưa ra các bài toán huấn luyện dữ liệu để tiến hành
dự đoán, so sánh các thuật toán máy học , trực quan hóa các phần tử dữ liệu, ... Nền tảng này
cũng có một cộng đồng người dùng rộng lớn, vì vậy người dùng có thể tìm thấy nhiều tài
liệu hướng dẫn và tài nguyên trực tuyến để giúp họ trong việc sử dụng phần mềm.

34
Báo cáo đồ án học phần Khoa học dữ liệu
2.2.1.2 Các tính năng của Orange
Phần mềm Orange cung cấp các tính năng có tính ứng dụng cao, được tích hợp một cách
dễ hiểu nhất hỗ trợ một sự dễ dàng, linh hoạt trong quá trình sử dụng Orange. Các nhóm tính
năng nổi bật như sau:
● Data: Tính năng này dùng để rút trích, biến đổi, và nạp dữ liệu vào Orange để có thể
phân tích và khai phá dữ liệu trong những bước kế tiếp

Hình 2. 12. Minh hoạ tính năng Data

● Visualize: dùng để biểu diễn dữ liệu dưới dạng các biểu đồ (chart) giúp quan sát dữ
liệu được tốt hơn

Hình 2. 13. Minh hoạ tính năng Visualize

● Model: Tính năng này gồm các hàm máy học (machine learning), phân lớp dữ liệu
với Tree, Logistic Regression, SVM, Neural Network, ...

35
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 2. 14. Minh hoạ tính năng Model
● Evaluate: Tính năng Evaluate trong Orange sẽ cung cấp các phương pháp đánh giá
mô hình (học máy) như Test & Score, Prediction, Confusion,...

Hình 2. 15. Minh hoạ tính năng Evaluate

● Unsupervised: Tính năng này gồm các hàm máy học (machine learning) gom nhóm
dữ liệu như Distance, K-means, ... thường dùng cho phân cụm dữ liệu

36
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 2. 16. Minh hoạ tính năng Unsupervised
● Add ons: Giúp mở rộng các chức năng nâng cao như xử lý dữ liệu lớn (Big Data)
với Spark, xử lý ảnh với Deep learning, xử lý văn bản, phân tích mạng xã hội,... Đây
có lẽ là điểm cộng lớn của Orange so với các phần mềm khai phá dữ liệu khác hiện
nay.
2.2.2 Phương pháp phân lớp dữ liệu
2.2.2.1 Định nghĩa
Phương pháp phân lớp dữ liệu được biết đến là một kỹ thuật học máy có giám sát,
nhằm phân loại các đối tượng dữ liệu vào một hay nhiều lớp (loại) đã xác định trước đó nhờ
một mô hình phân lớp. Quá trình này dựa trên một mô hình toán học được xây dựng từ một
tập dữ liệu huấn luyện, trong đó mỗi dữ liệu đã được gán một nhãn tương ứng với lớp mà nó
thuộc về. Quá trình gán nhãn (thuộc lớp nào) cho đối tượng dữ liệu chính là quá trình phân
lớp dữ liệu.

Hình 2. 17. Mô hình phân lớp dữ liệu

* Quá trình phân lớp dữ liệu gồm 2 bước:
Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”):

37
Báo cáo đồ án học phần Khoa học dữ liệu
Một cách ngắn gọn để xác định một mô hình là mô tả một tập hợp các lớp trước đó
được xác định. Mô hình được xây dựng trong quá trình huấn luyện những dữ liệu mô tả một
tập dữ liệu hiện có. Đầu tiên, tiêu đề với một số các tập dữ liệu trước đó được đánh nhãn và
tiền xử lý, nghĩa là mỗi yếu tố dữ liệu dữ doán đến trước với một lớp tiền định, trong đó lớp
đại diện cho giá trị của một thuộc tính đã chọn dẫn dụ là nhãn thuộc tính hoặc thuộc tính
phân lớp. Mỗi cặp giá trị đại diện cho một phần tử dữ liệu: các mẫu, ví dụ, vật chất, hoặc
không gian ví dụ. Kết quả của quy trình này là một mô hình phân lớp đã được huấn luyện
(trình phân lớp).

Hình 2. 18. Mô hình biểu diễn xây dựng mô hình phân lớp
Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ.
Bước 2.1: Đánh giá mô hình:
 Dữ liệu đầu vào: là một tập dữ liệu mẫu khác đã được gán nhãn và tiền xử lý.Tuy
nhiên, thuộc tính đã được gán nhãn này bị “lờ” khi được đưa vào mô hình để thực
hiện quá trình phân lớp.
 Độ chính xác hay tính đúng đắn của mô hình sẽ được đánh giá bằng cách so sánh
thuộc tính gán nhãn của dữ liệu đầu vào với kết quả phân lớp mô hình. Holdout là
một kỹ thuật đơn giản để ước lượng tính đúng đắn này dựa trên tỷ lệ phần trăm các
các mẫu trong tập dữ liệu dự báo được mô hình phân lớp đúng (so với thực tế). Kết
quả từ quá trình này cho phép mô hình được áp dụng để phân lớp các dữ liệu trong
tương lai hoặc các dữ liệu mà giá trị thuộc tính phân lớp chưa biết, với điều kiện mô
hình đạt độ chính xác cao và phù hợp.
Bước 2.2: Phân lớp dữ liệu mới
 Dữ liệu đầu vào: là những dữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn)
 Mô hình sẽ tự động phân lớp hay còn gọi là “gán nhãn” cho các đối tượng dữ liệu
này dựa vào những gì được huấn luyện ở bước 1 nêu trên.

38
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 2. 19. Mô hình phân lớp dữ liệu mới
2.2.2.2 Mội số phương pháp phân lớp dữ liệu
● Phương pháp hồi quy logistic (Logistic Regression)
Định nghĩa: Là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một tập các giá trị đầu
vào (biểu diễn dưới dạng vector)
Mô tả: Đối với bài toán phân lớp: Tập nhãn 𝒚 = 𝑦1, 𝑦2, … , 𝑦𝑛 𝑣ớ𝑖 𝑛 𝑙à 𝑠ố 𝑙ớ𝑝 Một đối
tượng dữ liệu 𝒙 = 𝑥1, 𝑥2, … , 𝑥𝑑 𝑣ớ𝑖 𝑑 𝑙à 𝑠ố 𝑡ℎ𝑢ộ𝑐 𝑡í𝑛ℎ 𝑐ủ𝑎 𝑚ỗ𝑖 𝑑ò𝑛𝑔 𝑑ữ 𝑙𝑖ệ𝑢 𝑣à

đượ𝑐 𝑏𝑖ể𝑢 𝑑𝑖ế𝑛 𝑑ướ𝑖 𝑑ạ𝑛𝑔 𝑣𝑒𝑐𝑡𝑜𝑟 Hàm logistic dự

đoán đối tượng xem đối tượng x sở hữu các thuộc tính cụ thể sẽ thuộc vào lớp y nào.
Trong đó: d là số lượng đặc trưng (thuộc tính) của dữ liệu, w là trọng số, ban đầu sẽ được
khởi tạo ngẫu nhiên, sau đó sẽ được điều chỉnh lại cho phù hợp Mô hình phân lớp nhị phân
sử dụng phương pháp hồi quy logistic.

Hình 2. 20 Minh họa phương pháp Hồi quy logistic

● Phương pháp cây quyết định (Decision Tree)

39
Báo cáo đồ án học phần Khoa học dữ liệu
Khái niệm: Cây quyết định là một công cụ trực quan trong lý thuyết quản trị, cho phép minh
họa các quyết định và các kết quả có thể xảy ra, nhằm hỗ trợ người ra quyết định. Trong
khai thác dữ liệu, phương pháp này được áp dụng để mô tả và phân loại tập dữ liệu, đồng
thời giúp tổng quát hóa thông tin từ dữ liệu đó.

Hình 2. 21 Minh họa phương pháp Cây quyết định

Ưu điểm
○ Dễ hiểu và trực quan: Cấu trúc cây quyết định giống như một sơ đồ tư duy,
giúp chúng ta dễ dàng nắm bắt quy trình ra quyết định và giải thích kết quả
cho người không chuyên.
○ Không đòi hỏi chuẩn bị dữ liệu phức tạp: Cây quyết định có thể xử lý được
nhiều loại dữ liệu khác nhau, từ dữ liệu số đến dữ liệu danh mục, mà không
cần phải chuẩn hóa dữ liệu quá nhiều.
○ Có thể xử lý trên nhiều kiểu dữ liệu khác nhau.
○ Hiệu quả với dữ liệu lớn: Cây quyết định có thể xử lý lượng lớn dữ liệu trong
thời gian ngắn, giúp chúng ta đưa ra quyết định nhanh chóng
Khuyết điểm:
○ Thiếu tính ổn định và thay đổi nhiều với những thay đổi nhỏ trong dữ liệu
huấn luyện.
○ Khó giải quyết trong tình huống dữ liệu phụ thuộc thời gian.
○ Chi phí xây dựng mô hình cao so với các phương pháp khác: Khi cây quyết
định trở nên quá phức tạp, việc xây dựng và sử dụng mô hình có thể tiêu tốn
nhiều tài nguyên tính toán.
● Phương pháp SVM (Support Vector Machine)
SVM (Support Vector Machine) là một thuật toán học có giám sát. Thuật toán này nhận dữ
liệu đầu vào và coi chúng như các vector trong không gian. Nó phân loại các vector này vào
những lớp khác nhau bằng cách tạo ra một siêu phẳng trong không gian nhiều chiều, đóng
vai trò là ranh giới phân tách giữa các lớp dữ liệu.- Để tối ưu kết quả phân lớp thì phải xác
định siêu phẳng (hyperplane) có khoảng cách đến các điểm dữ liệu (margin) của tất cả các
lớp xa nhất có thể.
SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau.

40
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 2. 22 Các biến thể của SVM

Hình 2. 23 Minh họa phương pháp SVM

Ưu điểm:
○ Tiết kiệm bộ nhớ (do quá trình test chỉ cần so điểm dữ liệu mới với mặt siêu
phẳng tìm được mà không cần tính toán lại)
○ Linh hoạt: vừa có thể phân lớp tuyến tính và phi tuyến (sử dụng các kernel
khác nhau)
○ Xử lý được trong không gian nhiều chiều
Khuyết điểm:
○ Trong trường hợp số chiều dữ liệu lớn hơn số dòng dữ liệu thì SVM cho kết
quả không tốt.
○ Chưa thể hiện tính xác suất trong phân lớp.
2.2.2.3 Các phương pháp đánh giá mô hình phân lớp
Khái niệm: Là các phương pháp nhằm kiểm tra tính hiệu quả của mô hình phân lớp
trên dữ liệu có đặc thù cụ thể, từ đó quyết định có sử dụng mô hình đó hay không. Một mô
hình lý tưởng là một mô hình không quá đơn giản, không quá phức tạp và không quá nhạy
cảm với nhiễu (tránh underfitting và overfitting).

41
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 2. 24 Minh họa các phương pháp đánh giá mô hình phân lớp
Underfitting (chưa khớp): Mô hình được xem là chưa khớp khi nó không thể phù hợp
với tập dữ liệu huấn luyện và cũng không đưa ra dự đoán chính xác cho các mẫu mới.
Nguyên nhân có thể xuất phát từ việc mô hình không đủ độ phức tạp để nắm bắt các đặc
điểm của tập dữ liệu. Hậu quả là nhiều điểm dữ liệu không được phân loại chính xác, dẫn
đến độ chính xác của mô hình bị giảm.
Overfitting (quá khớp): Overfitting là hiện tượng mô hình học máy quá tập trung vào
việc giảm thiểu lỗi trên dữ liệu huấn luyện đến mức nó bắt đầu "học" cả nhiễu và các mẫu
dữ liệu ngẫu nhiên. Điều này làm giảm khả năng của mô hình trong việc đưa ra dự đoán
chính xác trên dữ liệu mới.
Good fitting: Mô hình được coi là phù hợp khi cho ra kết quả hợp lý cho cả dữ liệu huấn
luyện và các giá trị mới, tức là có tính tổng quát.
Kết luận: Một mô hình tốt là mô hình mang lại kết quả chấp nhận được trên cả dữ liệu mẫu
và dữ liệu mới. Trong tất cả các giả thiết có thể giải thích được một hiện tượng, ta nên chọn
giả thiết đơn giản nhất (Occam's razor). Do đó, trong tất cả các model "đúng", chọn model
đơn giản nhất.
● Ma trận nhầm lẫn (Confusion Matrix)
Ma trận nhầm lẫn: là một công cụ giúp hiển thị số lượng điểm dữ liệu thực sự thuộc về một
lớp cụ thể và cách mà các điểm dữ liệu đó được dự đoán vào các lớp khác nhau.
Confusion matrix là có kích thước k x k với k là số lượng lớp của dữ liệu.
Để hiểu hơn về ma trận nhầm lẫn, ta đặt giả sử bài toán chẩn đoán ung thư, có 2 lớp. Lớp bị
ung thư được chẩn đoán Positive, lớp không bị ung thư được chẩn đoán Negative.
o TP - True Positive: Số lượng dự đoán chính xác. Những bệnh nhân ta đoán là có
bệnh đúng là đang mang bệnh.
o TN - True Negative: Số lương dự đoán chính xác một cách gián tiếp. Những bệnh
nhân ta đoán là không có bệnh đúng là đang khỏe mạnh.
o FP - False Positive (Type 1 Error): Số lượng các dự đoán sai lệch. Những bệnh nhân
ta đoán là có bệnh thật ra đang khỏe mạnh.
o FN - False Negative (Type 2 Error): Số lượng các dự đoán sai lệch một cách gián
tiếp. Những bệnh nhân ta đoán là không có bệnh thật ra đang mang bệnh.

42
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 2. 25 Minh họa một ma trận nhầm lẫn
 Accuracy (tính chính xác)
ACC: Là tỷ lệ số mẫu được phân lớp đúng trong toàn bộ tập dữ liệu

Hệ quả của Accuracy chính là Error rate, độ lỗi của mô hình.

Độ chính xác (Accuracy) chỉ cho biết tỷ lệ các điểm dữ liệu được phân loại đúng, nhưng
không cung cấp thông tin cụ thể về cách phân loại từng loại. Nó không chỉ ra lớp nào được
phân loại chính xác nhất, cũng như không cho biết lớp nào thường bị nhầm lẫn với lớp khác.
 Precision, Recall, F1 - score
Precision (độ chính xác): cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ bao nhiêu
mẫu có đúng (tránh nhầm lẫn với tính chính xác accuracy)

Recall (độ phủ) còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (True Positive Rate)

F1 -score: giá trị trung bình điều hòa (harmonic mean) của hai độ đo Precision và Recall.

43
Báo cáo đồ án học phần Khoa học dữ liệu
F1 có giá trị gần với giá trị nào nhỏ hơn giữa 2 giá trị Precision và Recall. F1 sẽ có giá trị
lớn nếu cả 2 giá trị Precision và Recall đều lớn.
 ROC và AUC
ROC (Receiver Operating Characteristic) Là một đồ thị được sử dụng khá phổ biến
trong đánh giá các mô hình phân loại nhị phân. Đường cong này được tạo ra bằng cách biểu
diễn tỷ lệ dự báo true positive rate (TPR) dựa trên tỷ lệ dự báo false positive rate (FPR) tại
các ngưỡng khác nhau. Một mô hình hiệu quả khi có FPR thấp và TPR cao, hay ROC càng
tiệm cận với điểm (0;1) trong đồ thị thì mô hình càng hiệu quả.

Hình 2. 26 Minh họa đường cong ROC

AUC (Area Under the Curve) Là diện tích nằm dưới đường cong ROC. Giá trị này là
một số dương nhỏ hơn hoặc bằng 1. Giá trị này càng lớn thì mô hình càng tốt

Hình 2. 27 Minh họa đường cong ROC và AUC

44
Báo cáo đồ án học phần Khoa học dữ liệu
 Phương pháp phân chia dữ liệu Hold-out
 Phương pháp Hold-out chia tập dữ liệu ban đầu thành hai tập độc lập theo một tỷ lệ
nhất định. Chẳng hạn, tập huấn luyện (training set) có thể chiếm 70% tổng số dữ
liệu, trong khi tập thử nghiệm (testing set) chiếm 30%.
 Phương pháp này phù hợp với các tập dữ liệu nhỏ. Tuy nhiên, một hạn chế là các
mẫu có thể không đại diện cho toàn bộ dữ liệu, dẫn đến việc thiếu lớp trong tập thử
nghiệm.
 Có thể cải tiến phương pháp này bằng cách sử dụng kỹ thuật lấy mẫu sao cho mỗi
lớp được phân bố đều trong cả hai tập dữ liệu huấn luyện và kiểm tra. Một cách khác
là thực hiện lấy mẫu ngẫu nhiên, trong đó thực hiện phương pháp Hold-out kkk lần
và tính độ chính xác acc(M)acc(M)acc(M) bằng cách lấy trung bình cộng của kkk
giá trị chính xác
 K-fold cross validation (Kiểm chứng chéo K-fold)
 Phương pháp này phân chia dữ liệu thành k tập con có cùng kích thước (gọi là
các fold).
 Một trong các fold được sử dụng làm tập dữ liệu đánh giá và phần còn lại được
sử dụng làm tập huấn luyện.
 Quá trình lặp lại cho đến khi tất cả các fold đều đã được dùng làm tập dữ liệu
đánh giá.
Xét ví dụ: 5-fold cross validation

Hình 2. 28 Minh họa cho phương pháp K-fold validation

2.2.3 Phương pháp phân cụm dữ liệu
Phân cụm dữ liệu là kỹ thuật rất quan trọng trong khai phá dữ liệu, thuộc lớp các
phương pháp Unsupervised Learning trong Machine Learning. Có rất nhiều định nghĩa khác
nhau được đưa ra khi nhắc về phương pháp này, tuy nhiên ta có thể hiểu đơn giản phương
pháp phân cụm dữ liệu được thực hiện khi dữ liệu chưa có cấu trúc định dạng rõ ràng về
bảng dữ liệu nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn, quan tâm
trong tập dữ liệu lớn, từ đó cung cấp thông tin, tri thức hữu ích cho ra quyết định. Không có
biến phụ thuộc Target y, chỉ có biến phụ thuộc Feature x.

45
Báo cáo đồ án học phần Khoa học dữ liệu
2.2.3.1 Định nghĩa phân cụm dữ liệu
Phân cụm dữ liệu là quá trình gom cụm/nhóm các đối tượng/dữ liệu có đặc điểm
tương đồng vào các cụm/nhóm tương ứng.
Trong đó:
● Các đối tượng thuộc cùng một cụm sẽ có những tính chất tương tự với nhau.
● Các đối tượng thuộc những cụm/nhóm khác nhau sẽ có các tính chất khác so với
nhau.
Lưu ý: Dữ liệu của một bài toán phân cụm là dữ liệu chưa được gán nhãn. Đây là dữ liệu tự
nhiên thường thấy trong thực tế.

Hình 2. 29 Minh hoạ phương pháp phân cụm trong Mining Data
Mô hình của quá trình phân cụm dữ liệu: Dữ liệu thực → Trích chọn đặc trưng (nhận
biết những đặc trưng, tính chất của dữ liệu để gom lại thành cụm) → Thuật toán gom cụm
→ Đánh giá kết quả gom cụm → Biểu diễn kết quả gom cụm. Sau quá trình phân cụm, mỗi
nhóm hoặc cụm được tìm thấy sẽ bao gồm các đối tượng với các đặc điểm tương tự nhau mà
trong đó, mật độ đối tượng cục bộ cao hơn các nhóm/cụm khác.
2.2.3.2 Đặc điểm của phân cụm dữ liệu
● Nhiệm vụ chính của một bài toán phân cụm dữ liệu là tìm ra và đo đạc sự khác biệt
giữa các đối tượng trong tập dữ liệu.
● Phân cụm thuộc nhóm phương pháp học không giám sát (unsupervised learning) vì
không biết trước được số nhóm (khác với bài toán phân lớp).
● Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao,
bao gồm:
○ Độ tương đồng giữa các đối tượng bên trong cụm cao.
○ Độ tương tự giữ̛a các cụm thấp (các cụm có sự khác biệt cao).
2.2.3.3 Một số phương pháp phân cụm dữ liệu
➢ Phân cụm dựa trên phân cấp (Hierarchical clustering)
● Định nghĩa: “Phân cụm phân cấp là quá trình xây dựng một cây phân cấp các dữ liệu
cần gom cụm, dựa theo 2 tiêu chí sau:

46
Báo cáo đồ án học phần Khoa học dữ liệu
○ Tạo ra ma trận khoảng cách giữ̛a các phần tử (similarity matrix hoặc
dissimilarity matrix).
○ Độ đo khoảng cách giữ̛a các cụm (single link, complete link…).
● Đặc điểm:
○ Phương pháp này phân cấp dữ liệu dựa trên các tiêu chí.
○ Không cần xác định trước số cụm, tuy nhiên cần xác định điều kiện dừng.
○ Cho ra kết quả dễ hiểu, giải thuật đơn giản, không cần tham số đầu vào.
○ Tốc độ chậm, không thích hợp cho các dữ liệu lớn, phức tạp.
○ Các dữ liệu bị thiếu, nhạy cảm với nhiễu thì phương pháp này không xử lý
được
● Các phương pháp điển hình: Diana, Agnes…
● Một số phương pháp tính khoảng cách phổ biến:
○ Single-link: khoảng cách nhỏ nhất giữ̛a 1 phần tử trong một cụm với một
phần tử ở cụm khác.
○ Complete-link: khoảng cách lớn nhất giữ̛a 1 phần tử trong một cụm với một
phần tử ở cụm khác.
○ Average-link: khoảng cách trung bình giữ̛a 1 phần tử trong một cụm với một
phần tử ở cụm khác
➢ Phân cụm dựa trên phân hoạch (Partitioning clustering)
● Định nghĩa: Phân cụm phân hoạch là quá trình phân tập dữ liệu có n phần tử cho
trước thành k tập con (với k <= n), mỗi tập con biểu diễn một cụm. Các cụm hình
thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (độ đo phân cụm) sao cho:
○ Mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong cụm có sự tương tự
nhau.
○ Mỗi cụm có ít nhất 1 phần tử.
● Đặc điểm: xây dựng các phân hoạch khác nhau và đánh giá chúng, sau đó tìm các tối
thiểu hóa tổng bình phương độ lỗi.
● Các thuật toán điển hình: K-means, K-mediods, Fuzzy, C-means.
● Thuật toán K-means: là một thuật toán được sử dụng để phân tích tính chất cụm dữ
liệu. Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch. Thuật toán này được sử
dụng nhiều trong khai phá dữ liệu và thống kê. Nó phân vùng dữ liệu thành k cụm
khác nhau, giúp xác định dữ liệu thuộc về nhóm nào. Ta xem mỗi đối tượng trong
tập dữ liệu là một điểm trong không gian d chiều (với d là số lượng thuộc tính của
đối tượng). Ta tiến hành theo các bước:
○ Bước 1: Chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm.
○ Bước 2: Phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất. Nếu các
điểm dữ liệu ở từng cụm vừa được phân chia không thay đổi so với kết quả
của lần phân chia trước nó thì ta dừng thuật toán.

47
Báo cáo đồ án học phần Khoa học dữ liệu
○ Bước 3: Cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình cộng
của tất các các điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở
bước 2.
○ Bước 4: Quay lại bước 2.
Cho đến nay có rất nhiều thuật toán kế thừa tư tưởng của thuật toán K-means để giải
quyết với tập dữ liệu có kích thước rất lớn, được áp dụng hiệu quả và phổ biến như thuật
toán K-modes, PAM, CLARA, CLARANS, K-prototypes,...
2.2.3.4 Các phương pháp đánh giá phân cụm dữ liệu
● Đây là vấn đề khó khăn nhất trong bài toán phân cụm. Ta dựa vào các tiêu chí sau
để đánh giá chất lượng phân cụm:
○ Độ nén (compactness): các phần tử của cụm phải “gần nhau”.
○ Độ phân cách (separation): khoảng cách giữ̛a các cụm nên “xa nhau”, phân
cách rõ ràng.
● Để đánh giá việc phân cụm dữ liệu, ta có thể sử dụng các phương pháp sau:
○ Đánh giá ngoài (external validation): là đánh giá kết quả phân cụm dựa và
cấu trúc/xu hướng phân cụm được chỉ định trước cho tập dữ liệu như: So
sánh độ sai khác giữa các cụm; So sánh với kết quả mẫu (đáp án).
Các độ đo được sử dụng trong phương pháp này: Rand statistic, Jaccard
coefficient, Folkes và Mallows index,….
○ Đánh giá nội bộ (internal validation): là đánh giá kết quả phân cụm mà
không có thông tin từ bên ngoài, chủ yếu dựa trên các vector chính của dữ̛
liệu thông qua ma trận xấp xỉ (proximity matrix).
Tối ưu hóa các chỉ số nội bộ: độ nén, độ phân tách
Các độ đo được sử dụng trong phương pháp này: Hubert’s statistic,
Silhouette index, Dunn’s index, F-ratio,...
○ Đánh giá tương đối (relative validation): Đánh giá kết quả gom cụm bằng
vie ̣c so sánh với:
■ Kết quả gom cụm ứng với các bộ trị thông số khác nhau.
■ Kết quả gom cụm của các phương pháp khác.
2.2.3.5 Ứng dụng điển hình của phương pháp phân cụm:
Kỹ thuật phân cụm có thể áp dụng trong đa dạng các lĩnh vực của đời sống xã hội:
● Ứng dụng điển hình:
○ Công cụ phân cụm dữ̛ liệu độc lập:
○ Là giai đoạn tiền xử lý cho các thua ̣t toán khác.
● Ứng dụng kinh tế:
○ Marketing: Dự báo khách hàng tiềm năng (thông qua việc xác định các nhóm
khách hàng).
○ Phân tích xu hướng hành vi khách hàng.
○ Phân tích cạnh tranh, xu hướng lựa chọn dịch vụ giữ̛a các nhà cung cấp.

48
Báo cáo đồ án học phần Khoa học dữ liệu
○ Phân tích đặc tính sản phẩm dịch vụ.
○ Đánh giá kết quả hoạt động kinh doanh.
○ Phân tích hành vi người dùng mạng xã hội.
● Ứng dụng trong y học và chăm sóc sức khỏe: Chuẩn đoán bệnh trong y tế dựa trên
kết quả xét nghiệm
● Ứng dụng trong bảo hiểm, tài chính: phân nhóm đối tượng sử dụng bảo hiểm và dịch
vụ tài chính, dự báo xu hướng khách hàng, xác định gian lận tài chính - phát hiện kẻ
gian, đánh giá tình hình tài chính tín dụng của khách hàng, …

CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ.
3.1 PHÂN TÍCH BỘ DỮ LIỆU TELCO CUSTOMER CHURN
3.1.1 Tiền xử lý dữ liệu
 Tiền xử lý dữ liệu là một bước rất quan trọng trong việc giải quyết bất kỳ vấn đề nào
trong lĩnh vực Học Máy. Hầu hết các bộ dữ liệu được sử dụng cần được xử lý, làm
sạch và biến đổi trước khi một thuật toán Học Máy có thể được huấn luyện trên
những bộ dữ liệu này.
 Các kỹ thuật tiền xử lý dữ liệu phổ biến hiện nay bao gồm: xử lý dữ liệu bị khuyết
(missing data), mã hóa các biến nhóm (encoding categorical variables), chuẩn hóa dữ
liệu (standardizing data), co giãn dữ liệu (scaling data), ... Những kỹ thuật này tương
đối dễ hiểu nhưng sẽ có nhiều vấn đề phát sinh khi chúng ta áp dụng vào các dữ liệu
thực tế. Bởi lẽ các bộ dữ liệu ứng với các bài toán trong thực tế rất khác nhau và mỗi
bài toàn thì đối mặt với những thách thức khác nhau về mặt dữ liệu.
Các bước thực hiện tiền xử lý dữ liệu trong Orange đối với bộ dataset Telco Customer
Churn:
Bước 1: Nạp dữ liệu Telco Customer Churn: ở mục Data, mở Dataset và chọn bộ dữ liệu
Telco Customer Churn cần tiến hành tiền xử lý.
Bước 2: Nối Dataset vào Data Table để xem nội dung dữ liệu bảng biểu.
Bảng 3. 1 dữ liệu Telco Customer Churn trong Data Table

49
Báo cáo đồ án học phần Khoa học dữ liệu
Bước 3: Sau khi quan sát bảng, không xuất hiện dữ liệu bị thiếu (no missing data). Do đó bỏ
qua bước tiền xử lý dữ liệu. Xuất dữ liệu ra file Excel bằng cách nối Data Table vào Save
Data.

Hình 3. 1 Mô tả các bước thực hiện

3.1.2 MÔ TẢ TỔNG QUÁT DỮ LIỆU
● Nguồn gốc: Bộ dữ liệu này do công ty công nghệ IBM thu thập và phát hành trên
trang web Kaggle với tên gọi Telco Customer Churn, nhằm mục đích dự đoán hành
vi khách hàng và xây dựng, phát triển những chiến lược hiệu quả để giữ chân họ.
● Tập dữ liệu thô gồm: 7043 hàng (khách hàng) và 21 cột (thuộc tính).
● Đại diện mỗi hàng là một khách hàng và mỗi cột chứa các thông tin của khách

50
Báo cáo đồ án học phần Khoa học dữ liệu
hàng.

Hình 3. 2. Mẫu dữ liệu Telco Customer Churn

● Các biến trong bộ dữ liệu

STT Thuộc tính Ý nghĩa Mô tả Đo lường

1 Customer ID Mã số khách hàng Text

2 Gender Giới tính Male, Female Categorical

3 SeniorCitizen Người cao tuổi 1,0 Categorical

4 Partner Vợ/chồng/người yêu Yes, No Categorical

5 Dependents Người phụ thuộc Yes, No Categorical

6 Tenure Số tháng gắn bó Numeric

7 PhoneService Dùng dịch vụ thông qua điện Yes, No Categorical

thoại

8 MultipleLines Nhiều đường dây Yes, No, No Categorical

phone service

9 InternetServie Dịch vụ Internet DSL, Fiber Categorical

optic, No

10 OnlineSecurity Dịch vụ bảo mật trực tuyến Yes, No, No Categorical

internet service

51
Báo cáo đồ án học phần Khoa học dữ liệu
11 OnlineBackup Dịch vụ sao lưu trực tuyến Yes, No, No Categorical
internet service

12 DeviceProtection Dịch vụ bảo vệ thiết bị Yes, No, No Categorical

internet service

13 TechSupport Dịch vụ hỗ trợ kỹ thuật Yes, No, No Categorical

internet service

14 StreamingTV Truyền hình trực tuyến Yes, No, No Categorical

internet service

15 StreamingMovie Phim trực tuyến Yes, No, No Categorical

s internet service

16 Contract Thời hạn hợp đồng Month-to- Categorical

month, One
year, Two year

17 PaperlessBilling Hóa đơn giấy Yes, No Categorical

18 PaymentMethod Phương thức thanh toán Electronic Categorical

check, Mailed
check, Bank
transfer
(automatic),
Credit card

19 MonthlyCharges Phí hàng tháng Numeric

20 TotalCharges Chi phí tổng Numeric

21 Churn Khách hàng rời bỏ dịch vụ Yes, No Categorical

Bảng 3. 2. Mô tả thuộc tính - Các biến trong bộ dữ liệu:
● Mục tiêu nghiên cứu: Cột Churn - biểu thị cho sự rời đi của khách hàng trong tháng
trước. Bên cạnh đó, mục tiêu phân tích dữ liệu trong bộ dữ liệu "Telco Customer
Churn” là hiểu rõ về nguyên nhân ra đi của khách hàng, dự đoán khả năng thôi sử
dụng dịch vụ của họ, và tìm ra các yếu tố ảnh hưởng đến sự hài lòng đối với dịch và
điều giữ làm khách hàng tiếp tục sử dụng dịch vụ. Phân tích này mang lại thông tin
quan trọng và giúp nhà quản lý và nhà nghiên cứu đưa ra các quyết định và biện

52
Báo cáo đồ án học phần Khoa học dữ liệu
pháp hiệu quả để giữ chân khách hàng và tạo hình ảnh tốt để thu hút thêm khách
hàng tiềm năng.

3.1.3. Thống kê mô tả
3.1.3.1 Quyết định dừng sử dụng dịch vụ
Bộ dữ liệu Telco Customer Churn thu thập dữ liệu từ 7043 khách hàng, trong đó chỉ
có 1869 khách hàng quyết định không tiếp tục sử dụng dịch vụ (chiếm 27%), 5174 khách
hàng còn lại quyết định ở lại (chiếm 73%).

Quyết định dừng lại/ tiếp tục

Số lượng Phần trăm
việc sử dụng dịch vụ

Yes 1869 27%

No 5174 73%

Bảng 3. 3. Bảng thống kê quyết định rời đi hoặc ở lại của khách hàng

Hình 3. 3. Biểu đồ thể hiện số lượng khách hàng theo quyết định dừng lại hoặc tiếp
tục sử dụng dịch vụ
3.1.3.2 Giới tính
Không có sự chênh lệch lớn giữa tỉ lệ nam và nữ trong ngân hàng dữ liệu (số lượng
nam/nữ : 3555/3488 xấp xỉ 50/50). Bên cạnh đó, số lượng nam nữ quyết dừng sử dụng dịch
vụ chỉ chênh lệch rất ít trên tổng con số 7046 khách hàng. Điều này rõ ràng cho thấy, giới
tính không làm ảnh hưởng đến việc rời đi hoặc ở lại của khách hàng.

Giới tính Tiếp tục sử dụng (No) Dừng sử dụng (Yes)

53
Báo cáo đồ án học phần Khoa học dữ liệu
Nam 2625 930

Nữ 2549 939
Bảng 3. 4. Bảng thống kê số lượng nhân viên tiếp tục hay dừng lại theo giới tính.

Hình 3. 4. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo giới tính.
3.1.3.3 Người cao tuổi - SeniorCitizen
Khi nghiên cứu trên 2 đối tượng khách hàng là người cao tuổi và những người còn
lại, nhận thấy có rất ít khách hàng là người cao tuổi 1142 người, còn lại 5901 khách hàng
thuộc nhóm đối tượng khác. Càng lớn tuổi người ta có xu hướng không tiếp tục sử dụng dịch
vụ nữa vì có đến 42% nhóm người cao tuổi rời đi, cao hơn 18% so với nhóm người còn lại
(24%).
Người lớn tuổi trung thành với thương hiệu, ít nhu cầu thay đổi, và khó khăn trong
việc tiếp cận công nghệ mới. Nếu dịch vụ viễn thông không đáp ứng được nhu cầu đơn giản,
dễ sử dụng và chi phí hợp lý, hoặc nếu chăm sóc khách hàng không được tận tâm thì họ sẽ
rời đi. Công ty viễn thông có thể giữ chân khách hàng cao tuổi bằng cách cung cấp các gói
dịch vụ đơn giản, giá cả hợp lý và dịch vụ chăm sóc khách hàng thân thiện, đặc biệt là hỗ trợ
qua các kênh truyền thống.

Đối tượng Tiếp tục sử dụng (No) Dừng sử dụng (Yes)

Nhóm người cao tuổi (1) 666 476

Nhóm người còn lại (0) 4508 1393

Bảng 3. 5. Bảng thống kê số lượng nhân viên tiếp tục hay dừng lại dựa trên tuổi tác

54
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 3. 5. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa trên tuổi
tác
3.1.3.4 Khách hàng có đối tác (vợ/chồng/người yêu)
Sau khi thống kê kết quả cho thấy, khách hàng có đối tác (vợ/chồng/người yêu) có tỷ
lệ rời bỏ dịch vụ viễn thông chỉ khoảng 19.66%, thấp hơn đáng kể so với 32.95% ở nhóm
không có đối tác. Điều này cho thấy khách hàng có đối tác thường gắn bó lâu hơn với dịch
vụ, có thể do nhu cầu liên lạc ổn định và việc chia sẻ các gói cước gia đình hơn các khách
hàng độc thân. Công ty viễn thông có thể khai thác điều này bằng cách phát triển các gói
cước và ưu đãi dành cho gia đình hoặc cặp đôi, từ đó giảm đáng kể tỷ lệ khách hàng rời bỏ.

Đối tác
Tiếp tục sử dụng (No) Dừng sử dụng (Yes)
(vợ/chồng/người yêu)

Yes 2733 669

No 2441 1200
Bảng 3. 6. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại dựa trên partner

55
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 3. 6. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa trên
partner
3.1.3.5 Người phụ thuộc
Dữ liệu cho thấy rằng khách hàng có người phụ thuộc chỉ có tỷ lệ rời bỏ dịch vụ viễn
thông là 15.45%, thấp hơn rõ rệt so với 31.29% ở nhóm không có người phụ thuộc.
Khách hàng có người phụ thuộc có thể duy trì dịch vụ viễn thông lâu hơn do nhu cầu ổn
định để đảm bảo liên lạc và chăm sóc cho người phụ thuộc (vd: con cái, cha mẹ, ông bà lớn
tuổi, anh chị em,...). Họ có xu hướng tìm kiếm sự ổn định và tiện lợi trong việc kết nối với
nhau, khiến họ ít có động lực rời bỏ dịch vụ hơn. Công ty viễn thông có thể tận dụng thông
tin này bằng cách phát triển các gói cước gia đình, hỗ trợ khách hàng có người phụ thuộc
nhằm giữ chân họ.

Người phụ thuộc Tiếp tục sử dụng (No) Dừng sử dụng (Yes)

Yes 1784 326

No 3390 1543
Bảng 3. 7. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo người
phụ thuộc

56
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 3. 7. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo
người phụ thuộc
3.1.3.6 Số năm gắn bó sử dụng dịch vụ
Số lượng khách hàng được ghi nhận trong dữ liệu đa phần là đã sử dụng dịch vụ từ
72 tháng (6 năm) trở lại. Với tổng số 7043 khách hàng mà chỉ có 27% rời đi thì có thể thấy
khả năng giữ chân khách hàng để họ tiếp tục dùng dịch vụ là tương đối tốt.
0-24 tháng: Tỷ lệ mất khách hàng cao nhất (41.46%) do khách hàng mới dễ rời bỏ, có thể vì
chưa hài lòng với dịch vụ hoặc bị hấp dẫn bởi đối thủ.
24-48 tháng: Tỷ lệ giảm đáng kể (14.02%), khách hàng dần quen với dịch vụ và có mức độ
cam kết cao hơn.
48-72 tháng: Tỷ lệ thấp nhất (9.64%) do khách hàng đã gắn bó, trung thành hơn và chi phí
chuyển đổi cao hơn.
Điều này phản ánh rằng, khi ký kết sử dụng lâu thì công ty cung cấp dịch vụ càng uy
tín và được khách hàng tin tưởng cũng như phù hợp với mong muốn và nhu cầu của khách
hàng. Công ty viễn thông nên tập trung vào việc giữ chân khách hàng trong giai đoạn đầu
(0-24 tháng) bằng cách cải thiện dịch vụ, cung cấp trải nghiệm tốt và các chương trình ưu
đãi để giảm tỷ lệ mất khách hàng trong nhóm này. Những khách hàng vượt qua giai đoạn
này thường có xu hướng trung thành hơn và khó rời bỏ hơn.

Dừng sử dụng
Số tháng gắn bó Tiếp tục sử dụng (No)
(Yes)

0-24 1879 1331

24-48 3292 537

48-72 2081 222

57
Báo cáo đồ án học phần Khoa học dữ liệu
Bảng 3. 8. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo số năm gắn
bó

Hình 3. 8. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo số
năm gắn bó
3.1.3.7 Khách hàng sử dụng dịch vụ thông qua điện thoại
Có sự chênh lệch số lượng khá lớn giữa 2 nhóm đối tượng có và không sử dụng dịch
vụ thông qua điện thoại. Bên cạnh đó, khách hàng sử dụng dịch vụ viễn thông qua điện thoại
có tỷ lệ rời bỏ 26.71%, cao hơn so với 24.92% ở nhóm không dùng điện thoại.
Sử dụng dịch vụ qua điện thoại có thể đồng nghĩa với việc khách hàng sử dụng các dịch
vụ truyền thống như gọi điện, tin nhắn SMS hoặc các gói cước thoại dịch vụ. Điều này rõ
ràng cho thấy,thoại truyền thống có thể đang trở nên kém hấp dẫn hơn đối với khách hàng,
khi họ chuyển sang các dịch vụ liên lạc dựa trên internet như OTT (Over-the-Top) – ví dụ
như WhatsApp, Messenger, các ứng dụng liên lạc qua mạng xã hội khác,...
Nhóm không sử dụng dịch vụ qua điện thoại có tỷ lệ rời bỏ thấp hơn, có thể vì họ tập
trung vào các dịch vụ khác như kết nối internet hoặc dữ liệu di động.
Tỷ lệ rời bỏ cao hơn ở nhóm sử dụng dịch vụ qua điện thoại có thể là dấu hiệu rõ
ràng cho thấy khách hàng đang dần rời xa những "cuộc gọi truyền thống", để bước vào thế
giới giao tiếp nhanh nhạy hơn qua internet. Đây giống như một làn sóng chuyển dịch, nơi
những chiếc điện thoại cũ kỹ phải nhường chỗ cho các ứng dụng liên lạc mới mẻ và tiện lợi.
Công ty viễn thông cần nhanh chóng nắm bắt "làn sóng công nghệ" này, nâng cấp và tối ưu
hóa các gói dữ liệu, không chỉ để giữ chân khách hàng mà còn để thích ứng lâu dài trong
hành trình số hóa không ngừng phát triển.

Sử dụng dịch vụ điện

Tiếp tục sử dụng (No) Dừng sử dụng (Yes)
thoại

Yes 4662 1699

58
Báo cáo đồ án học phần Khoa học dữ liệu
No 512 170
Bảng 3. 9. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo tỷ lệ sử
dụng điện thoại của khách hàng

Hình 3. 9. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo tỷ lệ
sử dụng điện thoại của khách hàng
3.1.3.8 Thông qua đường dây sử dụng của khách hàng
Công ty nên tiến hành khảo sát để tìm hiểu nguyên nhân cụ thể dẫn đến việc khách
hàng có nhiều đường dây liên lạc rời bỏ dịch vụ. Vì khách hàng có nhiều đường dây liên lạc
có tỷ lệ rời bỏ cao nhất (28.6%).
Khách hàng không có nhiều đường dây liên lạc và khách hàng không có dịch vụ điện thoại
có tỷ lệ rời bỏ tương đối thấp hơn (25.0% và 24.9%). Tuy nhiên, tỉ lệ chênh lệch không đáng
kể vì thế mà dù khách hàng có nhiều đường dây liên lạc hay không, hay thậm chí không sử
dụng dịch vụ điện thoại thì cũng không ảnh hưởng quá nhiều đến việc họ rời đi hay ở lại.

Khách hàng có nhiều Tiếp tục sử dụng (No) Dừng sử dụng (Yes)
đường dây liên lạc

Yes 2121 850

No 2541 849

No phone service 512 170

59
Báo cáo đồ án học phần Khoa học dữ liệu
Bảng 3. 10. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại thông qua
đường dây

Hình 3. 10. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại thông qua
đường dây
3.1.3.9 Nhà cung cấp dịch vụ Internet cho khách hàng
Việc phân tích tỷ lệ khách hàng rời bỏ theo từng loại dịch vụ cung cấp cái nhìn sâu
sắc về chất lượng dịch vụ và sự hài lòng của khách hàng. Nên đồng thời cũng ảnh hưởng sâu
sắc đến việc họ rời đi hay ở lại.
Fiber optic: Tỷ lệ rời bỏ cao nhất (41.8%), cho thấy rằng nhiều khách hàng không hài lòng
với dịch vụ cáp quang. Nguyên nhân có thể đến từ chất lượng dịch vụ kém (như tốc độ chậm
hoặc thường xuyên mất kết nối) hoặc bị cạnh tranh từ các nhà cung cấp khác có dịch vụ tốt
hơn hoặc giá rẻ hơn. Cuối cùng thì lợi ích khách hàng nhận được không xứng với giá tiền bỏ
ra.
DSL: Tỷ lệ rời bỏ là 19.0%, tương đối thấp hơn so với Fiber optic. Tỷ lệ rời bỏ thấp hơn cho
thấy rằng khách hàng có thể cảm thấy hài lòng hơn với dịch vụ, tuy nhiên công ty vẫn nên
theo dõi và cải thiện dịch vụ.
Còn lại, nhóm không sử dụng nhà cung cấp dịch vụ nào lại có tỷ lệ rời bỏ thấp nhất (7.4%),
điều này có thể phản ánh rằng nhóm này có thể không cần dịch vụ hoặc đang chờ đợi.

Nhà cung cấp dịch vụ Tiếp tục sử dụng (No) Dừng sử dụng (Yes)

DSL 1962 459

Fiber optic 1799 1297

60
Báo cáo đồ án học phần Khoa học dữ liệu
No 1413 113
Bảng 3. 11. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo nhà
cung cấp

Hình 3. 11. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo nhà
cung cấp
3.1.3.10 Dịch vụ bảo mật trực tuyến
Dịch vụ bảo mật trực tuyến đóng vai trò quan trọng trong việc giảm tỷ lệ rời bỏ, bởi
nó mang lại sự tin cậy và cảm giác an toàn khi sử dụng internet. Ngược lại, nhóm không sử
dụng bảo mật có tỷ lệ rời bỏ cao hơn, có thể vì họ cảm thấy không được bảo vệ đầy đủ hoặc
dễ bị hấp dẫn bởi các nhà cung cấp có giải pháp an ninh tốt hơn. Khách hàng sử dụng dịch
vụ bảo mật trực tuyến có tỷ lệ rời bỏ chỉ 14.61%, thấp hơn đáng kể so với 41.77% ở nhóm
không dùng dịch vụ này. Điều đó chứng tỏ bảo mật trực tuyến không chỉ giúp khách hàng
yên tâm hơn về an toàn mạng mà còn gia tăng sự trung thành với dịch vụ.

Đặc biệt, nhóm "No internet service" có tỷ lệ rời bỏ thấp nhất (7.40%), có lẽ do họ
chỉ dùng những dịch vụ cơ bản, ít phức tạp và ít phải đối mặt với sự cạnh tranh hoặc nhu cầu
thay đổi nhà cung cấp.

Rõ ràng, bảo mật trực tuyến là một vũ khí quan trọng giúp giảm churn, củng cố lòng
tin của khách hàng. Công ty viễn thông cần khai thác mạnh mẽ yếu tố này bằng cách phát
triển và quảng bá các gói bảo mật tốt hơn, không chỉ để giữ chân khách hàng mà còn để
cạnh tranh hiệu quả trong thị trường internet đầy sôi động.

Sử dụng dịch vụ bảo mật

Tiếp tục sử dụng (No) Dừng sử dụng (Yes)
trực tuyến

Yes 1724 295

61
Báo cáo đồ án học phần Khoa học dữ liệu
No 2037 1461

No internet service 1413 113

Bảng 3. 12. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo tỷ lệ
sử dụng dịch vụ bảo mật trực tuyến của khách hàng

Hình 3. 12. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo tỷ
lệ sử dụng dịch vụ bảo mật trực tuyến của khách hàng
3.1.3.11 Dịch vụ sao lưu trực tuyến
Tương tự dịch vụ trực tuyến, khách hàng sử dụng dịch vụ sao lưu trực tuyến có tỷ lệ
rời bỏ thấp hơn đáng kể (21.53%) so với những người không sử dụng dịch vụ này (39.92%).
Điều này cho thấy rằng dịch vụ sao lưu trực tuyến có thể đóng vai trò quan trọng trong việc
giảm tỷ lệ rời bỏ, nhờ mang lại cảm giác tiện lợi, an toàn và bảo mật dữ liệu cho khách hàng.
Bằng cách lưu trữ dữ liệu trong dài hạn và cung cấp giải pháp bảo mật dữ liệu thiết yếu, dịch
vụ này củng cố lòng tin của khách hàng, khiến họ ít có xu hướng chuyển đổi sang nhà cung
cấp khác.Ngược lại, những khách hàng không sử dụng dịch vụ sao lưu trực tuyến có tỷ lệ rời
bỏ cao hơn, có thể do thiếu các dịch vụ giá trị gia tăng hoặc không có sự gắn kết chặt chẽ
với nhà cung cấp.
Dịch vụ sao lưu trực tuyến mang lại giá trị rõ ràng trong việc giảm churn bằng cách
cung cấp tiện ích thiết thực và tăng cường an toàn dữ liệu cho khách hàng. Công ty viễn
thông nên tận dụng lợi thế này bằng cách đẩy mạnh quảng bá và phát triển các gói dịch vụ
có tích hợp sao lưu trực tuyến, nhằm giảm tỉ lệ rời bỏ ở khách hàng

Sử dụng dịch vụ sao lưu

Tiếp tục sử dụng (No) Dừng sử dụng (Yes)
trực tuyến

Yes 1906 523

62
Báo cáo đồ án học phần Khoa học dữ liệu
No 1855 1233

No internet service 1413 113

Bảng 3. 13. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo tỷ lệ
sử dụng dịch vụ sao lưu trực tuyến của khách hàng

Hình 3. 13. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo tỷ lệ sử
dụng dịch vụ sao lưu trực tuyến của khách hàng
3.1.3.12 Dịch vụ bảo vệ thiết bị
Dữ liệu cho thấy dịch vụ bảo vệ thiết bị vẫn chưa thực sự tạo được dấu ấn đậm nét
trong lòng khách hàng. Mặc dù tỷ lệ rời bỏ của nhóm khách hàng sử dụng dịch vụ này
không quá cao, khoảng 22.52%, nhưng nó cũng đủ để báo động về những hạn chế nhất định.
Ngược lại, tỷ lệ rời bỏ của nhóm khách hàng không sử dụng dịch vụ bảo vệ thiết bị
lại cao hơn đáng kể, khoảng 39.12%, cho thấy còn tồn tại nhiều vấn đề khác cần được giải
quyết. Có thể khách hàng cảm thấy không an tâm khi sử dụng dịch vụ, hoặc họ chưa nhận
thức được tầm quan trọng của việc bảo vệ thiết bị.
Một điều thú vị là nhóm khách hàng không sử dụng dịch vụ internet lại có tỷ lệ rời
bỏ thấp nhất, chỉ 7.39%. Điều này cho thấy, bên cạnh chất lượng dịch vụ, yếu tố chi phí và
nhu cầu sử dụng cũng đóng vai trò quan trọng trong quyết định ở lại hay rời đi của khách
hàng.
Khi tính toán tỷ lệ rời bỏ chung của hai nhóm có và không sử dụng dịch vụ bảo vệ
thiết bị, con số này là 31.81%. Tỷ lệ này cho thấy vẫn còn một lượng lớn khách hàng rời bỏ
dịch vụ, bất kể họ có sử dụng dịch vụ bảo vệ thiết bị hay không, đặt ra một thách thức lớn
cho nhà cung cấp. Việc cải thiện chất lượng dịch vụ, đa dạng hóa các gói cước, và đặc biệt

63
Báo cáo đồ án học phần Khoa học dữ liệu
là tăng cường truyền thông về giá trị của dịch vụ bảo vệ thiết bị là những giải pháp cần thiết
để giải quyết vấn đề này.

Sử dụng dịch vụ bảo vệ

Tiếp tục sử dụng (No) Dừng sử dụng (Yes)
thiết bị

Yes 1877 545

No 1884 1211

No internet service 1413 113

Bảng 3. 14. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ
bảo vệ thiết bị

Hình 3. 14. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ
bảo vệ thiết bị
3.1.3.13 Dịch vụ hỗ trợ kỹ thuật
Phân tích tỷ lệ rời bỏ của ba nhóm khách hàng dựa trên việc sử dụng dịch vụ hỗ trợ
kỹ thuật cho thấy những khác biệt rõ rệt, phản ánh mức độ quan trọng của dịch vụ này trong
việc giữ chân khách hàng.
Nhóm sử dụng dịch vụ hỗ trợ kỹ thuật: Với tổng cộng 2044 khách hàng và tỷ lệ rời bỏ là
15.14%,dữ liệu này chứng tỏ rằng khi khách hàng gặp khó khăn, việc nhận được sự giúp đỡ
kịp thời và hiệu quả sẽ tạo nên sự khác biệt lớn, giúp họ gắn bó lâu dài với dịch vụ.
Nhóm không sử dụng dịch vụ hỗ trợ kỹ thuật: Tỷ lệ rời bỏ của nhóm này đạt 41.65%, cao
nhất trong ba nhóm. Khách hàng thiếu hỗ trợ kỹ thuật dễ mất kiên nhẫn và chuyển sang nhà
cung cấp khác, đặc biệt khi gặp khó khăn trong quá trình sử dụng dịch vụ.

64
Báo cáo đồ án học phần Khoa học dữ liệu
Nhóm không có dịch vụ internet: Với tỷ lệ rời bỏ thấp nhất, chỉ 7.39%, Tuy nhiên, điều
này không có nghĩa là dịch vụ hỗ trợ kỹ thuật trở nên kém quan trọng. Ngược lại, nó cho
thấy rằng việc đáp ứng đúng nhu cầu của từng nhóm khách hàng là yếu tố quyết định thành
công.
Bằng cách cung cấp các dịch vụ hỗ trợ kỹ thuật phù hợp và kịp thời, nhà cung cấp có
thể tăng cường sự hài lòng của khách hàng và giảm thiểu tỷ lệ rời bỏ. Khách hàng chủ yếu
sử dụng dịch vụ cho gọi điện và nhắn tin, ít cần đến sự hỗ trợ kỹ thuật và có thể ít bị ảnh
hưởng bởi các yếu tố khác, dẫn đến tỷ lệ rời bỏ thấp.

Sử dụng dịch vụ hỗ trợ kỹ thuật Tiếp tục sử dụng (No) Dừng sử dụng (Yes)

Yes 1734 310

No 2027 1446

No internet service 1413 113

Bảng 3. 15. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ hỗ
trợ kỹ thuật

Hình 3. 15. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ
hỗ trợ kỹ thuật
3.1.3.14 Truyền hình trực tuyến
Tỷ lệ rời bỏ cao ở nhóm không sử dụng truyền hình trực tuyến (33.52%) so với
nhóm có sử dụng (30.07%) cho thấy dịch vụ này đóng vai trò quan trọng trong việc giữ chân
khách hàng. Những người không tận dụng truyền hình trực tuyến dường như ít thỏa mãn
hơn với gói dịch vụ, từ đó làm tăng nguy cơ họ sẽ rời bỏ.

65
Báo cáo đồ án học phần Khoa học dữ liệu
Ngược lại, nhóm khách hàng không có dịch vụ internet lại có tỷ lệ rời bỏ thấp nhất
(7.39%), phản ánh rằng nhu cầu sử dụng dịch vụ truyền hình trực tuyến của họ không cao.
Kết quả này cho thấy, để giảm thiểu tỷ lệ rời bỏ, nhà cung cấp dịch vụ cần tập trung
vào việc nâng cao chất lượng và đa dạng hóa nội dung truyền hình trực tuyến, đồng thời
phát triển thêm các dịch vụ giá trị gia tăng nhằm thu hút và giữ chân cả những khách hàng
chưa tận dụng hết tiềm năng của gói dịch vụ.

Truyền hình trực tuyến Tiếp tục sử dụng (No) Dừng sử dụng (Yes)

Yes 1893 814

No 1868 942

No internet service 1413 113

Bảng 3. 16. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ
truyền hình trực tuyến

Hình 3. 16. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ
truyền hình trực tuyến
3.1.3.15 Phim trực tuyến
Nhóm có xem phim trực tuyến với tổng số 2732 khách hàng, ghi nhận 818 người ngừng sử
dụng, chiếm tỷ lệ 29.97%. Gần 30% khách hàng đã "quay lưng" lại với dịch vụ, cho thấy
một thực tế đáng báo động: liệu các nền tảng truyền hình trực tuyến có đang thực sự lắng
nghe và đáp ứng nhu cầu của khán giả.
Nhóm không xem phim trực tuyến có tổng số khách hàng là 2785, trong đó 938 người rời
bỏ, đưa tỷ lệ lên đến 33.69%. Đây là nhóm có tỷ lệ rời bỏ cao nhất, vượt qua nhóm xem
phim trực tiếp. Điều này cho thấy việc không tận dụng dịch vụ phim trực tuyến có thể khiến

66
Báo cáo đồ án học phần Khoa học dữ liệu
khách hàng cảm thấy giá trị dịch vụ bị giảm sút, dẫn đến quyết định từ bỏ cao hơn. Rõ ràng,
sự kết nối giữa nhu cầu giải trí và mức độ hài lòng chưa thực sự bền vững đối với nhóm này.
Nhóm không có dịch vụ internet với 1526 khách hàng, chỉ có 113 người rời bỏ, chiếm
7.39%. Đây là tỷ lệ thấp nhất trong cả ba nhóm, có thể do nhóm khách hàng này không sử
dụng internet, dẫn đến việc nhu cầu giải trí trực tuyến không quá quan trọng. Do đó, họ ít bị
tác động bởi các yếu tố liên quan đến chất lượng dịch vụ phim trực tiếp.

Phim trực tuyến Tiếp tục sử dụng (No) Dừng sử dụng (Yes)

Yes 1914 818

No 1847 938

No internet service 1413 113

Bảng 3. 17. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ
phim trực tuyến

Hình 3. 17. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ
phim trực tuyến
3.1.3.16 Thời hạn hợp đồng
Trong cả 3 khoảng thời gian (theo tháng, 1 năm, 2 năm), số lượng khách hàng tiếp
tục sử dụng dịch vụ (73.46%) đều lớn hơn so với số lượng khách hàng dừng sử dụng
(26.54%). Điều này cho thấy dịch vụ đang được khách hàng đánh giá cao và có sự hài lòng
nhất định.

67
Báo cáo đồ án học phần Khoa học dữ liệu
Hợp đồng theo tháng: Tỷ lệ khách hàng rời bỏ cao nhất (42.76%). Điều này có thể do
nhiều nguyên nhân, chẳng hạn như khách hàng đang thử nghiệm dịch vụ, chưa thực sự gắn
bó hoặc có những lựa chọn thay thế khác trong ngắn hạn.
Hợp đồng một năm: Tỷ lệ khách hàng rời bỏ giảm đáng kể (11.27%). Điều này cho thấy
một bộ phận khách hàng đã quyết định gắn bó lâu dài với dịch vụ. Tuy nhiên, vẫn còn một
số lượng khách hàng lựa chọn không gia hạn hợp đồng.
Hợp đồng hai năm: Tỷ lệ khách hàng rời bỏ thấp nhất (2.83%). Điều này cho thấy sự ổn
định và lòng trung thành của khách hàng đối với dịch vụ ngày càng tăng.

Thời hạn hợp đồng Tiếp tục sử dụng (No) Dừng sử dụng (Yes)

Theo tháng (Month-to-

2220 1655
month)

Một năm (One year) 1307 166

Hai năm (Two year) 1647 48

Bảng 3. 18. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo thời hạn
hợp đồng

Hình 3. 18. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo thời hạn
hợp đồng
3.1.3.17 Hóa đơn giấy
Với tỷ lệ khách hàng rời bỏ dịch vụ chung của cả hai loại hình hóa đơn là khoảng
26.53%, cho thấy công ty đã đạt được những thành công nhất định trong việc giữ chân

68
Báo cáo đồ án học phần Khoa học dữ liệu
khách hàng. Tuy nhiên, vẫn cần tiếp tục nỗ lực để giảm thiểu tỷ lệ này và tăng cường sự hài
lòng của khách hàng.
Nghiên cứu cho thấy khách hàng có xu hướng gắn bó lâu dài với công ty viễn thông
khi không sử dụng hóa đơn giấy, tỷ lệ khách hàng rời bỏ khi sử dụng dịch vụ này chỉ khoảng
16.33%. Điều này hoàn toàn dễ hiểu, bởi ai cũng thích sự tiện lợi và nhanh chóng của việc
quản lý hóa đơn trực tuyến.
Ngược lại, hóa đơn giấy lại khiến khách hàng dễ "nói lời chia tay" hơn với tỷ lệ
khách hàng rời bỏ dịch vụ khá cao, đạt khoảng 33.55%. Rõ ràng, việc phải lưu trữ và quản
lý hóa đơn giấy đã gây ra nhiều bất tiện cho khách hàng.
Để giữ chân khách hàng và tăng doanh thu, các doanh nghiệp cần tập trung vào việc
khuyến khích khách hàng chuyển đổi sang sử dụng hóa đơn điện tử. Việc đơn giản hóa quy
trình đăng ký, cung cấp các tính năng hữu ích trên hóa đơn điện tử và thường xuyên cập nhật
thông tin sẽ giúp khách hàng có trải nghiệm tốt hơn và gắn bó lâu dài với dịch vụ.

Hóa đơn giấy Tiếp tục sử dụng (No) Dừng sử dụng (Yes)

Sử dụng (Yes) 2771 1400

Không sử dụng (No) 2403 469

Bảng 3. 19. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo hóa đơn
giấy

Hình 3. 19. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo hóa đơn
giấy
3.1.3.18 Phương thức thanh toán

69
Báo cáo đồ án học phần Khoa học dữ liệu
Phương thức thanh toán không chỉ đơn thuần là một giao dịch mà còn là yếu tố quyết
định đến sự gắn bó của khách hàng với công ty viễn thông. Khách hàng càng hài lòng với
trải nghiệm thanh toán, họ càng có xu hướng trung thành với dịch vụ. Việc lựa chọn các
phương thức thanh toán tự động như bank transfer, credit card, với tỷ lệ khách hàng từ bỏ
khá thấp lần lượt là 16.72% và 15.23%, không chỉ tiết kiệm thời gian mà còn giúp khách
hàng cảm thấy an tâm và tin tưởng hơn vào nhà cung cấp.
Ngược lại, những rắc rối phát sinh từ việc thanh toán thủ công như electronic check,
mailed check, với tỷ lệ khách hàng rời đi lần lượt 45.25%, 19.11% đã khiến nhiều khách
hàng cảm thấy mệt mỏi và muốn tìm kiếm một lựa chọn khác. Điều này cho thấy, các nhà
mạng cần nhanh chóng cải tiến phương thức thanh toán này để đáp ứng nhu cầu ngày càng
cao của khách hàng về sự tiện lợi và hiện đại.

Phương thức thanh toán Tiếp tục sử dụng (No) Dừng sử dụng (Yes)

Electronic check 1294 1071

Mailed check 1304 308

Bank transfer (automatic) 1286 258

Credit card (automatic) 1290 232

Bảng 3. 20. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo phương
thức thanh toán

Hình 3. 20. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo phương
thức thanh toán

70
Báo cáo đồ án học phần Khoa học dữ liệu
3.1.3.19 Phí hàng tháng
Khi nghiên cứu về chi phí hàng tháng mà khách hàng phải trả để sử dụng dịch vụ của
viễn thông, ta thấy rằng số lượng khách hàng đã ngừng sử dụng dịch vụ trên đạt 1869 trên
tổng số 7043 khách hàng, tương ứng với tỷ lệ rời bỏ chung ước tính là 26.52% và có xu
hướng tăng theo mức phí hàng tháng cụ thể như sau:
Mức phí từ 18 đến 50$ Tỷ lệ rời bỏ ở đây chỉ là 15,70%. Mặc dù mức phí hấp dẫn có thể
tạo điều kiện thuận lợi cho việc thu hút khách hàng, song nó vẫn không đảm bảo được sự
giữ chân lâu dài.
Mức phí từ 51 đến 85$: Khi giá dịch vụ gia tăng, tỷ lệ rời bỏ cũng theo đó tăng lên, đạt
mức 29.00%. Sự gia tăng tỷ lệ này có thể được lý giải rằng khách hàng có xu hướng xem
xét lại giá trị mà họ nhận được so với số tiền bỏ ra. Những yếu tố như chất lượng dịch vụ, sự
tương xứng giữa giá cả và dịch vụ sẽ trở thành yếu tố quyết định trong sự lựa chọn của họ.
Mức phí từ 86 đến 120$: Tại mức phí cao nhất, tỷ lệ rời bỏ đã tăng lên với tỷ lệ 34.02%.
Sự gia tăng đáng kể này chỉ ra rằng khi khách hàng phải trả mức phí cao hơn, họ thường kỳ
vọng một giá trị tương xứng với số tiền họ chi trả. Khi không thấy sự cải thiện nào trong
chất lượng dịch vụ hoặc nếu dịch vụ không đáp ứng được kỳ vọng, họ sẽ dễ dàng chuyển
sang lựa chọn khác.

Chi phí ($) Tiếp tục sử dụng (No) Dừng sử dụng (Yes)

Từ 18 đến 50 1938 361

Từ 51 đến 85 1476 602

Từ 86 đến 120 1760 906

Bảng 3. 21. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo phí hàng
tháng ($)

71
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 3. 21. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo phí
hàng tháng
3.1.3.20 Chi phí tổng
Tại phân khúc giá từ 11 đến 2910$, tỷ lệ rời bỏ đạt khoảng 31.52%. Con số này chỉ
ra rằng khi mức phí dịch vụ ở mức thấp, khách hàng cảm thấy thoải mái hơn trong việc tìm
kiếm những lựa chọn khác. Họ nhận thấy mình có nhiều cơ hội hơn trong một thị trường đầy
cạnh tranh như viễn thông, điều này dẫn đến quyết định chuyển đổi dễ dàng hơn.
Khi chúng ta xem xét mức phí từ 2911 đến 5810$, tỷ lệ rời bỏ đã giảm xuống chỉ
còn 18.11%. Mức phí này dường như đánh dấu một giai đoạn mà khách hàng đã đầu tư một
phần tài chính đáng kể. Họ có xu hướng xem xét kỹ lưỡng hơn và đặt ra nhiều tiêu chí hơn
trước khi đưa ra quyết định rời bỏ, nhờ đó tăng cường tính ổn định của mối quan hệ giữa
khách hàng và nhà cung cấp dịch vụ.
Đặc biệt, tại mức phí từ 5811 đến 8710$, tỷ lệ rời bỏ giảm xuống còn 12.11%.Con
số này phản ánh một thực tế sâu sắc hơn: khách hàng chi trả mức phí cao hơn thường kỳ
vọng nhận được những dịch vụ chất lượng hơn. Sự gắn bó này đến từ việc họ cảm nhận giá
trị cao hơn từ dịch vụ mà họ đang sử dụng. Họ không chỉ đầu tư tài chính mà còn đầu tư vào
những trải nghiệm và lợi ích mà dịch vụ mang lại, khiến cho việc rời bỏ trở nên khó khăn
hơn, cả về mặt tinh thần lẫn vật chất.

Chi phí tổng ($) Tiếp tục sử dụng (No) Dừng sử dụng (Yes)

Từ 11 đến 2910 3274 1507

Từ 2911 đến 5810 1203 266

Từ 5811 đến 8710 697 96

Bảng 3. 22. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo chi phí
tổng

72
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 3. 22. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo chi phí
tổng

3.2 PHÂN LỚP DỮ LIỆU

3.2.1 Một số phương pháp phân lớp dữ liệu
Sử dụng 3 phương pháp phân lớp:

● Phương pháp Cây quyết định (Decision Tree)

● Phương pháp Hồi quy logistic (Logistic Regression)

● Phương pháp SVM (Support Vector Machines)

3.2.2 Thực hiện lựa chọn mô hình dự báo phù hợp

3.2.2.1 Bước 1: Xây dựng mô hình.
● Vào Data, chọn File và tải lên bộ dữ liệu Telco Customer Churn gồm 7043 mẫu dữ
liệu đã kiểm tra ở bước tiền xử lý dữ liệu để tiến hành phân lớp.

Hình 3. 23. Cửa sổ File và bộ dữ liệu Telco Customer Churn

73
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 3. 24. Bộ dữ liệu Telco Customer Churn
Tiến hành phân lớp trực tiếp trên bộ dữ liệu vì bộ dữ liệu không có lỗi. Vào
Transform, chọn Data Sampler để thực hiện chia mẫu dữ liệu:
○ Về tập dữ liệu huấn luyện, ta lấy 70% mẫu dữ liệu từ file dữ liệu gốc. Tại
mục “Fixed proportion of data", kéo chọn lấy 70% mẫu dữ liệu từ bộ dữ liệu
Attrition-train, sau đó chọn “Sample Data" để lấy được dữ liệu huấn luyện
mới. Từ Data Sampler, kéo thả chọn Data Table để xem mẫu dữ liệu, sau đó
kéo thả từ Data Table, chọn Save Data để lưu file với tên
“Dulieuhuanluyen.xlsx".

Hình 3. 25. Lấy mẫu dữ liệu huấn luyện trong Data Sampler

74
Báo cáo đồ án học phần Khoa học dữ liệu
Tập dữ liệu có 4931 mẫu dữ liệu, 20 biến và không bị lỗi.

Hình 3. 26. Thông tin của bộ dữ liệu Telco Customer Churn khi lấy 70%
○ Về tập dữ liệu kiểm thử, ta lấy phần còn lại của file dữ liệu gốc, tức là 30%
của file Attrition-train. Từ Data Sampler, kéo thả chọn Data Table, nhấn chọn
đường nối giữa 2 lệnh, cửa sổ Edit Links xuất hiện và ta nối từ “Remaining
Data" sang “Data". Lưu dữ liệu kiểm thử về máy với tên là
“Dulieukiemthu.xlsx"

Hình 3. 27. Lấy mẫu dữ liệu kiểm thử

Tập dữ liệu có 2112 mẫu dữ liệu, 20 biến và không bị lỗi

75
Báo cáo đồ án học phần Khoa học dữ liệu
Thông tin của bộ dữ liệu Telco Customer Churn khi lấy 30%
Xây dựng mô hình:

Mô tả các bước xây dựng mô hình phân chia tập dữ liệu 70-30
3.2.2.2 Bước 2: Sử dụng mô hình
● Chọn mô hình hợp lý để tiến hành dự báo
● Bỏ qua bước tiền xử lý dữ liệu vì mẫu lựa chọn đã đạt chuẩn.
● Các bước thực hiện:
○ Vào Data, chọn File và upload “Dulieuhuanluyen.xlxs” để bắt đầu huấn
luyện, tại cửa sổ này, chọn biến “Churn" là biến phụ thuộc (target) và chọn
“Apply".

76
Báo cáo đồ án học phần Khoa học dữ liệu
Tập dữ liệu huấn luyện
○ Vào Evaluate, chọn Test and Score để so sánh, lựa chọn thuật toán tốt nhất và
chính xác nhất phục vụ cho việc dự báo tiếp theo.
○ Vào Model, chọn 3 mô hình dự báo bao gồm: Tree, Logistic Regression và
SVM. Nối file dữ liệu huấn luyện và các mô hình này vào Test and Score.
○ Tại cửa sổ Test and Score, chọn tỷ lệ lấy mẫu tại “Cross Validation” hoặc
“Random Sampling” để có được chỉ số đẹp nhất:
Chọn tỷ lệ lấy mẫu “Cross Validation" 5 phần:

77
Báo cáo đồ án học phần Khoa học dữ liệu
Kết quả chia mẫu dữ liệu thành 5 phần
Chọn tỷ lệ lấy mẫu “Cross Validation" 10 phần:

Kết quả chia mẫu dữ liệu thành 10 phần

Chọn tỷ lệ lấy mẫu “Cross Validation" 20 phần:

Kết quả chia mẫu dữ liệu thành 20 phần

Chọn tỷ lệ lấy mẫu “Random Sampling":
○ Kết quả khi chia mẫu dữ liệu thành 20-90%

78
Báo cáo đồ án học phần Khoa học dữ liệu
Kết quả khi chia mẫu dữ liệu thành 20-90%
○ Kết quả khi chia mẫu dữ liệu thành 50-66%

Kết quả khi chia mẫu dữ liệu thành 50-66%

○ Vào Evaluate, chọn Confusion Matrix và nối vào Test and Score.
➢ Nhận xét:

79
Báo cáo đồ án học phần Khoa học dữ liệu
● Về cách chọn tỷ lệ “Cross Validation”: sau khi tiến hành chia nhỏ 3 lần thành 5
phần, 10 phần và 20 phần, mô hình Hồi quy logistic đều là mô hình cho ra chỉ số cao hơn
hai mô hình còn lại. Theo lý thuyết, ta chọn phương án có các chỉ số cao nhất, như vậy với
cách chia tỷ lệ ở “Cross Validation" thì phương pháp Hồi quy Logistic là phương pháp tốt
nhất để tiến hành phân lớp. Cụ thể, xem xét mô hình Hồi quy Logistic ở trường hợp chia lấy
mẫu dữ liệu theo “Cross Validation” chia mẫu dữ liệu thành 5 phần:
○ Diện tích đường cong (AUC): 84.8%
○ Tính chính xác (CA): 80.6%
○ Giá trị trung bình điều hòa (F1): 80.1%
○ Độ chính xác (Precision): 79.9%
○ Chỉ số độ phủ (Recall): 80.6%
● Về cách chọn tỷ lệ “Random Sampling": nhận thấy rằng các chỉ số của phương
pháp Hồi quy Logistic cũng cao hơn hẳn hai phương pháp còn lại. Theo lý thuyết thì phương
án Hồi quy Logistic cũng là phương pháp tốt nhất để tiến hành phân lớp. Cụ thể ta xem xét
mô hình Hồi quy Logistic ở trường hợp chia lấy mẫu dữ liệu theo “Random Sampling” 50-
66%:
○ Diện tích đường cong (AUC): 84.8%
○ Tính chính xác (CA): 80.7%
○ Giá trị trung bình điều hòa (F1): 80.2%
○ Độ chính xác (Precision): 79.9%
○ Chỉ số độ phủ (Recall): 80.7%

80
Báo cáo đồ án học phần Khoa học dữ liệu
3.2.3 Đánh giá kết quả mô hình
3.2.3.1 Kết quả phân tích Test and Score

Kết quả phân tích Test and Score

Xem xét mô hình Hồi quy Logistic ở trường hợp chia lấy mẫu dữ liệu theo “Cross
Validation” chia mẫu dữ liệu thành 5 phần:
○ Diện tích đường cong (AUC): 84.8%
○ Tính chính xác (CA): 80.6%
○ Giá trị trung bình điều hòa (F1): 80.1%
○ Độ chính xác (Precision): 79.9%
○ Chỉ số độ phủ (Recall): 80.6%
3.2.3.2 Ma trận nhầm lẫn (Confusion Matrix):
1. True Positive (TP): Khách hàng không rời bỏ và thực tế họ phản hồi tốt
2. True Negative (TN): Khách hàng rời bỏ và không phản hồi tốt
3. False Positive (FP): Khách hàng không rời bỏ nhưng không phản hồi tốt
4. False Negative (FN): Khách hàng rời bỏ nhưng phản hồi tốt
Xét Ma trận nhầm lẫn của bộ dữ liệu khi chia theo kiểu Cross Validation thành 5 phần.

81
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 3. 28. Kết quả ma trận nhầm lẫn của Hồi quy Logistic (Logistic Regression)

Hình 3. 29. Kết quả ma trận nhầm lẫn của SVM (Support Vector Machines)

82
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 3. 30. Kết quả ma trận nhầm lẫn của Cây quyết định (Tree Decision)
→ Kết luận: Khi xem xét Ma trận nhầm lẫn, chỉ số cần quan sát là tỷ lệ sai lầm loại 2, nếu
mô hình nào có tỷ lệ sai lầm loại 2 thấp nhất thì đó là mô hình tốt nhất. Nhìn vào kết quả của
ba phương pháp, tỷ lệ sai lầm loại 2 của phương pháp Hồi quy Logistic là thấp nhất với FN
= 33.7%. Do đó, với Confusion Matrix, phương pháp Hồi quy Logistic là phù hợp nhất.
Ngoài ra, khi sử dụng phương pháp ROC để đánh giá mô hình nào hiệu quả để có thể
sử dụng dự đoán cho bộ dữ liệu đã chọn, 1 kết quả khả quan cũng cho thấy rằng Phương
pháp Hồi quy Logistic là phương pháp tốt nhất để tiến hành dự báo cho tập dữ liệu này.
ROC (Receiver Operating Characteristic) - là một đồ thị được sử dụng khá phổ biến trong
đánh giá các mô hình phân loại nhị phân. Đường cong này được tạo ra bằng cách biểu diễn
tỷ lệ dự báo true positive rate (TPR) dựa trên tỷ lệ dự báo false positive rate (FPR) tại các
ngưỡng khác nhau. Một mô hình hiệu quả khi có FPR thấp và TPR cao, hay ROC càng tiệm
cận với điểm (0;1) trong đồ thị thì mô hình càng hiệu quả.

83
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 3. 31. Đường cong ROC với biến y là “No”

Hình 3. 32. Đường cong ROC với biến y là “Yes"

84
Báo cáo đồ án học phần Khoa học dữ liệu
Với biến y nhận giá trị “No"/”Yes", khi nhìn hai hình thể hiện đường cong ROC ta đều thấy
được mô hình Hồi quy Logistic có đường cong ROC tiệm cận với điểm (0;1) nhất. Do đó,
mô hình này hiệu quả nhất.
➢ Kết luận
● Phương pháp Hồi quy Logistic là phương pháp tốt nhất để tiến hành dự báo cho tập
dữ liệu này.
● Nguyên nhân lựa chọn Phương pháp Hồi quy Logistic là:
○ Khi sử dụng Cross Validation và Random Sampling, phương pháp này có các
chỉ số AUC, AC, F1, Precision, Recall lớn nhất.
○ Phương pháp này có tỷ lệ sai lầm loại 2 nhỏ nhất.
○ Bên cạnh đó, phương pháp này có AUC ( Area Under The Curve) hay diện
tích phần nằm dưới đường cong ROC là lớn nhất, là mô hình tốt nhất.
Phương pháp này có đường cong ROC tiệm cận điểm (0;1) nhất.
3.2.4 Dự báo
➢ Tiến hành dự báo tập dữ liệu Telco Customer Churn bằng phương pháp Hồi
quy Logistic:
● Vào Data, chọn File, upload tập dữ liệu “Dulieukiemthu.xlsx" và điều chỉnh tất cả
các biến thành “Feature" (biến độc lập), biến customerID chọn skip.

Hình 3. 33. Tập dữ liệu kiểm thử

● Vào Evaluate, chọn Predictions để dự báo dữ liệu. Nối file Dữ liệu kiểm thử và
Logistic Regression vào Predictions. Ta có mô hình như sau:

85
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 3. 34. Mô hình dự báo dữ liệu
➢ Kết quả dự báo

Hình 3. 35. Kết quả dự báo dữ liệu theo mô hình Hồi quy Logistic

CHƯƠNG 4. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

4.1 NHỮNG CÔNG VIỆC ĐÃ THỰC HIỆN
4.1.1 Tóm tắt
Nhóm đã xây dựng mô hình phân tích dữ liệu khách hàng để dự đoán hành vi dựa
trên việc phân tích cơ sở dữ liệu Telco Customer Churn. Bộ dữ liệu nhóm đang sử dụng
thuộc công ty công nghệ IBM thu thập và tạo ra, hiện đang được cung cấp miễn phí trên nền
tảng Kaggle tại trang Telco Customer Churn. Sau khi tiến hành lấy mẫu dữ liệu từ website

86
Báo cáo đồ án học phần Khoa học dữ liệu
Kaggle, nhóm đã tiến hành xử lý dữ liệu, huấn luyện dữ liệu và phân lớp dữ liệu nhằm lựa
chọn mô hình phù hợp nhất để xây dựng dự đoán. Nhóm nhận thấy rằng, mô hình Hồi quy
Logistic là phương pháp / mô hình phù hợp nhất để tiến hành dự báo vì: Kiểm thử với ma
trận nhầm lẫn (Confusion Matrix) thấy tỷ lệ sai lầm loại 2 của phương pháp Hồi quy
Logistic là thấp nhất với 33.7% và các chỉ số AUC, AC, F1, Precision, Recall là lớn nhất
(khi sử dụng Cross Validation và Random Sampling). Từ những phân tích và dựa trên
phương pháp Hồi quy Logistic, nhóm có thể đưa ra nhiều gợi ý để phát triển đề tài sâu hơn.
4.1.2 Kết luận
Mục tiêu ban đầu mà nhóm đề ra đã được hoàn thành - dự đoán khả năng rời đi của
khách hàng trong lĩnh vực viễn thông (họ sẽ tiếp tục sử dụng hay ngừng sử dụng). Qua quá
trình phân tích dữ liệu, chúng tôi nhận thấy rõ ràng rằng việc khách hàng ngừng sử dụng
dịch vụ của công ty sẽ gây ra những tác động tiêu cực trực tiếp đến doanh nghiệp. Các
nguyên nhân chính dẫn đến tình trạng này bao gồm: chất lượng sản phẩm/dịch vụ không đáp
ứng được kỳ vọng, vi phạm cam kết, thiếu trách nhiệm trong xử lý khiếu nại, thái độ phục
vụ kém chuyên nghiệp và chính sách giá không hợp lý. Để duy trì và phát triển doanh
nghiệp, chúng ta cần tập trung vào việc cải thiện chất lượng sản phẩm/dịch vụ mà doanh
nghiệp đã – đang – sắp cung cấp cho khách hàng, nâng cao chất lượng dịch vụ phục vụ
khách hàng, xây dựng lòng tin với khách hàng và điều chỉnh chính sách giá phù hợp. Đồng
thời, các nền tảng lý thuyết được đề cập ở chương 2 đã được sử dụng triệt để nhằm xây dựng
mô hình dự báo với sự đảm bảo các ước tính từ phân tích nhất quán và có độ chính xác cao.
4.2 HƯỚNG PHÁT TRIỂN CÁC CHIẾN LƯỢC GIỮ CHÂN KHÁCH HÀNG
TRONG DỊCH VỤ VIỄN THÔNG
Nhận thấy sự cần thiết của việc giữ chân khách hàng, chúng ta cần tiến hành nghiên
cứu sâu hơn để hiểu rõ hơn về hành vi, tâm lý và mong đợi của khách hàng. Từ đó, xây
dựng các chiến lược tiếp thị và chăm sóc khách hàng hiệu quả, nhằm giảm thiểu tình trạng
khách hàng rời bỏ dịch vụ và sự rời bỏ doanh nghiệp của khách hàng là một vấn đề đáng
được quan tâm - phản ảnh tình trạng hoạt động không hiệu quả của doanh nghiệp. Từ đó,
phân tích bộ dữ liệu Telco Customer Churn và những yếu tố mang tính quyết định sẽ ảnh
hưởng đến sự rời bỏ của khách hàng (churn) có thể phát triển các chiến lược giữ chân khách
hàng hiệu quả.
4.2.1. Phân tích các yếu tố chính dẫn đến việc ngừng sử dụng dịch vụ:
Qua dữ liệu thu được, nhóm nhận thấy rằng từng phân khúc/phân nhóm khách hàng
khác nhau sẽ có mức độ rời bỏ dịch vụ khác nhau. Nhóm đề xuất cung cấp các ưu đãi, các
chương trình dịch vụ dành riêng cho từng nhóm khách hàng, phân loại nhóm khách hàng: độ
tuổi hoặc tình trạng gia đình (ví dụ: giảm giá cho người dùng có người phụ thuộc, khuyến
mãi sinh nhật cho người trẻ tuổi), mức độ và các loại dịch vụ mà họ sử dụng,... Chong và ctg
(2012) đã chứng minh rằng chi phí có ảnh hưởng tiêu cực đến ý định sử dụng dịch vụ
TMDĐ của người tiêu dùng nói chung.
4.2.2. Phân tích hành vi sử dụng dịch vụ:
Hành vi sử dụng dịch vụ không chỉ tùy thuộc vào nhu cầu của người dùng mà còn
phụ thuộc không nhỏ vào những gì mà doanh nghiệp có thể đề xuất cho khách hàng, sự cạnh

87
Báo cáo đồ án học phần Khoa học dữ liệu
tranh trong lĩnh vực này vô cùng lớn, vì thế, mỗi doanh nghiệp cần phải chủ động đánh vào
tâm lý khách hàng như:
● Cung cấp các gói dịch vụ linh hoạt và ưu đãi chi phí thấp để khuyến khích khách
hàng ở lại và thu hút thêm khách hàng tiềm năng. (Chong và cộng sự, 2012)
● Tạo chương trình gây dựng lòng trung thành với ưu đãi tăng dần theo thời gian khi
sử dụng dịch vụ (ví dụ: giảm giá khi sử dụng hơn 1 năm).
4.2.3. Phân tích ảnh hưởng của thời hạn hợp đồng và dịch vụ đi kèm:
Thời hạn hợp đồng hay thời gian cam kết đồng hành cùng doanh nghiệ, sự sẵn sàng
hỗ trợ khi cần thiết từ doanh nghiệp sẽ tạo nên cho khách hàng “sự trung thành có thời hạn”
chính vì thế, việc thực hiện dự đoán có độ chính xác cao sẽ giúp cho doanh nghiệp biết được
khách hàng nào có khả năng rời bỏ dịch vụ hoặc không. Khi đó, nhóm nghiên cứu đề xuất:
● Doanh nghiệp nên nghiên cứu về thời hạn hợp đồng khi đề xuất với khách hàng dựa
trên các thông tin mà họ cung cấp.
● Khuyến khích khách hàng chuyển sang hợp đồng dài hạn bằng cách cung cấp giảm
giá đặc biệt hoặc quà tặng.
● Cung cấp dịch vụ hỗ trợ kỹ thuật miễn phí hoặc gói bảo mật tặng kèm cho khách
hàng mới hoặc khách hàng có nguy cơ rời bỏ.

Cây Quyết Định (Decision Tree):

 Kết quả: Kết quả của cây quyết định sẽ chỉ ra các yếu tố quan trọng nhất dẫn đến việc
churn, ví dụ như thời gian hợp đồng ngắn, không sử dụng dịch vụ bảo mật hoặc thanh
toán muộn.
 Ảnh hưởng đến chiến lược: Các yếu tố quan trọng này giúp doanh nghiệp nhắm
đúng mục tiêu cho chiến dịch marketing giữ chân khách hàng. Ví dụ, nếu kết quả cho
thấy những khách hàng có thời hạn hợp đồng ngắn có xu hướng churn cao, bạn có thể
đưa ra các khuyến mãi gia hạn hợp đồng.

4.2.4. Tập trung vào trải nghiệm khách hàng:

Việc tập trung vào trải nghiệm khách hàng, luôn luôn theo dõi sự phản ứng của khách
hàng đối với doanh nghiệp, sẵn sàng nhận phản hồi và phản hồi tích cực đến khách hàng là
yếu tố quan trọng hàng đầu giúp doanh nghiệp tạo được niềm tin và sự trung thành nơi
khách hàng. Nhóm nghiên cứu đề xuất
● Doanh nghiệp nên thực hiện các cuộc khảo sát ngắn định kỳ về sự hài lòng của
khách hàng và thu thập phản hồi của khách hàng nhanh chóng để cải thiện các vấn
đề.
● Cải tiến giao diện quản lý tài khoản trực tuyến, giúp khách hàng dễ dàng theo dõi và
thanh toán hóa đơn, tạo kênh thông tin liên lạc 24/7 để khách hàng thấy rằng mình
luôn được tư vấn khi cần thiết.

88
Báo cáo đồ án học phần Khoa học dữ liệu
4.2.5. Phân tích sự khác biệt về phương thức thanh toán:
Khuyến khích khách hàng sử dụng phương thức thanh toán tự động bằng cách cung
cấp giảm giá hoặc quà tặng nếu họ chuyển đổi phương thức thanh toán. Bằng cách tạo nên
sự tiện lợi và dễ dàng trong quá trình thanh toán định kì cho việc sử dụng dịch vụ viễn thông
sẽ làm tăng sự hài lòng, kì vọng về dịch vụ của khách hàng đối với doanh nghiệp, từ đó giúp
doanh nghiệp giữ chân họ gắn bó lâu hơn và có cơ hội được tiếp thị rộng rãi.
4.2.6. Xây dựng hệ thống cảnh báo sớm (Early Warning System)
Việc chuẩn bị cho một hệ thống cảnh báo sớm những nguy cơ tiềm ẩn, đánh giá
những rủi ro về phía doanh nghiệp, thị trường (đối thủ) để có thể phát hiện sự thay đổi trong
xu hướng tiêu dùng, hoặc nhu cầu của khách hàng cũng khiến doanh nghiệp đảm bảo được
khách hàng quan tâm. Các giải pháp có thể làm như sau:
● Phát triển hệ thống tự động gửi cảnh báo cho đội chăm sóc khách hàng về các vấn đề
khách hàng đang gặp phải hoặc cung cấp sự hướng dẫn ngay trước khi vấn đề đó có
thể xảy ra một cách chính xác.
● Cá nhân hóa các chiến dịch giữ chân dựa trên hành vi và yếu tố liên quan đến nguy
cơ rởi bỏ dịch vụ của khách hàng.
4.2.7. Hành vi tư vấn, bán hàng của nhân viên:
Nhân viên bán hàng, với tư cách là nhân viên dịch vụ tuyến đầu, đại diện của doanh
nghiệp trực tiếp gặp gỡ, tư vấn về quyền lợi và phạm vi sử dụng dịch vụ cho khách hàng.
Chính vì thế, hành vi bán hàng của nhân viên được đánh giá rất quan trong, quyết định đến
việc xây dựng mối quan hệ lâu dài với khách hàng dựa trên sự hài lòng và tin tưởng.

Kết Luận:

Dựa trên phân tích bộ dữ liệu Telco customer churn, chúng tôi phát triển các chiến
lược giữ chân khách hàng bằng cách tập trung vào việc cung cấp trải nghiệm tốt hơn, cải
thiện các dịch vụ bổ sung và sử dụng các chiến lược định giá hợp lý. Hơn nữa, khuyến khích
khách hàng sử dụng hợp đồng dài hạn và phương thức thanh toán, hành vi tiếp thị, … có thể
giúp giảm tỷ lệ rời bỏ. Nếu các chiến lược giữ chân khách hàng được thực hiện tốt thì không
những có được khách hàng trung thành mà còn có thể thu hút thêm nhiều khách hàng hơn
đến với doanh nghiệp.

Để phân tích kết quả chạy mô hình từ phần mềm Orange một cách rõ ràng hơn, chúng ta cần
đi sâu vào từng khía cạnh và cách mà các mô hình phân tích (hồi quy logistic, cây quyết định,
hay SVM) cho ra những thông tin hữu ích cho việc phát triển chiến lược khách hàng.

89
Báo cáo đồ án học phần Khoa học dữ liệu
1. Kết quả phân lớp khách hàng (Classification Results)

Phân lớp là bước quan trọng trong việc xác định những khách hàng có khả năng rời bỏ dịch
vụ (churn) và những khách hàng có khả năng ở lại. Các mô hình phân lớp như hồi quy
logistic, cây quyết định (decision tree), hoặc máy vector hỗ trợ (SVM) được sử dụng để dự
đoán nhóm khách hàng nào có nguy cơ churn cao.

 Hồi quy Logistic (Logistic Regression):

o Kết quả: Mô hình này sẽ cung cấp xác suất để một khách hàng rời bỏ
dịch vụ dựa trên các biến đầu vào như thời gian sử dụng, phí dịch vụ,
hoặc mức độ sử dụng các dịch vụ bổ sung.
o Ảnh hưởng đến chiến lược: Nếu một khách hàng có xác suất churn
cao, doanh nghiệp cần triển khai các chiến dịch giữ chân cụ thể, chẳng
hạn như cung cấp giảm giá hoặc dịch vụ nâng cao để giảm khả năng họ
rời bỏ.

 Cây Quyết Định (Decision Tree):

o Kết quả: Kết quả của cây quyết định sẽ chỉ ra các yếu tố quan trọng
nhất dẫn đến việc churn, ví dụ như thời gian hợp đồng ngắn, không sử
dụng dịch vụ bảo mật hoặc thanh toán muộn.
o Ảnh hưởng đến chiến lược: Các yếu tố quan trọng này giúp doanh
nghiệp nhắm đúng mục tiêu cho chiến dịch marketing giữ chân khách
hàng. Ví dụ, nếu kết quả cho thấy những khách hàng có thời hạn hợp
đồng ngắn có xu hướng churn cao, bạn có thể đưa ra các khuyến mãi gia
hạn hợp đồng.

 Ma trận Nhầm Lẫn (Confusion Matrix):

o Kết quả: Đây là một phương pháp để đánh giá độ chính xác của mô
hình phân lớp, bằng cách so sánh giữa các giá trị dự đoán và giá trị thực
tế. Các chỉ số như True Positive (khách hàng churn được dự đoán
đúng), False Positive (dự đoán churn nhưng thực tế không churn) cung
cấp thông tin về hiệu quả của mô hình.
o Ảnh hưởng đến chiến lược: Nếu tỷ lệ False Positive cao, điều đó nghĩa
là mô hình đang dự đoán sai khá nhiều khách hàng không churn thành
churn. Điều này có thể dẫn đến việc lãng phí tài nguyên trong các chiến
dịch giữ chân. Ngược lại, tỷ lệ False Negative cao thì có nghĩa là doanh
nghiệp đang bỏ sót các khách hàng có nguy cơ cao, cần điều chỉnh mô
hình để cải thiện độ chính xác.

2. Ảnh hưởng của từng biến (Feature Importance)

Một trong những kết quả quan trọng khi chạy mô hình là xác định các biến quan trọng nhất
ảnh hưởng đến việc khách hàng churn. Các biến này có thể là:

 Phí dịch vụ hàng tháng: Nếu khách hàng có phí hàng tháng cao, họ có xu hướng rời
bỏ dịch vụ do chi phí không hợp lý.

90
Báo cáo đồ án học phần Khoa học dữ liệu
 Thời gian sử dụng dịch vụ: Khách hàng sử dụng dịch vụ trong thời gian ngắn có thể
chưa cảm nhận được giá trị của dịch vụ, dẫn đến khả năng churn cao.
 Phương thức thanh toán: Những khách hàng thanh toán qua hóa đơn giấy có xu
hướng churn cao hơn do sự phức tạp trong quy trình thanh toán so với các phương
thức thanh toán trực tuyến.
 Phân tích chi tiết ảnh hưởng:
o Chiến lược: Dựa trên tầm quan trọng của các biến này, doanh nghiệp có
thể điều chỉnh chính sách của mình. Chẳng hạn, nếu phát hiện rằng các
khách hàng có hóa đơn giấy dễ rời bỏ hơn, doanh nghiệp có thể chuyển
hướng sang khuyến khích khách hàng sử dụng phương thức thanh toán
tự động.

3. Đường cong ROC và AUC (ROC Curve & AUC)

Kết quả từ mô hình thường bao gồm một đường cong ROC (Receiver Operating
Characteristic) và diện tích dưới đường cong AUC (Area Under the Curve). Đây là những
chỉ số đo lường hiệu suất của mô hình phân lớp:

 ROC Curve: Đường cong ROC cho thấy tỷ lệ giữa True Positive Rate (tỷ lệ dự
đoán đúng khách hàng churn) và False Positive Rate (tỷ lệ dự đoán sai khách hàng
churn) ở các ngưỡng dự đoán khác nhau.
 AUC: AUC là thước đo tổng quát về độ chính xác của mô hình, dao động từ 0.5 đến
1. Nếu AUC gần bằng 1, mô hình rất tốt trong việc phân biệt khách hàng churn và
không churn.
o Chiến lược dựa trên kết quả:
 Nếu AUC cao, bạn có thể tự tin áp dụng mô hình này để dự đoán
chính xác khách hàng nào cần được giữ chân, từ đó giảm thiểu
chi phí không cần thiết.
 Nếu AUC thấp, cần xem xét lại việc lựa chọn mô hình hoặc cải
thiện việc tiền xử lý dữ liệu (ví dụ: loại bỏ dữ liệu nhiễu).

4. Phân cụm khách hàng (Clustering Results)

Khi sử dụng các mô hình phân cụm trong Orange, kết quả sẽ chia khách hàng thành các
nhóm khác nhau dựa trên các đặc điểm tiêu dùng và hành vi sử dụng dịch vụ:

 Kết quả: Mô hình sẽ tạo ra các cụm khách hàng với hành vi tương tự nhau,
chẳng hạn một cụm bao gồm các khách hàng sử dụng nhiều dịch vụ bổ sung,
trong khi cụm khác chỉ sử dụng dịch vụ cơ bản.
 Ảnh hưởng đến chiến lược: Các nhóm khách hàng này sẽ giúp doanh nghiệp
thiết kế các chiến lược marketing riêng biệt. Ví dụ, nhóm khách hàng sử dụng
nhiều dịch vụ bổ sung có thể nhận được các chương trình ưu đãi đặc biệt để
tăng cường sự gắn kết, trong khi nhóm chỉ sử dụng dịch vụ cơ bản có thể được
khuyến khích dùng thử thêm dịch vụ mới để tăng doanh thu.

91
Báo cáo đồ án học phần Khoa học dữ liệu
5. Chiến lược điều chỉnh dựa trên phân tích

Dựa trên các kết quả từ mô hình, doanh nghiệp có thể điều chỉnh chiến lược như sau:

 Tối ưu hóa trải nghiệm khách hàng: Cải thiện các dịch vụ bổ sung mà khách
hàng có nhu cầu cao, đồng thời điều chỉnh chi phí hợp lý cho từng nhóm khách
hàng khác nhau.
 Chiến dịch giữ chân khách hàng cá nhân hóa: Áp dụng các khuyến mãi và
dịch vụ đặc biệt cho nhóm khách hàng có nguy cơ churn cao để giữ họ lại.
 Hệ thống cảnh báo sớm: Xây dựng hệ thống dự đoán sớm dựa trên các yếu tố
chính từ mô hình, giúp phát hiện khách hàng có nguy cơ churn và can thiệp kịp
thời.

Tóm lại, kết quả từ các mô hình phân tích trong Orange cung cấp những thông tin cực kỳ
quan trọng về hành vi khách hàng. Doanh nghiệp có thể tận dụng những thông tin này để điều
chỉnh chiến lược giữ chân khách hàng, từ việc dự đoán chính xác ai có nguy cơ churn, đến
việc phát triển các chiến dịch marketing và sản phẩm phù hợp với từng phân khúc khách
hàng.

4.3 HẠN CHẾ CỦA ĐỀ TÀI VÀ ĐỊNH HƯỚNG NGHIÊN CỨU TIẾP THEO
4.3.1 Hạn chế
Kết quả nghiên cứu đạt được đã đáp ứng cơ bản mục tiêu ban đầu được đề ra. Tuy
nhiên, sự hạn chế về thời gian, nguồn lực và điều kiện làm việc trực tuyến, nhóm đã gặp
phải một số khó khăn trong quá trình thu thập và xử lý dữ liệu. Cụ thể:
○ Độ chính xác của mô hình còn hạn chế: Mô hình dự đoán hiện tại chưa đạt
được độ chính xác cao nhất, dẫn đến sai số trong quá trình dự báo.
○ Khó khăn trong việc tiếp cận dữ liệu: Việc tìm kiếm và tiếp cận các bộ dữ
liệu chất lượng cao, đặc biệt là dữ liệu khách hàng trong nước, còn gặp nhiều
hạn chế do các quy định về bảo mật thông tin.
○ Khối lượng dữ liệu lớn: Việc xử lý một lượng lớn dữ liệu (7043 mẫu) gây áp
lực lên hệ thống và có thể dẫn đến sai sót trong quá trình phân tích.
Những hạn chế trên đã ảnh hưởng đến chất lượng và độ tin cậy của kết quả nghiên cứu, làm
giảm tính chính xác của các dự báo. Một tháng là khoảng thời gian không quá dài để nhóm
có thể tìm hiểu và có những tư duy, kiến thức sâu sắc về đề tài, vì thế nên quá trình xây
dựng đề tài có thể tồn tại nhiều thiếu sót hoặc những điểm chưa tối ưu, cần cải thiện thêm.
4.3.2 Hướng nghiên cứu tiếp theo
Bên cạnh sự tiếp cận đề tài này, mô hình dự báo bằng phương pháp Hồi quy Logistic
có thể được sử dụng để dự báo cho những lĩnh vực khác, đề tài khác. Đối với lĩnh vực viễn
thông, dựa vào mô hình dự báo trên, các doanh nghiệp, nhà cung cấp dịch vụ viênc thông có
thể biết được khả năng rời đi của khách hàng dựa trên những yếu tố như độ tuổi, giới tính,
tình trạng người phụ thuộc, ... Từ đó, doanh nghiệp (đặc biệt là bộ phận tư vấn và chăm sóc
khách hàng) có thể xây dựng những biện pháp để giữ khách hàng ở lại tiếp tục đồng hành

92
Báo cáo đồ án học phần Khoa học dữ liệu
với doanh nghiệp, tiếp tục sử dụng sản phẩm mà doanh nghiệp cung cấp. Những hướng phát
triển cho doanh nghiệp có thể kể đến như:
● Đối với khách hàng đang sử dụng dịch vụ bình thường, có thể tiến hành những kế
hoạch nhằm nâng cao tinh thần, động lực tiếp tục sử dụng dịch vụ cho khách hàng:
quan tâm đến nhu cầu của khách hàng định kì; có các chương trình quà tặng, khuyến
mãi nhân dịp đặc biệt ,...
● Đối với những khách hàng đang ở trong tình trạng phân vân, chưa biết nên rời đi hay
ở lại hoặc những khách hàng lần đầu tìm đến thì doanh nghiệp có thể dựa trên mô
hình dự báo đã xây dựng các biện pháp giữ chân và tư vấn bán hàng hiệu quả hơn
trong tương lai.
Bên cạnh đó, hướng phát triển cho các đề tài sau này khi tiếp cận với bài nghiên cứu
này, những đề tài sau có thể tiếp cận đối với việc dự báo một phạm vi dịch vụ cụ thể trong
lĩnh vực viễn thông; dự đoán những yếu tố then chốt quyết định đến sự rời đi của khách
hàng song song với quyết định tiếp tục sử dụng dịch vụ của họ; xây dựng mô hình dự đoán
bằng đa dạng phương pháp và có xác suất chính xác cao hơn; ...

TÀI LIỆU THAM KHẢO.

Data mining là gì? Các công cụ khai phá dữ liệu được ưa chuộng 2023
https://free-php-editor.com/data-mining-la-gi/

https://200lab.io/blog/du-lieu-la-gi/

https://ongxuanhong.wordpress.com/2018/02/03/voc-thu-orange-phan-mem-data-mining/

Chong, A. Y.-L., Chan, F. T., & Ooi, K.-B. J. D. s. s. (2012). Predicting consumer
decisions to adopt mobile commerce: Cross country empirical examination
between China and Malaysia. 53(1), 34-43.

Cleveland, W. (2001). Data science: an action plan for expanding the technical areas
of the field of statistics. International statistical review, 69(1), 21-26.

Nguyễn, D. M. T. (2018). TỔNG QUAN VỀ KHOA HỌC DỮ LIỆU.

Wu, J. (1997). Statistics= data science.

93
Báo cáo đồ án học phần Khoa học dữ liệu

Intrusion Detection Honeypots
From Everand
Intrusion Detection Honeypots
Chris Sanders
3/5 (2)
Macmillan Next Move Level 2 Pupil S Book Sample
No ratings yet
Macmillan Next Move Level 2 Pupil S Book Sample
10 pages
Practice Essay Topics For Much Ado About Nothing
No ratings yet
Practice Essay Topics For Much Ado About Nothing
5 pages
A Watson Bain M A-French Poetry For Beginners PDF
No ratings yet
A Watson Bain M A-French Poetry For Beginners PDF
97 pages
ChatGPT for Business: Strategies for Success
From Everand
ChatGPT for Business: Strategies for Success
Matthew C. Smith
1/5 (1)
Gray Hat Hacking the Ethical Hacker's
From Everand
Gray Hat Hacking the Ethical Hacker's
Çağatay Şanlı
5/5 (1)
Unlocking Statistics for the Social Sciences
From Everand
Unlocking Statistics for the Social Sciences
Norma Sinclair
No ratings yet
Content Creation Revolution with chatGPT
From Everand
Content Creation Revolution with chatGPT
Maria Cowen
No ratings yet
Software Patterns Made Easy
From Everand
Software Patterns Made Easy
Justice Nanhou
No ratings yet
Human Nature Potential in Nurture
From Everand
Human Nature Potential in Nurture
David L. Hawk
No ratings yet
Securing ChatGPT: Best Practices for Protecting Sensitive Data in AI Language Models
From Everand
Securing ChatGPT: Best Practices for Protecting Sensitive Data in AI Language Models
Matthew C. Smith
No ratings yet
Blog Smarter, Not Harder: SEO, Blogging, and AI Strategies to Skyrocket Your Traffic
From Everand
Blog Smarter, Not Harder: SEO, Blogging, and AI Strategies to Skyrocket Your Traffic
Jay Nans
No ratings yet
Risk Management and System Safety
From Everand
Risk Management and System Safety
Leonam dos Santos Guimarães
5/5 (1)
Phan Tich Cuoc Goi Thoai
No ratings yet
Phan Tich Cuoc Goi Thoai
45 pages
Breaking Barriers: S.T.E.M Mentorship in Business
From Everand
Breaking Barriers: S.T.E.M Mentorship in Business
Matthew C. Smith
No ratings yet
TIỂU LUẬN PPNC CK
No ratings yet
TIỂU LUẬN PPNC CK
67 pages
CAN Bus for Beginners: A Practical Guide to Automotive Networking
From Everand
CAN Bus for Beginners: A Practical Guide to Automotive Networking
Mohamad Charara
No ratings yet
10K Blueprint
From Everand
10K Blueprint
Cian O Farrell
5/5 (2)
HMC Report-3
100% (2)
HMC Report-3
13 pages
Plain JavaScript: Learning the Front-End
From Everand
Plain JavaScript: Learning the Front-End
Roger Beans-Rivet
No ratings yet
Thriving Virtually: A Guide to Self-Help for Remote Workers
From Everand
Thriving Virtually: A Guide to Self-Help for Remote Workers
Jackson Stone
No ratings yet
Design and Technology in Today's World: A First Look
From Everand
Design and Technology in Today's World: A First Look
Baz Professor
No ratings yet
AI-Powered Productivity
From Everand
AI-Powered Productivity
Asma Asfour
No ratings yet
A To Z of Internet: Everything You Wanted to Know
From Everand
A To Z of Internet: Everything You Wanted to Know
Bittu Kumar
No ratings yet
Conquering the Competition: Strategies for Standing Out in the Gaming Content Landscape
From Everand
Conquering the Competition: Strategies for Standing Out in the Gaming Content Landscape
Rian McCullen
No ratings yet
Smart Workspaces: The Power of AI in Office Automation
From Everand
Smart Workspaces: The Power of AI in Office Automation
John Nunez
No ratings yet
Cybersecurity for Executives: A Guide to Protecting Your Business
From Everand
Cybersecurity for Executives: A Guide to Protecting Your Business
Matthew C. Smith
No ratings yet
Lifelong Education: Continuous Learning in the Digital Age
From Everand
Lifelong Education: Continuous Learning in the Digital Age
Maia Tobares
No ratings yet
Diorama Add File
No ratings yet
Diorama Add File
4 pages
DBI Assignment Form 2024
No ratings yet
DBI Assignment Form 2024
3 pages
Report Diagnose Cancer Classification
No ratings yet
Report Diagnose Cancer Classification
50 pages
K Mean Customer
No ratings yet
K Mean Customer
28 pages
Baocao Dacs
No ratings yet
Baocao Dacs
33 pages
Lab 1
No ratings yet
Lab 1
4 pages
Bai Tap Thuc Hanh Phan 1
No ratings yet
Bai Tap Thuc Hanh Phan 1
16 pages
(Responsibilities - Vietnamese) Lats - Nguyenngockhanhdung - 8316 - 1992705 - L1shRMUsaBf3eP - 015240
No ratings yet
(Responsibilities - Vietnamese) Lats - Nguyenngockhanhdung - 8316 - 1992705 - L1shRMUsaBf3eP - 015240
249 pages
Chuong 1 - PTDL - New
No ratings yet
Chuong 1 - PTDL - New
40 pages
1.KPDL - Gioi Thieu
No ratings yet
1.KPDL - Gioi Thieu
65 pages
WEB Data Mining by Clustering Technique
No ratings yet
WEB Data Mining by Clustering Technique
111 pages
HỒ ĐẮC LÂM
No ratings yet
HỒ ĐẮC LÂM
21 pages
On Tap CSDL 2
No ratings yet
On Tap CSDL 2
17 pages
THỐNG KÊ GIỮA KỲ
No ratings yet
THỐNG KÊ GIỮA KỲ
5 pages
Lecture 02 - Slide - Introduction Data Modeling - For Student
No ratings yet
Lecture 02 - Slide - Introduction Data Modeling - For Student
65 pages
Ktra 1 HTTTQL 1
No ratings yet
Ktra 1 HTTTQL 1
44 pages
BT CSDL
No ratings yet
BT CSDL
34 pages
đề gki by me
No ratings yet
đề gki by me
6 pages
Zoo Data Set
No ratings yet
Zoo Data Set
37 pages
CSC10006 Chapter 3 Relational Data Model II.2425
No ratings yet
CSC10006 Chapter 3 Relational Data Model II.2425
48 pages
Roadmap To DS
No ratings yet
Roadmap To DS
12 pages
Chapter 02 PowerPoint Presentation
No ratings yet
Chapter 02 PowerPoint Presentation
42 pages
Chapter 06
No ratings yet
Chapter 06
35 pages
Chapter 04
No ratings yet
Chapter 04
27 pages
Financial Theory Group F
No ratings yet
Financial Theory Group F
26 pages
Association For Computational Linguistics
No ratings yet
Association For Computational Linguistics
308 pages
Excel7 Students Book
No ratings yet
Excel7 Students Book
168 pages
Indian School Al Wadi Al Kabir: Study Notes
No ratings yet
Indian School Al Wadi Al Kabir: Study Notes
2 pages
Afro Shakuntala
No ratings yet
Afro Shakuntala
3 pages
Prais Winsten Regression
No ratings yet
Prais Winsten Regression
33 pages
Ubuntu-8.10 Install Guide
No ratings yet
Ubuntu-8.10 Install Guide
21 pages
CAJ 10 Must Have Grooves New
No ratings yet
CAJ 10 Must Have Grooves New
11 pages
Grade 10 - Mock Test - English - Feb - 2023
100% (1)
Grade 10 - Mock Test - English - Feb - 2023
12 pages
NEW TESTAMENT USE OF THEOS - Answering Islam Blog
No ratings yet
NEW TESTAMENT USE OF THEOS - Answering Islam Blog
3 pages
Bank Reconciliation - Manual
100% (1)
Bank Reconciliation - Manual
9 pages
Stochastic Mechanics
No ratings yet
Stochastic Mechanics
113 pages
Day 1 Handout SLRC Principles and Strategies of Teaching
No ratings yet
Day 1 Handout SLRC Principles and Strategies of Teaching
16 pages
0.1 Laporan Kelompok Mpi
No ratings yet
0.1 Laporan Kelompok Mpi
32 pages
DevGuru ASP Quickref
No ratings yet
DevGuru ASP Quickref
85 pages
TỔNG HỢP CÁC ĐỀ 01-06
No ratings yet
TỔNG HỢP CÁC ĐỀ 01-06
22 pages
Ms Excel: Essential Training For The 70-779 EXAM
No ratings yet
Ms Excel: Essential Training For The 70-779 EXAM
11 pages
English 8 Lesson Plan Subject and Predicate
No ratings yet
English 8 Lesson Plan Subject and Predicate
2 pages
CL Alv Bds Cu
No ratings yet
CL Alv Bds Cu
5 pages
Philosophy of Science - by Fulton J. Sheen Preface by Leon Noël.
No ratings yet
Philosophy of Science - by Fulton J. Sheen Preface by Leon Noël.
233 pages
Schopenhauer, Arthur Singh, R. Raj Death, Contemplation and Schopenhauer PDF
100% (1)
Schopenhauer, Arthur Singh, R. Raj Death, Contemplation and Schopenhauer PDF
141 pages
Passive Voice (Italian)
No ratings yet
Passive Voice (Italian)
3 pages
21-07-24 - SR - Iit - Star Co-Sc (Model-A) - Jee Adv - 2021 (P-I) - Wat-55 - QP
No ratings yet
21-07-24 - SR - Iit - Star Co-Sc (Model-A) - Jee Adv - 2021 (P-I) - Wat-55 - QP
20 pages
Walberg Theory of Educational Productivity
100% (1)
Walberg Theory of Educational Productivity
1 page
SBI Clerk Prelims Memory Based Paper (Held On - 12 Jan, 2024 Shift 1)
No ratings yet
SBI Clerk Prelims Memory Based Paper (Held On - 12 Jan, 2024 Shift 1)
29 pages
CHEM201 Slides 7
No ratings yet
CHEM201 Slides 7
4 pages
TNPSC Test 10 Question Paper
No ratings yet
TNPSC Test 10 Question Paper
20 pages
Opium of The People - Wikipedia
No ratings yet
Opium of The People - Wikipedia
6 pages