Nhom 6 KHDL
Nhom 6 KHDL
HỒ CHÍ MINH
TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ
KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH
BỘ MÔN CÔNG NGHỆ THÔNG TIN
Đề tài: CHIẾN LƯỢC GIỮ CHÂN KHÁCH HÀNG TRONG LĨNH VỰC VIỄN
THÔNG DỰA TRÊN VIỆC PHÂN TÍCH, DỰ ĐOÁN BỘ DỮ LIỆU TELCO
CUSTOMER CHURN
1
Báo cáo đồ án học phần Khoa học dữ liệu
2.2.2 Phương pháp phân lớp dữ liệu................................................................................40
2.2.2.1 Định nghĩa.......................................................................................................40
2.2.2.2 Một số phương pháp phân lớp dữ liệu............................................................43
2.2.2.3 Các phương pháp đánh giá mô hình phân lớp.................................................45
2.2.3 Phương pháp phân cụm dữ liệu..............................................................................50
2.2.3.1 Định nghĩa phân cụm dữ liệu..........................................................................50
2.2.3.2 Đặc điểm của phân cụm dữ liệu.....................................................................51
2.2.3.3 Một số phương pháp phân cụm dữ liệu...........................................................51
2.2.3.4 Các phương pháp đánh giá phân cụm dữ liệu.................................................53
2.2.3.5 Ứng dụng điển hình của phương pháp phân cụm:..........................................53
CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ....................54
3.1 PHÂN TÍCH BỘ DỮ LIỆU TELCO CUSTOMER CHURN.......................................54
3.1.1 Tiền xử lý dữ liệu...................................................................................................54
3.1.2 MÔ TẢ TỔNG QUÁT DỮ LIỆU..........................................................................55
3.1.3. Thống kê mô tả......................................................................................................57
3.2 PHÂN LỚP DỮ LIỆU...................................................................................................80
3.2.1 Một số phương pháp phân lớp dữ liệu....................................................................80
3.2.2 Thực hiện lựa chọn mô hình dự báo phù hợp.........................................................80
3.2.2.1 Bước 1: Xây dựng mô hình.............................................................................80
3.2.2.2 Bước 2: Sử dụng mô hình...............................................................................83
3.2.3 Đánh giá kết quả mô hình.......................................................................................87
3.2.3.1 Kết quả phân tích Test and Score....................................................................87
3.2.3.2 Ma trận nhầm lẫn (Confusion Matrix):...........................................................88
3.2.4 Dự báo....................................................................................................................91
CHƯƠNG 4. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.....................................................93
4.1 NHỮNG CÔNG VIỆC ĐÃ THỰC HIỆN.....................................................................93
4.1.1 Tóm tắt....................................................................................................................93
4.1.2 Kết luận..................................................................................................................93
4.2 HƯỚNG PHÁT TRIỂN CÁC CHIẾN LƯỢC GIỮ CHÂN KHÁCH HÀNG TRONG
DỊCH VỤ VIỄN THÔNG...................................................................................................94
4.2.1. Phân tích các yếu tố chính dẫn đến việc ngừng sử dụng dịch vụ:.........................94
4.2.2. Phân tích hành vi sử dụng dịch vụ:........................................................................94
2
Báo cáo đồ án học phần Khoa học dữ liệu
4.2.3. Phân tích ảnh hưởng của thời hạn hợp đồng và dịch vụ đi kèm:...........................94
4.2.4. Tập trung vào trải nghiệm khách hàng:................................................................95
4.2.5. Phân tích sự khác biệt về phương thức thanh toán:...............................................95
4.2.6. Xây dựng hệ thống cảnh báo sớm (Early Warning System).................................95
4.2.7. Hành vi tư vấn, bán hàng của nhân viên:..............................................................95
4.3 HẠN CHẾ CỦA ĐỀ TÀI VÀ ĐỊNH HƯỚNG NGHIÊN CỨU TIẾP THEO..............96
TÀI LIỆU THAM KHẢO.....................................................................................................96
3
Báo cáo đồ án học phần Khoa học dữ liệu
DANH MỤC HÌNH ẢNH
Hình 2. 1. Hộp thoại Subtotal...................................................................................................18
Hình 2. 2. Hộp thoại Consolidate.............................................................................................20
Hình 2. 3. Hộp thoại Create PivotTable...................................................................................21
Hình 2. 4. Thay đổi tên Field...................................................................................................22
Hình 2. 5. Sắp xếp theo thứ tự..................................................................................................22
Hình 2. 6. Hộp thoại Value Field Settings thay đổi phép tổng hợp DL...................................23
Hình 2. 7. Khai báo các tham số của bài toán trên công cụ solver...........................................25
Hình 2. 8. Công thức tính phương pháp trung bình trượt........................................................27
Hình 2. 9. Công thức tính phương pháp san bằng mũ..............................................................28
Hình 2. 10. Kết quả hồi quy tuyến tính bằng đồ thị.................................................................31
Hình 2. 11. Hộp thoại Regression............................................................................................31
Hình 2. 12. Minh hoạ tính năng Data.......................................................................................34
Hình 2. 13. Minh hoạ tính năng Visualize...............................................................................34
Hình 2. 14. Minh hoạ tính năng Model....................................................................................35
Hình 2. 15. Minh hoạ tính năng Evaluate................................................................................35
Hình 2. 16. Minh hoạ tính năng Unsupervised........................................................................36
Hình 2. 17. Mô hình phân lớp dữ liệu......................................................................................36
Hình 2. 18. Mô hình biểu diễn xây dựng mô hình phân lớp....................................................37
Hình 2. 19. Mô hình phân lớp dữ liệu mới...............................................................................38
Hình 2. 20 Minh họa phương pháp Hồi quy logistic................................................................38
Hình 2. 21 Minh họa phương pháp Cây quyết định.................................................................39
Hình 2. 22 Các biến thể của SVM............................................................................................40
Hình 2. 23 Minh họa phương pháp SVM.................................................................................40
Hình 2. 24 Minh họa các phương pháp đánh giá mô hình phân lớp........................................41
Hình 2. 25 Minh họa một ma trận nhầm lẫn............................................................................42
Hình 2. 26 Minh họa đường cong ROC...................................................................................43
Hình 2. 27 Minh họa đường cong ROC và AUC.....................................................................43
Hình 2. 28 Minh họa cho phương pháp K-fold validation.......................................................44
Hình 2. 29 Minh hoạ phương pháp phân cụm trong Mining Data...........................................45
Hình 3. 1 Mô tả các bước thực hiện.........................................................................................49
Hình 3. 2. Mẫu dữ liệu Telco Customer Churn........................................................................50
Hình 3. 3. Biểu đồ thể hiện số lượng khách hàng theo quyết định dừng lại hoặc tiếp tục sử
dụng dịch vụ.............................................................................................................................52
4
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 3. 4. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo giới tính...........53
Hình 3. 5. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa trên tuổi tác......54
Hình 3. 6. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa trên partner.......55
Hình 3. 7. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo người phụ
thuộc.........................................................................................................................................56
Hình 3. 8. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo số năm gắn
bó..............................................................................................................................................57
Hình 3. 9. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo tỷ lệ sử
dụng điện thoại của khách hàng...............................................................................................58
Hình 3. 10. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại thông qua đường
dây............................................................................................................................................59
Hình 3. 11. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo nhà cung
cấp............................................................................................................................................60
Hình 3. 12. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo tỷ lệ sử
dụng dịch vụ bảo mật trực tuyến của khách hàng....................................................................61
Hình 3. 13. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo tỷ lệ sử
dụng dịch vụ sao lưu trực tuyến của khách hàng.....................................................................62
Hình 3. 14. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ bảo vệ
thiết bị.......................................................................................................................................63
Hình 3. 15. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ hỗ trợ
kỹ thuật.....................................................................................................................................64
Hình 3. 16. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ truyền
hình trực tuyến.........................................................................................................................65
Hình 3. 17. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ phim
trực tuyến..................................................................................................................................66
Hình 3. 18. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo thời hạn hợp
đồng..........................................................................................................................................67
Hình 3. 19. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo hóa đơn giấy..68
Hình 3. 20. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo phương thức
thanh toán.................................................................................................................................69
Hình 3. 21. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo phí hàng tháng
..................................................................................................................................................72
Hình 3. 22. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo chi phí tổng...73
Hình 3. 23. Cửa sổ File và bộ dữ liệu Telco Customer Churn.................................................74
Hình 3. 24. Bộ dữ liệu Telco Customer Churn........................................................................74
Hình 3. 25. Lấy mẫu dữ liệu huấn luyện trong Data Sampler..................................................75
Hình 3. 26. Thông tin của bộ dữ liệu Telco Customer Churn khi lấy 70%.............................75
Hình 3. 27. Lấy mẫu dữ liệu kiểm thử.....................................................................................76
Hình 3. 28. Kết quả ma trận nhầm lẫn của Hồi quy Logistic (Logistic Regression)...............82
5
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 3. 29. Kết quả ma trận nhầm lẫn của SVM (Support Vector Machines)........................82
Hình 3. 30. Kết quả ma trận nhầm lẫn của Cây quyết định (Tree Decision)...........................83
Hình 3. 31. Đường cong ROC với biến y là “No”...................................................................84
Hình 3. 32. Đường cong ROC với biến y là “Yes"..................................................................84
Hình 3. 33. Tập dữ liệu kiểm thử.............................................................................................85
Hình 3. 34. Mô hình dự báo dữ liệu.........................................................................................86
Hình 3. 35. Kết quả dự báo dữ liệu theo mô hình Hồi quy Logistic........................................86
6
Báo cáo đồ án học phần Khoa học dữ liệu
Bảng 3. 8. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo tỷ lệ sử dụng
điện thoại của khách hàng........................................................................................................65
Bảng 3. 9. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại thông qua đường dây. .66
Bảng 3. 10. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo nhà cung cấp
..................................................................................................................................................67
Bảng 3. 11. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo tỷ lệ sử dụng
dịch vụ bảo mật trực tuyến của khách hàng ............................................................................68
Bảng 3. 12. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo tỷ lệ sử dụng
dịch vụ sao lưu trực tuyến của khách hàng..............................................................................69
Bảng 3. 13. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ bảo vệ
thiết bị.......................................................................................................................................71
Bảng 3. 14. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ hỗ trợ kỹ
thuật..........................................................................................................................................72
Bảng 3. 15. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ truyền
hình trực tuyến.........................................................................................................................73
Bảng 3. 16. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ phim trực
tuyến.........................................................................................................................................74
Bảng 3. 17. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo thời hạn hợp
đồng..........................................................................................................................................76
Bảng 3. 18. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo hóa đơn giấy.....77
Bảng 3. 19. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo phương thức
thanh toán.................................................................................................................................78
Bảng 3. 20. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo phí hàng tháng
($).............................................................................................................................................79
Bảng 3. 21. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo chi phí tổng($). .80
7
Báo cáo đồ án học phần Khoa học dữ liệu
DANH MỤC TỪ VIẾT TẮT
11 DSL
8
Báo cáo đồ án học phần Khoa học dữ liệu
LỜI MỞ ĐẦU
Dưới tác động mạnh mẽ của kỷ nguyên số hóa như hiện nay, dữ liệu và nghiên cứu
về dữ liệu đã trở thành vấn đề then chốt, quyết định sự thành bại của nhiều doanh nghiệp,
đặc biệt là trong ngành viễn thông - một lĩnh vực không chỉ là xương sống của nền kinh tế
kỹ thuật số mà còn là một ngành công nghiệp cạnh tranh khốc liệt và không ngừng thay đổi.
Nhất là trong thời đại VUCA, một trong những thách thức lớn nhất mà các doanh nghiệp
viễn thông phải đối mặt là việc duy trì và giữ chân khách hàng trong bối cảnh thị trường
ngày càng phân mảnh và nhu cầu khách hàng ngày càng đa dạng. Mỗi sự rời bỏ của một
khách hàng không chỉ ảnh hưởng đến doanh thu mà còn ảnh hưởng sâu sắc đến uy tín và vị
thế cạnh tranh của doanh nghiệp trên thị trường, cũng như làm lung lay vị trí của họ trong
mắt người tiêu dùng. Trong đồ án này, chúng em sẽ tập trung chỉ vào việc khai thác bộ dữ
liệu Telco Customer Churn – một nguồn thông tin uy tín và quý giá về hành vi khách hàng
nằm trong lĩnh vực viễn thông. Dựa trên bộ dữ liệu này, đồ án này sẽ được áp dụng các
phương pháp phân tích dữ liệu và kỹ thuật dự đoán để làm sáng tỏ các yếu tố khiến khách
hàng rời bỏ dịch vụ. Vì thế, Nhóm 6 chúng em quyết định cùng nhau đi sâu vào đề tài
“Chiến lược giữ chân khách hàng trong lĩnh vực viễn thông dựa trên việc phân tích, dự
đoán bộ dữ liệu Telco Customer Churn”.
Thông qua việc khai thác sức mạnh của khoa học dữ liệu, đi theo trình tự từ chương
(1) giới thiệu tỉ mỉ về khoa học dữ liệu và đề tài khiến tổ nhóm tự tin lựa chọn. Đến với
chương (2), nhóm thực hiện đi sâu hơn vào tổng quan chương trình và các phương pháp sẽ
được sử dụng, ứng dụng trong bài toán thực tế. Ở chương (3), quan trọng nhất là ứng dụng
những phương pháp ấy vào bài toán thực tế và tiến hành phương pháp dự báo. Cuối cùng,
hướng đến chương (4) bằng việc đưa ra kết luận - giải pháp, song song với hướng phát triển
mà đề tài nhắm tới. Lần lượt qua từng chương, chúng em sẽ không chỉ tìm hiểu nguyên nhân
mà còn đưa ra các chiến lược hiệu quả nhờ phương pháp và kỹ thuật đặc thù, giúp doanh
nghiệp viễn thông giữ chân khách hàng, cải thiện chất lượng dịch vụ và tối ưu hóa trải
nghiệm người dùng. Tất nhiên, với tầm nhìn kết hợp tuyệt vời giữa công nghệ và kinh doanh
, đồ án này là một minh chứng minh họa cho tiềm năng của khoa học dữ liệu trong việc thúc
đẩy sự phát triển bền vững của ngành viễn thông riêng và đa ngành khác nói chung.
9
Báo cáo đồ án học phần Khoa học dữ liệu
LỜI CẢM ƠN
Tất cả nhờ sự giảng dạy tận tâm và hỗ trợ nhiệt tình của TS. Nguyễn Quốc Hùng,
giảng viên môn Khoa học dữ liệu, chúng em đã học hỏi và nắm bắt được nhiều kiến thức
quý giá, cũng như kỹ năng làm việc với Excel, Orange và các công cụ khác. Thầy không chỉ
truyền đạt kiến thức từ sách vở, mà còn dạy chúng em bằng cả tấm lòng và sự nhiệt huyết.
Chúng em thật sự biết ơn thầy vì đã luôn kiên nhẫn hướng dẫn, giải đáp từng chi tiết nhỏ
nhất. Từ tận đáy lòng, chúng em xin gửi lời cảm ơn chân thành đến thầy. Đồ án cuối kỳ này
không chỉ đơn thuần là bài thi kết thúc học phần, mà còn là cơ hội để nhóm chúng em áp
dụng và thể hiện những kiến thức quý báu về Khoa học dữ liệu mà thầy đã tận tâm truyền
đạt. Một tháng tuy ngắn ngủi, khó có thể giúp chúng em lĩnh hội trọn vẹn những tinh hoa
của môn học, nhưng chúng em đã nỗ lực hết mình trong việc chuẩn bị, chọn lọc và xử lý các
nội dung của đồ án.
Dòng chảy kiến thức là vô biên, nhưng khả năng tiếp thu của con người lại tồn tại
những giới hạn nhất định. Vì vậy, trong quá trình hoàn thiện bài tiểu luận, nhóm chúng em
khó tránh khỏi những thiếu sót và hạn chế. Nhóm chúng em rất mong nhận được những ý
kiến đóng góp chân thành, những nhận xét và phê bình quý giá từ thầy, để có thể không
ngừng hoàn thiện và nâng cao chất lượng của bài nghiên cứu này. Một lần nữa, chúng em
xin kính chúc thầy luôn dồi dào sức khỏe, tràn đầy hạnh phúc, và gặt hái thêm nhiều thành
công trên con đường sự nghiệp giảng dạy. Xin chân thành cảm ơn!
Mức độ
STT Thành viên Công việc phụ trách hoàn
thành
- Chương 2:
● 2.1 Các phương pháp của excel dùng
để khai phá dữ liệu (phương pháp
phân tích dự báo)
- Chương 2:
Giao Trần Cát My ● 2.2 Phần mềm Orange (phương pháp
1 100%
(Trưởng nhóm) phân cụm dữ liệu trong Orange)
- Chương 3:
● 3.2 Phân lớp dữ liệu (chạy dữ liệu
trên Orange, mô tả cách chạy dữ
liệu)
- Làm PowerPoint
10
Báo cáo đồ án học phần Khoa học dữ liệu
● 3.1 Phân tích dữ liệu (Mô tả các
bước tiền xử lý dữ liệu)
- Chương 4:
● 4.2 Hướng phát triển các chiến lược
giữ chân khách hàng
- Làm danh mục hình ảnh, bảng biểu
- Chương 2:
● 2.1 Các phương pháp của excel
dùng để khai phá dữ liệu ( phương
pháp thống kê mô tả và phương
pháp phân tích tối ưu)
3 Bùi Thị Thanh Ngân 100%
- Chương 3:
● 3.1 Phân tích dữ liệu Telco
Customer Churn (tạo bảng hoặc
biểu đồ và bình luận về các biến)
- Làm PowerPoint
● - Lời mở đầu
- Chương 1:
● 1.2 Giới thiệu về đề tài
- Chương 3:
4 Bùi Nhật Phương ● 3.1 Tạo bảng mô tả tổng quát về các 100%
biến trong bộ dữ liệu
● 3.1 Phân tích dữ liệu Telco
Customer Churn ( tạo bảng hoặc
biểu đồ và bình luận)
- Làm danh mục hình ảnh, bảng biểu
11
Báo cáo đồ án học phần Khoa học dữ liệu
nghiên cứu tiếp theo
12
Báo cáo đồ án học phần Khoa học dữ liệu
CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI.
1.1 GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU
1.1.1 Khái niệm dữ liệu
Dữ liệu là tập hợp thông tin được thu thập bằng quan sát, đo lường, nghiên cứu hoặc
phân tích. Chúng có thể bao gồm các sự kiện, con số, tên, số liệu hoặc thậm chí mô tả sự vật.
Dữ liệu được tổ chức dưới dạng đồ thị, biểu đồ hoặc bảng. Các nhà khoa học dữ liệu, phân
tích viên sẽ thực hiện khai thác dữ liệu và với sự trợ giúp của dữ liệu đó sẽ giúp doanh
nghiệp, tổ chức khám phá ra những “insight” thú vị, mà trước nay họ chưa bao giờ nghĩ đến.
1.1.2 Sự phát triển của Khoa học dữ liệu
Khoa học dữ liệu là thuật ngữ không mấy xa lạ hiện nay. Cùng với sự phát triển của
thời đại chuyển đổi số, khoa học dữ liệu dần chiếm vai trò quan trọng bởi khả năng quản trị,
phân tích, dự đoán,... Thông tin và tri thức có được nhờ vào khoa học dữ liệu đóng góp rất
lớn trong việc hỗ trợ các doanh nghiệp đưa ra quyết định. Ngày nay, hầu hết các công ty và
tập đoàn lớn trên thế giới có được thành công là nhờ vào khoa học dữ liệu, các công ty ấy
đều có đội ngũ chuyên gia phân tích dữ liệu, có thể lấy ví dụ như Google, Facebook,
Youtube,... Có thể thấy rằng, khoa học dữ liệu ngày càng lan rộng tầm ảnh hưởng và giữ vai
trò ngày càng quan trọng trong cuộc sống con người (Nguyễn, 2018)
Trong khoảng hơn 30 năm (1960-1996), thuật ngữ “Khoa học dữ liệu” (data science)
đã được sử dụng trong nhiều tài liệu nói về các phương pháp tính toán. Đến tháng 11/1997,
thuật ngữ Khoa học dữ liệu mới được dùng chính thức bởi một nhà nghiên cứu tên là Chien-
Fu Jeff Wu. Trong bài thuyết trình mang tên “Statistics = Data Science?” tại Đại học
Michigan, Chien-Fu Jeff Wu đã phổ biến thuật ngữ "Khoa học dữ liệu" và nói rằng thống kê
nên được đổi tên thành Khoa học dữ liệu và nhà thống kê thành nhà Khoa học dữ liệu vì họ
đã dành phần lớn thời gian của mình để thao tác và thử nghiệm với dữ liệu (Wu, 1997)
Năm 2001, William S. Cleveland đã giới thiệu Khoa học dữ liệu như là một ngành
độc lập (Cleveland, 2001). Cùng năm này, mô hình sử dụng các ứng dụng đám mây -
Softwareas-a-Service (SaaS) được tạo ra. Đến tháng 4/2002, International Council for
Science cho ra đời Tạp chí Khoa học dữ liệu, một ấn phẩm tập trung vào các vấn đề như mô
tả hệ thống dữ liệu, ấn phẩm của họ trên internet, các ứng dụng và các vấn đề pháp lý. Vào
tháng 01/2003, Đại học Columbia bắt đầu xuất bản Tạp chí Khoa học dữ liệu, nhằm cung
cấp một công cụ cho tất cả nhân viên dữ liệu trình bày quan điểm của mình và trao đổi ý
kiến. Năm 2006, cơ sở dữ liệu mã nguồn mở không quan hệ- Hadoop được phát hành. Dựa
trên một cơ sở dữ liệu mã nguồn mở khác là Nutch. Hai vấn đề đối với việc xử lý dữ liệu lớn
là lưu trữ một lượng lớn dữ liệu và sau đó xử lý dữ liệu được lưu trữ đó. Đến năm 2008, DJ
Patil và Jeff Hammerbacher mới sử dụng thuật ngữ “nhà Khoa học dữ liệu” để xác định
công việc của họ tại LinkedIn và Facebook. Đầu năm 2010, theo T.H. Davenport và D.J.
Patil (Davenport & Patil, 2012), một vai trò mới nổi trong các doanh nghiệp nhưng nhanh
chóng trở nên nổi bật, đó là vai trò nhà khoa học dữ liệu (data scientist). Tương ứng với vai
trò này, một lĩnh vực khoa học - công nghệ mới được hình thành, đó là lĩnh vực khoa học dữ
liệu.
13
Báo cáo đồ án học phần Khoa học dữ liệu
Năm 2013, Nhóm công tác của IEEE về Khoa học dữ liệu và Phân tích nâng cao đã
được đưa ra, và hội nghị quốc tế đầu tiên về Khoa học dữ liệu và Phân tích nâng cao của
IEEE đã được tổ chức vào năm 2014. Năm 2015, Tạp chí Quốc tế về Khoa học dữ liệu và
Phân tích đã được lập bởi Springer để xuất bản tác phẩm ban đầu về Khoa học dữ liệu và
phân tích dữ liệu lớn. Tuy nhiên, khoa học dữ liệu vẫn còn được xem là một khái niệm mới,
và nó chỉ mới thật sự xuất hiện vào những thập niên đầu thế kỷ 21 và còn phải được nghiên
cứu và phát triển sâu hơn trong tương lai.
1.1.3 Ứng dụng tiêu biểu của Khoa học dữ liệu
Về công cụ tìm kiếm: Đây là ứng dụng hữu ích nhất của khoa học dữ liệu. Chúng ta
có thể sử dụng các công cụ tìm kiếm tiêu biểu như: Google, Safari, Firefox,... để tìm kiếm
thông tin trên Internet một cách dễ dàng, nhanh chóng và thuận tiện
Ứng dụng trong thương mại điện tử và dịch vụ số: Nhiều gã khổng lồ công nghệ
trong lĩnh vực thương mại điện tử và dịch vụ số như Amazon, Twitter, Google Play, Netflix,
Linkedin,... đã sử dụng các công cụ đề xuất để quảng bá sản phẩm phù hợp với sở thích
người dùng và mức độ liên quan của thông tin. Các đề xuất được đưa ra dựa trên kết quả tìm
kiếm trước đó của người dùng
Giao thông vận tải: Khoa học dữ liệu cũng tham gia vào lĩnh vực này với sản phẩm
tiêu biểu là Ô tô không người lái – hạn chế rủi ro xảy ra tai nạn giao thông.Với ngành hàng
không thì khoa học dữ liệu còn giúp vạch ra lộ trình bay, dự đoán trễ chuyến bay, tỷ lệ hủy
và phân tích các rủi ro,.. Không chỉ vậy, các công ty như Grab, Gojeck, Be,.. đang ứng dụng
khoa học dữ liệu để tối ưu hóa giá cả bằng cách sử dụng công cụ dự đoán giá dựa trên
khoảng cách, thời tiết,..., tạo ứng dụng để người dùng có thể đặt xe, đánh giá tài xế,. Cung
cấp các trải nghiệm tốt nhất cho người dùng.
Tài chính, ngân hàng: Khoa học dữ liệu đóng một vai trò đặc biệt quan trọng trong
lĩnh vực tài chính và ngân hàng. Giúp cho các doanh nghiệp, ngân hàng:
● Phân tích rủi ro tổn thất, vỡ nợ.
● Dự đoán tương lai doanh nghiệp, thị trường chứng khoán
● Dự đoán giá trị trọn đời, dự đoán các động thái trên thị trường chứng khoán của
khách hàng, dự đoán xu hướng thay đổi giá trị của chứng khoán,...
● Phát hiện hành vi gian lận của người sử dụng dịch vụ
● Quản lý dữ liệu của khách hàng, các hạng mục đầu tư bên ngoài,...
1.2 GIỚI THIỆU ĐỀ TÀI
“CHIẾN LƯỢC GIỮ CHÂN KHÁCH HÀNG TRONG LĨNH VỰC VIỄN THÔNG DỰA
TRÊN VIỆC PHÂN TÍCH, DỰ ĐOÁN BỘ DỮ LIỆU TELCO CUSTOMER CHURN”
1.2.1 Lý do chọn đề tài:
Trong bối cảnh kinh tế - xã hội đang phát triển nhanh chóng, mối quan tâm hàng đầu
của các nhà kinh tế không chỉ dừng lại ở việc phát triển thị trường hay thu hút khách hàng,
mà còn là làm sao để duy trì sự bền vững trong mối quan hệ với khách hàng. Vấn đề cốt lõi
hiện nay là tìm cách giữ chân khách hàng và đảm bảo họ trung thành với dịch vụ của doanh
nghiệp. Thực tế cho thấy, hiện tượng khách hàng rời bỏ dịch vụ đang trở thành một trong
những mối quan tâm lớn không chỉ của các doanh nghiệp, người cung cấp dịch vụ, mà còn
14
Báo cáo đồ án học phần Khoa học dữ liệu
của cả những nhà kinh tế, nhà hoạch hoạch định chính sách phát triển. Tỷ lệ rời bỏ của
khách hàng có thể bị ảnh hưởng bởi nhiều yếu tố như chi phí dịch vụ hàng tháng, phương
thức thanh toán, hay loại hình dịch vụ được cung cấp. Nếu công ty đang phải đối mặt với
tình trạng thiếu hụt khách hàng chất lượng cũng như tỷ lệ khách hàng bỏ đi cao, thì công ty
có thể sẽ gặp rắc rối lớn. Nhận thấy được độ nhức nhối của vấn đề, tổ nhóm đã dựa vào
những nhóm yếu tố trên và quyết định thực hiện đề tài “Phân tích dữ liệu khả năng rời bỏ
dịch vụ của khách hàng dựa trên bộ dữ liệu Telco Customer Churn bằng phần mềm
Orange”. Qua đó, nhóm sẽ sử dụng các biến liên quan đến hành vi tiêu dùng của khách hàng
để đánh giá mức độ và khả năng họ rời bỏ dịch vụ của doanh nghiệp.
Hơn nữa, với tư cách là sinh viên trong khối ngành kinh tế, tài chính - chúng em phải
thường xuyên phải tiếp cận các môn học cũng như số liệu liên quan chặt chẽ đến lĩnh vực
này như doanh số bán hàng, thị trường, thu nhập và thông tin cung cấp cho các nhà đầu tư.
Chính sự tiếp xúc thường xuyên với những vấn đề kinh tế này đã phần nào thúc đẩy Nhóm 6
lựa chọn đề tài có mối liên hệ mật thiết với ngành học của mình.
1.2.2 Mục tiêu nghiên cứu:
Đề tài được đưa vào nghiên cứu nhằm mục tiêu mang lại càng nhiều giá trị thực tiễn
cho các doanh nghiệp viễn thông càng tốt, nhất là trong việc tối ưu hóa tài nguyên và duy trì
tệp khách hàng lâu dài.
Cụ thể hóa mục tiêu qua từng giai đoạn, đầu tiên là xác định rõ các yếu tố chính ảnh
hưởng đến việc khách hàng rời bỏ dịch vụ, từ đó xây dựng hồ sơ khách hàng có nguy cơ rời
bỏ dịch vụ cao dựa trên các đặc điểm cụ thể. Tiếp đến, xây dựng thành công mô hình dự
đoán, trong đó sử dụng hiệu quả các thuật toán và đánh giá thành công hiệu suất mô hình dự
đoán thông qua các chỉ số. Để đo lường hiệu quả chiến lược, mục tiêu tiếp theo là có thể tính
toán được chi phí tốn kém và lợi ích của việc giữ chân khách hàng so với chi phí marketing
thu hút khách hàng mới. Mục tiêu cuối cùng mà tổ nhóm muốn hướng đến nhằm rút ra được
đề xuất hữu ích về các biện pháp cùng chiến lược giảm thiểu tỷ lệ khách hàng rời bỏ dịch
vụ, sau đó tùy chỉnh các chiến lược cho từng phân khúc khách hàng theo hướng tối ưu cá
nhân hóa dựa trên kết quả phân tích và dự đoán.
1.2.3 Đối tượng và phạm vị nghiên cứu:
❖ Nhóm đối tượng nghiên cứu:
Hướng đến thứ nhất, chính là khách hàng của các doanh nghiệp viễn thông: bao gồm
tất cả các khách hàng sử dụng dịch vụ viễn thông (dịch vụ Internet, dịch vụ bảo mật trực
tuyến, dịch vụ hỗ trợ kỹ thuật,...). Đặc biệt nhất là tập trung vào tệp khách hàng có nguy cơ
không sử dụng thêm bất kỳ dịch vụ nào nữa (Churn).
Thứ hai, nghiên cứu bộ dữ liệu Telco Customer Churn, bao gồm thông tin về đặc
điểm cá nhân, dịch vụ sử dụng, thời hạn hợp đồng, hành vi thanh toán, phí hàng tháng và các
yếu tố khác liên quan đến việc khách hàng tiếp tục sử dụng hay rời bỏ dịch vụ
❖ Phạm vi nghiên cứu:
Dựa trên thông tin của bộ dữ liệu tiêu chuẩn không nói rõ, nghiên cứu có thể dựa trên
dữ liệu giả lập hoặc thực tế từ thị trường California và chỉ giới hạn trong một quốc gia. Phụ
thuộc vào dữ liệu có sẵn và mục tiêu nghiên cứu chính, cần khoanh vùng tập trung phạm vi
15
Báo cáo đồ án học phần Khoa học dữ liệu
trong cột Churn của Telco Customer Churn, có thể thấy có mười mã bưu chính thể hiện rõ
ràng tỷ lệ churn cao nhất. Tất cả các mã bưu chính này đều tập trung ở miền Nam California
trong khu vực San Diego. Mục đích khoanh vùng phạm vi này có thể hiểu là để hiểu rõ hơn
về sự khác biệt trong tỷ lệ churn giữa các địa phương.
Nội dung phạm vi nghiên cứu chỉ tâp trung vào việc phân tích và dự đoán khả năng
“churn” của khách hàng dựa trên các dữ liệu có sẵn chứ không đi sâu vào các khía cạnh kỹ
thuật nằm ngoài phạm vi phân tích và dự đoán (như chi tiết về hạ tầng viễn thông, công nghệ
mạng lưới,..), nội dung xoay quanh phạm vi đề xuất các chiến lược và phân tích yếu tố rủi
ro.
16
Báo cáo đồ án học phần Khoa học dữ liệu
2.1.1.1 Thống kê mô tả bằng công cụ Descriptive Statistics
➢ Cách thực hiện:
● Chuẩn bị bảng số liệu cần thống kê.
● Chọn lệnh theo thứ tự: Data → Data Analysis → Descriptive Statistics, xuất hiện
hộp thoại Descriptive Statistics.
● Khai báo các thông số Input và lựa chọn các thông số Output Options.
➢ Ví dụ: Thống kê mô tả số lượng thịt heo bán ra trong tháng 3 của siêu thị ABC (theo
đơn vị kilogram).
Bảng 2. 1. Số liệu bán hàng trong 3 tháng tại siêu thị ABC và hộp thoại Descriptive
Statistics
● Các thông số cần khai báo trong hộp thoại hiện lên:
○ Input Range: vùng dữ liệu đầu vào mà người dùng cần thống kê mô tả
○ Grouped By: nhóm vùng dữ liệu theo dạng cột (Columns) hay hàng (Rows)
○ Labels in first row: tiêu đề ở hàng đầu
○ Output Range: nơi trả kết quả
○ Summary statistics: tóm tắt kết quả thống kê
○ Confidence Level of Mean: mức độ tin cậy mong muốn
● Thực hiện thành công, Excel sẽ trả kết quả sau:
17
Báo cáo đồ án học phần Khoa học dữ liệu
Bảng 2. 2. Kết quả trả về của công cụ Descriptive Statistics
2.1.2.2 Báo cáo tổng hợp nhóm với Subtotal
Điểm khác biệt so với công cụ Descriptive statistics là ở công cụ Subtotal, nó có khả
năng thực hiện việc tổng hợp dữ liệu từng phần của cột dữ liệu kiểu số trong cơ sở dữ liệu.
Cụ thể, nó có khả năng thực hiện các nhiệm vụ như tính tổng, tìm giá trị lớn nhất và nhỏ
nhất, xác định giá trị trung bình, và thực hiện nhiều nhiệm vụ khác liên quan đến các cột
chứa dữ liệu số.
➢ Cách thực hiện:
● Sắp xếp lại dữ liệu theo cột muốn tổng hợp nhóm
● Chọn toàn bộ dữ liệu hay chọn một ô bất kỳ trong vùng dữ liệu đó
● Chọn theo thứ tự: Data → Outline → Subtotal, xuất hiện hộp thoại Subtotal
● Khai báo thông số yêu cầu trong hộp thoại
➢ Ví dụ: Thống kê doanh số của các nhân viên khác nhau trong tháng 7/2003
18
Báo cáo đồ án học phần Khoa học dữ liệu
● Sau khi có được dữ liệu, ta thực hiện các bước như hướng dẫn. Sau đó sẽ xuất hiện
hộp thoại Subtotal.
19
Báo cáo đồ án học phần Khoa học dữ liệu
2.1.1.3 Hợp nhất dữ liệu với Consolidate
Khác với Subtotal, công cụ Consolidate cho phép hợp nhất các bảng dữ liệu khác
nhau chứ không nhất thiết phải là dạng dữ liệu theo cột. Có hai hình thức tổng hợp:
● Tổng hợp theo vị trí: với các bảng dữ liệu giống nhau về cấu trúc.
● Tổng hợp theo hạng mục (theo hàng và cột): trong trường hợp các bảng dữ liệu khác
nhau về cấu trúc.
➢ Cách thực hiện:
● Chọn vùng sẽ chứa dữ liệu được hợp nhất.
● Chọn theo thứ tự: Data → Data Tools → Consolidate, xuất hiện hộp thoại
Consolidate.
● Khai báo và chọn lựa các thông số hộp thoại yêu cầu.
➢ Ví dụ: Hợp nhất dữ liệu doanh thu bán hàng từ ba bảng DL của ba cửa hàng 1, 2 và 3 của
siêu thị ABC.
20
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 2. 2. Hộp thoại Consolidate
● Các thông số trong hộp thoại:
○ Function: chọn hàm dùng để hợp nhất dữ liệu
○ Reference: tham chiếu từ các bảng dữ liệu nguồn
○ All references: xác định tất cả các tham chiếu nhằm thực hiện hợp nhất dữ
liệu
○ Top row: sử dụng tên cột của vùng nguồn
○ Left column: sử dụng các giá trị của cột đầu tiên trong vùng nguồn
○ Create links to source data: cập nhật lại dữ liệu tổng hợp mỗi khi vùng dữ
liệu nguồn thay đổi.
● Sau khi có được dữ liệu, ta thực hiện các bước như hướng dẫn. Thực hiện thành
công, Excel trả về như sau:
21
Báo cáo đồ án học phần Khoa học dữ liệu
2.1.1.4 Tổng hợp dữ liệu đa chiều với PivotTable:
PivotTable giúp tổng hợp và phân tích dữ liệu từ nhiều góc độ, cấp độ khác nhau.
PivotTable có thể lấy DL trực tiếp từ Excel hoặc có thể sử dụng các dữ liệu từ vùng bên
ngoài như: MS SQL Server, MS Access, ...
➢ Cách thực hiện:
● Chọn một ô bất kỳ trong vùng dữ liệu.
● Chọn theo thứ tự: Insert → PivotTable, xuất hiện hộp thoại Create
PivotTable.
● Xác định dữ liệu nguồn muốn tổng hợp và vùng xuất kết quả.
● Kéo thả các tên field từ PivotTable Fields vào 4 khu vực tương ứng:
● FILTERS, ROWS, COLUMNS và VALUES.
➢ Ví dụ:
22
Báo cáo đồ án học phần Khoa học dữ liệu
➢ Các thao tác chỉnh sửa PivotTable:
● Thay đổi tên Field:
○ Khi thả các field vào khu vực layout, PivotTable sẽ tự động tạo ô có nền đậm.
○ Nội dung trong từng ô được PivotTable tự tạo dựa vào tên field và nơi bố trí.
○ Người dùng có thể nhập lại nội dung nếu muốn bảng dữ liệu rõ ràng hơn.
23
Báo cáo đồ án học phần Khoa học dữ liệu
Thay đổi phép tổng hợp DL:
○ Nhấn mũi tên tên xổ xuống cạnh field cần định dạng trong khu vực Values
○ Chọn Value Field Settings trong danh sách mở ra
○ Chọn phương thức xử lý trong mục Summarize value field by
Hình 2. 6. Hộp thoại Value Field Settings thay đổi phép tổng hợp DL
2.1.3 Phương pháp Phân tích tối ưu
Phương pháp phân tích tối ưu là quá trình thực hiện phân tích, đánh giá và tối ưu hóa
các quá trình, hệ thống hoặc tài nguyên.
➢ Ví dụ: Một nhà quản lý dự án nông nghiệp muốn lựa chọn phương án trồng trọt bao
nhiêu tấn lúa mì và lúa gạo để tối đa hóa lợi nhuận của dự án dựa trên các số liệu
sau:
Số liệu đầu vào đối với Loại sản phẩm Khả năng lớn nhất
một đơn vị sản phẩm của các nguồn tài
nguyên sẵn có
Lúa gạo Lúa mì
Sản lượng 12
7
50 ha
Diện tích đất (ha/tấn) 2 3
Lượng nước 4 90 m3
6
15 12 250 người
Nhân công
(người/tấn)
$18 $21
Lợi nhuận (USD/tấn)
24
Báo cáo đồ án học phần Khoa học dữ liệu
Bảng 2. 8. Bảng số liệu của dự án
● Các bước bao gồm:
○ Bước 1: Xác định biến quyết định. Gọi x1 là lượng lúa gạo, x2 là lượng lúa
mì (tấn) cần sản xuất
○ Bước 2: Xác định hàm mục tiêu cần đạt được, bao gồm những yếu tố quan
trọng cần tối ưu hoặc cải thiện. Mục tiêu bài toán là tối đa hóa lợi nhuận ta
có: P = P (lúa gạo) + P (lúa mì) = 18x1 + 21x2 → max
○ Bước 3: Xác định hệ ràng buộc mà phương pháp tối ưu phải tuân thủ. Các
ràng buộc có thể liên quan đến hạn chế về nguồn lực, kỹ thuật, chi phí,.....
■ Ràng buộc tài nguyên sử dụng: Về diện tích đất: 2x1+ 3x2 ≤ 50; Về
nước tưới: 6x1 + 4x2 ≤ 90; Về lao động: 15x1 + 12x2 ≤ 250
■ Ràng buộc tự nhiên: x1 , x2 ≥ 0
➢ Công cụ SOLVER để giải mô hình kinh tế
Bước 1: Thiết lập bảng tính
25
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 2. 7. Khai báo các tham số của bài toán trên công cụ solver
Bước 3: Khai báo các tham số của bài toán:
● Set Objective: Nhập ô chứa hàm mục tiêu
● To: Chọn Max, Min,... tùy yêu cầu của đề bài.
● By Changing Variable Cells: Nhập ô chứa các biến quyết định
● Đưa các ràng buộc vào Subject to the Contraints bằng cách nhấn nút Add.
Bước 4: Nhấn nút Solve để giải mô hình Khai báo các lựa chọn trong hộp thoại Solver
Results
● Keep Solver Solution: Giữ kết quả và in ra bảng tính.
● Restore Original Values: Huỷ kết quả vừa tìm được và trả các biến về tình trạng
ban đầu.
● Save Scenario: Lưu kết quả vừa tìm được thành một tình huống để có thể xem lại
sau này.
● Có thể xuất hiện thêm các dạng báo cáo trong kết quả: Answer, Sensitivity và
Limits.
Bước 5: Nhấn nút OK để xem kết quả
26
Báo cáo đồ án học phần Khoa học dữ liệu
Bảng 2. 10. Kết quả bài toán giải bằng công cụ Solver
27
Báo cáo đồ án học phần Khoa học dữ liệu
2.1.4.1 Phương pháp Trung bình trượt (Moving Average):
Bảng 2. 12. Dữ liệu cùng kết quả tại cột dự báo và hộp thoại Moving Average
● Các thông số hiển thị trên hộp thoại Moving Average:
○ Input Range: vùng dữ liệu thực tế được chọn.
28
Báo cáo đồ án học phần Khoa học dữ liệu
○ Labels in First Row: chọn nếu hàng đầu tiên của input range có chứa tiêu đề
cột
○ Interval: số lượng các kỳ trước đó muốn tính (w).
○ Output Range: vùng xuất kết quả. Nếu ô không đủ số lượng các giá trị trước
đó để tính toán sẽ nhận giá trị lỗi #N/A.
○ Chart Output: tạo biểu đồ cùng với vùng xuất kết quả.
○ Standard Errors: tạo thêm 1 cột chứa các sai số chuẩn.
2.1.4.2 Phương pháp San bằng mũ (Exponential Smoothing)
Bảng 2. 13. Dữ liệu cùng kết quả dự báo và hộp thoại Exponential Smoothing
● Các thông số trong hộp thoại Exponential Smoothing:
○ Input Range: vùng dữ liệu cần tham chiếu
29
Báo cáo đồ án học phần Khoa học dữ liệu
○ Damping factor: hệ số san bằng, là giá trị điều chỉnh sự bất ổn của dữ liệu,
giá trị mặc định là Damping factor (1-a)
○ Labels: chọn nếu hàng/cột đầu tiên của input range có chứa tiêu đề
2.1.4.3 Phương pháp Hồi quy (Regression)
Phương pháp phân tích hồi quy (Regression) là phương pháp nghiên cứu sự tác động
của một hay nhiều biến độc lập (biến giải thích) đối với một biến phụ thuộc (biến được giải
thích) được lựa chọn sao cho phù hợp với nhu cầu người nghiên cứu.
Dạng tổng quát của phương trình hồi quy được biểu diễn như sau:
Y = f(X1, X2, X3, …,Xn)
● Trong đó:
○ Y: biến phụ thuộc (dependent variable)
○ Xi: các biến độc lập (independent variable)
➢ Cách thực hiện bằng hàm trong Excel:
❖ Hàm TREND: Trả về các giá trị dọc theo đường hồi quy (theo phương pháp bình
phương bé nhất)
● Cú pháp của Hàm TREND: TREND(known_y’s, known_x’s, new_x’s,
const)
● Trong đó:
○ known_y’s, known_x’s, new_x’s là các giá trị hoặc vùng địa chỉ
chứa giá trị đã biết của x, y tương ứng và giá trị mới của x.
○ Const là hằng số. Ngầm định rằng nếu const = 1 (True) thì hồi quy
theo hàm y = a + bx, nếu const = 0 (False) thì hồi quy theo hàm y =
bx.
❖ Hàm FORECAST: Dự báo giá trị tương lai dựa vào vào các giá trị hiện tại.
● Cú pháp của Hàm FORECAST: FORECAST(x, known_y’s, known_x’s)
● Trong đó:
○ x: là giá trị dùng để dự báo.
○ known_y’s: là các giá trị hoặc vùng địa chỉ của tập số liệu phụ thuộc
quan sát được.
○ known_x’s: là các giá trị hoặc vùng địa chỉ của tập số liệu độc lập
quan sát được
❖ Hàm INTERCEPT: Dùng để tính hệ số a của phương trình hồi quy đơn tuyến tính
● Cú pháp Hàm INTERCEPT: INTERCEPT(known_y’s, known_x’s)
● Trong đó:
○ known_y’s: các giá trị hoặc vùng địa chỉ của tập số liệu phụ thuộc
quan sát được.
○ known_x’s: các giá trị hoặc vùng địa chỉ của tập số liệu độc lập quan
sát được
30
Báo cáo đồ án học phần Khoa học dữ liệu
❖ Hàm SLOPE: Dùng để tính toán hệ số b của phương trình hồi quy đơn tuyến tính
● Cú pháp Hàm SLOPE: SLOPE(known_y’s, known_x’s)
● Trong đó:
○ known_y’s: là các giá trị hoặc vùng địa chỉ của tập số liệu phụ thuộc
quan sát được.
○ known_x’s: là các giá trị hoặc vùng địa chỉ của tập số liệu độc lập
quan sát được
❖ Hàm CORREL: Dùng để tính hệ số tương quan giữa X và Y
● Cú pháp Hàm CORREL: CORREL(array1, array2)
● Trong đó: array1, array2 tương ứng là tập số liệu phụ thuộc và tập số liệu
độc lập quan sát được.
➢ Cách thực hiện dự báo bằng đồ thị:
Bước 1: Chuẩn bị bảng số dữ liệu cần tiến hành dự báo
Bước 2: Chọn lần lượt vùng địa chỉ chứa biến phụ thuộc Y, và vùng địa chỉ chứa biến độc
lập X tương ứng
Bước 3: Vẽ đồ thị dạng Scatter
Bước 4: Click chuột phải vào Data series, chọn Add Trendline
Bước 5: Tùy chọn hiển thị trong Trendline Options
● Linear: dạng đường thẳng
● Display Equation on chart
● Display R-squared value on chart
31
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 2. 10. Kết quả hồi quy tuyến tính bằng đồ thị
➢ Cách thực hiện bằng công cụ Regression
Bước 1: Chuẩn bị bảng số dữ liệu cần tiến hành dự báo
Bước 2: Chọn lệnh Data trên thanh công cụ của Excel → Chọn Data Analysis trong công cụ
Analyze → Thấy xuất hiện hộp thoại Analysis Tool, tìm chọn vào Regression, xuất hiện hộp
thoại Regression,minh họa như hình bên dưới:
32
Báo cáo đồ án học phần Khoa học dữ liệu
○ Labels: Tích vào mục này để khẳng định ô (các ô) đầu tiên không chứa dữ
liệu
○ Constant is Zero: Tích vào mục này để khẳng định hệ số tự do của hàm hồi
quy tuyến tính a = 0
● Trong đó:
○ Confidence Level: Độ tin cậy của hồi quy (mặc định là 95%) bằng 1- α, với
α là mức ý nghĩa hay xác suất mắc sai lầm loại một, bác bỏ H0 trong khi H0
đúng.
○ Output Range: Vùng hoặc ô phía trên bên trái của vùng chứa kết quả.
○ New Worksheet Ply: xuất kết quả ra một sheet khác
○ New Workbook: xuất kết quả ra một file Excel mới
○ Residuals: sai số do ngẫu nhiên
○ Standardized Residuals: chuẩn hóa sai số
○ Residuals Plots: đồ thị sai số
○ Line Fit Plots: Đồ thị hàm hồi quy tuyến tính
○ Normal Probability Plots: Đồ thị xác suất phân phối chuẩn
Bảng 2. 15. Kết quả phương pháp hồi quy bằng công cụ Regression
33
Báo cáo đồ án học phần Khoa học dữ liệu
2.2 PHẦN MỀM ORANGE
2.2.1 Tổng quát về Orange
34
Báo cáo đồ án học phần Khoa học dữ liệu
2.2.1.2 Các tính năng của Orange
Phần mềm Orange cung cấp các tính năng có tính ứng dụng cao, được tích hợp một cách
dễ hiểu nhất hỗ trợ một sự dễ dàng, linh hoạt trong quá trình sử dụng Orange. Các nhóm tính
năng nổi bật như sau:
● Data: Tính năng này dùng để rút trích, biến đổi, và nạp dữ liệu vào Orange để có thể
phân tích và khai phá dữ liệu trong những bước kế tiếp
35
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 2. 14. Minh hoạ tính năng Model
● Evaluate: Tính năng Evaluate trong Orange sẽ cung cấp các phương pháp đánh giá
mô hình (học máy) như Test & Score, Prediction, Confusion,...
36
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 2. 16. Minh hoạ tính năng Unsupervised
● Add ons: Giúp mở rộng các chức năng nâng cao như xử lý dữ liệu lớn (Big Data)
với Spark, xử lý ảnh với Deep learning, xử lý văn bản, phân tích mạng xã hội,... Đây
có lẽ là điểm cộng lớn của Orange so với các phần mềm khai phá dữ liệu khác hiện
nay.
2.2.2 Phương pháp phân lớp dữ liệu
2.2.2.1 Định nghĩa
Phương pháp phân lớp dữ liệu được biết đến là một kỹ thuật học máy có giám sát,
nhằm phân loại các đối tượng dữ liệu vào một hay nhiều lớp (loại) đã xác định trước đó nhờ
một mô hình phân lớp. Quá trình này dựa trên một mô hình toán học được xây dựng từ một
tập dữ liệu huấn luyện, trong đó mỗi dữ liệu đã được gán một nhãn tương ứng với lớp mà nó
thuộc về. Quá trình gán nhãn (thuộc lớp nào) cho đối tượng dữ liệu chính là quá trình phân
lớp dữ liệu.
37
Báo cáo đồ án học phần Khoa học dữ liệu
Một cách ngắn gọn để xác định một mô hình là mô tả một tập hợp các lớp trước đó
được xác định. Mô hình được xây dựng trong quá trình huấn luyện những dữ liệu mô tả một
tập dữ liệu hiện có. Đầu tiên, tiêu đề với một số các tập dữ liệu trước đó được đánh nhãn và
tiền xử lý, nghĩa là mỗi yếu tố dữ liệu dữ doán đến trước với một lớp tiền định, trong đó lớp
đại diện cho giá trị của một thuộc tính đã chọn dẫn dụ là nhãn thuộc tính hoặc thuộc tính
phân lớp. Mỗi cặp giá trị đại diện cho một phần tử dữ liệu: các mẫu, ví dụ, vật chất, hoặc
không gian ví dụ. Kết quả của quy trình này là một mô hình phân lớp đã được huấn luyện
(trình phân lớp).
Hình 2. 18. Mô hình biểu diễn xây dựng mô hình phân lớp
Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ.
Bước 2.1: Đánh giá mô hình:
Dữ liệu đầu vào: là một tập dữ liệu mẫu khác đã được gán nhãn và tiền xử lý.Tuy
nhiên, thuộc tính đã được gán nhãn này bị “lờ” khi được đưa vào mô hình để thực
hiện quá trình phân lớp.
Độ chính xác hay tính đúng đắn của mô hình sẽ được đánh giá bằng cách so sánh
thuộc tính gán nhãn của dữ liệu đầu vào với kết quả phân lớp mô hình. Holdout là
một kỹ thuật đơn giản để ước lượng tính đúng đắn này dựa trên tỷ lệ phần trăm các
các mẫu trong tập dữ liệu dự báo được mô hình phân lớp đúng (so với thực tế). Kết
quả từ quá trình này cho phép mô hình được áp dụng để phân lớp các dữ liệu trong
tương lai hoặc các dữ liệu mà giá trị thuộc tính phân lớp chưa biết, với điều kiện mô
hình đạt độ chính xác cao và phù hợp.
Bước 2.2: Phân lớp dữ liệu mới
Dữ liệu đầu vào: là những dữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn)
Mô hình sẽ tự động phân lớp hay còn gọi là “gán nhãn” cho các đối tượng dữ liệu
này dựa vào những gì được huấn luyện ở bước 1 nêu trên.
38
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 2. 19. Mô hình phân lớp dữ liệu mới
2.2.2.2 Mội số phương pháp phân lớp dữ liệu
● Phương pháp hồi quy logistic (Logistic Regression)
Định nghĩa: Là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một tập các giá trị đầu
vào (biểu diễn dưới dạng vector)
Mô tả: Đối với bài toán phân lớp: Tập nhãn 𝒚 = 𝑦1, 𝑦2, … , 𝑦𝑛 𝑣ớ𝑖 𝑛 𝑙à 𝑠ố 𝑙ớ𝑝 Một đối
tượng dữ liệu 𝒙 = 𝑥1, 𝑥2, … , 𝑥𝑑 𝑣ớ𝑖 𝑑 𝑙à 𝑠ố 𝑡ℎ𝑢ộ𝑐 𝑡í𝑛ℎ 𝑐ủ𝑎 𝑚ỗ𝑖 𝑑ò𝑛𝑔 𝑑ữ 𝑙𝑖ệ𝑢 𝑣à
39
Báo cáo đồ án học phần Khoa học dữ liệu
Khái niệm: Cây quyết định là một công cụ trực quan trong lý thuyết quản trị, cho phép minh
họa các quyết định và các kết quả có thể xảy ra, nhằm hỗ trợ người ra quyết định. Trong
khai thác dữ liệu, phương pháp này được áp dụng để mô tả và phân loại tập dữ liệu, đồng
thời giúp tổng quát hóa thông tin từ dữ liệu đó.
40
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 2. 22 Các biến thể của SVM
41
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 2. 24 Minh họa các phương pháp đánh giá mô hình phân lớp
Underfitting (chưa khớp): Mô hình được xem là chưa khớp khi nó không thể phù hợp
với tập dữ liệu huấn luyện và cũng không đưa ra dự đoán chính xác cho các mẫu mới.
Nguyên nhân có thể xuất phát từ việc mô hình không đủ độ phức tạp để nắm bắt các đặc
điểm của tập dữ liệu. Hậu quả là nhiều điểm dữ liệu không được phân loại chính xác, dẫn
đến độ chính xác của mô hình bị giảm.
Overfitting (quá khớp): Overfitting là hiện tượng mô hình học máy quá tập trung vào
việc giảm thiểu lỗi trên dữ liệu huấn luyện đến mức nó bắt đầu "học" cả nhiễu và các mẫu
dữ liệu ngẫu nhiên. Điều này làm giảm khả năng của mô hình trong việc đưa ra dự đoán
chính xác trên dữ liệu mới.
Good fitting: Mô hình được coi là phù hợp khi cho ra kết quả hợp lý cho cả dữ liệu huấn
luyện và các giá trị mới, tức là có tính tổng quát.
Kết luận: Một mô hình tốt là mô hình mang lại kết quả chấp nhận được trên cả dữ liệu mẫu
và dữ liệu mới. Trong tất cả các giả thiết có thể giải thích được một hiện tượng, ta nên chọn
giả thiết đơn giản nhất (Occam's razor). Do đó, trong tất cả các model "đúng", chọn model
đơn giản nhất.
● Ma trận nhầm lẫn (Confusion Matrix)
Ma trận nhầm lẫn: là một công cụ giúp hiển thị số lượng điểm dữ liệu thực sự thuộc về một
lớp cụ thể và cách mà các điểm dữ liệu đó được dự đoán vào các lớp khác nhau.
Confusion matrix là có kích thước k x k với k là số lượng lớp của dữ liệu.
Để hiểu hơn về ma trận nhầm lẫn, ta đặt giả sử bài toán chẩn đoán ung thư, có 2 lớp. Lớp bị
ung thư được chẩn đoán Positive, lớp không bị ung thư được chẩn đoán Negative.
o TP - True Positive: Số lượng dự đoán chính xác. Những bệnh nhân ta đoán là có
bệnh đúng là đang mang bệnh.
o TN - True Negative: Số lương dự đoán chính xác một cách gián tiếp. Những bệnh
nhân ta đoán là không có bệnh đúng là đang khỏe mạnh.
o FP - False Positive (Type 1 Error): Số lượng các dự đoán sai lệch. Những bệnh nhân
ta đoán là có bệnh thật ra đang khỏe mạnh.
o FN - False Negative (Type 2 Error): Số lượng các dự đoán sai lệch một cách gián
tiếp. Những bệnh nhân ta đoán là không có bệnh thật ra đang mang bệnh.
42
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 2. 25 Minh họa một ma trận nhầm lẫn
Accuracy (tính chính xác)
ACC: Là tỷ lệ số mẫu được phân lớp đúng trong toàn bộ tập dữ liệu
Độ chính xác (Accuracy) chỉ cho biết tỷ lệ các điểm dữ liệu được phân loại đúng, nhưng
không cung cấp thông tin cụ thể về cách phân loại từng loại. Nó không chỉ ra lớp nào được
phân loại chính xác nhất, cũng như không cho biết lớp nào thường bị nhầm lẫn với lớp khác.
Precision, Recall, F1 - score
Precision (độ chính xác): cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ bao nhiêu
mẫu có đúng (tránh nhầm lẫn với tính chính xác accuracy)
Recall (độ phủ) còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (True Positive Rate)
F1 -score: giá trị trung bình điều hòa (harmonic mean) của hai độ đo Precision và Recall.
43
Báo cáo đồ án học phần Khoa học dữ liệu
F1 có giá trị gần với giá trị nào nhỏ hơn giữa 2 giá trị Precision và Recall. F1 sẽ có giá trị
lớn nếu cả 2 giá trị Precision và Recall đều lớn.
ROC và AUC
ROC (Receiver Operating Characteristic) Là một đồ thị được sử dụng khá phổ biến
trong đánh giá các mô hình phân loại nhị phân. Đường cong này được tạo ra bằng cách biểu
diễn tỷ lệ dự báo true positive rate (TPR) dựa trên tỷ lệ dự báo false positive rate (FPR) tại
các ngưỡng khác nhau. Một mô hình hiệu quả khi có FPR thấp và TPR cao, hay ROC càng
tiệm cận với điểm (0;1) trong đồ thị thì mô hình càng hiệu quả.
44
Báo cáo đồ án học phần Khoa học dữ liệu
Phương pháp phân chia dữ liệu Hold-out
Phương pháp Hold-out chia tập dữ liệu ban đầu thành hai tập độc lập theo một tỷ lệ
nhất định. Chẳng hạn, tập huấn luyện (training set) có thể chiếm 70% tổng số dữ
liệu, trong khi tập thử nghiệm (testing set) chiếm 30%.
Phương pháp này phù hợp với các tập dữ liệu nhỏ. Tuy nhiên, một hạn chế là các
mẫu có thể không đại diện cho toàn bộ dữ liệu, dẫn đến việc thiếu lớp trong tập thử
nghiệm.
Có thể cải tiến phương pháp này bằng cách sử dụng kỹ thuật lấy mẫu sao cho mỗi
lớp được phân bố đều trong cả hai tập dữ liệu huấn luyện và kiểm tra. Một cách khác
là thực hiện lấy mẫu ngẫu nhiên, trong đó thực hiện phương pháp Hold-out kkk lần
và tính độ chính xác acc(M)acc(M)acc(M) bằng cách lấy trung bình cộng của kkk
giá trị chính xác
K-fold cross validation (Kiểm chứng chéo K-fold)
Phương pháp này phân chia dữ liệu thành k tập con có cùng kích thước (gọi là
các fold).
Một trong các fold được sử dụng làm tập dữ liệu đánh giá và phần còn lại được
sử dụng làm tập huấn luyện.
Quá trình lặp lại cho đến khi tất cả các fold đều đã được dùng làm tập dữ liệu
đánh giá.
Xét ví dụ: 5-fold cross validation
45
Báo cáo đồ án học phần Khoa học dữ liệu
2.2.3.1 Định nghĩa phân cụm dữ liệu
Phân cụm dữ liệu là quá trình gom cụm/nhóm các đối tượng/dữ liệu có đặc điểm
tương đồng vào các cụm/nhóm tương ứng.
Trong đó:
● Các đối tượng thuộc cùng một cụm sẽ có những tính chất tương tự với nhau.
● Các đối tượng thuộc những cụm/nhóm khác nhau sẽ có các tính chất khác so với
nhau.
Lưu ý: Dữ liệu của một bài toán phân cụm là dữ liệu chưa được gán nhãn. Đây là dữ liệu tự
nhiên thường thấy trong thực tế.
Hình 2. 29 Minh hoạ phương pháp phân cụm trong Mining Data
Mô hình của quá trình phân cụm dữ liệu: Dữ liệu thực → Trích chọn đặc trưng (nhận
biết những đặc trưng, tính chất của dữ liệu để gom lại thành cụm) → Thuật toán gom cụm
→ Đánh giá kết quả gom cụm → Biểu diễn kết quả gom cụm. Sau quá trình phân cụm, mỗi
nhóm hoặc cụm được tìm thấy sẽ bao gồm các đối tượng với các đặc điểm tương tự nhau mà
trong đó, mật độ đối tượng cục bộ cao hơn các nhóm/cụm khác.
2.2.3.2 Đặc điểm của phân cụm dữ liệu
● Nhiệm vụ chính của một bài toán phân cụm dữ liệu là tìm ra và đo đạc sự khác biệt
giữa các đối tượng trong tập dữ liệu.
● Phân cụm thuộc nhóm phương pháp học không giám sát (unsupervised learning) vì
không biết trước được số nhóm (khác với bài toán phân lớp).
● Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao,
bao gồm:
○ Độ tương đồng giữa các đối tượng bên trong cụm cao.
○ Độ tương tự giữ̛a các cụm thấp (các cụm có sự khác biệt cao).
2.2.3.3 Một số phương pháp phân cụm dữ liệu
➢ Phân cụm dựa trên phân cấp (Hierarchical clustering)
● Định nghĩa: “Phân cụm phân cấp là quá trình xây dựng một cây phân cấp các dữ liệu
cần gom cụm, dựa theo 2 tiêu chí sau:
46
Báo cáo đồ án học phần Khoa học dữ liệu
○ Tạo ra ma trận khoảng cách giữ̛a các phần tử (similarity matrix hoặc
dissimilarity matrix).
○ Độ đo khoảng cách giữ̛a các cụm (single link, complete link…).
● Đặc điểm:
○ Phương pháp này phân cấp dữ liệu dựa trên các tiêu chí.
○ Không cần xác định trước số cụm, tuy nhiên cần xác định điều kiện dừng.
○ Cho ra kết quả dễ hiểu, giải thuật đơn giản, không cần tham số đầu vào.
○ Tốc độ chậm, không thích hợp cho các dữ liệu lớn, phức tạp.
○ Các dữ liệu bị thiếu, nhạy cảm với nhiễu thì phương pháp này không xử lý
được
● Các phương pháp điển hình: Diana, Agnes…
● Một số phương pháp tính khoảng cách phổ biến:
○ Single-link: khoảng cách nhỏ nhất giữ̛a 1 phần tử trong một cụm với một
phần tử ở cụm khác.
○ Complete-link: khoảng cách lớn nhất giữ̛a 1 phần tử trong một cụm với một
phần tử ở cụm khác.
○ Average-link: khoảng cách trung bình giữ̛a 1 phần tử trong một cụm với một
phần tử ở cụm khác
➢ Phân cụm dựa trên phân hoạch (Partitioning clustering)
● Định nghĩa: Phân cụm phân hoạch là quá trình phân tập dữ liệu có n phần tử cho
trước thành k tập con (với k <= n), mỗi tập con biểu diễn một cụm. Các cụm hình
thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (độ đo phân cụm) sao cho:
○ Mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong cụm có sự tương tự
nhau.
○ Mỗi cụm có ít nhất 1 phần tử.
● Đặc điểm: xây dựng các phân hoạch khác nhau và đánh giá chúng, sau đó tìm các tối
thiểu hóa tổng bình phương độ lỗi.
● Các thuật toán điển hình: K-means, K-mediods, Fuzzy, C-means.
● Thuật toán K-means: là một thuật toán được sử dụng để phân tích tính chất cụm dữ
liệu. Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch. Thuật toán này được sử
dụng nhiều trong khai phá dữ liệu và thống kê. Nó phân vùng dữ liệu thành k cụm
khác nhau, giúp xác định dữ liệu thuộc về nhóm nào. Ta xem mỗi đối tượng trong
tập dữ liệu là một điểm trong không gian d chiều (với d là số lượng thuộc tính của
đối tượng). Ta tiến hành theo các bước:
○ Bước 1: Chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm.
○ Bước 2: Phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất. Nếu các
điểm dữ liệu ở từng cụm vừa được phân chia không thay đổi so với kết quả
của lần phân chia trước nó thì ta dừng thuật toán.
47
Báo cáo đồ án học phần Khoa học dữ liệu
○ Bước 3: Cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình cộng
của tất các các điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở
bước 2.
○ Bước 4: Quay lại bước 2.
Cho đến nay có rất nhiều thuật toán kế thừa tư tưởng của thuật toán K-means để giải
quyết với tập dữ liệu có kích thước rất lớn, được áp dụng hiệu quả và phổ biến như thuật
toán K-modes, PAM, CLARA, CLARANS, K-prototypes,...
2.2.3.4 Các phương pháp đánh giá phân cụm dữ liệu
● Đây là vấn đề khó khăn nhất trong bài toán phân cụm. Ta dựa vào các tiêu chí sau
để đánh giá chất lượng phân cụm:
○ Độ nén (compactness): các phần tử của cụm phải “gần nhau”.
○ Độ phân cách (separation): khoảng cách giữ̛a các cụm nên “xa nhau”, phân
cách rõ ràng.
● Để đánh giá việc phân cụm dữ liệu, ta có thể sử dụng các phương pháp sau:
○ Đánh giá ngoài (external validation): là đánh giá kết quả phân cụm dựa và
cấu trúc/xu hướng phân cụm được chỉ định trước cho tập dữ liệu như: So
sánh độ sai khác giữa các cụm; So sánh với kết quả mẫu (đáp án).
Các độ đo được sử dụng trong phương pháp này: Rand statistic, Jaccard
coefficient, Folkes và Mallows index,….
○ Đánh giá nội bộ (internal validation): là đánh giá kết quả phân cụm mà
không có thông tin từ bên ngoài, chủ yếu dựa trên các vector chính của dữ̛
liệu thông qua ma trận xấp xỉ (proximity matrix).
Tối ưu hóa các chỉ số nội bộ: độ nén, độ phân tách
Các độ đo được sử dụng trong phương pháp này: Hubert’s statistic,
Silhouette index, Dunn’s index, F-ratio,...
○ Đánh giá tương đối (relative validation): Đánh giá kết quả gom cụm bằng
vie ̣c so sánh với:
■ Kết quả gom cụm ứng với các bộ trị thông số khác nhau.
■ Kết quả gom cụm của các phương pháp khác.
2.2.3.5 Ứng dụng điển hình của phương pháp phân cụm:
Kỹ thuật phân cụm có thể áp dụng trong đa dạng các lĩnh vực của đời sống xã hội:
● Ứng dụng điển hình:
○ Công cụ phân cụm dữ̛ liệu độc lập:
○ Là giai đoạn tiền xử lý cho các thua ̣t toán khác.
● Ứng dụng kinh tế:
○ Marketing: Dự báo khách hàng tiềm năng (thông qua việc xác định các nhóm
khách hàng).
○ Phân tích xu hướng hành vi khách hàng.
○ Phân tích cạnh tranh, xu hướng lựa chọn dịch vụ giữ̛a các nhà cung cấp.
48
Báo cáo đồ án học phần Khoa học dữ liệu
○ Phân tích đặc tính sản phẩm dịch vụ.
○ Đánh giá kết quả hoạt động kinh doanh.
○ Phân tích hành vi người dùng mạng xã hội.
● Ứng dụng trong y học và chăm sóc sức khỏe: Chuẩn đoán bệnh trong y tế dựa trên
kết quả xét nghiệm
● Ứng dụng trong bảo hiểm, tài chính: phân nhóm đối tượng sử dụng bảo hiểm và dịch
vụ tài chính, dự báo xu hướng khách hàng, xác định gian lận tài chính - phát hiện kẻ
gian, đánh giá tình hình tài chính tín dụng của khách hàng, …
CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ.
3.1 PHÂN TÍCH BỘ DỮ LIỆU TELCO CUSTOMER CHURN
3.1.1 Tiền xử lý dữ liệu
Tiền xử lý dữ liệu là một bước rất quan trọng trong việc giải quyết bất kỳ vấn đề nào
trong lĩnh vực Học Máy. Hầu hết các bộ dữ liệu được sử dụng cần được xử lý, làm
sạch và biến đổi trước khi một thuật toán Học Máy có thể được huấn luyện trên
những bộ dữ liệu này.
Các kỹ thuật tiền xử lý dữ liệu phổ biến hiện nay bao gồm: xử lý dữ liệu bị khuyết
(missing data), mã hóa các biến nhóm (encoding categorical variables), chuẩn hóa dữ
liệu (standardizing data), co giãn dữ liệu (scaling data), ... Những kỹ thuật này tương
đối dễ hiểu nhưng sẽ có nhiều vấn đề phát sinh khi chúng ta áp dụng vào các dữ liệu
thực tế. Bởi lẽ các bộ dữ liệu ứng với các bài toán trong thực tế rất khác nhau và mỗi
bài toàn thì đối mặt với những thách thức khác nhau về mặt dữ liệu.
Các bước thực hiện tiền xử lý dữ liệu trong Orange đối với bộ dataset Telco Customer
Churn:
Bước 1: Nạp dữ liệu Telco Customer Churn: ở mục Data, mở Dataset và chọn bộ dữ liệu
Telco Customer Churn cần tiến hành tiền xử lý.
Bước 2: Nối Dataset vào Data Table để xem nội dung dữ liệu bảng biểu.
Bảng 3. 1 dữ liệu Telco Customer Churn trong Data Table
49
Báo cáo đồ án học phần Khoa học dữ liệu
Bước 3: Sau khi quan sát bảng, không xuất hiện dữ liệu bị thiếu (no missing data). Do đó bỏ
qua bước tiền xử lý dữ liệu. Xuất dữ liệu ra file Excel bằng cách nối Data Table vào Save
Data.
50
Báo cáo đồ án học phần Khoa học dữ liệu
hàng.
51
Báo cáo đồ án học phần Khoa học dữ liệu
11 OnlineBackup Dịch vụ sao lưu trực tuyến Yes, No, No Categorical
internet service
52
Báo cáo đồ án học phần Khoa học dữ liệu
pháp hiệu quả để giữ chân khách hàng và tạo hình ảnh tốt để thu hút thêm khách
hàng tiềm năng.
3.1.3. Thống kê mô tả
3.1.3.1 Quyết định dừng sử dụng dịch vụ
Bộ dữ liệu Telco Customer Churn thu thập dữ liệu từ 7043 khách hàng, trong đó chỉ
có 1869 khách hàng quyết định không tiếp tục sử dụng dịch vụ (chiếm 27%), 5174 khách
hàng còn lại quyết định ở lại (chiếm 73%).
No 5174 73%
Bảng 3. 3. Bảng thống kê quyết định rời đi hoặc ở lại của khách hàng
Hình 3. 3. Biểu đồ thể hiện số lượng khách hàng theo quyết định dừng lại hoặc tiếp
tục sử dụng dịch vụ
3.1.3.2 Giới tính
Không có sự chênh lệch lớn giữa tỉ lệ nam và nữ trong ngân hàng dữ liệu (số lượng
nam/nữ : 3555/3488 xấp xỉ 50/50). Bên cạnh đó, số lượng nam nữ quyết dừng sử dụng dịch
vụ chỉ chênh lệch rất ít trên tổng con số 7046 khách hàng. Điều này rõ ràng cho thấy, giới
tính không làm ảnh hưởng đến việc rời đi hoặc ở lại của khách hàng.
53
Báo cáo đồ án học phần Khoa học dữ liệu
Nam 2625 930
Nữ 2549 939
Bảng 3. 4. Bảng thống kê số lượng nhân viên tiếp tục hay dừng lại theo giới tính.
Hình 3. 4. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo giới tính.
3.1.3.3 Người cao tuổi - SeniorCitizen
Khi nghiên cứu trên 2 đối tượng khách hàng là người cao tuổi và những người còn
lại, nhận thấy có rất ít khách hàng là người cao tuổi 1142 người, còn lại 5901 khách hàng
thuộc nhóm đối tượng khác. Càng lớn tuổi người ta có xu hướng không tiếp tục sử dụng dịch
vụ nữa vì có đến 42% nhóm người cao tuổi rời đi, cao hơn 18% so với nhóm người còn lại
(24%).
Người lớn tuổi trung thành với thương hiệu, ít nhu cầu thay đổi, và khó khăn trong
việc tiếp cận công nghệ mới. Nếu dịch vụ viễn thông không đáp ứng được nhu cầu đơn giản,
dễ sử dụng và chi phí hợp lý, hoặc nếu chăm sóc khách hàng không được tận tâm thì họ sẽ
rời đi. Công ty viễn thông có thể giữ chân khách hàng cao tuổi bằng cách cung cấp các gói
dịch vụ đơn giản, giá cả hợp lý và dịch vụ chăm sóc khách hàng thân thiện, đặc biệt là hỗ trợ
qua các kênh truyền thống.
54
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 3. 5. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa trên tuổi
tác
3.1.3.4 Khách hàng có đối tác (vợ/chồng/người yêu)
Sau khi thống kê kết quả cho thấy, khách hàng có đối tác (vợ/chồng/người yêu) có tỷ
lệ rời bỏ dịch vụ viễn thông chỉ khoảng 19.66%, thấp hơn đáng kể so với 32.95% ở nhóm
không có đối tác. Điều này cho thấy khách hàng có đối tác thường gắn bó lâu hơn với dịch
vụ, có thể do nhu cầu liên lạc ổn định và việc chia sẻ các gói cước gia đình hơn các khách
hàng độc thân. Công ty viễn thông có thể khai thác điều này bằng cách phát triển các gói
cước và ưu đãi dành cho gia đình hoặc cặp đôi, từ đó giảm đáng kể tỷ lệ khách hàng rời bỏ.
Đối tác
Tiếp tục sử dụng (No) Dừng sử dụng (Yes)
(vợ/chồng/người yêu)
No 2441 1200
Bảng 3. 6. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại dựa trên partner
55
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 3. 6. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa trên
partner
3.1.3.5 Người phụ thuộc
Dữ liệu cho thấy rằng khách hàng có người phụ thuộc chỉ có tỷ lệ rời bỏ dịch vụ viễn
thông là 15.45%, thấp hơn rõ rệt so với 31.29% ở nhóm không có người phụ thuộc.
Khách hàng có người phụ thuộc có thể duy trì dịch vụ viễn thông lâu hơn do nhu cầu ổn
định để đảm bảo liên lạc và chăm sóc cho người phụ thuộc (vd: con cái, cha mẹ, ông bà lớn
tuổi, anh chị em,...). Họ có xu hướng tìm kiếm sự ổn định và tiện lợi trong việc kết nối với
nhau, khiến họ ít có động lực rời bỏ dịch vụ hơn. Công ty viễn thông có thể tận dụng thông
tin này bằng cách phát triển các gói cước gia đình, hỗ trợ khách hàng có người phụ thuộc
nhằm giữ chân họ.
Người phụ thuộc Tiếp tục sử dụng (No) Dừng sử dụng (Yes)
No 3390 1543
Bảng 3. 7. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo người
phụ thuộc
56
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 3. 7. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo
người phụ thuộc
3.1.3.6 Số năm gắn bó sử dụng dịch vụ
Số lượng khách hàng được ghi nhận trong dữ liệu đa phần là đã sử dụng dịch vụ từ
72 tháng (6 năm) trở lại. Với tổng số 7043 khách hàng mà chỉ có 27% rời đi thì có thể thấy
khả năng giữ chân khách hàng để họ tiếp tục dùng dịch vụ là tương đối tốt.
0-24 tháng: Tỷ lệ mất khách hàng cao nhất (41.46%) do khách hàng mới dễ rời bỏ, có thể vì
chưa hài lòng với dịch vụ hoặc bị hấp dẫn bởi đối thủ.
24-48 tháng: Tỷ lệ giảm đáng kể (14.02%), khách hàng dần quen với dịch vụ và có mức độ
cam kết cao hơn.
48-72 tháng: Tỷ lệ thấp nhất (9.64%) do khách hàng đã gắn bó, trung thành hơn và chi phí
chuyển đổi cao hơn.
Điều này phản ánh rằng, khi ký kết sử dụng lâu thì công ty cung cấp dịch vụ càng uy
tín và được khách hàng tin tưởng cũng như phù hợp với mong muốn và nhu cầu của khách
hàng. Công ty viễn thông nên tập trung vào việc giữ chân khách hàng trong giai đoạn đầu
(0-24 tháng) bằng cách cải thiện dịch vụ, cung cấp trải nghiệm tốt và các chương trình ưu
đãi để giảm tỷ lệ mất khách hàng trong nhóm này. Những khách hàng vượt qua giai đoạn
này thường có xu hướng trung thành hơn và khó rời bỏ hơn.
Dừng sử dụng
Số tháng gắn bó Tiếp tục sử dụng (No)
(Yes)
57
Báo cáo đồ án học phần Khoa học dữ liệu
Bảng 3. 8. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo số năm gắn
bó
Hình 3. 8. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo số
năm gắn bó
3.1.3.7 Khách hàng sử dụng dịch vụ thông qua điện thoại
Có sự chênh lệch số lượng khá lớn giữa 2 nhóm đối tượng có và không sử dụng dịch
vụ thông qua điện thoại. Bên cạnh đó, khách hàng sử dụng dịch vụ viễn thông qua điện thoại
có tỷ lệ rời bỏ 26.71%, cao hơn so với 24.92% ở nhóm không dùng điện thoại.
Sử dụng dịch vụ qua điện thoại có thể đồng nghĩa với việc khách hàng sử dụng các dịch
vụ truyền thống như gọi điện, tin nhắn SMS hoặc các gói cước thoại dịch vụ. Điều này rõ
ràng cho thấy,thoại truyền thống có thể đang trở nên kém hấp dẫn hơn đối với khách hàng,
khi họ chuyển sang các dịch vụ liên lạc dựa trên internet như OTT (Over-the-Top) – ví dụ
như WhatsApp, Messenger, các ứng dụng liên lạc qua mạng xã hội khác,...
Nhóm không sử dụng dịch vụ qua điện thoại có tỷ lệ rời bỏ thấp hơn, có thể vì họ tập
trung vào các dịch vụ khác như kết nối internet hoặc dữ liệu di động.
Tỷ lệ rời bỏ cao hơn ở nhóm sử dụng dịch vụ qua điện thoại có thể là dấu hiệu rõ
ràng cho thấy khách hàng đang dần rời xa những "cuộc gọi truyền thống", để bước vào thế
giới giao tiếp nhanh nhạy hơn qua internet. Đây giống như một làn sóng chuyển dịch, nơi
những chiếc điện thoại cũ kỹ phải nhường chỗ cho các ứng dụng liên lạc mới mẻ và tiện lợi.
Công ty viễn thông cần nhanh chóng nắm bắt "làn sóng công nghệ" này, nâng cấp và tối ưu
hóa các gói dữ liệu, không chỉ để giữ chân khách hàng mà còn để thích ứng lâu dài trong
hành trình số hóa không ngừng phát triển.
58
Báo cáo đồ án học phần Khoa học dữ liệu
No 512 170
Bảng 3. 9. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo tỷ lệ sử
dụng điện thoại của khách hàng
Hình 3. 9. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo tỷ lệ
sử dụng điện thoại của khách hàng
3.1.3.8 Thông qua đường dây sử dụng của khách hàng
Công ty nên tiến hành khảo sát để tìm hiểu nguyên nhân cụ thể dẫn đến việc khách
hàng có nhiều đường dây liên lạc rời bỏ dịch vụ. Vì khách hàng có nhiều đường dây liên lạc
có tỷ lệ rời bỏ cao nhất (28.6%).
Khách hàng không có nhiều đường dây liên lạc và khách hàng không có dịch vụ điện thoại
có tỷ lệ rời bỏ tương đối thấp hơn (25.0% và 24.9%). Tuy nhiên, tỉ lệ chênh lệch không đáng
kể vì thế mà dù khách hàng có nhiều đường dây liên lạc hay không, hay thậm chí không sử
dụng dịch vụ điện thoại thì cũng không ảnh hưởng quá nhiều đến việc họ rời đi hay ở lại.
Khách hàng có nhiều Tiếp tục sử dụng (No) Dừng sử dụng (Yes)
đường dây liên lạc
No 2541 849
59
Báo cáo đồ án học phần Khoa học dữ liệu
Bảng 3. 10. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại thông qua
đường dây
Hình 3. 10. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại thông qua
đường dây
3.1.3.9 Nhà cung cấp dịch vụ Internet cho khách hàng
Việc phân tích tỷ lệ khách hàng rời bỏ theo từng loại dịch vụ cung cấp cái nhìn sâu
sắc về chất lượng dịch vụ và sự hài lòng của khách hàng. Nên đồng thời cũng ảnh hưởng sâu
sắc đến việc họ rời đi hay ở lại.
Fiber optic: Tỷ lệ rời bỏ cao nhất (41.8%), cho thấy rằng nhiều khách hàng không hài lòng
với dịch vụ cáp quang. Nguyên nhân có thể đến từ chất lượng dịch vụ kém (như tốc độ chậm
hoặc thường xuyên mất kết nối) hoặc bị cạnh tranh từ các nhà cung cấp khác có dịch vụ tốt
hơn hoặc giá rẻ hơn. Cuối cùng thì lợi ích khách hàng nhận được không xứng với giá tiền bỏ
ra.
DSL: Tỷ lệ rời bỏ là 19.0%, tương đối thấp hơn so với Fiber optic. Tỷ lệ rời bỏ thấp hơn cho
thấy rằng khách hàng có thể cảm thấy hài lòng hơn với dịch vụ, tuy nhiên công ty vẫn nên
theo dõi và cải thiện dịch vụ.
Còn lại, nhóm không sử dụng nhà cung cấp dịch vụ nào lại có tỷ lệ rời bỏ thấp nhất (7.4%),
điều này có thể phản ánh rằng nhóm này có thể không cần dịch vụ hoặc đang chờ đợi.
Nhà cung cấp dịch vụ Tiếp tục sử dụng (No) Dừng sử dụng (Yes)
60
Báo cáo đồ án học phần Khoa học dữ liệu
No 1413 113
Bảng 3. 11. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo nhà
cung cấp
Hình 3. 11. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo nhà
cung cấp
3.1.3.10 Dịch vụ bảo mật trực tuyến
Dịch vụ bảo mật trực tuyến đóng vai trò quan trọng trong việc giảm tỷ lệ rời bỏ, bởi
nó mang lại sự tin cậy và cảm giác an toàn khi sử dụng internet. Ngược lại, nhóm không sử
dụng bảo mật có tỷ lệ rời bỏ cao hơn, có thể vì họ cảm thấy không được bảo vệ đầy đủ hoặc
dễ bị hấp dẫn bởi các nhà cung cấp có giải pháp an ninh tốt hơn. Khách hàng sử dụng dịch
vụ bảo mật trực tuyến có tỷ lệ rời bỏ chỉ 14.61%, thấp hơn đáng kể so với 41.77% ở nhóm
không dùng dịch vụ này. Điều đó chứng tỏ bảo mật trực tuyến không chỉ giúp khách hàng
yên tâm hơn về an toàn mạng mà còn gia tăng sự trung thành với dịch vụ.
Đặc biệt, nhóm "No internet service" có tỷ lệ rời bỏ thấp nhất (7.40%), có lẽ do họ
chỉ dùng những dịch vụ cơ bản, ít phức tạp và ít phải đối mặt với sự cạnh tranh hoặc nhu cầu
thay đổi nhà cung cấp.
Rõ ràng, bảo mật trực tuyến là một vũ khí quan trọng giúp giảm churn, củng cố lòng
tin của khách hàng. Công ty viễn thông cần khai thác mạnh mẽ yếu tố này bằng cách phát
triển và quảng bá các gói bảo mật tốt hơn, không chỉ để giữ chân khách hàng mà còn để
cạnh tranh hiệu quả trong thị trường internet đầy sôi động.
61
Báo cáo đồ án học phần Khoa học dữ liệu
No 2037 1461
Hình 3. 12. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo tỷ
lệ sử dụng dịch vụ bảo mật trực tuyến của khách hàng
3.1.3.11 Dịch vụ sao lưu trực tuyến
Tương tự dịch vụ trực tuyến, khách hàng sử dụng dịch vụ sao lưu trực tuyến có tỷ lệ
rời bỏ thấp hơn đáng kể (21.53%) so với những người không sử dụng dịch vụ này (39.92%).
Điều này cho thấy rằng dịch vụ sao lưu trực tuyến có thể đóng vai trò quan trọng trong việc
giảm tỷ lệ rời bỏ, nhờ mang lại cảm giác tiện lợi, an toàn và bảo mật dữ liệu cho khách hàng.
Bằng cách lưu trữ dữ liệu trong dài hạn và cung cấp giải pháp bảo mật dữ liệu thiết yếu, dịch
vụ này củng cố lòng tin của khách hàng, khiến họ ít có xu hướng chuyển đổi sang nhà cung
cấp khác.Ngược lại, những khách hàng không sử dụng dịch vụ sao lưu trực tuyến có tỷ lệ rời
bỏ cao hơn, có thể do thiếu các dịch vụ giá trị gia tăng hoặc không có sự gắn kết chặt chẽ
với nhà cung cấp.
Dịch vụ sao lưu trực tuyến mang lại giá trị rõ ràng trong việc giảm churn bằng cách
cung cấp tiện ích thiết thực và tăng cường an toàn dữ liệu cho khách hàng. Công ty viễn
thông nên tận dụng lợi thế này bằng cách đẩy mạnh quảng bá và phát triển các gói dịch vụ
có tích hợp sao lưu trực tuyến, nhằm giảm tỉ lệ rời bỏ ở khách hàng
62
Báo cáo đồ án học phần Khoa học dữ liệu
No 1855 1233
Hình 3. 13. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại dựa theo tỷ lệ sử
dụng dịch vụ sao lưu trực tuyến của khách hàng
3.1.3.12 Dịch vụ bảo vệ thiết bị
Dữ liệu cho thấy dịch vụ bảo vệ thiết bị vẫn chưa thực sự tạo được dấu ấn đậm nét
trong lòng khách hàng. Mặc dù tỷ lệ rời bỏ của nhóm khách hàng sử dụng dịch vụ này
không quá cao, khoảng 22.52%, nhưng nó cũng đủ để báo động về những hạn chế nhất định.
Ngược lại, tỷ lệ rời bỏ của nhóm khách hàng không sử dụng dịch vụ bảo vệ thiết bị
lại cao hơn đáng kể, khoảng 39.12%, cho thấy còn tồn tại nhiều vấn đề khác cần được giải
quyết. Có thể khách hàng cảm thấy không an tâm khi sử dụng dịch vụ, hoặc họ chưa nhận
thức được tầm quan trọng của việc bảo vệ thiết bị.
Một điều thú vị là nhóm khách hàng không sử dụng dịch vụ internet lại có tỷ lệ rời
bỏ thấp nhất, chỉ 7.39%. Điều này cho thấy, bên cạnh chất lượng dịch vụ, yếu tố chi phí và
nhu cầu sử dụng cũng đóng vai trò quan trọng trong quyết định ở lại hay rời đi của khách
hàng.
Khi tính toán tỷ lệ rời bỏ chung của hai nhóm có và không sử dụng dịch vụ bảo vệ
thiết bị, con số này là 31.81%. Tỷ lệ này cho thấy vẫn còn một lượng lớn khách hàng rời bỏ
dịch vụ, bất kể họ có sử dụng dịch vụ bảo vệ thiết bị hay không, đặt ra một thách thức lớn
cho nhà cung cấp. Việc cải thiện chất lượng dịch vụ, đa dạng hóa các gói cước, và đặc biệt
63
Báo cáo đồ án học phần Khoa học dữ liệu
là tăng cường truyền thông về giá trị của dịch vụ bảo vệ thiết bị là những giải pháp cần thiết
để giải quyết vấn đề này.
No 1884 1211
Hình 3. 14. Bảng thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ
bảo vệ thiết bị
3.1.3.13 Dịch vụ hỗ trợ kỹ thuật
Phân tích tỷ lệ rời bỏ của ba nhóm khách hàng dựa trên việc sử dụng dịch vụ hỗ trợ
kỹ thuật cho thấy những khác biệt rõ rệt, phản ánh mức độ quan trọng của dịch vụ này trong
việc giữ chân khách hàng.
Nhóm sử dụng dịch vụ hỗ trợ kỹ thuật: Với tổng cộng 2044 khách hàng và tỷ lệ rời bỏ là
15.14%,dữ liệu này chứng tỏ rằng khi khách hàng gặp khó khăn, việc nhận được sự giúp đỡ
kịp thời và hiệu quả sẽ tạo nên sự khác biệt lớn, giúp họ gắn bó lâu dài với dịch vụ.
Nhóm không sử dụng dịch vụ hỗ trợ kỹ thuật: Tỷ lệ rời bỏ của nhóm này đạt 41.65%, cao
nhất trong ba nhóm. Khách hàng thiếu hỗ trợ kỹ thuật dễ mất kiên nhẫn và chuyển sang nhà
cung cấp khác, đặc biệt khi gặp khó khăn trong quá trình sử dụng dịch vụ.
64
Báo cáo đồ án học phần Khoa học dữ liệu
Nhóm không có dịch vụ internet: Với tỷ lệ rời bỏ thấp nhất, chỉ 7.39%, Tuy nhiên, điều
này không có nghĩa là dịch vụ hỗ trợ kỹ thuật trở nên kém quan trọng. Ngược lại, nó cho
thấy rằng việc đáp ứng đúng nhu cầu của từng nhóm khách hàng là yếu tố quyết định thành
công.
Bằng cách cung cấp các dịch vụ hỗ trợ kỹ thuật phù hợp và kịp thời, nhà cung cấp có
thể tăng cường sự hài lòng của khách hàng và giảm thiểu tỷ lệ rời bỏ. Khách hàng chủ yếu
sử dụng dịch vụ cho gọi điện và nhắn tin, ít cần đến sự hỗ trợ kỹ thuật và có thể ít bị ảnh
hưởng bởi các yếu tố khác, dẫn đến tỷ lệ rời bỏ thấp.
Sử dụng dịch vụ hỗ trợ kỹ thuật Tiếp tục sử dụng (No) Dừng sử dụng (Yes)
No 2027 1446
Hình 3. 15. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ
hỗ trợ kỹ thuật
3.1.3.14 Truyền hình trực tuyến
Tỷ lệ rời bỏ cao ở nhóm không sử dụng truyền hình trực tuyến (33.52%) so với
nhóm có sử dụng (30.07%) cho thấy dịch vụ này đóng vai trò quan trọng trong việc giữ chân
khách hàng. Những người không tận dụng truyền hình trực tuyến dường như ít thỏa mãn
hơn với gói dịch vụ, từ đó làm tăng nguy cơ họ sẽ rời bỏ.
65
Báo cáo đồ án học phần Khoa học dữ liệu
Ngược lại, nhóm khách hàng không có dịch vụ internet lại có tỷ lệ rời bỏ thấp nhất
(7.39%), phản ánh rằng nhu cầu sử dụng dịch vụ truyền hình trực tuyến của họ không cao.
Kết quả này cho thấy, để giảm thiểu tỷ lệ rời bỏ, nhà cung cấp dịch vụ cần tập trung
vào việc nâng cao chất lượng và đa dạng hóa nội dung truyền hình trực tuyến, đồng thời
phát triển thêm các dịch vụ giá trị gia tăng nhằm thu hút và giữ chân cả những khách hàng
chưa tận dụng hết tiềm năng của gói dịch vụ.
Truyền hình trực tuyến Tiếp tục sử dụng (No) Dừng sử dụng (Yes)
No 1868 942
Hình 3. 16. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ
truyền hình trực tuyến
3.1.3.15 Phim trực tuyến
Nhóm có xem phim trực tuyến với tổng số 2732 khách hàng, ghi nhận 818 người ngừng sử
dụng, chiếm tỷ lệ 29.97%. Gần 30% khách hàng đã "quay lưng" lại với dịch vụ, cho thấy
một thực tế đáng báo động: liệu các nền tảng truyền hình trực tuyến có đang thực sự lắng
nghe và đáp ứng nhu cầu của khán giả.
Nhóm không xem phim trực tuyến có tổng số khách hàng là 2785, trong đó 938 người rời
bỏ, đưa tỷ lệ lên đến 33.69%. Đây là nhóm có tỷ lệ rời bỏ cao nhất, vượt qua nhóm xem
phim trực tiếp. Điều này cho thấy việc không tận dụng dịch vụ phim trực tuyến có thể khiến
66
Báo cáo đồ án học phần Khoa học dữ liệu
khách hàng cảm thấy giá trị dịch vụ bị giảm sút, dẫn đến quyết định từ bỏ cao hơn. Rõ ràng,
sự kết nối giữa nhu cầu giải trí và mức độ hài lòng chưa thực sự bền vững đối với nhóm này.
Nhóm không có dịch vụ internet với 1526 khách hàng, chỉ có 113 người rời bỏ, chiếm
7.39%. Đây là tỷ lệ thấp nhất trong cả ba nhóm, có thể do nhóm khách hàng này không sử
dụng internet, dẫn đến việc nhu cầu giải trí trực tuyến không quá quan trọng. Do đó, họ ít bị
tác động bởi các yếu tố liên quan đến chất lượng dịch vụ phim trực tiếp.
Phim trực tuyến Tiếp tục sử dụng (No) Dừng sử dụng (Yes)
No 1847 938
Hình 3. 17. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo dịch vụ
phim trực tuyến
3.1.3.16 Thời hạn hợp đồng
Trong cả 3 khoảng thời gian (theo tháng, 1 năm, 2 năm), số lượng khách hàng tiếp
tục sử dụng dịch vụ (73.46%) đều lớn hơn so với số lượng khách hàng dừng sử dụng
(26.54%). Điều này cho thấy dịch vụ đang được khách hàng đánh giá cao và có sự hài lòng
nhất định.
67
Báo cáo đồ án học phần Khoa học dữ liệu
Hợp đồng theo tháng: Tỷ lệ khách hàng rời bỏ cao nhất (42.76%). Điều này có thể do
nhiều nguyên nhân, chẳng hạn như khách hàng đang thử nghiệm dịch vụ, chưa thực sự gắn
bó hoặc có những lựa chọn thay thế khác trong ngắn hạn.
Hợp đồng một năm: Tỷ lệ khách hàng rời bỏ giảm đáng kể (11.27%). Điều này cho thấy
một bộ phận khách hàng đã quyết định gắn bó lâu dài với dịch vụ. Tuy nhiên, vẫn còn một
số lượng khách hàng lựa chọn không gia hạn hợp đồng.
Hợp đồng hai năm: Tỷ lệ khách hàng rời bỏ thấp nhất (2.83%). Điều này cho thấy sự ổn
định và lòng trung thành của khách hàng đối với dịch vụ ngày càng tăng.
Thời hạn hợp đồng Tiếp tục sử dụng (No) Dừng sử dụng (Yes)
Hình 3. 18. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo thời hạn
hợp đồng
3.1.3.17 Hóa đơn giấy
Với tỷ lệ khách hàng rời bỏ dịch vụ chung của cả hai loại hình hóa đơn là khoảng
26.53%, cho thấy công ty đã đạt được những thành công nhất định trong việc giữ chân
68
Báo cáo đồ án học phần Khoa học dữ liệu
khách hàng. Tuy nhiên, vẫn cần tiếp tục nỗ lực để giảm thiểu tỷ lệ này và tăng cường sự hài
lòng của khách hàng.
Nghiên cứu cho thấy khách hàng có xu hướng gắn bó lâu dài với công ty viễn thông
khi không sử dụng hóa đơn giấy, tỷ lệ khách hàng rời bỏ khi sử dụng dịch vụ này chỉ khoảng
16.33%. Điều này hoàn toàn dễ hiểu, bởi ai cũng thích sự tiện lợi và nhanh chóng của việc
quản lý hóa đơn trực tuyến.
Ngược lại, hóa đơn giấy lại khiến khách hàng dễ "nói lời chia tay" hơn với tỷ lệ
khách hàng rời bỏ dịch vụ khá cao, đạt khoảng 33.55%. Rõ ràng, việc phải lưu trữ và quản
lý hóa đơn giấy đã gây ra nhiều bất tiện cho khách hàng.
Để giữ chân khách hàng và tăng doanh thu, các doanh nghiệp cần tập trung vào việc
khuyến khích khách hàng chuyển đổi sang sử dụng hóa đơn điện tử. Việc đơn giản hóa quy
trình đăng ký, cung cấp các tính năng hữu ích trên hóa đơn điện tử và thường xuyên cập nhật
thông tin sẽ giúp khách hàng có trải nghiệm tốt hơn và gắn bó lâu dài với dịch vụ.
Hóa đơn giấy Tiếp tục sử dụng (No) Dừng sử dụng (Yes)
Hình 3. 19. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo hóa đơn
giấy
3.1.3.18 Phương thức thanh toán
69
Báo cáo đồ án học phần Khoa học dữ liệu
Phương thức thanh toán không chỉ đơn thuần là một giao dịch mà còn là yếu tố quyết
định đến sự gắn bó của khách hàng với công ty viễn thông. Khách hàng càng hài lòng với
trải nghiệm thanh toán, họ càng có xu hướng trung thành với dịch vụ. Việc lựa chọn các
phương thức thanh toán tự động như bank transfer, credit card, với tỷ lệ khách hàng từ bỏ
khá thấp lần lượt là 16.72% và 15.23%, không chỉ tiết kiệm thời gian mà còn giúp khách
hàng cảm thấy an tâm và tin tưởng hơn vào nhà cung cấp.
Ngược lại, những rắc rối phát sinh từ việc thanh toán thủ công như electronic check,
mailed check, với tỷ lệ khách hàng rời đi lần lượt 45.25%, 19.11% đã khiến nhiều khách
hàng cảm thấy mệt mỏi và muốn tìm kiếm một lựa chọn khác. Điều này cho thấy, các nhà
mạng cần nhanh chóng cải tiến phương thức thanh toán này để đáp ứng nhu cầu ngày càng
cao của khách hàng về sự tiện lợi và hiện đại.
Phương thức thanh toán Tiếp tục sử dụng (No) Dừng sử dụng (Yes)
Hình 3. 20. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo phương
thức thanh toán
70
Báo cáo đồ án học phần Khoa học dữ liệu
3.1.3.19 Phí hàng tháng
Khi nghiên cứu về chi phí hàng tháng mà khách hàng phải trả để sử dụng dịch vụ của
viễn thông, ta thấy rằng số lượng khách hàng đã ngừng sử dụng dịch vụ trên đạt 1869 trên
tổng số 7043 khách hàng, tương ứng với tỷ lệ rời bỏ chung ước tính là 26.52% và có xu
hướng tăng theo mức phí hàng tháng cụ thể như sau:
Mức phí từ 18 đến 50$ Tỷ lệ rời bỏ ở đây chỉ là 15,70%. Mặc dù mức phí hấp dẫn có thể
tạo điều kiện thuận lợi cho việc thu hút khách hàng, song nó vẫn không đảm bảo được sự
giữ chân lâu dài.
Mức phí từ 51 đến 85$: Khi giá dịch vụ gia tăng, tỷ lệ rời bỏ cũng theo đó tăng lên, đạt
mức 29.00%. Sự gia tăng tỷ lệ này có thể được lý giải rằng khách hàng có xu hướng xem
xét lại giá trị mà họ nhận được so với số tiền bỏ ra. Những yếu tố như chất lượng dịch vụ, sự
tương xứng giữa giá cả và dịch vụ sẽ trở thành yếu tố quyết định trong sự lựa chọn của họ.
Mức phí từ 86 đến 120$: Tại mức phí cao nhất, tỷ lệ rời bỏ đã tăng lên với tỷ lệ 34.02%.
Sự gia tăng đáng kể này chỉ ra rằng khi khách hàng phải trả mức phí cao hơn, họ thường kỳ
vọng một giá trị tương xứng với số tiền họ chi trả. Khi không thấy sự cải thiện nào trong
chất lượng dịch vụ hoặc nếu dịch vụ không đáp ứng được kỳ vọng, họ sẽ dễ dàng chuyển
sang lựa chọn khác.
Chi phí ($) Tiếp tục sử dụng (No) Dừng sử dụng (Yes)
71
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 3. 21. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo phí
hàng tháng
3.1.3.20 Chi phí tổng
Tại phân khúc giá từ 11 đến 2910$, tỷ lệ rời bỏ đạt khoảng 31.52%. Con số này chỉ
ra rằng khi mức phí dịch vụ ở mức thấp, khách hàng cảm thấy thoải mái hơn trong việc tìm
kiếm những lựa chọn khác. Họ nhận thấy mình có nhiều cơ hội hơn trong một thị trường đầy
cạnh tranh như viễn thông, điều này dẫn đến quyết định chuyển đổi dễ dàng hơn.
Khi chúng ta xem xét mức phí từ 2911 đến 5810$, tỷ lệ rời bỏ đã giảm xuống chỉ
còn 18.11%. Mức phí này dường như đánh dấu một giai đoạn mà khách hàng đã đầu tư một
phần tài chính đáng kể. Họ có xu hướng xem xét kỹ lưỡng hơn và đặt ra nhiều tiêu chí hơn
trước khi đưa ra quyết định rời bỏ, nhờ đó tăng cường tính ổn định của mối quan hệ giữa
khách hàng và nhà cung cấp dịch vụ.
Đặc biệt, tại mức phí từ 5811 đến 8710$, tỷ lệ rời bỏ giảm xuống còn 12.11%.Con
số này phản ánh một thực tế sâu sắc hơn: khách hàng chi trả mức phí cao hơn thường kỳ
vọng nhận được những dịch vụ chất lượng hơn. Sự gắn bó này đến từ việc họ cảm nhận giá
trị cao hơn từ dịch vụ mà họ đang sử dụng. Họ không chỉ đầu tư tài chính mà còn đầu tư vào
những trải nghiệm và lợi ích mà dịch vụ mang lại, khiến cho việc rời bỏ trở nên khó khăn
hơn, cả về mặt tinh thần lẫn vật chất.
Chi phí tổng ($) Tiếp tục sử dụng (No) Dừng sử dụng (Yes)
72
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 3. 22. Biểu đồ thống kê số lượng khách hàng tiếp tục hay dừng lại theo chi phí
tổng
73
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 3. 24. Bộ dữ liệu Telco Customer Churn
Tiến hành phân lớp trực tiếp trên bộ dữ liệu vì bộ dữ liệu không có lỗi. Vào
Transform, chọn Data Sampler để thực hiện chia mẫu dữ liệu:
○ Về tập dữ liệu huấn luyện, ta lấy 70% mẫu dữ liệu từ file dữ liệu gốc. Tại
mục “Fixed proportion of data", kéo chọn lấy 70% mẫu dữ liệu từ bộ dữ liệu
Attrition-train, sau đó chọn “Sample Data" để lấy được dữ liệu huấn luyện
mới. Từ Data Sampler, kéo thả chọn Data Table để xem mẫu dữ liệu, sau đó
kéo thả từ Data Table, chọn Save Data để lưu file với tên
“Dulieuhuanluyen.xlsx".
Hình 3. 25. Lấy mẫu dữ liệu huấn luyện trong Data Sampler
74
Báo cáo đồ án học phần Khoa học dữ liệu
Tập dữ liệu có 4931 mẫu dữ liệu, 20 biến và không bị lỗi.
Hình 3. 26. Thông tin của bộ dữ liệu Telco Customer Churn khi lấy 70%
○ Về tập dữ liệu kiểm thử, ta lấy phần còn lại của file dữ liệu gốc, tức là 30%
của file Attrition-train. Từ Data Sampler, kéo thả chọn Data Table, nhấn chọn
đường nối giữa 2 lệnh, cửa sổ Edit Links xuất hiện và ta nối từ “Remaining
Data" sang “Data". Lưu dữ liệu kiểm thử về máy với tên là
“Dulieukiemthu.xlsx"
75
Báo cáo đồ án học phần Khoa học dữ liệu
Thông tin của bộ dữ liệu Telco Customer Churn khi lấy 30%
Xây dựng mô hình:
Mô tả các bước xây dựng mô hình phân chia tập dữ liệu 70-30
3.2.2.2 Bước 2: Sử dụng mô hình
● Chọn mô hình hợp lý để tiến hành dự báo
● Bỏ qua bước tiền xử lý dữ liệu vì mẫu lựa chọn đã đạt chuẩn.
● Các bước thực hiện:
○ Vào Data, chọn File và upload “Dulieuhuanluyen.xlxs” để bắt đầu huấn
luyện, tại cửa sổ này, chọn biến “Churn" là biến phụ thuộc (target) và chọn
“Apply".
76
Báo cáo đồ án học phần Khoa học dữ liệu
Tập dữ liệu huấn luyện
○ Vào Evaluate, chọn Test and Score để so sánh, lựa chọn thuật toán tốt nhất và
chính xác nhất phục vụ cho việc dự báo tiếp theo.
○ Vào Model, chọn 3 mô hình dự báo bao gồm: Tree, Logistic Regression và
SVM. Nối file dữ liệu huấn luyện và các mô hình này vào Test and Score.
○ Tại cửa sổ Test and Score, chọn tỷ lệ lấy mẫu tại “Cross Validation” hoặc
“Random Sampling” để có được chỉ số đẹp nhất:
Chọn tỷ lệ lấy mẫu “Cross Validation" 5 phần:
77
Báo cáo đồ án học phần Khoa học dữ liệu
Kết quả chia mẫu dữ liệu thành 5 phần
Chọn tỷ lệ lấy mẫu “Cross Validation" 10 phần:
78
Báo cáo đồ án học phần Khoa học dữ liệu
Kết quả khi chia mẫu dữ liệu thành 20-90%
○ Kết quả khi chia mẫu dữ liệu thành 50-66%
79
Báo cáo đồ án học phần Khoa học dữ liệu
● Về cách chọn tỷ lệ “Cross Validation”: sau khi tiến hành chia nhỏ 3 lần thành 5
phần, 10 phần và 20 phần, mô hình Hồi quy logistic đều là mô hình cho ra chỉ số cao hơn
hai mô hình còn lại. Theo lý thuyết, ta chọn phương án có các chỉ số cao nhất, như vậy với
cách chia tỷ lệ ở “Cross Validation" thì phương pháp Hồi quy Logistic là phương pháp tốt
nhất để tiến hành phân lớp. Cụ thể, xem xét mô hình Hồi quy Logistic ở trường hợp chia lấy
mẫu dữ liệu theo “Cross Validation” chia mẫu dữ liệu thành 5 phần:
○ Diện tích đường cong (AUC): 84.8%
○ Tính chính xác (CA): 80.6%
○ Giá trị trung bình điều hòa (F1): 80.1%
○ Độ chính xác (Precision): 79.9%
○ Chỉ số độ phủ (Recall): 80.6%
● Về cách chọn tỷ lệ “Random Sampling": nhận thấy rằng các chỉ số của phương
pháp Hồi quy Logistic cũng cao hơn hẳn hai phương pháp còn lại. Theo lý thuyết thì phương
án Hồi quy Logistic cũng là phương pháp tốt nhất để tiến hành phân lớp. Cụ thể ta xem xét
mô hình Hồi quy Logistic ở trường hợp chia lấy mẫu dữ liệu theo “Random Sampling” 50-
66%:
○ Diện tích đường cong (AUC): 84.8%
○ Tính chính xác (CA): 80.7%
○ Giá trị trung bình điều hòa (F1): 80.2%
○ Độ chính xác (Precision): 79.9%
○ Chỉ số độ phủ (Recall): 80.7%
80
Báo cáo đồ án học phần Khoa học dữ liệu
3.2.3 Đánh giá kết quả mô hình
3.2.3.1 Kết quả phân tích Test and Score
81
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 3. 28. Kết quả ma trận nhầm lẫn của Hồi quy Logistic (Logistic Regression)
Hình 3. 29. Kết quả ma trận nhầm lẫn của SVM (Support Vector Machines)
82
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 3. 30. Kết quả ma trận nhầm lẫn của Cây quyết định (Tree Decision)
→ Kết luận: Khi xem xét Ma trận nhầm lẫn, chỉ số cần quan sát là tỷ lệ sai lầm loại 2, nếu
mô hình nào có tỷ lệ sai lầm loại 2 thấp nhất thì đó là mô hình tốt nhất. Nhìn vào kết quả của
ba phương pháp, tỷ lệ sai lầm loại 2 của phương pháp Hồi quy Logistic là thấp nhất với FN
= 33.7%. Do đó, với Confusion Matrix, phương pháp Hồi quy Logistic là phù hợp nhất.
Ngoài ra, khi sử dụng phương pháp ROC để đánh giá mô hình nào hiệu quả để có thể
sử dụng dự đoán cho bộ dữ liệu đã chọn, 1 kết quả khả quan cũng cho thấy rằng Phương
pháp Hồi quy Logistic là phương pháp tốt nhất để tiến hành dự báo cho tập dữ liệu này.
ROC (Receiver Operating Characteristic) - là một đồ thị được sử dụng khá phổ biến trong
đánh giá các mô hình phân loại nhị phân. Đường cong này được tạo ra bằng cách biểu diễn
tỷ lệ dự báo true positive rate (TPR) dựa trên tỷ lệ dự báo false positive rate (FPR) tại các
ngưỡng khác nhau. Một mô hình hiệu quả khi có FPR thấp và TPR cao, hay ROC càng tiệm
cận với điểm (0;1) trong đồ thị thì mô hình càng hiệu quả.
83
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 3. 31. Đường cong ROC với biến y là “No”
84
Báo cáo đồ án học phần Khoa học dữ liệu
Với biến y nhận giá trị “No"/”Yes", khi nhìn hai hình thể hiện đường cong ROC ta đều thấy
được mô hình Hồi quy Logistic có đường cong ROC tiệm cận với điểm (0;1) nhất. Do đó,
mô hình này hiệu quả nhất.
➢ Kết luận
● Phương pháp Hồi quy Logistic là phương pháp tốt nhất để tiến hành dự báo cho tập
dữ liệu này.
● Nguyên nhân lựa chọn Phương pháp Hồi quy Logistic là:
○ Khi sử dụng Cross Validation và Random Sampling, phương pháp này có các
chỉ số AUC, AC, F1, Precision, Recall lớn nhất.
○ Phương pháp này có tỷ lệ sai lầm loại 2 nhỏ nhất.
○ Bên cạnh đó, phương pháp này có AUC ( Area Under The Curve) hay diện
tích phần nằm dưới đường cong ROC là lớn nhất, là mô hình tốt nhất.
Phương pháp này có đường cong ROC tiệm cận điểm (0;1) nhất.
3.2.4 Dự báo
➢ Tiến hành dự báo tập dữ liệu Telco Customer Churn bằng phương pháp Hồi
quy Logistic:
● Vào Data, chọn File, upload tập dữ liệu “Dulieukiemthu.xlsx" và điều chỉnh tất cả
các biến thành “Feature" (biến độc lập), biến customerID chọn skip.
85
Báo cáo đồ án học phần Khoa học dữ liệu
Hình 3. 34. Mô hình dự báo dữ liệu
➢ Kết quả dự báo
Hình 3. 35. Kết quả dự báo dữ liệu theo mô hình Hồi quy Logistic
86
Báo cáo đồ án học phần Khoa học dữ liệu
Kaggle, nhóm đã tiến hành xử lý dữ liệu, huấn luyện dữ liệu và phân lớp dữ liệu nhằm lựa
chọn mô hình phù hợp nhất để xây dựng dự đoán. Nhóm nhận thấy rằng, mô hình Hồi quy
Logistic là phương pháp / mô hình phù hợp nhất để tiến hành dự báo vì: Kiểm thử với ma
trận nhầm lẫn (Confusion Matrix) thấy tỷ lệ sai lầm loại 2 của phương pháp Hồi quy
Logistic là thấp nhất với 33.7% và các chỉ số AUC, AC, F1, Precision, Recall là lớn nhất
(khi sử dụng Cross Validation và Random Sampling). Từ những phân tích và dựa trên
phương pháp Hồi quy Logistic, nhóm có thể đưa ra nhiều gợi ý để phát triển đề tài sâu hơn.
4.1.2 Kết luận
Mục tiêu ban đầu mà nhóm đề ra đã được hoàn thành - dự đoán khả năng rời đi của
khách hàng trong lĩnh vực viễn thông (họ sẽ tiếp tục sử dụng hay ngừng sử dụng). Qua quá
trình phân tích dữ liệu, chúng tôi nhận thấy rõ ràng rằng việc khách hàng ngừng sử dụng
dịch vụ của công ty sẽ gây ra những tác động tiêu cực trực tiếp đến doanh nghiệp. Các
nguyên nhân chính dẫn đến tình trạng này bao gồm: chất lượng sản phẩm/dịch vụ không đáp
ứng được kỳ vọng, vi phạm cam kết, thiếu trách nhiệm trong xử lý khiếu nại, thái độ phục
vụ kém chuyên nghiệp và chính sách giá không hợp lý. Để duy trì và phát triển doanh
nghiệp, chúng ta cần tập trung vào việc cải thiện chất lượng sản phẩm/dịch vụ mà doanh
nghiệp đã – đang – sắp cung cấp cho khách hàng, nâng cao chất lượng dịch vụ phục vụ
khách hàng, xây dựng lòng tin với khách hàng và điều chỉnh chính sách giá phù hợp. Đồng
thời, các nền tảng lý thuyết được đề cập ở chương 2 đã được sử dụng triệt để nhằm xây dựng
mô hình dự báo với sự đảm bảo các ước tính từ phân tích nhất quán và có độ chính xác cao.
4.2 HƯỚNG PHÁT TRIỂN CÁC CHIẾN LƯỢC GIỮ CHÂN KHÁCH HÀNG
TRONG DỊCH VỤ VIỄN THÔNG
Nhận thấy sự cần thiết của việc giữ chân khách hàng, chúng ta cần tiến hành nghiên
cứu sâu hơn để hiểu rõ hơn về hành vi, tâm lý và mong đợi của khách hàng. Từ đó, xây
dựng các chiến lược tiếp thị và chăm sóc khách hàng hiệu quả, nhằm giảm thiểu tình trạng
khách hàng rời bỏ dịch vụ và sự rời bỏ doanh nghiệp của khách hàng là một vấn đề đáng
được quan tâm - phản ảnh tình trạng hoạt động không hiệu quả của doanh nghiệp. Từ đó,
phân tích bộ dữ liệu Telco Customer Churn và những yếu tố mang tính quyết định sẽ ảnh
hưởng đến sự rời bỏ của khách hàng (churn) có thể phát triển các chiến lược giữ chân khách
hàng hiệu quả.
4.2.1. Phân tích các yếu tố chính dẫn đến việc ngừng sử dụng dịch vụ:
Qua dữ liệu thu được, nhóm nhận thấy rằng từng phân khúc/phân nhóm khách hàng
khác nhau sẽ có mức độ rời bỏ dịch vụ khác nhau. Nhóm đề xuất cung cấp các ưu đãi, các
chương trình dịch vụ dành riêng cho từng nhóm khách hàng, phân loại nhóm khách hàng: độ
tuổi hoặc tình trạng gia đình (ví dụ: giảm giá cho người dùng có người phụ thuộc, khuyến
mãi sinh nhật cho người trẻ tuổi), mức độ và các loại dịch vụ mà họ sử dụng,... Chong và ctg
(2012) đã chứng minh rằng chi phí có ảnh hưởng tiêu cực đến ý định sử dụng dịch vụ
TMDĐ của người tiêu dùng nói chung.
4.2.2. Phân tích hành vi sử dụng dịch vụ:
Hành vi sử dụng dịch vụ không chỉ tùy thuộc vào nhu cầu của người dùng mà còn
phụ thuộc không nhỏ vào những gì mà doanh nghiệp có thể đề xuất cho khách hàng, sự cạnh
87
Báo cáo đồ án học phần Khoa học dữ liệu
tranh trong lĩnh vực này vô cùng lớn, vì thế, mỗi doanh nghiệp cần phải chủ động đánh vào
tâm lý khách hàng như:
● Cung cấp các gói dịch vụ linh hoạt và ưu đãi chi phí thấp để khuyến khích khách
hàng ở lại và thu hút thêm khách hàng tiềm năng. (Chong và cộng sự, 2012)
● Tạo chương trình gây dựng lòng trung thành với ưu đãi tăng dần theo thời gian khi
sử dụng dịch vụ (ví dụ: giảm giá khi sử dụng hơn 1 năm).
4.2.3. Phân tích ảnh hưởng của thời hạn hợp đồng và dịch vụ đi kèm:
Thời hạn hợp đồng hay thời gian cam kết đồng hành cùng doanh nghiệ, sự sẵn sàng
hỗ trợ khi cần thiết từ doanh nghiệp sẽ tạo nên cho khách hàng “sự trung thành có thời hạn”
chính vì thế, việc thực hiện dự đoán có độ chính xác cao sẽ giúp cho doanh nghiệp biết được
khách hàng nào có khả năng rời bỏ dịch vụ hoặc không. Khi đó, nhóm nghiên cứu đề xuất:
● Doanh nghiệp nên nghiên cứu về thời hạn hợp đồng khi đề xuất với khách hàng dựa
trên các thông tin mà họ cung cấp.
● Khuyến khích khách hàng chuyển sang hợp đồng dài hạn bằng cách cung cấp giảm
giá đặc biệt hoặc quà tặng.
● Cung cấp dịch vụ hỗ trợ kỹ thuật miễn phí hoặc gói bảo mật tặng kèm cho khách
hàng mới hoặc khách hàng có nguy cơ rời bỏ.
Kết quả: Kết quả của cây quyết định sẽ chỉ ra các yếu tố quan trọng nhất dẫn đến việc
churn, ví dụ như thời gian hợp đồng ngắn, không sử dụng dịch vụ bảo mật hoặc thanh
toán muộn.
Ảnh hưởng đến chiến lược: Các yếu tố quan trọng này giúp doanh nghiệp nhắm
đúng mục tiêu cho chiến dịch marketing giữ chân khách hàng. Ví dụ, nếu kết quả cho
thấy những khách hàng có thời hạn hợp đồng ngắn có xu hướng churn cao, bạn có thể
đưa ra các khuyến mãi gia hạn hợp đồng.
88
Báo cáo đồ án học phần Khoa học dữ liệu
4.2.5. Phân tích sự khác biệt về phương thức thanh toán:
Khuyến khích khách hàng sử dụng phương thức thanh toán tự động bằng cách cung
cấp giảm giá hoặc quà tặng nếu họ chuyển đổi phương thức thanh toán. Bằng cách tạo nên
sự tiện lợi và dễ dàng trong quá trình thanh toán định kì cho việc sử dụng dịch vụ viễn thông
sẽ làm tăng sự hài lòng, kì vọng về dịch vụ của khách hàng đối với doanh nghiệp, từ đó giúp
doanh nghiệp giữ chân họ gắn bó lâu hơn và có cơ hội được tiếp thị rộng rãi.
4.2.6. Xây dựng hệ thống cảnh báo sớm (Early Warning System)
Việc chuẩn bị cho một hệ thống cảnh báo sớm những nguy cơ tiềm ẩn, đánh giá
những rủi ro về phía doanh nghiệp, thị trường (đối thủ) để có thể phát hiện sự thay đổi trong
xu hướng tiêu dùng, hoặc nhu cầu của khách hàng cũng khiến doanh nghiệp đảm bảo được
khách hàng quan tâm. Các giải pháp có thể làm như sau:
● Phát triển hệ thống tự động gửi cảnh báo cho đội chăm sóc khách hàng về các vấn đề
khách hàng đang gặp phải hoặc cung cấp sự hướng dẫn ngay trước khi vấn đề đó có
thể xảy ra một cách chính xác.
● Cá nhân hóa các chiến dịch giữ chân dựa trên hành vi và yếu tố liên quan đến nguy
cơ rởi bỏ dịch vụ của khách hàng.
4.2.7. Hành vi tư vấn, bán hàng của nhân viên:
Nhân viên bán hàng, với tư cách là nhân viên dịch vụ tuyến đầu, đại diện của doanh
nghiệp trực tiếp gặp gỡ, tư vấn về quyền lợi và phạm vi sử dụng dịch vụ cho khách hàng.
Chính vì thế, hành vi bán hàng của nhân viên được đánh giá rất quan trong, quyết định đến
việc xây dựng mối quan hệ lâu dài với khách hàng dựa trên sự hài lòng và tin tưởng.
Kết Luận:
Dựa trên phân tích bộ dữ liệu Telco customer churn, chúng tôi phát triển các chiến
lược giữ chân khách hàng bằng cách tập trung vào việc cung cấp trải nghiệm tốt hơn, cải
thiện các dịch vụ bổ sung và sử dụng các chiến lược định giá hợp lý. Hơn nữa, khuyến khích
khách hàng sử dụng hợp đồng dài hạn và phương thức thanh toán, hành vi tiếp thị, … có thể
giúp giảm tỷ lệ rời bỏ. Nếu các chiến lược giữ chân khách hàng được thực hiện tốt thì không
những có được khách hàng trung thành mà còn có thể thu hút thêm nhiều khách hàng hơn
đến với doanh nghiệp.
Để phân tích kết quả chạy mô hình từ phần mềm Orange một cách rõ ràng hơn, chúng ta cần
đi sâu vào từng khía cạnh và cách mà các mô hình phân tích (hồi quy logistic, cây quyết định,
hay SVM) cho ra những thông tin hữu ích cho việc phát triển chiến lược khách hàng.
89
Báo cáo đồ án học phần Khoa học dữ liệu
1. Kết quả phân lớp khách hàng (Classification Results)
Phân lớp là bước quan trọng trong việc xác định những khách hàng có khả năng rời bỏ dịch
vụ (churn) và những khách hàng có khả năng ở lại. Các mô hình phân lớp như hồi quy
logistic, cây quyết định (decision tree), hoặc máy vector hỗ trợ (SVM) được sử dụng để dự
đoán nhóm khách hàng nào có nguy cơ churn cao.
Một trong những kết quả quan trọng khi chạy mô hình là xác định các biến quan trọng nhất
ảnh hưởng đến việc khách hàng churn. Các biến này có thể là:
Phí dịch vụ hàng tháng: Nếu khách hàng có phí hàng tháng cao, họ có xu hướng rời
bỏ dịch vụ do chi phí không hợp lý.
90
Báo cáo đồ án học phần Khoa học dữ liệu
Thời gian sử dụng dịch vụ: Khách hàng sử dụng dịch vụ trong thời gian ngắn có thể
chưa cảm nhận được giá trị của dịch vụ, dẫn đến khả năng churn cao.
Phương thức thanh toán: Những khách hàng thanh toán qua hóa đơn giấy có xu
hướng churn cao hơn do sự phức tạp trong quy trình thanh toán so với các phương
thức thanh toán trực tuyến.
Phân tích chi tiết ảnh hưởng:
o Chiến lược: Dựa trên tầm quan trọng của các biến này, doanh nghiệp có
thể điều chỉnh chính sách của mình. Chẳng hạn, nếu phát hiện rằng các
khách hàng có hóa đơn giấy dễ rời bỏ hơn, doanh nghiệp có thể chuyển
hướng sang khuyến khích khách hàng sử dụng phương thức thanh toán
tự động.
Kết quả từ mô hình thường bao gồm một đường cong ROC (Receiver Operating
Characteristic) và diện tích dưới đường cong AUC (Area Under the Curve). Đây là những
chỉ số đo lường hiệu suất của mô hình phân lớp:
ROC Curve: Đường cong ROC cho thấy tỷ lệ giữa True Positive Rate (tỷ lệ dự
đoán đúng khách hàng churn) và False Positive Rate (tỷ lệ dự đoán sai khách hàng
churn) ở các ngưỡng dự đoán khác nhau.
AUC: AUC là thước đo tổng quát về độ chính xác của mô hình, dao động từ 0.5 đến
1. Nếu AUC gần bằng 1, mô hình rất tốt trong việc phân biệt khách hàng churn và
không churn.
o Chiến lược dựa trên kết quả:
Nếu AUC cao, bạn có thể tự tin áp dụng mô hình này để dự đoán
chính xác khách hàng nào cần được giữ chân, từ đó giảm thiểu
chi phí không cần thiết.
Nếu AUC thấp, cần xem xét lại việc lựa chọn mô hình hoặc cải
thiện việc tiền xử lý dữ liệu (ví dụ: loại bỏ dữ liệu nhiễu).
Khi sử dụng các mô hình phân cụm trong Orange, kết quả sẽ chia khách hàng thành các
nhóm khác nhau dựa trên các đặc điểm tiêu dùng và hành vi sử dụng dịch vụ:
Kết quả: Mô hình sẽ tạo ra các cụm khách hàng với hành vi tương tự nhau,
chẳng hạn một cụm bao gồm các khách hàng sử dụng nhiều dịch vụ bổ sung,
trong khi cụm khác chỉ sử dụng dịch vụ cơ bản.
Ảnh hưởng đến chiến lược: Các nhóm khách hàng này sẽ giúp doanh nghiệp
thiết kế các chiến lược marketing riêng biệt. Ví dụ, nhóm khách hàng sử dụng
nhiều dịch vụ bổ sung có thể nhận được các chương trình ưu đãi đặc biệt để
tăng cường sự gắn kết, trong khi nhóm chỉ sử dụng dịch vụ cơ bản có thể được
khuyến khích dùng thử thêm dịch vụ mới để tăng doanh thu.
91
Báo cáo đồ án học phần Khoa học dữ liệu
5. Chiến lược điều chỉnh dựa trên phân tích
Dựa trên các kết quả từ mô hình, doanh nghiệp có thể điều chỉnh chiến lược như sau:
Tối ưu hóa trải nghiệm khách hàng: Cải thiện các dịch vụ bổ sung mà khách
hàng có nhu cầu cao, đồng thời điều chỉnh chi phí hợp lý cho từng nhóm khách
hàng khác nhau.
Chiến dịch giữ chân khách hàng cá nhân hóa: Áp dụng các khuyến mãi và
dịch vụ đặc biệt cho nhóm khách hàng có nguy cơ churn cao để giữ họ lại.
Hệ thống cảnh báo sớm: Xây dựng hệ thống dự đoán sớm dựa trên các yếu tố
chính từ mô hình, giúp phát hiện khách hàng có nguy cơ churn và can thiệp kịp
thời.
Tóm lại, kết quả từ các mô hình phân tích trong Orange cung cấp những thông tin cực kỳ
quan trọng về hành vi khách hàng. Doanh nghiệp có thể tận dụng những thông tin này để điều
chỉnh chiến lược giữ chân khách hàng, từ việc dự đoán chính xác ai có nguy cơ churn, đến
việc phát triển các chiến dịch marketing và sản phẩm phù hợp với từng phân khúc khách
hàng.
4.3 HẠN CHẾ CỦA ĐỀ TÀI VÀ ĐỊNH HƯỚNG NGHIÊN CỨU TIẾP THEO
4.3.1 Hạn chế
Kết quả nghiên cứu đạt được đã đáp ứng cơ bản mục tiêu ban đầu được đề ra. Tuy
nhiên, sự hạn chế về thời gian, nguồn lực và điều kiện làm việc trực tuyến, nhóm đã gặp
phải một số khó khăn trong quá trình thu thập và xử lý dữ liệu. Cụ thể:
○ Độ chính xác của mô hình còn hạn chế: Mô hình dự đoán hiện tại chưa đạt
được độ chính xác cao nhất, dẫn đến sai số trong quá trình dự báo.
○ Khó khăn trong việc tiếp cận dữ liệu: Việc tìm kiếm và tiếp cận các bộ dữ
liệu chất lượng cao, đặc biệt là dữ liệu khách hàng trong nước, còn gặp nhiều
hạn chế do các quy định về bảo mật thông tin.
○ Khối lượng dữ liệu lớn: Việc xử lý một lượng lớn dữ liệu (7043 mẫu) gây áp
lực lên hệ thống và có thể dẫn đến sai sót trong quá trình phân tích.
Những hạn chế trên đã ảnh hưởng đến chất lượng và độ tin cậy của kết quả nghiên cứu, làm
giảm tính chính xác của các dự báo. Một tháng là khoảng thời gian không quá dài để nhóm
có thể tìm hiểu và có những tư duy, kiến thức sâu sắc về đề tài, vì thế nên quá trình xây
dựng đề tài có thể tồn tại nhiều thiếu sót hoặc những điểm chưa tối ưu, cần cải thiện thêm.
4.3.2 Hướng nghiên cứu tiếp theo
Bên cạnh sự tiếp cận đề tài này, mô hình dự báo bằng phương pháp Hồi quy Logistic
có thể được sử dụng để dự báo cho những lĩnh vực khác, đề tài khác. Đối với lĩnh vực viễn
thông, dựa vào mô hình dự báo trên, các doanh nghiệp, nhà cung cấp dịch vụ viênc thông có
thể biết được khả năng rời đi của khách hàng dựa trên những yếu tố như độ tuổi, giới tính,
tình trạng người phụ thuộc, ... Từ đó, doanh nghiệp (đặc biệt là bộ phận tư vấn và chăm sóc
khách hàng) có thể xây dựng những biện pháp để giữ khách hàng ở lại tiếp tục đồng hành
92
Báo cáo đồ án học phần Khoa học dữ liệu
với doanh nghiệp, tiếp tục sử dụng sản phẩm mà doanh nghiệp cung cấp. Những hướng phát
triển cho doanh nghiệp có thể kể đến như:
● Đối với khách hàng đang sử dụng dịch vụ bình thường, có thể tiến hành những kế
hoạch nhằm nâng cao tinh thần, động lực tiếp tục sử dụng dịch vụ cho khách hàng:
quan tâm đến nhu cầu của khách hàng định kì; có các chương trình quà tặng, khuyến
mãi nhân dịp đặc biệt ,...
● Đối với những khách hàng đang ở trong tình trạng phân vân, chưa biết nên rời đi hay
ở lại hoặc những khách hàng lần đầu tìm đến thì doanh nghiệp có thể dựa trên mô
hình dự báo đã xây dựng các biện pháp giữ chân và tư vấn bán hàng hiệu quả hơn
trong tương lai.
Bên cạnh đó, hướng phát triển cho các đề tài sau này khi tiếp cận với bài nghiên cứu
này, những đề tài sau có thể tiếp cận đối với việc dự báo một phạm vi dịch vụ cụ thể trong
lĩnh vực viễn thông; dự đoán những yếu tố then chốt quyết định đến sự rời đi của khách
hàng song song với quyết định tiếp tục sử dụng dịch vụ của họ; xây dựng mô hình dự đoán
bằng đa dạng phương pháp và có xác suất chính xác cao hơn; ...
https://200lab.io/blog/du-lieu-la-gi/
https://ongxuanhong.wordpress.com/2018/02/03/voc-thu-orange-phan-mem-data-mining/
Chong, A. Y.-L., Chan, F. T., & Ooi, K.-B. J. D. s. s. (2012). Predicting consumer
decisions to adopt mobile commerce: Cross country empirical examination
between China and Malaysia. 53(1), 34-43.
Cleveland, W. (2001). Data science: an action plan for expanding the technical areas
of the field of statistics. International statistical review, 69(1), 21-26.
93
Báo cáo đồ án học phần Khoa học dữ liệu