Hạng D
7/5/10
4.666
21.781
113
Code như bác em chịu, em bỏ code được 10 năm rồi - cái làm mô hình thì em dùng https://rapidminer.com/ rồi phần còn lại là present dữ liêu này lên, có thể dùng luôn Raidminer hoặc em dùng Tableau (www.tableau.com). Repidminer bản studio có free đó, đem xuống mà dùng bác, nó mới có khả năng giải quyết các bài toán được gọi là ML của doanh nghiệp.

Rapidminer gần như đứng top về ML và DS plarform trong nhiều năm liền https://rapidminer.com/resource/gartner-magic-quadrant-data-science-platforms/
Hôm trước bác chỉ mà em chưa dùng thử nữa, cũng vì muốn mình tự mày mò cho có cơ bản rồi mình dùng sẽ hiệu quả hơn.
 
Hạng D
7/5/10
4.666
21.781
113
Em post tiếp để ráng cho xong loạt bài :)
Bây giờ quan sát cột education xem qua lần xử lý đầu tiên thì ô unknown giảm xuống còn bao nhiêu %

Machine Learning trong Marketing in Banking

Như vậy ta đã giảm được từ 4.2% xuống còn 2.4%, xử lý tiếp như cột job ta được kết quả sạch sẽ ô unknown như hình dưới.
Machine Learning trong Marketing in Banking

Tiếp đến ở cột housing, ý nghĩa của cột này cho ta biết được Khách hàng đang có khoản vay mua nhà hay ko, ta kiểm tra bươc đàu xem có bao nhiêu % là ô unknown
Machine Learning trong Marketing in Banking

Ta quan sát thêm mối quan hệ giữa cột job và cột housing xem thế nào
Machine Learning trong Marketing in Banking

Bảng này cho ta cái nhìn tương ứng với mỗi job thì ta biết được Khách hàng đang có khoản vay mua nhà hay ko, tuy nhiên ở cột unknown của bảng này thể hiên rằng ứng với mỗi cột job, ta ko biết dc số Khách hàng này đang có khoản vay mua nhà hay ko, ý tưởng là ta sẽ tách cột unknown vào 2 cột no, yes theo tỷ lệ tương ứng và ta được kết quả
Machine Learning trong Marketing in Banking

Như vậy xử lý xong cột housing, tương tự ở cột loan (ý nghĩa của cột này cho ta biết dc Khách hàng có đang vay khoản vay khác nào ko.
Machine Learning trong Marketing in Banking

Qua cột marital:
Machine Learning trong Marketing in Banking

Ô unknown chỉ chiếm có 0.2%, và cách xử lý là cho các ô unknown này vào ô married, ta dc kết quả sau:
Machine Learning trong Marketing in Banking

Ở cột default
Machine Learning trong Marketing in Banking

Ở cột này ta thấy ô unknown chiếm đến 21%, một con số rất lớn, cột này có nghĩa là Khách hàng có bị default từ trước đây bao giờ chưa.
Machine Learning trong Marketing in Banking


Nếu ta chưa có thông tin này nhưng Khách hàng có đang gửi tiết kiệm thì mình phân ra số Khách này chưa bị Credit default trước đây và sau khi xử lý ta được.
Machine Learning trong Marketing in Banking

Thật ra ở cột default này ở Việt Nam thì ta có thể check CIC, nhưng ở nước ngoài em ko biết thế nào nên em giả định thông tin ko có và ta xử lý nó, phần unknown còn lại em xem nó như là 1 biến của cột default để sau này đưa vào mô hình.

Như vậy em đã xử lý xong phần dữ liệu loại Catagorical, phần sau em sẽ trình bày việc xử lý dữ liệu dang Numerial
 

Attachments

Tomb Raider
29/6/17
1.966
43.684
113
Em muốn nhận dạng chữ & số trong CMND & hộ chiếu thì dùng library nào các a?
 
Hạng D
7/5/10
4.666
21.781
113
Em vừa ngồi google ra, đối với R_squared chỉ nên làm thước đo cho bài toán Liner Regression, vì nó theo hướng tiếp cận OLS. Đối với bài toán Classifier thì ta ko thể tiếp cận theo OLS được vì bình phương nhỏ nhất nhung chưa chắc đối tượng thuộc lớp đúng.
 
Hạng D
29/10/07
2.005
9.582
113
HCM
www.bsdinsight.com
Em vừa ngồi google ra, đối với R_squared chỉ nên làm thước đo cho bài toán Liner Regression, vì nó theo hướng tiếp cận OLS. Đối với bài toán Classifier thì ta ko thể tiếp cận theo OLS được vì bình phương nhỏ nhất nhung chưa chắc đối tượng thuộc lớp đúng.

không đi chính ngạch thì đi tiểu ngạch thôi bác, vì nó là ngôn ngữ rồi, tới level này mà không làm được thì mấy thằng tool làm sao có cửa.
 
Hạng D
7/5/10
4.666
21.781
113
không đi chính ngạch thì đi tiểu ngạch thôi bác, vì nó là ngôn ngữ rồi, tới level này mà không làm được thì mấy thằng tool làm sao có cửa.
Tks bác, để em đi từ từ, em có niềm tin mà :)