Thật ra để ra 1 cái hình gì đó thì 70% thời gian em làm dưới Database, toàn code SQL ko có gì cao siêu đâu, để hiểu được logic lấy dữ liệu cho đúng là 1 công việc ko dễ, có những dữ liệu mảng collections nó chạy realtime, mà khối lượng dữ liệu realtime nó rất lơn, khi em 'pick' nó trong database thì nó bị nhảy dữ liệu làm bài toán mình bị sai, lúc đó mình xoay ra móc dự liêu trong history thì có khi máy treo luôn nên đòi hỏi mình phải suy nghĩ ra cách nào lấy được dự liệu và lấy cho đúng.
Khi lấy đúng dự liệu thì công việc xử lý dữ liệu và chạy ra các bước cuối cùng em chỉ tốn có 1 ngày, vì công việc quen rồi và có những code trên python mình tự làm riêng tools cho mình nên khi cần em chỉnh lại code rất nhanh.
Vì vậy công việc của 1 Data Scientist là cần 70% hiểu dữ liệu, 20% là hiểu các thuật toán, 10% là biết dùng các tools, ko có 70% dữ liệu thì ko ra model nào hết, ko hiểu dữ liệu thì mình ko thể sửa lại các tool cho bài toán được đúng. Em đang ở điểm khởi đầu của con đường này, còn nhiều việc phải học, kể cả việc tìm hiểu các tools có sẵn, em cũng biết có rất nhiều tools có sẵn mà em cũng chưa có thời gian tìm hiểu nó, hiện tai trong cty chỉ dùng SAS, R, Python, nên em cũng chỉ xoay quanh mấy cái này.
Okay bác
Trong cái BI và DS thì ông IT với nhiệm vụ là Data Governance thôi, phần còn lại phải để cho Business User họ làm.
Với suy nghĩ của em thì bác càng code, thì tự mình hạng chế cái sự "Talking ý nghĩa" của data bác thôi chứ không còn là vấn đề thời gian nữa. Ở VN thì công cụ anh/em làm là SPSS nhiều nhưng làm cho đạt cái đẳng thì ít lắm, hoặc các có thể dùng alteryx hoặc rapidminer khi đó bác mới có thể bay nhảy ý tưởng trên data bác có - và bác hoàn toàn có thể phát triển theo ý với bạn Python. Vấn đề không phải là thời gian nữa. (Mỗi người mỗi cách tiếp cận, em thì tiếp cận theo hướng này, tuyệt đối không code - dĩ nhiên tuỳ bác)