Trả lời trước nha cho nóng, tí anh We chém tiếpBuild cái data lake ở Step 1 này là cv của mấy bạn DS bên anh? Bên Sta./Analysis có tham gia gì ở Step 1 này ko hay chỉ các bạn DS thôi?
Và cần những skill/concept nào để có thể thực hiện việc build cái data lake này vậy anh @We?
Ở Step 2, 3, ... thì các bạn DS có tham gia hay ko? Nếu có thì cv cụ thể của mấy bản là gì?
1. Build data lake là việc của data collection, team được giao cái nhiệm vụ lấy data. Title thì không hẳn là data scientist mà là của nhóm được giao nhiệm vụ, nhưng thường cũng giao cho ds kiêm nhiệm collect luôn. Khó nhất là ở chỗ data từ nhiều nguồn nên format khác nhau nên skill của phần này cần các bạn về software để export dữ liệu ra, có yêu cầu export gì từ trưởng nhóm, và code để merge vào cái data lake duới dạng chung (dạng chung này do leader xác định). Nhiều khi cũng không có sẵn dữ liệu cần nữa lại phải tìm cách này cách khác để lấy. Stats / analysis không tham gia gì ở bước này.
2. Bước tiếp theo là của data scientist bắt đầu chạy xử lý trên data lake này, công việc cụ thể gồm các việc liên quan đến xử lý dữ liệu : lọc data xấu, chạy các thuật toán phân tích trend, best fit, tìm correlation giữa các tham số, vv... Cần kiến thức software (thí dụ R language) + knowledge của data analysis (best fit, trend analysis, vv...)
3. Sau khi có xong bước hai rồi thì dựng model và chạy simulation cho các giả thiết, cũng là việc của data scientist kết hợp với experts của ngành khi dựng model.
4. Manager/leader đưa ra các recommendation dựa trên kết quả.