Hạng F
2/3/14
12.223
128.881
113
Build cái data lake ở Step 1 này là cv của mấy bạn DS bên anh? Bên Sta./Analysis có tham gia gì ở Step 1 này ko hay chỉ các bạn DS thôi?

Và cần những skill/concept nào để có thể thực hiện việc build cái data lake này vậy anh @We?

Ở Step 2, 3, ... thì các bạn DS có tham gia hay ko? Nếu có thì cv cụ thể của mấy bản là gì?
Trả lời trước nha cho nóng, tí anh We chém tiếp

1. Build data lake là việc của data collection, team được giao cái nhiệm vụ lấy data. Title thì không hẳn là data scientist mà là của nhóm được giao nhiệm vụ, nhưng thường cũng giao cho ds kiêm nhiệm collect luôn. Khó nhất là ở chỗ data từ nhiều nguồn nên format khác nhau nên skill của phần này cần các bạn về software để export dữ liệu ra, có yêu cầu export gì từ trưởng nhóm, và code để merge vào cái data lake duới dạng chung (dạng chung này do leader xác định). Nhiều khi cũng không có sẵn dữ liệu cần nữa lại phải tìm cách này cách khác để lấy. Stats / analysis không tham gia gì ở bước này.

2. Bước tiếp theo là của data scientist bắt đầu chạy xử lý trên data lake này, công việc cụ thể gồm các việc liên quan đến xử lý dữ liệu : lọc data xấu, chạy các thuật toán phân tích trend, best fit, tìm correlation giữa các tham số, vv... Cần kiến thức software (thí dụ R language) + knowledge của data analysis (best fit, trend analysis, vv...)

3. Sau khi có xong bước hai rồi thì dựng model và chạy simulation cho các giả thiết, cũng là việc của data scientist kết hợp với experts của ngành khi dựng model.

4. Manager/leader đưa ra các recommendation dựa trên kết quả.
 
We confirmed
Hạng B2
17/11/11
469
3.299
93
Trả lời trước nha cho nóng, tí anh We chém tiếp

1. Build data lake là việc của data collection, team được giao cái nhiệm vụ lấy data. Title thì không hẳn là data scientist mà là của nhóm được giao nhiệm vụ, nhưng thường cũng giao cho ds kiêm nhiệm collect luôn. Khó nhất là ở chỗ data từ nhiều nguồn nên format khác nhau nên skill của phần này cần các bạn về software để export dữ liệu ra, có yêu cầu export gì từ trưởng nhóm, và code để merge vào cái data lake duới dạng chung (dạng chung này do leader xác định). Nhiều khi cũng không có sẵn dữ liệu cần nữa lại phải tìm cách này cách khác để lấy. Stats / analysis không tham gia gì ở bước này.

2. Bước tiếp theo là của data scientist bắt đầu chạy xử lý trên data lake này, công việc cụ thể gồm các việc liên quan đến xử lý dữ liệu : lọc data xấu, chạy các thuật toán phân tích trend, best fit, tìm correlation giữa các tham số, vv... Cần kiến thức software (thí dụ R language) + knowledge của data analysis (best fit, trend analysis, vv...)

3. Sau khi có xong bước hai rồi thì dựng model và chạy simulation cho các giả thiết, cũng là việc của data scientist kết hợp với experts của ngành khi dựng model.

4. Manager/leader đưa ra các recommendation dựa trên kết quả.
Bổ sung nhanh khi dừng đèn đỏ nha, là không có gì để bổ sung hết, anh nói chả gì sai hết trơn :) thanks anh
 
Hạng D
4/12/14
1.905
93.293
113
54
Cái Expert Choice là cái tool từ 2004, giờ có cái nào hay hơn?
 
Hạng C
14/6/11
693
33.042
93
Long An
Bổ sung nhanh khi dừng đèn đỏ nha, là không có gì để bổ sung hết, anh nói chả gì sai hết trơn :) thanks anh

Hôi, anh đừng có làm biếng quá nhoa.
Chút anh rảnh anh cứ viết giùm mình vài dòng đi.

Và nếu được thì dùng chính cái case anh nêu ở mấy post phía trên (ie. yêu cầu tăng năng suất 5% của sếp) luôn cho nó cụ thể (topic cụ thể, cv cụ thể, issue/problem cụ thể trong quá trình work, ...).

Anh làm ơn thì làm ơn cho trót hén :).

Bàn chung chung thì dễ chém từa lưa và lan man lắm. Cần lắm một cái gì nó cụ thể và bám sát chủ đề.

Tks alots.
 
Hạng D
16/1/13
4.804
87.525
113
Haiz.... cả ngày bận rộn nướng gà lôi, ăn xong rồi làm biếng đi shop đêm Thanksgiving để đọc các thánh :)

Ở VN trong xó xỉnh CNL cũng lắm thánh => cả XH thì ra đường lúc nào cũng gặp các loại thánh !

Ôi ... đất nước có khi nào đẹp hơn không ?

(cũng vì CNL có nhiều thánh nên ngày Thanksgiving này bận rộn cỡ nào cũng phải ghé 3 lần để đọc các thánh)
 
We confirmed
Hạng B2
17/11/11
469
3.299
93
Hôi, anh đừng có làm biếng quá nhoa.
Chút anh rảnh anh cứ viết giùm mình vài dòng đi.

Và nếu được thì dùng chính cái case anh nêu ở mấy post phía trên (ie. yêu cầu tăng năng suất 5% của sếp) luôn cho nó cụ thể (topic cụ thể, cv cụ thể, issue/problem cụ thể trong quá trình work, ...).

Anh làm ơn thì làm ơn cho trót hén :).

Bàn chung chung thì dễ chém từa lưa và lan man lắm. Cần lắm một cái gì nó cụ thể và bám sát chủ đề.

Tks alots.
Câu hỏi của anh là DS tham gia vô chỗ nào đúng kg?

Câu trả lời là tham gia hết. Statistician cũng tham gia hết. Các ban khác cũng tham gia. Chỉ là... chỗ nào bạn nào xắn tay lên làm.

Phần đầu như anh Johny nói, DS xử hết, nhưng mình vẫn tham gia để chỉnh ngay từ giai đoạn data lake. Trước khi chạy modelling hay ra quyết định business, ở giai đoạn nhìn sơ lược cấu trúc data ở chỗ này chỗ nọ, format tùm lum, sai thiếu ì xèo,...cũng đủ để mình đưa ra 1 số giả thiết kinh doanh.

Sang giai đoạn 2,3: thế nào cũng có chỗ nào ở giai đoạn 1 bị thiếu mà khi bước vô modelling hay phân tích, mình mới thấy ra. Do đó DS sẽ tham gia để chữa cháy cũng như góp ý cho những bước tiếp theo. Có khi mở ra 1 dự án hoàn toàn mới.

Cái thiếu của 1 bạn DS điển hình là việc hiểu rõ ý nghĩa của các loại data, mức độ tận dụng data và người kinh doanh sẽ ra quyết định được gì từ data đó. Do đó bạn DS cần đi song song với mình.
 
Hạng D
24/11/06
3.928
20.102
113
Vietnam
Do dính chữ science rồi big data... nghe ko ứng dụng.
Chứ phân tích data đã sd lâu rồi. Muốn phân tích thì phải có data. Muốn có data thì phải lấy mẫu, thu nhập...
Ví dụ cho sinh động:
IMPAC của Nam Loa (anh thớt biết) chuyên improve system để tiết kiệm. Bọn hắn chỉ lấy tiền trên cái saving đó. Điều đó nói nghe dễ là xuống ngồi hóng ngó ghi chép dìa phân tích. Đưa ra quy trình mới. Nhưng có dễ để triển khai hay ko?
Bạn em chuyên phân tích data bên dầu khí để thay đổi cách thức vận hành mỏ... lương trên 100k Eur tại VN.

Bên em thì khi phân tích số liệu thì chỉ dùng các công cụ thống kê cơ bản như SPC thôi. Quan trọng nhất là vẫn phải xuống các nhà máy đứng ngày 8-16 tiếng/ 2 tuần quan sát, ghi chép thực tế đối chiếu sơ bộ số liệu chi phí trên sổ sách để xem DN có fake hay ghi nhận sai hay ko, để yên tâm là dữ liệu sạch làm nền để tính toán. Việc 1 DN bị các vấn đề về điều hành thì bản thân họ luôn biết là nó bị ntn mà ko cách nào fix được nên việc nắm dữ liệu chỉ để đảm bảo là xử lý đúng vấn đề trọng tâm và nhanh nhất chứ lúc thực thi thì cần chuyên môn cụ thể.


DS, Ở VN thì các bạn làm công ty nghiên cứu thị trường thì chắc chắn là sử dụng các công cụ thống kê hàng ngày để phân tích dữ liệu chứ có gì đâu mà lạ.


Nên nếu định hướng học ngành Data Science thì có thể học business, marketing nctt rồi học thêm về các lớp kinh tế lượng/ Thống kê/ sử dụng tốt các tools là có thể làm được--> các công ty nghiên cứu thị trường...Khó nhất của ngành này ko phải là phần tính toán vì đã có các công cụ hỗ trợ từ SPSS/ SAS/ R....... mà là cách tổ chức thu thập dữ liệu, mẫu.... một cách chính xác nhất để đạt mục đích phân tích và ứng dụng hiệu quả hỗ trợ quyết định sau khi phân tích.
 
Hạng D
4/5/12
4.401
26.585
175
Để mời thêm @tin_truc22 vô chia sẻ thêm góc nhìn, suy nghĩ về các dự án đã từng làm việc qua mà trong đó có sự tham gia của DS/DE.
Thôi anh em làm chạy ăn từng bửa mà. Ko ham danh đâu, mấy nay có làm project xử lý dữ liệu khách thăm website cho bọn bmw với mini thui, mà khoai lắm, ds nó viết cái file R, em phải làm sao cho nó chạy trên cloud hệ thống tự động mà phải nhanh, hu hu
 
  • Like
Reactions: ngr040