Hạng B2
27/5/11
290
548
63
Đối với dân các nước tiên tiến hay những gia đình giàu có thì con họ thích môn gì hay có năng khiêu môn gì thì họ khuyến khích con họ học môn đó nhưng đối với các nước chậm tiến hay các gia đình nghèo thì việc định hướng cho con cái học ngành gì ngay từ bậc trung học là điều phải làm vì nếu không làm vậy sẽ có ngày đói . Lấy thí dụ như nhà nghèo có con học giỏi, con thích môn lịch sử mà mình vay mượn tiền gởi con đi du học ngành đó thì dù nó tốt nghiệp loại giỏi cũng khó mà giúp đở gia đình, bà con cô bác cho được . Khi mình nghèo thì phải thực tế , đó là điều mà mình thường thấy các gia đình nghèo Ấn Độ hay làm . Cần phải định hướng cho con phải có 1 cái nghề vững chắc, hái ra tiền, sau đó, khi có tiền thì thích học ngành gì thì ghi danh mà học .

Có những ngành hái ra tiền và danh giá mà người Á Châu đua nhau hướng con theo học như Y Khoa, Nha Khoa, Dược Khoa . Trong đó học về Dược dễ nhất : dễ xin vào (so với các ngành y khác), dễ ra trường và dễ học và nhất là dễ kiếm việc làm so với 2 ngành kia . Chuyện học mấy ngành đó đa số anh chị em trong OS đã biết . Hôm nay mình viết bài này giới thiệu một ngành mới đang cực "hot", hái ra rất nhiều tiền, mà ít người biết hơn . Đó là ngành Data Science . Đây là ngành hiện có rất ít trường đại học dạy, chỉ có mấy trường lớn và danh tiếng như MIT, Stanford, Berkeley, Harvard, CIT aka Caltech, etc mới có lớp chứ mấy trường nhỏ thì ngay cả các giáo sư trong trường cũng cảm thấy xa lạ .

Vậy Data Science là gi?

Data science là một ngành nghiên cứu về dữ liệu. Từ một đống data hỗn độn tưởng chừng như là rác vô nghĩa đó, người ta sẽ collect những info có ý nghĩa (Data Analysis) từ đó tìm hiểu những gì đã xảy ra, hiểu được quá khứ.

Cũng từ một đống data hỗn độn, người ta cũng lấy được những info cần thiết, từ đó dự đoán được tương lai, chuyện gì sẽ xảy ra (Data Scientist).

Tại sao công việc về Data Science được xem là hấp dẫn nhất của thế kỷ ?

Đó là vì sự bùng nổ về dữ liệu. Số liệu từ 2011 cho thấy:
2 tỷ người dùng internet, 4.6 tỷ mobile phone đang được dùng trên thế giới. Số người và những thiết bị này hàng ngày đang tạo ra một số lượng data khổng lồ...
Chúng ta thử nhìn xem một số công ty khác ra sao:
Twitter mỗi ngày có thêm 7TB new data
Facebook: 10TB
Nasa thu thập hàng đêm qua kiếng thiên văn đến 30TB data của vũ trụ...

Ngoài ra còn biết bao data khác nữa như ebooks, các bài báo từ thế kỷ trước được các công ty truyền thông public online, các hình ảnh, âm thanh, phim, nhạc ... được tạo ra qua những thiết bị khác như sensor, camera, camcoder...

Lượng data này chính là tri thức của nhân loại mà con người mới chỉ khai thác một phần rất nhỏ.

Theo số liệu thống kê của những nhà nghiên cứu, số lượng data tăng theo bậc lũy thừa. Cứ sau 1 năm rưởi, con người lại có thêm một lượng data nhiều gấp đôi so với trước...

Lượng data không lồ này(còn gọi là Big Data) đến 80% là không có cấu trúc nên khó mà bỏ vô database truyền thống như trước đây. Ngoài ra việc xử lý data như upload data lên storage, download data xuống local, querry để tìm những info cần thiết cho những datasets thường từ vài chục TB đến Exabyte (1 EB = 1 Triệu TB) rất tốn thời gian(có khi cả tháng)... Cho nên một số kỷ thuật mới ra đời để đáp ứng được nhu cầu xử dụng... cũng từ đó mà có thêm một số công việc mới mà các bạn có thể biết hay nghe gần đây:

Hadoop: hệ thống server dùng chứa Big Data. Hadoop có hệ thống file system riêng(HDFS) và dùng kỷ thuật MapReduce để truy xuất big data. Lãnh vực này rất hot trong IT và job liên quan là Data WareHouse. Công việc chính là set up, maintain Hadoop và upload Big Data.


Hai công việc khác mà Tamvo có nói ở trên là Data Analyst và Data Scientist. Công việc 2 người này là Data mining, Data Visualization, Model machine learning... có nghĩa là họ biến lượng data khổng lồ, lộn xộn như rác đó thành có ý nghĩa, lấy những attribute của data sắp xếp thành từng bảng (cột, dòng)và vẽ nó thành những biểu đồ, hay phân loại sắp xếp nó để người khác có thể hiểu được, hoặc dự đoán những gì sẽ xãy ra... từ đó giúp những lãnh đạo cao cấp của công ty đinh hướng hoạt động hay đưa ra những quyết định...

Trong các hoạt động của data scientist thì đền 80% thời gian dùng để clean data. Lấy vi dụ như những table họ collect được thường không bao giờ đầy đủ, có dòng thiếu data cột này, cột kia... vậy họ sẽ bỏ những dòng thiếu đó hay tạo ra những data giả bỏ vào những phần thiếu... Hoặc một số dòng chứa giá trị mà nếu dùng nó sẽ gây nên kết quả dư đoán không chính xác (outliner or noise), họ phải bỏ những dòng đó đi...

Một số project thú vị của Data Science

- Dựa trên dữ liệu danh sách hành khách (tên, tuổi, tình trạng gia đình ...) mà đoán được người nào còn sống trong vụ chìm tàu Titannic
https://www.kaggle.com/c/titanic-gettingStarted

- Dự đoán kết quả bầu cử tổng thống Mỹ: đoán chính xác kết quả 49 tiểu bang, sai ở Indiana với tỷ lệ 1%
http://en.wikipedia.org/wiki/Nate_Silver

- Đoán kết quả World Cup 2014. Data Scientist của Google và Microsoft đều đưa ra kết quả dự đoán. Tamvo link kết quả của google, thật ấn tượng, chỉ sai trận Đức và Pháp
http://googlecloudplatform.blogspot...rm-is-11-for-12-in-World-Cup-predictions.html


- Xử lý ngôn ngữ tự nhiên: Đây là project lớn của những công ty công nghệ hàng đầu của Mỹ. Một trong những mục đích của nó là tìm hiểu cổ ngữ... Từ hàng ngàn năm nay các nhà khảo cổ học tìm thấy rất nhiều ngôn ngữ của loại người mà hiểu được chúng vẫn còn là bí mật... nay con người có một lương lớn Big Data, người ta hy vọng tìm thấy những ký tự tương đương hay những mắc xích để nối kết những điểm rời rạc, từ đó giải mã và hiểu cỗ ngữ tìm được những nền văn minh đã mất của nhân loại mà theo dự đoán con người đã từng có một nền văn minh huy hoàng, rực rỡ, và rất tiến bộ... có thể hiện đại hơn chúng ta ngày nay...

- Dựa vào việc mua đồ của khách hàng, Target dự đoán được teenager mang bầu:
http://blogs.citypages.com/blotter/2012/02/target_coupons_inform_father_daughters_pregnancy.php

- Cuối cùng là một project mà Tamvo rất thích đó là Event. Dựa vào những dữ kiện thu thập được, người ta biết nơi nào đang có biểu tình hay chiến tranh, dự đoán được mức độ lan rộng hay những cuộc biểu tình đó có biến thành bạo động... Cũng từ đó những nhà đầu tư dự đoán được hàng hoá nào sẽ khan hiếm, tăng giá do sự gián đoạn cung cấp mà chuyển sự đầu tư, tăng lợi nhuận... Mời các bạn xem project GDELT

http://gdeltproject.org/

Tamvo tạm dừng ở đây, nếu các bạn có hứng thú, bài kế Tamvo sẽ nói về những kỹ năng cần có của data science, giới thiếu các bạn một số lớp tự học và cơ hội tìm việc trong lãnh vực mới .

(Mỏi tay quá, giờ phải đi ăn cái đã ) :)
Nói Data science là xa lạ ngay với các giáo sư đại học thì mình hoàn toàn không đồng ý nhé.
Bản chất của các luận văn tiến sĩ là thu thập, xử lý dữ liệu để xem dữ liệu thực tế có fit với các lý thuyết đưa ra hay không.
Việc này đã diễn ra không biết bao lâu rồi.
Có thể giờ đây với tiến bộ của IT, có những data kiểu mới, những kỹ thuật mới...nhưng không có nghĩa là data science là xa lạ với giới khoa học.
 
Hạng F
2/3/14
12.223
128.881
113
Nói Data science là xa lạ ngay với các giáo sư đại học thì mình hoàn toàn không đồng ý nhé.
Bản chất của các luận văn tiến sĩ là thu thập, xử lý dữ liệu để xem dữ liệu thực tế có fit với các lý thuyết đưa ra hay không.
Việc này đã diễn ra không biết bao lâu rồi.
Có thể giờ đây với tiến bộ của IT, có những data kiểu mới, những kỹ thuật mới...nhưng không có nghĩa là data science là xa lạ với giới khoa học.
Cụm từ xử lý dữ liệu thì nó rộng lắm, cái ví dụ bác nói về xem dữ liệu thu thập có fit lý thuyết không là thiên về statistics nhiều hơn, data science theo định nghĩa giờ nó khác khá nhiều với ví dụ trên, khác biệt lớn nhất là lượng data phải rất lớn (hàng chục triệu tới hàng tỷ dữ liệu) chứ ví dụ luận văn thu thập dữ liệu sample size quá nhỏ để xếp vào data science.
 
  • Like
Reactions: ngr040
Hạng B2
27/5/11
290
548
63
Cụm từ xử lý dữ liệu thì nó rộng lắm, cái ví dụ bác nói về xem dữ liệu thu thập có fit lý thuyết không là thiên về statistics nhiều hơn, data science theo định nghĩa giờ nó khác khá nhiều với ví dụ trên, khác biệt lớn nhất là lượng data phải rất lớn (hàng chục triệu tới hàng tỷ dữ liệu) chứ ví dụ luận văn thu thập dữ liệu sample size quá nhỏ để xếp vào data science.
Hiểu ý bác. Nhưng mình chỉ nói là kg xa lạ thôi. Giống như từ xe cỏ lên RR. Chứ kg phải là từ xe đạp thoắt cái lên RR liền.
 
Hạng F
2/3/14
12.223
128.881
113
Hiểu ý bác. Nhưng mình chỉ nói là kg xa lạ thôi. Giống như từ xe cỏ lên RR. Chứ kg phải là từ xe đạp thoắt cái lên RR liền.
Đồng ý là trong giới giáo dục và nghiên cứu thì chuyện xử lý data là không lạ, nói cụm từ data science chắc các thầy cũng hình dung được nó dạng như là super size của data analysis các thầy vẫn làm, có một số technique cũng giống data analysis luôn, còn nếu thực tế nó như xe máy lên RR vậy :D
 
  • Like
Reactions: yeuthiennhien
Hạng D
4/5/12
4.401
26.585
175
Dạ.

Ko phải tự nhiên mà cái title là ... Scientist chứ ko phải Engineer.

Ở đây có bạn @tin_truc22 hình như đang có làm vài thứ liên quan ngành này (nhưng chắc chưa đạt mức Scientist mà chắc đang ở mức Engineer?).
Để tag bạn í vào chia sẻ thêm :).
Thôi em làm chung với nhiều tay scientist rồi có khi thấy học cao nó dần mất khả năng giao tiếp đó anh =))
 
  • Like
Reactions: ngr040
Hạng D
4/5/12
4.401
26.585
175
Em thấy bác @tamvo nói rất đúng nhưng không đầy đủ, vì như project bác mô tả chỉ cần engineer là đủ làm rồi, học thêm các lớp chuyên sâu và các công cụ và nền tảng là đủ. Chả cần học tới PhD.
Lên tới mức khoa học thì tính học thuật phải cao, hiểu rõ và sâu những cái mình nói và làn đôi lúc tự phát triển được lý thuyết thành whitepaper rồi là 1 niềm tin vững chắc cho lãnh đạo nếu đưa ra một lý thuyết nào đó. Chứ khả năng hiện thực được nó hơi yếu kém (qua nhiều ông PhD em gặp).
Vì vậy ngành này dễ kiếm việc ko, nếu bên Mỹ rất dễ kiếm nếu giỏi (vâng cái gì cũng dễ nếu giỏi), còn không thì xác định làng nhàng ko làm được.
Nhưng nếu engineer thì chắc chắn không sợ thất nghiệp nếu làm làng nhàng. Cả ở VN lẫn Mỹ nhé. Mấy bạn em làm ds toàn ở Mỹ xong về VN khởi nghiệp thôi.
 
  • Like
Reactions: Meo Quay
Ban confirmed
Hạng D
9/5/12
1.793
66.237
113
Chỉ liên quan xíu xíuthoài mờ cứ bỏ lên cho nó dzui dzui chút đặng mừ hóng típ :)

23755006_1509976589081288_4430607732094119405_n.jpg
Chỉ liên quan xíu xíuthoài mờ cứ bỏ lên cho nó dzui dzui chút đặng mừ hóng típ [BCOLOR=rgb(252, 252, 255)]:)[/BCOLOR]

Em bán cơm thắp nhang mỗi ngày nha, đá đểu dân bán cơm hả ???
 
  • Like
Reactions: ngr040
Hạng D
26/12/12
1.249
12.537
113
học data science này thì min là phải học tới master hoặc PhD thì mới có job ngon, nếu chỉ học tới bachelor thì cũng bèo nhèo lắn. Nhưng nếu vậy thì học y ngon hơn.
 
  • Like
Reactions: ngr040
Hạng B2
19/2/13
241
560
93
thế thằng nào học Data Scientist rồi kiếm tiền hơn thằng dũa móng ở bển đâu anh chỉ em coi

NU! Dũa móng từ 9h sáng tới 9h tối, tuần nghỉ dc 1 ngày, ko có long vacation, ko có insurance... Lương 36k - 70k tùy trình độ. Ko có khả năng dc tăng lương, trừ khi lên làm chủ, mà làm chủ thì quên mẹ thời gian cho gia đình đi nha.

Làm DS làm từ 9h sáng tới 5h chiều, có thể work from home, cuối tuần nghỉ, annual leave 30 ngày, đầy đủ insurance. Lương ít nhất 80k/ năm cho entry level và tăng đều.

Cuộc sống ko chỉ đo bằng tiền! Tiền tiền cái củ cải