Hạng D
26/10/10
1.676
14.499
113
Đối với dân các nước tiên tiến hay những gia đình giàu có thì con họ thích môn gì hay có năng khiêu môn gì thì họ khuyến khích con họ học môn đó nhưng đối với các nước chậm tiến hay các gia đình nghèo thì việc định hướng cho con cái học ngành gì ngay từ bậc trung học là điều phải làm vì nếu không làm vậy sẽ có ngày đói . Lấy thí dụ như nhà nghèo có con học giỏi, con thích môn lịch sử mà mình vay mượn tiền gởi con đi du học ngành đó thì dù nó tốt nghiệp loại giỏi cũng khó mà giúp đở gia đình, bà con cô bác cho được . Khi mình nghèo thì phải thực tế , đó là điều mà mình thường thấy các gia đình nghèo Ấn Độ hay làm . Cần phải định hướng cho con phải có 1 cái nghề vững chắc, hái ra tiền, sau đó, khi có tiền thì thích học ngành gì thì ghi danh mà học .

Có những ngành hái ra tiền và danh giá mà người Á Châu đua nhau hướng con theo học như Y Khoa, Nha Khoa, Dược Khoa . Trong đó học về Dược dễ nhất : dễ xin vào (so với các ngành y khác), dễ ra trường và dễ học và nhất là dễ kiếm việc làm so với 2 ngành kia . Chuyện học mấy ngành đó đa số anh chị em trong OS đã biết . Hôm nay mình viết bài này giới thiệu một ngành mới đang cực "hot", hái ra rất nhiều tiền, mà ít người biết hơn . Đó là ngành Data Science . Đây là ngành hiện có rất ít trường đại học dạy, chỉ có mấy trường lớn và danh tiếng như MIT, Stanford, Berkeley, Harvard, CIT aka Caltech, etc mới có lớp chứ mấy trường nhỏ thì ngay cả các giáo sư trong trường cũng cảm thấy xa lạ .

Vậy Data Science là gi?

Data science là một ngành nghiên cứu về dữ liệu. Từ một đống data hỗn độn tưởng chừng như là rác vô nghĩa đó, người ta sẽ collect những info có ý nghĩa (Data Analysis) từ đó tìm hiểu những gì đã xảy ra, hiểu được quá khứ.

Cũng từ một đống data hỗn độn, người ta cũng lấy được những info cần thiết, từ đó dự đoán được tương lai, chuyện gì sẽ xảy ra (Data Scientist).

Tại sao công việc về Data Science được xem là hấp dẫn nhất của thế kỷ ?

Đó là vì sự bùng nổ về dữ liệu. Số liệu từ 2011 cho thấy:
2 tỷ người dùng internet, 4.6 tỷ mobile phone đang được dùng trên thế giới. Số người và những thiết bị này hàng ngày đang tạo ra một số lượng data khổng lồ...
Chúng ta thử nhìn xem một số công ty khác ra sao:
Twitter mỗi ngày có thêm 7TB new data
Facebook: 10TB
Nasa thu thập hàng đêm qua kiếng thiên văn đến 30TB data của vũ trụ...

Ngoài ra còn biết bao data khác nữa như ebooks, các bài báo từ thế kỷ trước được các công ty truyền thông public online, các hình ảnh, âm thanh, phim, nhạc ... được tạo ra qua những thiết bị khác như sensor, camera, camcoder...

Lượng data này chính là tri thức của nhân loại mà con người mới chỉ khai thác một phần rất nhỏ.

Theo số liệu thống kê của những nhà nghiên cứu, số lượng data tăng theo bậc lũy thừa. Cứ sau 1 năm rưởi, con người lại có thêm một lượng data nhiều gấp đôi so với trước...

Lượng data không lồ này(còn gọi là Big Data) đến 80% là không có cấu trúc nên khó mà bỏ vô database truyền thống như trước đây. Ngoài ra việc xử lý data như upload data lên storage, download data xuống local, querry để tìm những info cần thiết cho những datasets thường từ vài chục TB đến Exabyte (1 EB = 1 Triệu TB) rất tốn thời gian(có khi cả tháng)... Cho nên một số kỷ thuật mới ra đời để đáp ứng được nhu cầu xử dụng... cũng từ đó mà có thêm một số công việc mới mà các bạn có thể biết hay nghe gần đây:

Hadoop: hệ thống server dùng chứa Big Data. Hadoop có hệ thống file system riêng(HDFS) và dùng kỷ thuật MapReduce để truy xuất big data. Lãnh vực này rất hot trong IT và job liên quan là Data WareHouse. Công việc chính là set up, maintain Hadoop và upload Big Data.


Hai công việc khác mà Tamvo có nói ở trên là Data Analyst và Data Scientist. Công việc 2 người này là Data mining, Data Visualization, Model machine learning... có nghĩa là họ biến lượng data khổng lồ, lộn xộn như rác đó thành có ý nghĩa, lấy những attribute của data sắp xếp thành từng bảng (cột, dòng)và vẽ nó thành những biểu đồ, hay phân loại sắp xếp nó để người khác có thể hiểu được, hoặc dự đoán những gì sẽ xãy ra... từ đó giúp những lãnh đạo cao cấp của công ty đinh hướng hoạt động hay đưa ra những quyết định...

Trong các hoạt động của data scientist thì đền 80% thời gian dùng để clean data. Lấy vi dụ như những table họ collect được thường không bao giờ đầy đủ, có dòng thiếu data cột này, cột kia... vậy họ sẽ bỏ những dòng thiếu đó hay tạo ra những data giả bỏ vào những phần thiếu... Hoặc một số dòng chứa giá trị mà nếu dùng nó sẽ gây nên kết quả dư đoán không chính xác (outliner or noise), họ phải bỏ những dòng đó đi...

Một số project thú vị của Data Science

- Dựa trên dữ liệu danh sách hành khách (tên, tuổi, tình trạng gia đình ...) mà đoán được người nào còn sống trong vụ chìm tàu Titannic
https://www.kaggle.com/c/titanic-gettingStarted

- Dự đoán kết quả bầu cử tổng thống Mỹ: đoán chính xác kết quả 49 tiểu bang, sai ở Indiana với tỷ lệ 1%
http://en.wikipedia.org/wiki/Nate_Silver

- Đoán kết quả World Cup 2014. Data Scientist của Google và Microsoft đều đưa ra kết quả dự đoán. Tamvo link kết quả của google, thật ấn tượng, chỉ sai trận Đức và Pháp
http://googlecloudplatform.blogspot...rm-is-11-for-12-in-World-Cup-predictions.html


- Xử lý ngôn ngữ tự nhiên: Đây là project lớn của những công ty công nghệ hàng đầu của Mỹ. Một trong những mục đích của nó là tìm hiểu cổ ngữ... Từ hàng ngàn năm nay các nhà khảo cổ học tìm thấy rất nhiều ngôn ngữ của loại người mà hiểu được chúng vẫn còn là bí mật... nay con người có một lương lớn Big Data, người ta hy vọng tìm thấy những ký tự tương đương hay những mắc xích để nối kết những điểm rời rạc, từ đó giải mã và hiểu cỗ ngữ tìm được những nền văn minh đã mất của nhân loại mà theo dự đoán con người đã từng có một nền văn minh huy hoàng, rực rỡ, và rất tiến bộ... có thể hiện đại hơn chúng ta ngày nay...

- Dựa vào việc mua đồ của khách hàng, Target dự đoán được teenager mang bầu:
http://blogs.citypages.com/blotter/2012/02/target_coupons_inform_father_daughters_pregnancy.php

- Cuối cùng là một project mà Tamvo rất thích đó là Event. Dựa vào những dữ kiện thu thập được, người ta biết nơi nào đang có biểu tình hay chiến tranh, dự đoán được mức độ lan rộng hay những cuộc biểu tình đó có biến thành bạo động... Cũng từ đó những nhà đầu tư dự đoán được hàng hoá nào sẽ khan hiếm, tăng giá do sự gián đoạn cung cấp mà chuyển sự đầu tư, tăng lợi nhuận... Mời các bạn xem project GDELT

http://gdeltproject.org/

Tamvo tạm dừng ở đây, nếu các bạn có hứng thú, bài kế Tamvo sẽ nói về những kỹ năng cần có của data science, giới thiếu các bạn một số lớp tự học và cơ hội tìm việc trong lãnh vực mới .

(Mỏi tay quá, giờ phải đi ăn cái đã ) :)
 
Chỉnh sửa cuối: