We confirmed
Hạng B2
17/11/11
469
3.299
93
Đối với dân các nước tiên tiến hay những gia đình giàu có thì con họ thích môn gì hay có năng khiêu môn gì thì họ khuyến khích con họ học môn đó nhưng đối với các nước chậm tiến hay các gia đình nghèo thì việc định hướng cho con cái học ngành gì ngay từ bậc trung học là điều phải làm vì nếu không làm vậy sẽ có ngày đói . Lấy thí dụ như nhà nghèo có con học giỏi, con thích môn lịch sử mà mình vay mượn tiền gởi con đi du học ngành đó thì dù nó tốt nghiệp loại giỏi cũng khó mà giúp đở gia đình, bà con cô bác cho được . Khi mình nghèo thì phải thực tế , đó là điều mà mình thường thấy các gia đình nghèo Ấn Độ hay làm . Cần phải định hướng cho con phải có 1 cái nghề vững chắc, hái ra tiền, sau đó, khi có tiền thì thích học ngành gì thì ghi danh mà học .

Có những ngành hái ra tiền và danh giá mà người Á Châu đua nhau hướng con theo học như Y Khoa, Nha Khoa, Dược Khoa . Trong đó học về Dược dễ nhất : dễ xin vào (so với các ngành y khác), dễ ra trường và dễ học và nhất là dễ kiếm việc làm so với 2 ngành kia . Chuyện học mấy ngành đó đa số anh chị em trong OS đã biết . Hôm nay mình viết bài này giới thiệu một ngành mới đang cực "hot", hái ra rất nhiều tiền, mà ít người biết hơn . Đó là ngành Data Science . Đây là ngành hiện có rất ít trường đại học dạy, chỉ có mấy trường lớn và danh tiếng như MIT, Stanford, Berkeley, Harvard, CIT aka Caltech, etc mới có lớp chứ mấy trường nhỏ thì ngay cả các giáo sư trong trường cũng cảm thấy xa lạ .

Vậy Data Science là gi?

Data science là một ngành nghiên cứu về dữ liệu. Từ một đống data hỗn độn tưởng chừng như là rác vô nghĩa đó, người ta sẽ collect những info có ý nghĩa (Data Analysis) từ đó tìm hiểu những gì đã xảy ra, hiểu được quá khứ.

Cũng từ một đống data hỗn độn, người ta cũng lấy được những info cần thiết, từ đó dự đoán được tương lai, chuyện gì sẽ xảy ra (Data Scientist).

Tại sao công việc về Data Science được xem là hấp dẫn nhất của thế kỷ ?

Đó là vì sự bùng nổ về dữ liệu. Số liệu từ 2011 cho thấy:
2 tỷ người dùng internet, 4.6 tỷ mobile phone đang được dùng trên thế giới. Số người và những thiết bị này hàng ngày đang tạo ra một số lượng data khổng lồ...
Chúng ta thử nhìn xem một số công ty khác ra sao:
Twitter mỗi ngày có thêm 7TB new data
Facebook: 10TB
Nasa thu thập hàng đêm qua kiếng thiên văn đến 30TB data của vũ trụ...

Ngoài ra còn biết bao data khác nữa như ebooks, các bài báo từ thế kỷ trước được các công ty truyền thông public online, các hình ảnh, âm thanh, phim, nhạc ... được tạo ra qua những thiết bị khác như sensor, camera, camcoder...

Lượng data này chính là tri thức của nhân loại mà con người mới chỉ khai thác một phần rất nhỏ.

Theo số liệu thống kê của những nhà nghiên cứu, số lượng data tăng theo bậc lũy thừa. Cứ sau 1 năm rưởi, con người lại có thêm một lượng data nhiều gấp đôi so với trước...

Lượng data không lồ này(còn gọi là Big Data) đến 80% là không có cấu trúc nên khó mà bỏ vô database truyền thống như trước đây. Ngoài ra việc xử lý data như upload data lên storage, download data xuống local, querry để tìm những info cần thiết cho những datasets thường từ vài chục TB đến Exabyte (1 EB = 1 Triệu TB) rất tốn thời gian(có khi cả tháng)... Cho nên một số kỷ thuật mới ra đời để đáp ứng được nhu cầu xử dụng... cũng từ đó mà có thêm một số công việc mới mà các bạn có thể biết hay nghe gần đây:

Hadoop: hệ thống server dùng chứa Big Data. Hadoop có hệ thống file system riêng(HDFS) và dùng kỷ thuật MapReduce để truy xuất big data. Lãnh vực này rất hot trong IT và job liên quan là Data WareHouse. Công việc chính là set up, maintain Hadoop và upload Big Data.


Hai công việc khác mà Tamvo có nói ở trên là Data Analyst và Data Scientist. Công việc 2 người này là Data mining, Data Visualization, Model machine learning... có nghĩa là họ biến lượng data khổng lồ, lộn xộn như rác đó thành có ý nghĩa, lấy những attribute của data sắp xếp thành từng bảng (cột, dòng)và vẽ nó thành những biểu đồ, hay phân loại sắp xếp nó để người khác có thể hiểu được, hoặc dự đoán những gì sẽ xãy ra... từ đó giúp những lãnh đạo cao cấp của công ty đinh hướng hoạt động hay đưa ra những quyết định...

Trong các hoạt động của data scientist thì đền 80% thời gian dùng để clean data. Lấy vi dụ như những table họ collect được thường không bao giờ đầy đủ, có dòng thiếu data cột này, cột kia... vậy họ sẽ bỏ những dòng thiếu đó hay tạo ra những data giả bỏ vào những phần thiếu... Hoặc một số dòng chứa giá trị mà nếu dùng nó sẽ gây nên kết quả dư đoán không chính xác (outliner or noise), họ phải bỏ những dòng đó đi...

Một số project thú vị của Data Science

- Dựa trên dữ liệu danh sách hành khách (tên, tuổi, tình trạng gia đình ...) mà đoán được người nào còn sống trong vụ chìm tàu Titannic
https://www.kaggle.com/c/titanic-gettingStarted

- Dự đoán kết quả bầu cử tổng thống Mỹ: đoán chính xác kết quả 49 tiểu bang, sai ở Indiana với tỷ lệ 1%
http://en.wikipedia.org/wiki/Nate_Silver

- Đoán kết quả World Cup 2014. Data Scientist của Google và Microsoft đều đưa ra kết quả dự đoán. Tamvo link kết quả của google, thật ấn tượng, chỉ sai trận Đức và Pháp
http://googlecloudplatform.blogspot...rm-is-11-for-12-in-World-Cup-predictions.html


- Xử lý ngôn ngữ tự nhiên: Đây là project lớn của những công ty công nghệ hàng đầu của Mỹ. Một trong những mục đích của nó là tìm hiểu cổ ngữ... Từ hàng ngàn năm nay các nhà khảo cổ học tìm thấy rất nhiều ngôn ngữ của loại người mà hiểu được chúng vẫn còn là bí mật... nay con người có một lương lớn Big Data, người ta hy vọng tìm thấy những ký tự tương đương hay những mắc xích để nối kết những điểm rời rạc, từ đó giải mã và hiểu cỗ ngữ tìm được những nền văn minh đã mất của nhân loại mà theo dự đoán con người đã từng có một nền văn minh huy hoàng, rực rỡ, và rất tiến bộ... có thể hiện đại hơn chúng ta ngày nay...

- Dựa vào việc mua đồ của khách hàng, Target dự đoán được teenager mang bầu:
http://blogs.citypages.com/blotter/2012/02/target_coupons_inform_father_daughters_pregnancy.php

- Cuối cùng là một project mà Tamvo rất thích đó là Event. Dựa vào những dữ kiện thu thập được, người ta biết nơi nào đang có biểu tình hay chiến tranh, dự đoán được mức độ lan rộng hay những cuộc biểu tình đó có biến thành bạo động... Cũng từ đó những nhà đầu tư dự đoán được hàng hoá nào sẽ khan hiếm, tăng giá do sự gián đoạn cung cấp mà chuyển sự đầu tư, tăng lợi nhuận... Mời các bạn xem project GDELT

http://gdeltproject.org/

Tamvo tạm dừng ở đây, nếu các bạn có hứng thú, bài kế Tamvo sẽ nói về những kỹ năng cần có của data science, giới thiếu các bạn một số lớp tự học và cơ hội tìm việc trong lãnh vực mới .

(Mỏi tay quá, giờ phải đi ăn cái đã ) :)
hỏi thật lòng anh đừng ngại nha, anh có phải data scientist không? Hoặc có làm gì liên quan
 
We confirmed
Hạng B2
17/11/11
469
3.299
93
Mình đánh giá ko cao. Chỉ toàn "vẽ" nghe cho chuyên nghiệp chứ ko hiệu quả. Data có nhiều loại data. Làm sao phân biệt data thật hay data giả? Data đúng hay data sai?

Bầu cử Mỹ vừa rồi 10/10 đài truyền hình, 100/100 báo, 1000/1000 cuộc thăm dò đều khẳng định Clinton thắng. Cuối cùng kết quả ra sao thì mọi người biết rồi đó.
Anh chưa hiểu rõ về sự khác biệt giữa Big Data hay Data Analytic với Polls nên có thể nghĩ như vậy. 2 cái này khác nhau lắm ạ.
 
We confirmed
Hạng B2
17/11/11
469
3.299
93
Data cái mợ gì, học bảng tính bao nhiêu lăm, đứa kế toán viên mới ra trường nhìn hồ sơ báo cáo ngày, tuần, tháng quý thấy là muốn xỉu rồi... làm nửa tháng nghỉ chạy mất quần lun

Dât analysis giống như mấy bạn chơi game liên tục, sau 10 giờ nhìn ko ra thằng người, éo mê tí lào
Cái này suy nghĩ hơi chủ quan anh ạ. Những người giỏi mình biết thì lại rất cool chứ không như mọt.
Có 1 sự thật thế này, bất cứ ngành kỹ thuật nào, nếu muốn giỏi đều cần kỹ năng mềm về kiến thức kinh doanh. Những người đó mình thấy họ năng động lắm.
 
  • Like
Reactions: Fordescape
We confirmed
Hạng B2
17/11/11
469
3.299
93
Toán thống kê sơ đẳng hơn data science nhiều lắm bác, chỉ là môt trong các công cụ, nôm na một cách hình tượng thì toán thống kê là cái bánh, data science là cái xe ô tô.

Còn tên nó là data science nên đầu vào là data là rất quan trọng, như xăng, nếu xe không có xăng không chạy được.
Thật ra thì ngược lại 1 tí ạ. Bạn Data scientist sẽ giải quyết phần nền tảng, bạn toán thống kê “cấp cao” (nhấn mạnh chữ cấp cao) sẽ giúp chạy mô hình (modelling) và dự đoán (forecasting). 2 bạn này sẽ đi song song.
 
We confirmed
Hạng B2
17/11/11
469
3.299
93
Nói chung là cái đám đang xài nick @Meo Quay nên ngồi im và hóng trong cái thớt này

Người xưa nói đúng mà: điếc hay ngóng, ngọng hay nói, dốt hay bàn.....

Data scientist nói chung là 1 nhánh của ngành IT thôi, có nhiều: big data, data mining, ... mà cái này hiện tại bắt đầu bão hòa ( về số lượng người học và làm việc); mà nói chung học dốt và tính cách không hợp thì đừng nên nghĩ tới, bây giờ học cũng muộn rồi.

Giờ là thời của Al
Và là thời của machine learning. Nhưng mình thật sự chưa muộn. Học giờ vẫn kịp. AI và ML quá khó để áp dụng vào thực tế. Mình e là chỉ có cỡ Google mới thực hiện được ở thời điểm này.
 
Hạng F
2/3/14
12.223
128.881
113
Và là thời của machine learning. Nhưng mình thật sự chưa muộn. Học giờ vẫn kịp. AI và ML quá khó để áp dụng vào thực tế. Mình e là chỉ có cỡ Google mới thực hiện được ở thời điểm này.
Thực ra mình thấy còn khoảng trống rất lớn cho AI và ML ở Việt Nam, đặc biệt là ứng dụng trong NPL với tiếng Việt. Công ty multi tỷ đô mới nhất của China là về NPL tiếng Chinese. Làm được cái cho tiếng Việt thì chắc cũng kiếm được vài trăm triệu tới tỷ đô nếu bán cho Google.
 
  • Like
Reactions: We
We confirmed
Hạng B2
17/11/11
469
3.299
93
Thực ra mình thấy còn khoảng trống rất lớn cho AI và ML ở Việt Nam, đặc biệt là ứng dụng trong NPL với tiếng Việt. Công ty multi tỷ đô mới nhất của China là về NPL tiếng Chinese. Làm được cái cho tiếng Việt thì chắc cũng kiếm được vài trăm triệu tới tỷ đô nếu bán cho Google.
Không chỉ ở Vn mà ngay cả Mỹ và các nước khác nữa anh ạ. Tương lai đấy, mấy em sv mà học được mình đảm bảo an toàn về sự nghiệp.
 
  • Like
Reactions: Johnnie371
Hạng F
2/3/14
12.223
128.881
113
Dạ có em làm ở VN nè :))
Data scientist ở Việt Nam trong tư nhân áp dụng được cho banking, các công ty e-commerce lớn như tiki, lazada, các công ty nghiên cứu thị trường như nelson, các công ty viễn thông như viettel, các công ty xuất nhập khẩu, vv... nhiều lắm chứ không. Bác làm ứng dụng cụ thể cho mảng nào hay bác làm bên ai software