Bò Hóng
22/1/13
1.549
33.180
113
Đối với dân các nước tiên tiến hay những gia đình giàu có thì con họ thích môn gì hay có năng khiêu môn gì thì họ khuyến khích con họ học môn đó nhưng đối với các nước chậm tiến hay các gia đình nghèo thì việc định hướng cho con cái học ngành gì ngay từ bậc trung học là điều phải làm vì nếu không làm vậy sẽ có ngày đói . Lấy thí dụ như nhà nghèo có con học giỏi, con thích môn lịch sử mà mình vay mượn tiền gởi con đi du học ngành đó thì dù nó tốt nghiệp loại giỏi cũng khó mà giúp đở gia đình, bà con cô bác cho được . Khi mình nghèo thì phải thực tế , đó là điều mà mình thường thấy các gia đình nghèo Ấn Độ hay làm . Cần phải định hướng cho con phải có 1 cái nghề vững chắc, hái ra tiền, sau đó, khi có tiền thì thích học ngành gì thì ghi danh mà học .

Có những ngành hát ra tiền và danh giá mà người Á Châu đua nhau hướng con theo học như Y Khoa, Nha Khoa, Dược Khoa . Trong đó học về Dược dễ nhất : dễ xin vào (so với các ngành y khác), dễ ra trường và dễ học và nhất là dễ kiếm việc làm so với 2 ngành kia . Chuyện học mấy ngành đó đa số anh chị em trong OS đã biết . Hôm nay mình viết bài này giới thiệu một ngành mới đang cực "hot", hái ra rất nhiều tiền, mà ít người biết hơn . Đó là ngành Data Science . Đây là ngành hiện có rất ít trường đại học dạy, chỉ có mấy trường lớn và danh tiếng như MIT, Stanford, Berkeley, Harvard, CIT aka Caltech, etc mới có lớp chứ mấy trường nhỏ thì ngay cả các giáo sư trong trường cũng cảm thấy xa lạ .

Vậy Data Science là gi?

Data science là một ngành nghiên cứu về dữ liệu. Từ một đống data hỗn độn từng chừng như là rác vô nghĩa đó. Người ta sẽ collect những info có ý nghĩa (Data Analysis) từ đó tìm hiểu những gì đã xảy ra, hiểu được quá khứ.

Cũng từ một đống data hỗn độn, người ta cũng lấy được những info cần thiết, từ đó dự đoán được tương lai, chuyện gì sẽ xảy ra (Data Scientist).

Tại sao công việc về Data Science được xem là hấp dẫn nhất của thế kỷ ?

Đó là vì sự bùng nổ về dữ liệu. Số liệu từ 2011 cho thấy:
2 tỷ người dùng internet, 4.6 tỷ mobile phone đang được dùng trên thế giới. Số người và những thiết bị này hàng ngày đang tạo ra một số lượng data khổng lồ...
Chúng ta thử nhìn xem một số công ty khác ra sao:
Twitter mỗi ngày có thêm 7TB new data
Facebook: 10TB
Nasa thu thập hàng đêm qua kiếng thiên văn đến 30TB data của vũ trụ...

Ngoài ra còn biết bao data khác nữa như ebooks, các bài báo từ thế kỷ trước được các công ty truyền thông public online, các hình ảnh, âm thanh, phim, nhạc ... được tạo ra qua những thiết bị khác như sensor, camera, camcoder...

Lượng data này chính là tri thức của nhân loại mà con người mới chỉ khai thác một phần rất nhỏ.

Theo số liệu thống kê của những nhà nghiên cứu, số lượng data tăng theo bậc lũy thừa. Cứ sau 1 năm rưởi, con người lại có thêm một lượng data nhiều gấp đôi so với trước...

Lượng data không lồ này(còn gọi là Big Data) đến 80% là không có cấu trúc nên khó mà bỏ vô database truyền thống như trước đây. Ngoài ra việc xử lý data như upload data lên storage, download data xuống local, querry để tìm những info cần thiết cho những datasets thường từ vài chục TB đến Exabyte (1 EB = 1 Triệu TB) rất tốn thời gian(có khi cả tháng)... Cho nên một số kỷ thuật mới ra đời để đáp ứng được nhu cầu xử dụng... cũng từ đó mà có thêm một số công việc mới mà các bạn có thể biết hay nghe gần đây:

Hadoop: hệ thống server dùng chứa Big Data. Hadoop có hệ thống file system riêng(HDFS) và dùng kỷ thuật MapReduce để truy xuất big data. Lãnh vực này rất hot trong IT và job liên quan là Data WareHouse. Công việc chính là set up, maintain Hadoop và upload Big Data.


Hai công việc khác mà Tamvo có nói ở trên là Data Analyst và Data Scientist. Công việc 2 người này là Data mining, Data Visualization, Model machine learning... có nghĩa là họ biến lượng data khổng lồ, lộn xộn như rác đó thành có ý nghĩa, lấy những attribute của data sắp xếp thành từng bảng (cột, dòng)và vẽ nó thành những biểu đồ, hay phân loại sắp xếp nó để người khác có thể hiểu được, hoặc dự đoán những gì sẽ xãy ra... từ đó giúp những lãnh đạo cao cấp của công ty đinh hướng hoạt động hay đưa ra những quyết định...

Trong các hoạt động của data scientist thì đền 80% thời gian dùng để clean data. Lấy vi dụ như những table họ collect được thường không bao giờ đầy đủ, có dòng thiếu data cột này, cột kia... vậy họ sẽ bỏ những dòng thiếu đó hay tạo ra những data giả bỏ vào những phần thiếu... Hoặc một số dòng chứa giá trị mà nếu dùng nó sẽ gây nên kết quả dư đoán không chính xác (outliner or noise), họ phải bỏ những dòng đó đi...

Một số project thú vị của Data Science

- Dựa trên dữ liệu danh sách hành khách (tên, tuổi, tình trạng gia đình ...) mà đoán được người nào còn sống trong vụ chìm tàu Titannic
https://www.kaggle.com/c/titanic-gettingStarted

- Dự đoán kết quả bầu cử tổng thống Mỹ: đoán chính xác kết quả 49 tiểu bang, sai ở Indiana với tỷ lệ 1%
http://en.wikipedia.org/wiki/Nate_Silver

- Đoán kết quả World Cup 2014. Data Scientist của Google và Microsoft đều đưa ra kết quả dự đoán. Tamvo link kết quả của google, thật ấn tượng, chỉ sai trận Đức và Pháp
http://googlecloudplatform.blogspot...rm-is-11-for-12-in-World-Cup-predictions.html


- Xử lý ngôn ngữ tự nhiên: Đây là project lớn của những công ty công nghệ hàng đầu của Mỹ. Một trong những mục đích của nó là tìm hiểu cổ ngữ... Từ hàng ngàn năm nay các nhà khảo cổ học tìm thấy rất nhiều ngôn ngữ của loại người mà hiểu được chúng vẫn còn là bí mật... nay con người có một lương lớn Big Data, người ta hy vọng tìm thấy những ký tự tương đương hay những mắc xích để nối kết những điểm rời rạc, từ đó giải mã và hiểu cỗ ngữ tìm được những nền văn minh đã mất của nhân loại mà theo dự đoán con người đã từng có một nền văn minh huy hoàng, rực rỡ, và rất tiến bộ... có thể hiện đại hơn chúng ta ngày nay...

- Dựa vào việc mua đồ của khách hàng, Target dự đoán được teenager mang bầu:
http://blogs.citypages.com/blotter/2012/02/target_coupons_inform_father_daughters_pregnancy.php

- Cuối cùng là một project mà Tamvo rất thích đó là Event. Dựa vào những dữ kiện thu thập được, người ta biết nơi nào đang có biểu tình hay chiến tranh, dự đoán được mức độ lan rộng hay những cuộc biểu tình đó có biến thành bạo động... Cũng từ đó những nhà đầu tư dự đoán được hàng hoá nào sẽ khan hiếm, tăng giá do sự gián đoạn cung cấp mà chuyển sự đầu tư, tăng lợi nhuận... Mời các bạn xem project GDELT

http://gdeltproject.org/

Tamvo tạm dừng ở đây, nếu các bạn có hứng thú, bài kế Tamvo sẽ nói về những kỹ năng cần có của data science, giới thiếu các bạn một số lớp tự học và cơ hội tìm việc trong lãnh vực mới .

(Mỏi tay quá, giờ phải đi ăn cái đã ) :)

Mình đánh giá ko cao. Chỉ toàn "vẽ" nghe cho chuyên nghiệp chứ ko hiệu quả. Data có nhiều loại data. Làm sao phân biệt data thật hay data giả? Data đúng hay data sai?

Bầu cử Mỹ vừa rồi 10/10 đài truyền hình, 100/100 báo, 1000/1000 cuộc thăm dò đều khẳng định Clinton thắng. Cuối cùng kết quả ra sao thì mọi người biết rồi đó.
 
Hạng D
7/5/10
4.666
21.805
113
Hay quá anh, em cũng muốn đi theo còn đường này mà chưa biết bắt đầu như thế nào. Mong anh viết tiếp!
 
Hạng C
3/9/14
740
22.746
103
40
Anh cho hỏi du học Chuyên nhành XD Đảng thì nên học ở nước nào và chi phí cụ thể!
Cảm ơn!
Các thể loai ngành liên quan, muốn học lên cao học để về đứng lớp dạy , qua nc Mẹ hoc nha , và hoc bằng tiếng Nỉ hào ma lun nhen :D
 
Hạng C
7/2/17
668
67.339
93
Mình đánh giá ko cao. Chỉ toàn "vẽ" nghe cho chuyên nghiệp chứ ko hiệu quả. Data có nhiều loại data. Làm sao phân biệt data thật hay data giả? Data đúng hay data sai?

Bầu cử Mỹ vừa rồi 10/10 đài truyền hình, 100/100 báo, 1000/1000 cuộc thăm dò đều khẳng định Clinton thắng. Cuối cùng kết quả ra sao thì mọi người biết rồi đó.
Data là một chuyện, phân tích để ra kết quả là một chuyện.
Đang hóng coi lĩnh vực anh Tắm vợ nói đến cụ thể là làm gì.

Vì tui nghĩ sau này phân tích, lọc dữ liệu thật giả,... để có kết quả chắc phải dùng đến AI chứ không chỉ đơn thuần là thuật toán do con người viết ra nữa.
 
Bò Hóng
22/1/13
1.549
33.180
113
Mấy cháu qua bển tiếng anh tiếng u còn chưa ăn thua, ngồi ôm mớ data để phân tích thì liệu quá sức không nhỉ.

mấy anh mấy chị có con tống qua bển toàn thấy cho học Cô Léc Trường Làng rồi úp đết qua U ni vợt,... sau đó cho đi rửa chén, bấm máy thu tiền siêu thị vài năm hết visa về nước đóng đô ở mấy quán cà phê máy lạnh, phút cọt,... khoảng vài năm,... sau đó nhờ quan hệ của bố mẹ tống vào chỗ nào đó cho nó có việc làm, còn không thì xem gia đình có cái cửa hàng nào về ngồi bán, hay thuê cho cái mặt bằng + thêm đôi dăm tỷ làm cái xì ta úp, sau 2 năm đốt tiền cho mặt bằng và quảng cáo thì lại chuyển sang cái xì ta úp mới, còn chán quá thì lại qua bển làm cái mát tơ rồi về lại xì ta úp
 
Hạng C
9/6/08
868
5.935
93
Mấy cháu qua bển tiếng anh tiếng u còn chưa ăn thua, ngồi ôm mớ data để phân tích thì liệu quá sức không nhỉ.

mấy anh mấy chị có con tống qua bển toàn thấy cho học Cô Léc Trường Làng rồi úp đết qua U ni vợt,... sau đó cho đi rửa chén, bấm máy thu tiền siêu thị vài năm hết visa về nước đóng đô ở mấy quán cà phê máy lạnh, phút cọt,... khoảng vài năm,... sau đó nhờ quan hệ của bố mẹ tống vào chỗ nào đó cho nó có việc làm, còn không thì xem gia đình có cái cửa hàng nào về ngồi bán, hay thuê cho cái mặt bằng + thêm đôi dăm tỷ làm cái xì ta úp, sau 2 năm đốt tiền cho mặt bằng và quảng cáo thì lại chuyển sang cái xì ta úp mới, còn chán quá thì lại qua bển làm cái mát tơ rồi về lại xì ta úp
Sao mà xám xịt vậy Meo Quay
 
Bò Hóng
22/1/13
1.549
33.180
113
Sao mà xám xịt vậy Meo Quay

Gần như tất cả các con cháu của những người em biết đều có mẫu số chung như vậy hết bác ơi

Cứ mỗi lần nghe kể là lại nản hết cả ruột.


quan điểm của em thì cứ học chuyên sâu vào cái gì cần mà trong nước không có. Chứ học lông nhông về chả biết cắm vào đâu thì oải
 
Hạng F
2/3/14
12.223
128.881
113
Mình đánh giá ko cao. Chỉ toàn "vẽ" nghe cho chuyên nghiệp chứ ko hiệu quả. Data có nhiều loại data. Làm sao phân biệt data thật hay data giả? Data đúng hay data sai?

Bầu cử Mỹ vừa rồi 10/10 đài truyền hình, 100/100 báo, 1000/1000 cuộc thăm dò đều khẳng định Clinton thắng. Cuối cùng kết quả ra sao thì mọi người biết rồi đó.
Mèo hay bvy, biết rì về computer science mà chém :)

Riêng chuyện data này nói sâu thì nhiều thứ lắm. Chính xác là trong data có cả noise nữa, làm thế nào để lọc noise, và chuyện polling thì liên quan đến lấy sample nữa, chả nhẽ mình lại nói sâu về mấy vấn đề này cho người không hiểu computer như Mèo.