Hạng C
25/7/11
836
59.303
93
Yêu cầu của anh chưa rõ nên khó tư vấn. Mảng này có 2 hướng:
  • Một là anh tự làm từ Y tới Z (A tới U thì lấy của anh khác ráp vô), nuôi đội Dev in-house ngồi code
  • Haiz là anh dùng những service có sẵn (Ví dụ như GG), việc còn lại là anh train cho nó ngữ cảnh và câu trả lời. Đội Dev in-house cho vụ này cũng cần, nhưng số lượng có thể ít hơn
Ngoài ra nếu anh muốn tự làm từ A tới Z thì anh kiếm các anh chuyên ngành Khoa học máy tính, Xử lý ngôn ngữ tự nhiên rồi bỏ tiền và thời gian vô
Dev và tool là 1 chuyện, quan trọng nhất là training data. FPT có nguyên cái VNExpress rất ổn nhưng do cấu trúc phân bổ của FPT nó như hạch dept này ko chơi dept kia nên dẫn đến chuyện VNExpress chỉ bắt đầu tagging các news kể từ năm 2015 trở về đây và bỏ sót nguyên 1 cái mảng data cũ. ko có training data thì xài cái con mẹ gì hay dev gì cũng khó.

VINAI nó có tương lai hứa hẹn nhất vì nó thỏa mãn tất cả những thứ sau đây:

1. Dev / code / alg toàn đại ca đại tẩu

2. Training data nó đè 70K Vin Staff ra đọc thấy mẹ và có cả KPI hẳn hoi là phải hoàn thành.

3. Output nó rất cần cho các ngành trong nhà của nó bao gồm Vinsmart, Vinfast và các nhánh tech.

Chứ framework cho cả speech synth lẫn speech recogn đầy trên mạng. Làm full NLP thì khó chứ vài trăm từ command như con robot mơ mộng của ảnh ko phải là chuyện khó.

Cái khó nhất là đám training data kiếm ở đâu ra mà thôi. chi phí data này sẽ là khổng lồ nếu phải build from scratch.

Một quốc gia hơn trăm trẹo dân, ngôn ngữ phổ thông thứ 20 thế giới mà đéch có 1 bộ Speech Recogn và Speech Synth ra hồn thì thiệt là đắng cái mề nhưng mần cái này cần sự kế thừa và hơp tác cũng như nhìn rất xa và lâu dài của dev/coder/ data processing/ media producer và cả những nhà ngôn ngữ học. Mà cái đó luôn là cái thiếu rất trầm trọng của VN nên đến giờ vẫn đếch có 1 cái gì đó ra hồn là chuyện hết sức dễ hiểu.




Comment từ 1 người đã đam mê món này từ những năm 9x và trông đợi mỏi mòn khi làm embedded lẫn smart home, luận văn tốt nghiệp ĐH là nhận dạng tiếng Việt sử dụng HMM ( mần được 50 chữ độ chính xác hơn 90%), đến giờ sau hơn 2x năm vẫn thấy SV tiếp tục làm đề tài và có độ chính xác cỡ cỡ mình lol :D
 
Tập Lái
10/5/19
31
4.075
95
46
Có cần thêm cảm xúc/trí tuệ vào Robot hay không?
Chứ hỏi/trả lời...ông thầy Bắc trong trường KHTN làm được từ năm 2000 rồi...
 
  • Like
Reactions: azurika
Hạng C
9/2/12
814
20.315
93
Nhà em có con Robot, xin nó 2 triệu đi cắm trại với cty, nó cứ nói đúng cái câu mỗi sáng nó nói: "100k tiền ngày của anh nè".

Giờ có phần mềm nào cho nó học câu mới hơn hông mí anh?
Anh truyền virus cho nó nhiều hơn mạnh hơn thông qua cổng giữa... anh sẽ khống chế được nó (em nghe mấy anh CNL nói zậy) :D :D
 
  • Haha
Reactions: azurika
Lờ... đờ :-D
18/9/04
3.594
95.470
113
Dễ.
Anh cứ đi nhậu về chửi nó thử xem.
Bữa sau sẽ là câu này "Bà đéo cho tiền nhá" :D
Mịa! Chửi nó được một câu thì không còn răng để ăn cháo! :oops:
 
Lờ... đờ :-D
18/9/04
3.594
95.470
113
Anh truyền virus cho nó nhiều hơn mạnh hơn thông qua cổng giữa... anh sẽ khống chế được nó (em nghe mấy anh CNL nói zậy) :D:D
Anh bầy cách nào dễ hơn đi chứ vụ đó ngoài tầm với rồi! :D
 
  • Haha
Reactions: netvn11
Hạng C
23/7/13
513
14.003
93
Dev và tool là 1 chuyện, quan trọng nhất là training data. FPT có nguyên cái VNExpress rất ổn nhưng do cấu trúc phân bổ của FPT nó như hạch dept này ko chơi dept kia nên dẫn đến chuyện VNExpress chỉ bắt đầu tagging các news kể từ năm 2015 trở về đây và bỏ sót nguyên 1 cái mảng data cũ. ko có training data thì xài cái con mẹ gì hay dev gì cũng khó.

VINAI nó có tương lai hứa hẹn nhất vì nó thỏa mãn tất cả những thứ sau đây:

1. Dev / code / alg toàn đại ca đại tẩu

2. Training data nó đè 70K Vin Staff ra đọc thấy mẹ và có cả KPI hẳn hoi là phải hoàn thành.

3. Output nó rất cần cho các ngành trong nhà của nó bao gồm Vinsmart, Vinfast và các nhánh tech.

Chứ framework cho cả speech synth lẫn speech recogn đầy trên mạng. Làm full NLP thì khó chứ vài trăm từ command như con robot mơ mộng của ảnh ko phải là chuyện khó.

Cái khó nhất là đám training data kiếm ở đâu ra mà thôi. chi phí data này sẽ là khổng lồ nếu phải build from scratch.

Một quốc gia hơn trăm trẹo dân, ngôn ngữ phổ thông thứ 20 thế giới mà đéch có 1 bộ Speech Recogn và Speech Synth ra hồn thì thiệt là đắng cái mề nhưng mần cái này cần sự kế thừa và hơp tác cũng như nhìn rất xa và lâu dài của dev/coder/ data processing/ media producer và cả những nhà ngôn ngữ học. Mà cái đó luôn là cái thiếu rất trầm trọng của VN nên đến giờ vẫn đếch có 1 cái gì đó ra hồn là chuyện hết sức dễ hiểu.




Comment từ 1 người đã đam mê món này từ những năm 9x và trông đợi mỏi mòn khi làm embedded lẫn smart home, luận văn tốt nghiệp ĐH là nhận dạng tiếng Việt sử dụng HMM ( mần được 50 chữ độ chính xác hơn 90%), đến giờ sau hơn 2x năm vẫn thấy SV tiếp tục làm đề tài và có độ chính xác cỡ cỡ mình lol :D
Giờ lò đào tạo cốt đơ, lụm tiền tươi liền nó dễ hơn. Thấy cảnh anh thần ku lên CNL đăng bài tìm đề tài luận văn là hiểu.
 
  • Love
Reactions: netvn11 and azurika
Hạng D
22/2/10
1.807
125
63
Hòn Ngọc Viễn Đông
Dev và tool là 1 chuyện, quan trọng nhất là training data. FPT có nguyên cái VNExpress rất ổn nhưng do cấu trúc phân bổ của FPT nó như hạch dept này ko chơi dept kia nên dẫn đến chuyện VNExpress chỉ bắt đầu tagging các news kể từ năm 2015 trở về đây và bỏ sót nguyên 1 cái mảng data cũ. ko có training data thì xài cái con mẹ gì hay dev gì cũng khó.

VINAI nó có tương lai hứa hẹn nhất vì nó thỏa mãn tất cả những thứ sau đây:

1. Dev / code / alg toàn đại ca đại tẩu

2. Training data nó đè 70K Vin Staff ra đọc thấy mẹ và có cả KPI hẳn hoi là phải hoàn thành.

3. Output nó rất cần cho các ngành trong nhà của nó bao gồm Vinsmart, Vinfast và các nhánh tech.

Chứ framework cho cả speech synth lẫn speech recogn đầy trên mạng. Làm full NLP thì khó chứ vài trăm từ command như con robot mơ mộng của ảnh ko phải là chuyện khó.

Cái khó nhất là đám training data kiếm ở đâu ra mà thôi. chi phí data này sẽ là khổng lồ nếu phải build from scratch.

Một quốc gia hơn trăm trẹo dân, ngôn ngữ phổ thông thứ 20 thế giới mà đéch có 1 bộ Speech Recogn và Speech Synth ra hồn thì thiệt là đắng cái mề nhưng mần cái này cần sự kế thừa và hơp tác cũng như nhìn rất xa và lâu dài của dev/coder/ data processing/ media producer và cả những nhà ngôn ngữ học. Mà cái đó luôn là cái thiếu rất trầm trọng của VN nên đến giờ vẫn đếch có 1 cái gì đó ra hồn là chuyện hết sức dễ hiểu.
Comment từ 1 người đã đam mê món này từ những năm 9x và trông đợi mỏi mòn khi làm embedded lẫn smart home, luận văn tốt nghiệp ĐH là nhận dạng tiếng Việt sử dụng HMM ( mần được 50 chữ độ chính xác hơn 90%), đến giờ sau hơn 2x năm vẫn thấy SV tiếp tục làm đề tài và có độ chính xác cỡ cỡ mình lol :D

Em thấy 1 số source như Lạc Việt từ điển cũng khá ổn mà anh?
Hồi xưa lúc mới làm hệ thống lấy số thứ tự đọc, 1 anh bạn làm cái này kêu cũng móc được phát âm từ Lạc Việt có vẻ chuẩn nhất.
Sau này thì em cũng không để ý.
Tuy nhiên, phần STT vs TTS này mà có training data để cho Robot hiểu hết tất cả các ngữ điệu, giọng nói, phương ngữ chắc hơi khó nhỉ? Phải lấy lượng data khổng lồ.
À, em có thấy bên ARI cũng làm cái này. Có bác nào thử chưa nhỉ?
 
Hạng F
29/8/07
7.979
27.028
113
9x mà anh @lqkhoi đã làm Hidden Markov Model rùi hả ? Vậy cũng là nhưng người tiên phong ơ VN làm về speech recognition rùi.
Dev và tool là 1 chuyện, quan trọng nhất là training data. FPT có nguyên cái VNExpress rất ổn nhưng do cấu trúc phân bổ của FPT nó như hạch dept này ko chơi dept kia nên dẫn đến chuyện VNExpress chỉ bắt đầu tagging các news kể từ năm 2015 trở về đây và bỏ sót nguyên 1 cái mảng data cũ. ko có training data thì xài cái con mẹ gì hay dev gì cũng khó.

VINAI nó có tương lai hứa hẹn nhất vì nó thỏa mãn tất cả những thứ sau đây:

1. Dev / code / alg toàn đại ca đại tẩu

2. Training data nó đè 70K Vin Staff ra đọc thấy mẹ và có cả KPI hẳn hoi là phải hoàn thành.

3. Output nó rất cần cho các ngành trong nhà của nó bao gồm Vinsmart, Vinfast và các nhánh tech.

Chứ framework cho cả speech synth lẫn speech recogn đầy trên mạng. Làm full NLP thì khó chứ vài trăm từ command như con robot mơ mộng của ảnh ko phải là chuyện khó.

Cái khó nhất là đám training data kiếm ở đâu ra mà thôi. chi phí data này sẽ là khổng lồ nếu phải build from scratch.

Một quốc gia hơn trăm trẹo dân, ngôn ngữ phổ thông thứ 20 thế giới mà đéch có 1 bộ Speech Recogn và Speech Synth ra hồn thì thiệt là đắng cái mề nhưng mần cái này cần sự kế thừa và hơp tác cũng như nhìn rất xa và lâu dài của dev/coder/ data processing/ media producer và cả những nhà ngôn ngữ học. Mà cái đó luôn là cái thiếu rất trầm trọng của VN nên đến giờ vẫn đếch có 1 cái gì đó ra hồn là chuyện hết sức dễ hiểu.




Comment từ 1 người đã đam mê món này từ những năm 9x và trông đợi mỏi mòn khi làm embedded lẫn smart home, luận văn tốt nghiệp ĐH là nhận dạng tiếng Việt sử dụng HMM ( mần được 50 chữ độ chính xác hơn 90%), đến giờ sau hơn 2x năm vẫn thấy SV tiếp tục làm đề tài và có độ chính xác cỡ cỡ mình lol :D
 
  • Like
Reactions: truongngo1967