Code phần Tiếng Việt cho ROBOT AI

lqkhoi · 22/10/20

kocochi nói:
Yêu cầu của anh chưa rõ nên khó tư vấn. Mảng này có 2 hướng:

Một là anh tự làm từ Y tới Z (A tới U thì lấy của anh khác ráp vô), nuôi đội Dev in-house ngồi code

Haiz là anh dùng những service có sẵn (Ví dụ như GG), việc còn lại là anh train cho nó ngữ cảnh và câu trả lời. Đội Dev in-house cho vụ này cũng cần, nhưng số lượng có thể ít hơn

Ngoài ra nếu anh muốn tự làm từ A tới Z thì anh kiếm các anh chuyên ngành Khoa học máy tính, Xử lý ngôn ngữ tự nhiên rồi bỏ tiền và thời gian vô

Dev và tool là 1 chuyện, quan trọng nhất là training data. FPT có nguyên cái VNExpress rất ổn nhưng do cấu trúc phân bổ của FPT nó như hạch dept này ko chơi dept kia nên dẫn đến chuyện VNExpress chỉ bắt đầu tagging các news kể từ năm 2015 trở về đây và bỏ sót nguyên 1 cái mảng data cũ. ko có training data thì xài cái con mẹ gì hay dev gì cũng khó.

VINAI nó có tương lai hứa hẹn nhất vì nó thỏa mãn tất cả những thứ sau đây:

1. Dev / code / alg toàn đại ca đại tẩu

2. Training data nó đè 70K Vin Staff ra đọc thấy mẹ và có cả KPI hẳn hoi là phải hoàn thành.

3. Output nó rất cần cho các ngành trong nhà của nó bao gồm Vinsmart, Vinfast và các nhánh tech.

Chứ framework cho cả speech synth lẫn speech recogn đầy trên mạng. Làm full NLP thì khó chứ vài trăm từ command như con robot mơ mộng của ảnh ko phải là chuyện khó.

Cái khó nhất là đám training data kiếm ở đâu ra mà thôi. chi phí data này sẽ là khổng lồ nếu phải build from scratch.

Một quốc gia hơn trăm trẹo dân, ngôn ngữ phổ thông thứ 20 thế giới mà đéch có 1 bộ Speech Recogn và Speech Synth ra hồn thì thiệt là đắng cái mề nhưng mần cái này cần sự kế thừa và hơp tác cũng như nhìn rất xa và lâu dài của dev/coder/ data processing/ media producer và cả những nhà ngôn ngữ học. Mà cái đó luôn là cái thiếu rất trầm trọng của VN nên đến giờ vẫn đếch có 1 cái gì đó ra hồn là chuyện hết sức dễ hiểu.

Comment từ 1 người đã đam mê món này từ những năm 9x và trông đợi mỏi mòn khi làm embedded lẫn smart home, luận văn tốt nghiệp ĐH là nhận dạng tiếng Việt sử dụng HMM ( mần được 50 chữ độ chính xác hơn 90%), đến giờ sau hơn 2x năm vẫn thấy SV tiếp tục làm đề tài và có độ chính xác cỡ cỡ mình lol

MYWEBCALLS · 22/10/20

kocochi nói:
Mời anh thẩm
Dân Trí

Cá nhân em thấy nó đọc hay hơn chị GG nhiều

cái này của FPT hả anh??? cách đây 1 năm thì em có thử vài câu ngắn thấy ko có ngon như vầy.

Long569 · 22/10/20

Có cần thêm cảm xúc/trí tuệ vào Robot hay không?
Chứ hỏi/trả lời...ông thầy Bắc trong trường KHTN làm được từ năm 2000 rồi...

netvn11 · 22/10/20

Mỏ Nhọn nói:
Nhà em có con Robot, xin nó 2 triệu đi cắm trại với cty, nó cứ nói đúng cái câu mỗi sáng nó nói: "100k tiền ngày của anh nè".

Giờ có phần mềm nào cho nó học câu mới hơn hông mí anh?

Anh truyền virus cho nó nhiều hơn mạnh hơn thông qua cổng giữa... anh sẽ khống chế được nó (em nghe mấy anh CNL nói zậy)

tuandq · 22/10/20

hknguyen nói:
Dễ.
Anh cứ đi nhậu về chửi nó thử xem.
Bữa sau sẽ là câu này "Bà đéo cho tiền nhá"

Mịa! Chửi nó được một câu thì không còn răng để ăn cháo!

tuandq · 22/10/20

netvn11 nói:
Anh truyền virus cho nó nhiều hơn mạnh hơn thông qua cổng giữa... anh sẽ khống chế được nó (em nghe mấy anh CNL nói zậy)

Anh bầy cách nào dễ hơn đi chứ vụ đó ngoài tầm với rồi!

firestorm · 22/10/20

Long569 nói:
Nói tiếng Huệ nó hiểu không anh? Bên nớ, bên ni...

Chỉ có 2 giọng Nam Bắc thôi.

kocochi · 22/10/20

lqkhoi nói:
Dev và tool là 1 chuyện, quan trọng nhất là training data. FPT có nguyên cái VNExpress rất ổn nhưng do cấu trúc phân bổ của FPT nó như hạch dept này ko chơi dept kia nên dẫn đến chuyện VNExpress chỉ bắt đầu tagging các news kể từ năm 2015 trở về đây và bỏ sót nguyên 1 cái mảng data cũ. ko có training data thì xài cái con mẹ gì hay dev gì cũng khó.

VINAI nó có tương lai hứa hẹn nhất vì nó thỏa mãn tất cả những thứ sau đây:

1. Dev / code / alg toàn đại ca đại tẩu

2. Training data nó đè 70K Vin Staff ra đọc thấy mẹ và có cả KPI hẳn hoi là phải hoàn thành.

3. Output nó rất cần cho các ngành trong nhà của nó bao gồm Vinsmart, Vinfast và các nhánh tech.

Chứ framework cho cả speech synth lẫn speech recogn đầy trên mạng. Làm full NLP thì khó chứ vài trăm từ command như con robot mơ mộng của ảnh ko phải là chuyện khó.

Cái khó nhất là đám training data kiếm ở đâu ra mà thôi. chi phí data này sẽ là khổng lồ nếu phải build from scratch.

Một quốc gia hơn trăm trẹo dân, ngôn ngữ phổ thông thứ 20 thế giới mà đéch có 1 bộ Speech Recogn và Speech Synth ra hồn thì thiệt là đắng cái mề nhưng mần cái này cần sự kế thừa và hơp tác cũng như nhìn rất xa và lâu dài của dev/coder/ data processing/ media producer và cả những nhà ngôn ngữ học. Mà cái đó luôn là cái thiếu rất trầm trọng của VN nên đến giờ vẫn đếch có 1 cái gì đó ra hồn là chuyện hết sức dễ hiểu.

Comment từ 1 người đã đam mê món này từ những năm 9x và trông đợi mỏi mòn khi làm embedded lẫn smart home, luận văn tốt nghiệp ĐH là nhận dạng tiếng Việt sử dụng HMM ( mần được 50 chữ độ chính xác hơn 90%), đến giờ sau hơn 2x năm vẫn thấy SV tiếp tục làm đề tài và có độ chính xác cỡ cỡ mình lol

Giờ lò đào tạo cốt đơ, lụm tiền tươi liền nó dễ hơn. Thấy cảnh anh thần ku lên CNL đăng bài tìm đề tài luận văn là hiểu.

azurika · 22/10/20

lqkhoi nói:
Dev và tool là 1 chuyện, quan trọng nhất là training data. FPT có nguyên cái VNExpress rất ổn nhưng do cấu trúc phân bổ của FPT nó như hạch dept này ko chơi dept kia nên dẫn đến chuyện VNExpress chỉ bắt đầu tagging các news kể từ năm 2015 trở về đây và bỏ sót nguyên 1 cái mảng data cũ. ko có training data thì xài cái con mẹ gì hay dev gì cũng khó.

VINAI nó có tương lai hứa hẹn nhất vì nó thỏa mãn tất cả những thứ sau đây:

1. Dev / code / alg toàn đại ca đại tẩu

2. Training data nó đè 70K Vin Staff ra đọc thấy mẹ và có cả KPI hẳn hoi là phải hoàn thành.

3. Output nó rất cần cho các ngành trong nhà của nó bao gồm Vinsmart, Vinfast và các nhánh tech.

Chứ framework cho cả speech synth lẫn speech recogn đầy trên mạng. Làm full NLP thì khó chứ vài trăm từ command như con robot mơ mộng của ảnh ko phải là chuyện khó.

Cái khó nhất là đám training data kiếm ở đâu ra mà thôi. chi phí data này sẽ là khổng lồ nếu phải build from scratch.

Một quốc gia hơn trăm trẹo dân, ngôn ngữ phổ thông thứ 20 thế giới mà đéch có 1 bộ Speech Recogn và Speech Synth ra hồn thì thiệt là đắng cái mề nhưng mần cái này cần sự kế thừa và hơp tác cũng như nhìn rất xa và lâu dài của dev/coder/ data processing/ media producer và cả những nhà ngôn ngữ học. Mà cái đó luôn là cái thiếu rất trầm trọng của VN nên đến giờ vẫn đếch có 1 cái gì đó ra hồn là chuyện hết sức dễ hiểu.
Comment từ 1 người đã đam mê món này từ những năm 9x và trông đợi mỏi mòn khi làm embedded lẫn smart home, luận văn tốt nghiệp ĐH là nhận dạng tiếng Việt sử dụng HMM ( mần được 50 chữ độ chính xác hơn 90%), đến giờ sau hơn 2x năm vẫn thấy SV tiếp tục làm đề tài và có độ chính xác cỡ cỡ mình lol

Em thấy 1 số source như Lạc Việt từ điển cũng khá ổn mà anh?
Hồi xưa lúc mới làm hệ thống lấy số thứ tự đọc, 1 anh bạn làm cái này kêu cũng móc được phát âm từ Lạc Việt có vẻ chuẩn nhất.
Sau này thì em cũng không để ý.
Tuy nhiên, phần STT vs TTS này mà có training data để cho Robot hiểu hết tất cả các ngữ điệu, giọng nói, phương ngữ chắc hơi khó nhỉ? Phải lấy lượng data khổng lồ.
À, em có thấy bên ARI cũng làm cái này. Có bác nào thử chưa nhỉ?

manchestervn · 22/10/20

9x mà anh @lqkhoi đã làm Hidden Markov Model rùi hả ? Vậy cũng là nhưng người tiên phong ơ VN làm về speech recognition rùi.

lqkhoi nói:
Dev và tool là 1 chuyện, quan trọng nhất là training data. FPT có nguyên cái VNExpress rất ổn nhưng do cấu trúc phân bổ của FPT nó như hạch dept này ko chơi dept kia nên dẫn đến chuyện VNExpress chỉ bắt đầu tagging các news kể từ năm 2015 trở về đây và bỏ sót nguyên 1 cái mảng data cũ. ko có training data thì xài cái con mẹ gì hay dev gì cũng khó.

VINAI nó có tương lai hứa hẹn nhất vì nó thỏa mãn tất cả những thứ sau đây:

1. Dev / code / alg toàn đại ca đại tẩu

2. Training data nó đè 70K Vin Staff ra đọc thấy mẹ và có cả KPI hẳn hoi là phải hoàn thành.

3. Output nó rất cần cho các ngành trong nhà của nó bao gồm Vinsmart, Vinfast và các nhánh tech.

Chứ framework cho cả speech synth lẫn speech recogn đầy trên mạng. Làm full NLP thì khó chứ vài trăm từ command như con robot mơ mộng của ảnh ko phải là chuyện khó.

Cái khó nhất là đám training data kiếm ở đâu ra mà thôi. chi phí data này sẽ là khổng lồ nếu phải build from scratch.

Một quốc gia hơn trăm trẹo dân, ngôn ngữ phổ thông thứ 20 thế giới mà đéch có 1 bộ Speech Recogn và Speech Synth ra hồn thì thiệt là đắng cái mề nhưng mần cái này cần sự kế thừa và hơp tác cũng như nhìn rất xa và lâu dài của dev/coder/ data processing/ media producer và cả những nhà ngôn ngữ học. Mà cái đó luôn là cái thiếu rất trầm trọng của VN nên đến giờ vẫn đếch có 1 cái gì đó ra hồn là chuyện hết sức dễ hiểu.

Comment từ 1 người đã đam mê món này từ những năm 9x và trông đợi mỏi mòn khi làm embedded lẫn smart home, luận văn tốt nghiệp ĐH là nhận dạng tiếng Việt sử dụng HMM ( mần được 50 chữ độ chính xác hơn 90%), đến giờ sau hơn 2x năm vẫn thấy SV tiếp tục làm đề tài và có độ chính xác cỡ cỡ mình lol

Code phần Tiếng Việt cho ROBOT AI

Tư vấn mua bán Ôtô

E-Gara - Bệnh Viện Ôtô

Du lịch

Bất động sản

Trên đường thiên lý