Dev và tool là 1 chuyện, quan trọng nhất là training data. FPT có nguyên cái VNExpress rất ổn nhưng do cấu trúc phân bổ của FPT nó như hạch dept này ko chơi dept kia nên dẫn đến chuyện VNExpress chỉ bắt đầu tagging các news kể từ năm 2015 trở về đây và bỏ sót nguyên 1 cái mảng data cũ. ko có training data thì xài cái con mẹ gì hay dev gì cũng khó.Yêu cầu của anh chưa rõ nên khó tư vấn. Mảng này có 2 hướng:
Ngoài ra nếu anh muốn tự làm từ A tới Z thì anh kiếm các anh chuyên ngành Khoa học máy tính, Xử lý ngôn ngữ tự nhiên rồi bỏ tiền và thời gian vô
- Một là anh tự làm từ Y tới Z (A tới U thì lấy của anh khác ráp vô), nuôi đội Dev in-house ngồi code
- Haiz là anh dùng những service có sẵn (Ví dụ như GG), việc còn lại là anh train cho nó ngữ cảnh và câu trả lời. Đội Dev in-house cho vụ này cũng cần, nhưng số lượng có thể ít hơn
VINAI nó có tương lai hứa hẹn nhất vì nó thỏa mãn tất cả những thứ sau đây:
1. Dev / code / alg toàn đại ca đại tẩu
2. Training data nó đè 70K Vin Staff ra đọc thấy mẹ và có cả KPI hẳn hoi là phải hoàn thành.
3. Output nó rất cần cho các ngành trong nhà của nó bao gồm Vinsmart, Vinfast và các nhánh tech.
Chứ framework cho cả speech synth lẫn speech recogn đầy trên mạng. Làm full NLP thì khó chứ vài trăm từ command như con robot mơ mộng của ảnh ko phải là chuyện khó.
Cái khó nhất là đám training data kiếm ở đâu ra mà thôi. chi phí data này sẽ là khổng lồ nếu phải build from scratch.
Một quốc gia hơn trăm trẹo dân, ngôn ngữ phổ thông thứ 20 thế giới mà đéch có 1 bộ Speech Recogn và Speech Synth ra hồn thì thiệt là đắng cái mề nhưng mần cái này cần sự kế thừa và hơp tác cũng như nhìn rất xa và lâu dài của dev/coder/ data processing/ media producer và cả những nhà ngôn ngữ học. Mà cái đó luôn là cái thiếu rất trầm trọng của VN nên đến giờ vẫn đếch có 1 cái gì đó ra hồn là chuyện hết sức dễ hiểu.
Comment từ 1 người đã đam mê món này từ những năm 9x và trông đợi mỏi mòn khi làm embedded lẫn smart home, luận văn tốt nghiệp ĐH là nhận dạng tiếng Việt sử dụng HMM ( mần được 50 chữ độ chính xác hơn 90%), đến giờ sau hơn 2x năm vẫn thấy SV tiếp tục làm đề tài và có độ chính xác cỡ cỡ mình lol