Cùng chung tay xây dựng ChatGPT tiếng Việt dữ liệu mở
Update: Xem các lý do cần thiết để xây dựng ChatGPT tiếng Việt dữ liệu mở tại đây. Và mục hỏi đáp ở cuối bài viết.
1/ Huu Nguyen là AI researcher và luật sư ở Mỹ, rất nổi tiếng trong cộng đồng làm open source AI trên toàn thế giới, một số dự án điển hình bạn ấy tham gia là xây dựng mô hình ngôn ngữ lớn BLOOM 176 tỉ tham số, Open Assistant (open source ChatGPT) ... Xem thêm ở đây https://www.linkedin.com/in/huu-ai-machine-learning
2/ Hiện tại bạn ấy lead 1 dự án open AI đa quốc gia (Mỹ + Âu + Nhật). Bạn ấy được các chính phủ cho sử dụng 5 cái siêu máy tính trong đó có Fugaku của nhật (siêu máy tính top #1 thế giới năm 2021).
3/ Mình đã nói chuyện với bạn ấy để được tư vấn về cách xây dựng một mô hình ngôn ngữ tốt cho tiếng Việt (để có thể xây dựng ứng dụng như ChatGPT trên đó) và rất may mắn vì đúng thời điểm bạn ấy có được siêu máy tính trong tay nên có thể giúp chúng mình xây dựng mộ mô hình ngôn ngữ mở cho tiếng Việt, với số lượng tham số có thể lên tới 15 tỉ, có khả năng hấp thụ được tới 4 TB dữ liệu (4000GB dữ liệu). Đổi lại bạn ấy cần mình sưu tập được lượng dữ liệu tiếng Việt đủ lớn tính bằng TB. Và tham gia tích cực trên nhóm cộng đồng quốc tế bạn ấy đang lead.
4/ Mình mong cộng đồng dù ít hay nhiều hãy chung tay với nhóm bọn mình để biến ước mơ Symato thành hiện thực, các bạn chỉ cần ủng hộ bằng lời nói, hoặc lan truyền tin tức này tới các tổ chức quan tâm, hoặc chỉ cho mình ở đâu có nguồn dữ liệu chuyên ngành tốt (toán, khoa học, luật, văn học, y tế ...) tất tần tật những kiến thức bổ ích bạn muốn mô hình học được. Hoặc cùng tham gia xây dựng tập dữ liệu với mình.
Computing và chuyên gia huấn luyện đã được hỗ trợ rồi. Giờ chỉ cần gom dữ liệu nữa thôi.
Liên hệ với mình tại:
Symato Discord https://discord.com/invite/fQ9ja2jBR9
Mời bạn thưởng thức một ứng dụng nho nhỏ sử dụng chatbots do cộng đồng Symato chế tạo (tác giả ứng dụng là Phong một Nghiên cứu sinh Trí tuệ nhân tạo Đại học 순천향, Hàn Quốc).
FAQ
A2: Mô hình sau khi huấn luyện xong sẽ có mở và thương mại hóa được không?
Q2: Cả bộ dữ liệu cũng như mô hình sau khi huấn luyện xong sẽ mở 100% và có thể thương mại hóa. License dự kiến là Apache 2. Đó là lý do mình chỉ nhận những dữ liệu mở hoặc đã được cấp phép để sử dụng mở.
A3: Có bao nhiêu mô hình được huấn luyện, số lượng tham số là bao nhiêu?
Q3: Sẽ có nhiều mô hình được xây dựng cho tiếng Việt, số lượng tham số phụ thuộc nhiều vào số lượng dữ liệu chúng ta thu thập được được. Mô hình đầu tiên 15 tỉ tham số sẽ được huấn luyện đa ngôn ngữ gồm 5 ngôn ngữ: code, Anh, Việt, Nhật, Phần Lan. Mỗi ngôn ngữ khoảng 500MB text. Mô hình này sẽ không tạo nhiều áp lực lên đội làm dữ liệu. Mô hình tiếp theo có thể chỉ là tiếng Việt (nếu đủ 4TB text) hoặc trộn tiếng Việt với tiếng Anh và code nếu không đủ, số lượng tham số chưa chốt.
A4: Dữ liệu text có cần được gán nhán không?
Q4: Dữ liệu chỉ cần ở dạng text / docx / epub / pdf, không cần gán nhãn vì ở bước tiền huấn luyện (pre-train) chung mô hình sẽ predict next token, next token chính là nhãn.
A5: Tại sao nói mô hình thuần Việt mà tùm lum nhiều ngôn ngữ thế?
Q5: A3Q3 đã nên rõ sẽ có nhiều mô hình được huấn luyện và nếu đủ dữ liệu sẽ huấn luyện 1 mô hình toàn dữ liệu tiếng Việt. Thực nghiệm chỉ ra rằng trộn 2 ngôn ngữ lại sẽ giúp mô hình có những năng lực tốt hơn. Ví dụ GTP-3.5 (hay ChatGPT) của OpenAI là trộn của code và human languages, điều đó giúp mô hình suy luận và trả lời các câu hỏi liên quan tới lập trình và logic tốt hơn hẳn. Ngoài code ta cũng nên huấn luyện chung với ngôn ngữ tiếng Anh để mô hình có khả năng hiểu tiếng Anh, và dịch Anh Việt, Việt Anh.
A6: Và cái tên Symato nghe chả thuần Việt tẹo nào cả!
Q6: Symato là tên nhóm chúng mình, không phải tên mô hình. Tên mô hình sẽ do cộng đồng cùng đặt.