Symato là ai?

Symato là một nhóm các nhà nghiên cứu và phát triển yêu tiếng Việt, chung tay phát triển mô hình ngôn ngữ lớn và công nghệ chatbot tiếng Việt. Được thành lập vào tháng 2/2023, tới cuối tháng 8/2023 nhóm đã có hơn 700 thành viên. Thành quả hợp tác là các chatbot tiếng Việt tự nghiên cứu và phát triển đang được triển khai nội bộ tại kênh #gpt4vn của nhóm https://discord.gg/fQ9ja2jBR9 Lưu ý chatbot đang trong giai đoạn thử nghiệm và có thể đưa ra những thông tin sai lệnh. Mọi ý kiến đóng góp xin gửi về dung @ symato.xyz

Symato hướng tới điều gì?

Symato muốn làm được ChatGPT cho tiếng Việt, trở thành cộng động lớn mạnh về mô hình ngôn ngữ và trí tuệ nhân tạo, cung cấp các mô hình ngôn ngữ mở, các tài nguyên chung và nguồn nhân lực tốt nhất cho các startups liên quan tới trí tuệ nhân tạo và mô hình ngôn ngữ tiếng Việt. Cụ thể:

  1. Hiểu và làm chủ công nghệ

    Học hỏi từ mã nguồn mở, mô hình mở và làm chủ công nghệ tiên tiến nhất này để tự chủ về trí tuệ nhân tạo.

  2. Bài toán đặc thù

    Bộ gõ tiếng Việt, làm thơ, những dự án cần bảo mật dữ liệu … những bài toán mà người Việt không làm thì không ai làm cho người Việt

  3. Khả năng khởi nghiệp

    Hiện tại trí tuệ nhân tạo là chủ để rất nóng, bạn có thể dùng OpenAI APIs để làm ứng dụng cho tiếng Việt, đó là con đường nhanh nhất để ra sản phẩm. Về lâu dài, việc làm chủ công nghệ và tự xây dựng được mô hình sẽ giúp giảm chi phí, có lợi thế riêng và làm được những việc mà OpenAI không cung cấp.

  4. Hợp tác để thành công

Mô hình ngôn ngữ lớn và trí tuệ nhân tạo là sân chơi quá lớn, cần rất nhiều nguồn lực mà không một tổ chức nào có thể khẳng định chúng tôi làm chủ được cuộc chơi. Hợp tác là con đường ngắn nhất dẫn tới thành công. Chúng ta có thể kết hợp trong rất nhiều cách, làm dự án, viết báo, cùng nhau trao đổi để phát triển ý tưởng (để phát triển một ý tưởng tốt cần rất nhiều sự nhào nặn và kiểm chứng) …

Mục đích lớn hơn chúng tôi muốn làm là huy động lượng lớn dữ liệu và sức mạnh tính toán để xây dựng mô hình ngôn ngữ lớn thuần Việt đủ tốt và đủ phong phú. Chúng tôi muốn mở toàn bộ

  • Dữ liệu

  • Cách lọc và xử lý dữ liệu sao hiệu quả nhất với tiếng Việt

  • Kiến trúc mô hình

  • Quy trình huấn luyện, và 

  • Mô hình sau khi đã huấn luyện

Để cộng đồng có một nền tảng tốt để, tự tinh chỉnh mô hình, triển khai các ứng dụng, và khởi nghiệp dựa trên các tài nguyên chất lượng.

“Tiếng Việt là ngôn ngữ phổ biến thứ 20, dữ liệu tiếng Việt trên Internet chiếm vị trí thứ 10 trong vài trăm ngôn ngữ trên thế giới. Một ngôn ngữ phổ biến, lượng dữ liệu trên Internet dồi dào, một kỷ nguyên trí tuệ nhân tạo đang thay đổi cách con người làm việc với máy tính đang diễn ra trước mắt chúng ta. Sự phổ biến và sơ khai này là một cơ hội rất tốt để làm những gì mới mẻ, thú vị. Hãy cùng nhau làm một cái gì đó hữu ích cho ngôn ngữ mẹ đẻ và cho cộng đồng người Việt Nam.” — một người yêu AI và yêu tiếng Việt.