Chúng ta không có lợi thế và OpenAI cũng vậy
Bài viết được dịch bởi cộng đồng Symato
Tài liệu nội bộ của Google cho rằng trí tuệ nhân tạo nguồn mở sẽ vượt qua Google và OpenAI. Dịch từ bản gốc https://www.semianalysis.com/p/google-we-have-no-moat-and-neither
Văn bản dưới đây là một tài liệu vừa bị rò rỉ, được chia sẻ bởi một cá nhân ẩn danh trên máy chủ Discord công cộng. Nó bắt nguồn từ một nghiên cứu nội bộ của Google. Tài liệu này chỉ là ý kiến của một nhân viên Google, không phải toàn bộ công ty.
Chúng ta không có lợi thế và OpenAI cũng vậy
Chúng ta đã xem xét rất nhiều đối thủ OpenAI. Ai sẽ vượt qua cột mốc tiếp theo? Động thái tiếp theo của họ sẽ là gì?
Nhưng có một sự thật khó chịu là, chúng ta không có lợi thế để giành chiến thắng trong cuộc chạy đua một mất một còn này và OpenAI cũng vậy. Trong khi chúng ta còn đang tranh cãi, một phe thứ ba đã lặng lẽ vươn lên. Vâng, tôi đang nói về mã nguồn mở. Nói một cách chính xác hơn, họ đang đánh bại chúng ta. Những thứ mà chúng ta từng coi là “những vấn đề trọng yếu” thì đã được giải quyết và đã được phân phối đến mọi người rồi. Dưới đây là một vài ví dụ:
Mô hình ngôn ngữ lớn trên điện thoại: Mọi người có thể chạy các mô hình nền tảng trên Pixel 6 (People are running foundation models on a Pixel 6) với tốc độ 5 tokens / giây.
Cá nhân hóa AI: Cuối cùng thì bạn cũng có thể tinh chỉnh AI với dữ liệu cá nhân trên máy tính xách tay của mình trong một buổi chiều.
Phát hành có trách nhiệm: Trách nhiệm phát hành nội dung không phải là vấn đề ưu tiên hàng đầu. Hiện nay, có rất nhiều trang web cung cấp các mô hình sinh ảnh mà không có bất kỳ hạn chế nào, và các website cung cấp mô hình ngôn ngữ cũng vậy.
Đa phương thức: Hiện nay đã có thể huấn luyện bộ ScienceQA - Một mô hình đa phương thức tiên tiến nhất chỉ trong một giờ đồng hồ.
Mặc dù các mô hình của chúng ta vẫn giữ một chút lợi thế về chất lượng, nhưng khoảng cách đang thu hẹp nhanh chóng một cách đáng kinh ngạc. Các mô hình nguồn mở nhỏ hơn, chạy nhanh hơn, có thể tùy chỉnh nhiều hơn, riêng tư hơn và với cùng một lượng tham số - mô hình mở có nhiều năng lực hơn. Họ đã làm rất nhiều thứ chỉ với 100 đô la cho 13 tỷ tham số trong khi chúng ta đang phải vất vả tiêu tốn vớitới 10 triệu đô la cho 540 tỷ tham số. Và họ đã làm như vậy chỉ trong vài tuần, không phải vài tháng. Điều này có ý nghĩa hết sức sâu sắc đối với chúng ta:
Chúng ta không có công thức bí mật nào. Lựa chọn tốt nhất của chúng ta là học hỏi và cộng tác với những gì người khác đang làm. Chúng ta nên ưu tiên việc tích hợp với các bên thứ 3.
Mọi người sẽ không trả tiền cho một mô hình bị hạn chế khi đã có các lựa chọn thay thế miễn phí, không hạn chế và lại có chất lượng tương đương. Chúng ta nên xem xét lại giá trị gia tăng thực sự của chúng ta là ở đâu.
Các mô hình khổng lồ đang làm chúng ta chậm lại. Về lâu dài, các mô hình tốt nhất là những mô hình có thể được tái sử dụng một cách nhanh chóng. Chúng ta nên tạo ra các biến thể nhỏ hơn là đào tạo từ đầu, bởi chúng ta đã biết những gì mô hình tham số dưới 20 tỷ có thể làm được.
Chuyện gì đã xảy ra
Vào đầu tháng 3, cộng đồng nguồn mở đã lần đầu tiên chạm tay vào mô hình nền tảng (foundation model) thực sự, khi LLaMA của Meta bị rò rỉ ra công chúng. Nó không có hề được huấn luyện chỉ dẫn (làm các tác vụ) hoặc tùy chỉnh hội thoại, và không có RLHF (huấn luyện tăng cường dựa trên phản hồi của người dùng). Ngay lập tức, cộng đồng đã hiểu được ý nghĩa của những gì họ đã được trao cho.
Một làn sóng đổi mới to lớn đã trỗi dậy, giữa những phát triển lớn chỉ cách nhau vài ngày (xem dòng thời gian ở cuối bài viết để biết toàn bộ diễn biến). Tất cả đây rồi, chỉ sau một tháng, chúng ta đã thấy các biến thể với huấn luyện chỉ dẫn, lượng tử hóa, cải tiến chất lượng, mô hình đa phương tiện, RLHF, v.v.
Quan trọng nhất, họ đã giải quyết vấn đề scaling problem đến mức độ bất kỳ ai cũng có thể tự tiến hành các thử nghiệm. Nhiều ý tưởng mới đến từ người dùng bình thường. Rào cản gia nhập đào tạo và thử nghiệm đã giảm từ một tổ chức nghiên cứu lớn xuống còn chỉ một cá nhân, trong một buổi tối, với một máy tính xách tay mạnh.
Tại sao chúng ta có thể đã nhìn thấy điều này từ trước?
Theo nhiều cách, điều này không gây ngạc nhiên cho bất cứ ai. Sự trỗi dậy của mô hình ngôn ngữ lớn nguồn mở trở nên rất nóng như là sự tiếp nối sự trỗi dậy của các mô hình sinh ảnh. Những điểm tương đồng không bị mất đi trong cộng đồng, với nhiều người gọi đây là "Khoảnh khắc Stable Diffussion" cho các mô hình ngôn ngữ lớn.
Các mô hình mở chi phí thấp đã được phát triển dựa trên sự kết hợp bởi một cơ chế tinh chỉnh rẻ hơn rất nhiều được gọi là thích ứng cấp thấp, hoặc LoRA và kết hợp với một cơ chế đột phá về tối ưu kích thước mô hình (như mô hình khuếch tán tiềm ẩn để tổng hợp hình ảnh hay Chinchilla cho mô hình ngôn ngữ lớn). Trong cả hai trường hợp, việc tiếp cận với một mô hình nền tảng đủ tốt đã kích hoạt một loạt các ý tưởng và việc tái sử dụng lẫn nhau từ các cá nhân và tổ chức trên khắp thế giới. Trong cả hai trường hợp, nhóm mô hình mở đã nhanh chóng vượt xa những ông lớn.
Những đóng góp từ cộng đồng mã mở như trên đã tạo đột phá trong lĩnh vực sinh ảnh như hình thành hệ sinh thái tích hợp sản phẩm, mô hình chợ, giao diện người dùngvà không gian đổi mới sáng tạo, đưa Stable Diffusion lên một vị thế khác với Dall-E.
Và hệ quả chúng ta có thể cảm nhận được là sự thống trị nhanh chóng về số lượng người dùng so với giải pháp đóng của OpenAI và văn hóa sử dụng của hai mô hình ngày càng trở nên ngày càng khác biệt. Liệu điều tương tự có xảy ra đối với các mô hình ngôn ngữ lớn hay không vẫn còn phải xem xét, nhưng các yếu tố cấu trúc chung đều giống nhau.
Những gì chúng ta đã bỏ lỡ
Thành công từ những đổi mới của cộng đồng mã mở đã trực tiếp giải quyết các vấn đề mà chúng ta vẫn đang vật lộn. Chú ý nhiều hơn đến công việc của họ có thể giúp chúng ta tránh phải phát minh lại cái bánh xe.
LoRA là một kỹ thuật cực kỳ mạnh mẽ mà có lẽ chúng ta nên chú ý nhiều hơn
LoRA hoạt động bằng cách biểu diễn các bản cập nhật mô hình dưới dạng các yếu tố xếp hạng thấp (low-rank factorizations), giúp giảm kích thước của ma trận cập nhật lên đến vài nghìn lần. Điều này cho phép tinh chỉnh mô hình với một chi phí thấp và tốn ít thời gian hơn. Khả năng cá nhân hóa một mô hình ngôn ngữ trong vài giờ trên phần cứng của người tiêu dùng là một đột phá lớn, đặc biệt đối với các nhu cầu liên quan đến việc kết hợp kiến thức mới và đa dạng theo thời gian thực. Thực tế là công nghệ này đã tồn tại nhưng không được khai thác đúng mức tại Google, ngay cả khi nó ảnh hưởng trực tiếp đến một số dự án đầy tham vọng của chúng ta.
Đào tạo mô hình đầy đủ là con đường khó khăn
Giống như các hình thức tinh chỉnh khác, một phần khiến LoRA trở nên hiệu quả là nó có thể xếp chồng lên nhau. Các cải tiến như huấn luyện chỉ dẫn có thể được sử dụng lại khi những người khác thêm vào khả năng đối thoại, hoặc suy luận hoặc khả năng sử dụng công cụ. Mặc dù các tinh chỉnh riêng lẻ có thứ hạng thấp (low rank), nhưng tổng của chúng không nhất thiết phải như vậy, theo thời gian chúng dần được tích lũy để tạo ra các bản cập nhật thứ hạng đầy đủ (full-rank updates).
Điều này có nghĩa là khi các bộ dữ liệu và tác vụ mới tốt hơn trở nên có sẵn, mô hình có thể được cập nhật với giá rẻ mà không phải trả phí cho một lần huấn luyện lại đầy đủ.
Ngược lại, đào tạo các mô hình khổng lồ từ đầu không chỉ vứt bỏ việc huấn luyện trước, mà còn vứt bỏ mọi cải tiến lặp đi lặp đã được thực hiện trên đó. Trong thế giới nguồn mở, không mất nhiều thời gian trước khi những cải tiến này chiếm ưu thế, và làm cho việc đào tạo lại đầy đủ trở nên cực kỳ tốn kém.
Chúng ta nên cân nhắc xem liệu mỗi ứng dụng hoặc ý tưởng mới có thực sự cần một mô hình hoàn toàn mới hay không. Nếu chúng ta thực sự có những cải tiến lớn về kiến trúc ngăn cản việc sử dụng lại trực tiếp các trọng số của mô hình, thì chúng ta nên đầu tư vào các hình thức chắt lọc tích cực hơn cho phép chúng ta giữ lại các năng lực của mô hình trước nhiều nhất có thể.
Các mô hình lớn không có nhiều lợi thế nếu chúng ta có thể tái sử dụng nhanh các mô hình nhỏ
Chi phí huấn luyện các bản cập nhật LoRA rất rẻ cho các mô hình phổ biến hiện nay (~ $100). Điều này có nghĩa là bất kỳ ai có ý tưởng đều có thể tạo ra một mô hình và phân phối nó. Với tốc độ này, việc tích lũy năng lực của tất cả những tinh chỉnh sẽ sớm vượt qua sự bất lợi về kích thước khởi đầu. Thật vậy, tốc độ cải tiến các mô hình này vượt xa những gì chúng ta có thể làm với các biến thể lớn nhất của mình và những cải tiến tốt nhất đã gần như không thể phân biệt được với ChatGPT. Do vậy, việc tập trung duy trì một số mô hình kích thước lớn hiện nay thực sự khiến chúng ta gặp bất lợi.
Chất lượng dữ liệu quan trọng hơn kích thước dữ liệu
Nhiều dự án trong số này đang tiết kiệm thời gian bằng cách đào tạo trên các bộ dữ liệu nhỏ, được kiểm duyệt ở mức cao. Điều này cho thấy có một số linh hoạt trong luật mở rộng dữ liệu. Sự tồn tại của các bộ dữ liệu như vậy xuất phát từ việc dữ liệu không làm được những gì bạn muốn (Data Doesn't Do What You Think) và chúng nhanh chóng trở thành cách tiêu chuẩn để huấn luyện mô hình mở. Các bộ dữ liệu này được xây dựng bằng các phương pháp tổng hợp (ví dụ: lọc các phản hồi tốt nhất từ một mô hình hiện có) và thu thập từ các dự án khác, cả hai loại hình này đều không chiếm ưu thế tại Google. May mắn thay, các bộ dữ liệu chất lượng cao này là mã nguồn mở, vì vậy chúng được sử dụng miễn phí.
Sẽ thua cuộc nếu cạnh tranh trực tiếp với nguồn mở
Tiến bộ gần đây có ý nghĩa trực tiếp và ngay lập tức đối với chiến lược kinh doanh của chúng ta. Ai sẽ trả tiền cho một sản phẩm của Google bị hạn chế sử dụng nếu có một giải pháp thay thế miễn phí, chất lượng cao mà không bị giới hạn?
Và chúng ta có lẽ không thể bắt kịp. Internet chạy trên mã nguồn mở là có lý do của nó. Mã nguồn mở có một số lợi thế đáng kể mà chúng ta không thể sao chép.
Chúng ta cần họ nhiều hơn họ cần chúng ta
Giữ bí mật công nghệ luôn là một yêu cầu khó khăn. Các nhà nghiên cứu của Google đang gia nhập các công ty khác ngày càng nhiều, vì vậy có thể cho rằng họ biết mọi thứ chúng ta biết và sẽ tiếp tục cho đến khi hệ thống đó mở hoàn toàn.
Việc duy trì lợi thế cạnh tranh thậm chí còn trở nên khó khăn hơn khi giá thành để nghiên cứu mô hình ngôn ngữ lớn đã giảm đi đáng kể. Các tổ chức nghiên cứu trên toàn thế giới đang xây dựng dựa trên thành quả của nhau, khám phá không gian giải pháp theo chiều rộng vượt xa khả năng của chính chúng ta. Chúng ta có thể cố gắng giữ chặt bí mật của mình nhưng sự đổi mới bên ngoài đã làm giảm giá trị của chúng, có chăng chúng ta chỉ có thể cố gắng học hỏi lẫn nhau.
Các cá nhân không bị hạn chế bởi pháp lý ở cùng mức độ như các tập đoàn công nghệ
Phần lớn sự đổi mới này đang diễn ra nhờ mô hình bị rò rỉ từ Meta. Điều này chắc chắn sẽ kích thích các mô hình mở thực sự trở nên tốt hơn, nhưng vấn đề người dùng không phải chờ đợi. "Sử dụng vào việc cá nhân” một mô hình không có giấy phép thương mại sẽ là vỏ bọc pháp lý và sẽ không thực tế khi kiện các cá nhân đang sử dụng mô hình này, và điều đó có nghĩa là các cá nhân có quyền truy cập vào các công nghệ này khi chúng còn nóng hổi.
Tự làm khách hàng của mình có nghĩa là bạn hiểu rõ nhu cầu sử dụng
Duyệt qua các mô hình mà mọi người đang tạo trên các dịch vụ sinh hình ảnh, có vô số sự sáng tạo, từ trình tạo phim hoạt hình đến phong cảnh độ nét cao. Những mô hình này được sử dụng và tạo ra bởi những người đắm chìm sâu trong lĩnh vực có sự hiểu biết đặc thù của họ, với những kiến thức chuyên sâu và sự đồng cảm mà chúng ta không thể sánh được.
Sở hữu hệ sinh thái: Để nguồn mở làm việc cho chúng ta
Trớ trêu thay, người chiến thắng rõ ràng duy nhất trong tất cả những điều này lại là Meta. Bởi vì mô hình bị rò rỉ là của họ, họ đã thu được một cách hiệu quả giá trị lao động tự do của cả thế giới. Vì hầu hết đổi mới nguồn mở đang diễn ra trên kiến trúc của họ, nên không có gì ngăn cản họ tích hợp trực tiếp nó vào sản phẩm của mình.
Giá trị của việc sở hữu hệ sinh thái không nên được phóng đại. Bản thân Google đã sử dụng thành công mô hình này trong các dịch vụ nguồn mở của mình, như Chrome và Android. Bằng cách sở hữu nền tảng nơi sự đổi mới xảy ra, Google tự củng cố mình như một nhà lãnh đạo tư tưởng và người định hướng, kiếm được khả năng định hình những ý tưởng lớn lao.
Chúng ta càng kiểm soát chặt chẽ các mô hình của mình, chúng ta càng tạo ra các lựa chọn thay thế mở khác. Google và OpenAI đều tập trung phát hành các phiên bản một cách cẩn trọng cho phép họ giữ quyền kiểm soát chặt chẽ đối với cách sử dụng các mô hình của họ. Nhưng những kiểm soát này có thể chỉ là viển vông. Bất kỳ ai muốn sử dụng mô hình ngôn ngữ lớn cho các mục đích không được phép, họ chỉ việc chọn các mô hình có sẵn miễn phí.
Google nên tự khẳng định mình là người dẫn đầu trong cộng đồng nguồn mở, dẫn đầu bằng cách hợp tác, thay vì bỏ qua, và đối thoại rộng mở hơn. Điều này đồng nghĩa với việc cần thực hiện một số bước đi không thoải mái, chẳng hạn như công bố trọng số mô hình như Meta đã làm. Điều đó có nghĩa là chúng ta từ bỏ một số quyền kiểm soát đối với các mô hình. Sự thỏa hiệp này là không thể tránh khỏi. Chúng ta không thể hy vọng vừa thúc đẩy đổi mới vừa kiểm soát nó.
Lời kết: Còn OpenAI thì sao?
Tất cả cuộc nói chuyện này về nguồn mở có thể trở nên không công bằng khi mà OpenAI vẫn duy trì chính sách đóng của họ. Tại sao chúng ta phải chia sẻ, nếu họ sẽ không? Thực tế của vấn đề là, chúng ta đã chia sẻ mọi thứ với họ dưới hình thức các nhà nghiên cứu cấp cao bị tuyển dụng bởi họ một cách đều đặn. Nếu chúng ta không ngăn chặn được làn sóng tuyển dụng đó, việc giữ bí mật trở nên vô nghĩa.
Và cuối cùng, OpenAI không phải là vấn đề. Họ đang mắc phải những sai lầm tương tự như chúng ta trong vị thế của họ với nguồn mở, và cần phải đặt câu hỏi về khả năng duy trì lợi thế của họ. Các lựa chọn thay thế nguồn mở có thể và cuối cùng sẽ làm lu mờ họ trừ khi họ thay đổi lập trường. Về mặt này, ít nhất, chúng ta có thể thực hiện những thay đổi đầu tiên.
Dòng thời gian
24/02/2023 - LLaMA được ra mắt
Meta ra mắt LLaMA, mã nguồn mở, nhưng không công bố trọng số. Tại thời điểm này, LLaMA là mô hình chưa được huấn luyện chỉ dẫn hay tinh chỉnh hội thoại. Giống như nhiều mô hình hiện tại, nó là một mô hình tương đối nhỏ (bộ tham số 7 tỉ, 13 tỉ, 33 tỉ và 65 tỉ) đã được huấn luyện trong một khoảng thời gian tương đối lớn và do đó có năng lực cao so với kích thước.
03/2023 - Điều không thể tránh khỏi xảy ra
Trong vòng một tuần, LLaMA bị rò rỉ ra công chúng. Tác động đối với cộng đồng chưa thể lớn. Giấy phép hiện tại ngăn cản nó được sử dụng cho mục đích thương mại, nhưng đột nhiên bất cứ ai cũng có thể thử nghiệm. Từ thời điểm này trở đi, những đổi mới trở nên mạnh mẽ và nhanh chóng hơn.
12/03/2023 - Mô hình ngôn ngữ trên thiết bị đầu cuối
Hơn một tuần sau, Artem Andreenko làm cho mô hình hoạt động được trên Raspberry Pi. Tại thời điểm đó, mô hình chạy rất chậm và không thực tế. Tuy nhiên, điều này tạo tiền đề cho một đợt sóng nỗ lực tối ưu hóa mô hình cho thiết bị đầu cuối (laptop, smartphones …)
13/03/2023 - Tinh chỉnh trên máy tính xách tay
Stanford phát hành Alpaca, bổ sung thêm huấn luyện chỉ dẫn cho LLaMA. Tuy nhiên, quan trọng là bộ mã nguồn alpaca-lora của Eric Wang, có khả năng sử dụng tinh chỉnh cấp thấp (LoRA) để thực hiện việc huấn luyện này "trong vòng vài giờ trên một card màn hình dân dụng RTX 4090 duy nhất".
Vậy là giờ đây bất cứ ai cũng có thể tinh chỉnh mô hình để làm bất cứ điều gì, khởi động một cuộc đua xây dựng các dự án tinh chỉnh ngân sách thấp. Các bài nghiên cứu thi nhau tự hào mô tả tổng chi tiêu của họ chỉ vài trăm đô la. Hơn nữa, các bản cập nhật trọng số LoRA có thể được phân phối dễ dàng và tách biệt với trọng số ban đầu, khiến chúng ngày càng độc lập với giấy phép gốc từ Meta. Bất cứ ai cũng có thể chia sẻ và áp dụng chúng.
18/03/2023 - Bây giờ nó đã rất nhanh
Georgi Gerganov sử dụng lượng tử hóa 4 bit để chạy LLaMA trên CPU MacBook. Đây là giải pháp "không có GPU" đầu tiên đủ nhanh để chạy ứng dụng thực tế.
19/03/2023 - Một mô hình 13 tỉ tham số đạt được năng lực "ngang bằng" với Bard
Các sinh viên trường đại học hàng đầu của Mỹ cùng hợp tác phát hành Vicuna và sử dụng GPT-4 để cung cấp các so sánh định tính về đầu ra mô hình. Mặc dù phương pháp đánh giá còn nhiều điểm chưa thỏa đáng, nhưng mô hình này tốt hơn về mặt chi phí so với các biến thể trước đó. Chi phí đào tạo: $300.
Đáng chú ý, họ sử dụng những dữ liệu “tốt nhất” từ ChatGPT mà không tốn tiền chạy APIs bằng cách lấy những cuộc đối thoại "ấn tượng nhất" giữa ChatGPT và người dùng được đăng trên các trang web ShareGPT.
25/03/2023 - Chọn mô hình của riêng bạn
Nomic tạo ra GPT4All, vừa là mô hình vừa là hệ sinh thái. Lần đầu tiên, chúng ta thấy các mô hình (bao gồm cả Vicuna) được tập hợp lại với nhau. Chi phí đào tạo: $100.
28/03/2023 - Mã nguồn mở GPT-3
Cerebras đào tạo kiến trúc GPT-3 bằng cách sử dụng lịch trình tính toán tối ưu dựa trên Chinchilla và tỷ lệ tối ưu theo tham số hóa μ. Điều này vượt trội hơn các bản sao GPT-3 hiện có với biên độ rộng và thể hiện việc sử dụng tham số μ được xác nhận đầu tiên "trong tự nhiên". Các mô hình này được đào tạo từ đầu, có nghĩa là cộng đồng không còn phụ thuộc vào LLaMA.
28/03/2023 - Huấn luyện đa phương thức trong một giờ
Sử dụng kỹ thuật tinh chỉnh tham số hiệu quả mới, LLaMA-Adapter giới thiệu huấn luyện chỉ dẫn và đa phương thức trong một giờ huấn luyện. Thật ấn tượng, họ làm như vậy chỉ với 1.2M tham số. Mô hình này đạt được một kết quả tốt nhất với bộ dữ liệu ScienceQA đa phương thức.
13/03/2023 - Con người thực không thể phân biệt được sự khác biệt giữa mô hình mở 13B tham số và ChatGPT
Berkeley ra mắt Koala, một mô hình đối thoại được huấn luyện hoàn toàn bằng cách sử dụng dữ liệu có sẵn miễn phí.
Họ thực hiện bước quan trọng là đo lường sở thích thực tế của con người giữa mô hình của họ và ChatGPT. Mặc dù ChatGPT vẫn giữ một chút lợi thế, nhưng hơn 50% thời gian người dùng thích Koala hoặc không lựa chọn. Chi phí đào tạo: $100.
15/04/2023 - RLHF mã nguồn mở ở cấp độ ChatGPT
Open Assistant khởi chạy một mô hình và quan trọng hơn là một tập dữ liệu để hướng mô hình ngôn ngữ phục vụ người dùng tốt hơn thông qua RLHF. Mô hình của họ rất gần với ChatGPT (48,3% so với 51,7% người dùng lựa chọn). Ngoài LLaMA, họ chỉ ra rằng tập dữ liệu này có thể được áp dụng cho Pythia-12B, cho phép mọi người sử dụng một mô hình mở 100% để phát triển và chạy ứng dụng. Hơn nữa, vì bộ dữ liệu có sẵn công khai, nó khiến RLHF trở nên rẻ và dễ dàng cho các nhà thử nghiệm nhỏ.