Deepseek: Gã khổng lồ thầm lặng dẫn dắt nền công nghiệp AI Trung Quốc (Phần 1)

Deepseek: Gã khổng lồ thầm lặng dẫn dắt nền công nghiệp AI Trung Quốc (Phần 1)

Kiều Hồng Minh

Kiều Hồng Minh

Junior Analyst

11:20 28/01/2025

Bài phỏng vấn nhà sáng lập của DeepSeek, Liang Wenfeng, người đứng sau thành công của doanh nghiệp này.

DeepSeek, một doanh nghiệp AI của Trung Quốc, đã tạo ra một mô hình đánh bại mô hình của OpenAI, mô hình AI mạnh nhất ở thời điểm hiện tại, trên nhiều thông số. Dự án này tập trung vào việc xây dựng công nghệ nền tảng hơn là thương mại hóa, với cam kết chia sẻ công khai tất cả các mô hình của họ. Nó đã đơn phương bắt đầu cuộc chiến thị phần tại Trung Quốc với mức phí API rất phải chăng. Mặc dù vậy, Deepseek vẫn đủ khả năng tiếp tục mở rộng quy mô. Nhà tài trợ đứng đằng sau Deepseek là High-Flyer (幻方), một quỹ đầu cơ định lượng hàng đầu của Trung Quốc được định giá 8 tỷ USD, được sáng lập bởi Liang Wenfeng, người hiện là CEO của Deepseek. Với quyền truy cập vào các cụm máy tính của High-Flyer, doanh nghiệp này sẽ được hỗ trợ bởi hơn 50,000 GPU thuộc dòng NVDIA Hopper, sở hữu sức mạnh tính toán gấp nhiều lần so với con số 10,000 GPU A100 mà họ công khai.

Chiến lược của Deepseek dựa trên tham vọng xây dựng AGI, một dạng Siêu trí tuệ nhân tạo. Không giống như các quan điểm trước đây, sứ mệnh của Deepseek không đề cập đến sự an toàn, tính cạnh tranh hoặc lợi ích cho nhân loại, mà chỉ đơn thuần là "khám phá bí ẩn của AGI bằng sự tò mò thuần túy". Theo đó, phòng thí nghiệm đã tập trung vào nghiên cứu các cải tiến về kiến trúc dữ liệu và thuật toán có khả năng thay đổi cuộc chơi.

Deepseek đã mang đến một loạt các đột phá ấn tượng. Vào tháng 5/2024, trong bối cảnh AI liên tục phát triển, DeepSeek bất ngờ nổi lên với mô hình mã nguồn mở có tên là DeepSeek V2, cung cấp tỷ lệ mức giá/hiệu suất chưa từng có: chi phí suy luận của AI giảm xuống chỉ còn khoảng 1/7 so với chi phí của mô hình Llama3 70B và 1/70 chi phí của GPT-4 Turbo.

DeepSeek nhanh chóng được mệnh danh là “Pinduoduo của AI” và các gã khổng lồ công nghệ lớn khác như ByteDance, Tencent, Baidu và Alibaba lần lượt phải phải tham gia vào cuộc chiến về giá do doanh nghiệp này khởi xướng. Thế nhưng không giống như nhiều công ty lớn khác đang đốt tiền để giành lấy thị phần, DeepSeek vẫn có lãi.

Thành công này bắt nguồn từ sự đổi mới toàn diện của DeepSeek trong mô hình kiến trúc. Họ đã đề xuất sử dụng kiến trúc MLA (Multi-head Latent Attention) mới lạ giúp giảm mức sử dụng bộ nhớ xuống còn 5-13% so với kiến trúc MHA thường được sử dụng. Ngoài ra, cấu trúc DeepSeekMoESparse của họ cũng giúp giảm chi phí tính toán.

Ở Thung lũng Silicon, DeepSeek được biết đến với cái tên “lực lượng bí ẩn từ phương Đông”. Chuyên viên phân tích từ từ SemiAnalysis tin rằng các báo cáo về DeepSeek V2 “có thể là báo cáo hay nhất trong năm”. Cựu nhân viên của OpenAI, Andrew Carr, nhận thấy sự tuyệt vời của mô hình này và đã áp dụng thiết lập của V2 cho các mô hình của riêng mình. Và Jack Clark, cựu giám đốc chính sách tại OpenAI và đồng sáng lập Anthropic, tin rằng DeepSeek “đã thuê một nhóm thiên tài khó hiểu”, đồng thời cho biết thêm rằng các mô hình được sản xuất tại Trung Quốc “sẽ là một động lực phát triển tương tự như máy bay không người lái và ô tô điện”.

Trong làn sóng AI - nơi xu hướng phần lớn được thúc đẩy bởi Thung lũng Silicon - đây là một sự kiện hiếm hoi. Một số người trong ngành nói với chúng tôi rằng phản ứng mạnh mẽ này bắt nguồn từ sự đổi mới mạnh mẽ của kiến trúc dữ liệu, một điều hiếm hoi đối với các doanh nghiệp lớn trên toàn cầu đều đang nỗ lực tạo ra. Một nhà nghiên cứu AI cho biết kiến trúc Attention được tích hợp trên mô hình của DeepSeek hầu như không thể áp dụng thành công, chứ đừng nói đến việc thực hiện trên quy mô lớn, kể từ khi nó được đề xuất.

Mặt khác, các mô hình lớn của các doanh nghiệp Trung Quốc cũng hiếm khi có sự đổi mới về mặt kiến trúc, một phần là do niềm tin phổ biến rằng người Mỹ vượt trội về đổi mới kỹ thuật, trong khi người Trung Quốc vượt trội về đổi mới ứng dụng. Hơn nữa, đây là một hành động không có lãi - xét cho cùng, một thế hệ mô hình mới chắc chắn sẽ xuất hiện sau một vài tháng, vì vậy các công ty Trung Quốc chỉ cần làm theo và tập trung vào các ứng dụng liên quan Đổi mới kiến trúc mô hình tức là sẽ phải đối mặt với nhiều thất bại với mức chi phí đáng kể, cả về mặt thời gian và kinh tế.

DeepSeek rõ ràng đang đi ngược lại xu hướng. Giữa các quan điểm rằng công nghệ của mô hình lớn chắc chắn sẽ dần hội tụ và tạo ra một lối tắt thông minh hơn, DeepSeek coi trọng việc học hỏi và tích lũy được băng viêc đi “đường vòng” và tin rằng các doanh nghiệp của Trung Quốc có thể tham gia vào xu hướng đổi mới công nghệ trên toàn cầu thay vì chỉ đổi mới về mặt ứng dụng.

DeepSeek đang đi ngược lại với số đông. Cho đến nay, trong số bảy công ty khởi nghiệp lớn thuộc lĩnh vực mô hình lớn của Trung Quốc, đây là công ty duy nhất chỉ tập trung vào nghiên cứu và công nghệ. Đây cũng là công ty duy nhất chưa xem xét việc thương mại hóa, kiên quyết phát hành mã nguồn mở thay vì huy động vốn. Mặc dù những lựa chọn này thường khiến nó không được chú ý, nhưng DeepSeek thường xuyên nhận được sự quảng bá trong cộng đồng người dùng .

DeepSeek đã đạt được tất cả những điều này như thế nào? Chúng tôi đã phỏng vấn người sáng lập của DeepSeek, Liang Wenfeng, để tìm hiểu rõ hơn. Nhiều người trong ngành và các nhà nghiên cứu của DeepSeek nói với chúng tôi rằng Liang Wenfeng là một người rất hiếm trong ngành AI của Trung Quốc - một người “vừa có khả năng kỹ thuật cơ sở hạ tầng và khả năng lập mô hình mạnh mẽ, vừa có khả năng huy động nguồn lực”, ông “có thể đưa ra những đánh giá chính xác, ở cấp độ cao, đồng thời vẫn mạnh mẽ hơn các nhà nghiên cứu hàng đầu ”. Ông có một “khả năng học hỏi đáng kinh ngạc”, đồng thời, ông “hoàn toàn không giống một ông chủ mà giống một người đam mê công nghệ hơn.”

Phần 1: Phát súng đầu tiên của cuộc chiến giá cả tại Trung Quốc


Phóng viên: Sau khi DeepSeek V2 được phát hành, nó nhanh chóng gây ra một cuộc chiến giá cả khốc liệt trên thị trường mô hình lớn. Một số người nói rằng bạn đã trở thành người định hinh lại thị trường này. Liệu kết quả này có phải là một bất ngờ đối với bạn?

Liang Wenfeng: Rất bất ngờ. Chúng tôi không ngờ rằng giá cả lại nhạy cảm như vậy. Chúng tôi chỉ đang làm mọi việc theo cách của riêng mình, sau đó tính toán và đặt ra mức giá. Nguyên tắc của chúng tôi là không trợ cấp cũng như không kiếm lời quá nhiều. Mức giá này chỉ mang lại cho chúng tôi một khoản lợi nhuận nhỏ so với chi phí vận hành.

Phóng viên: Ngay sau đó, Zhipu AI đã bắt đầu hạ giá, tiếp theo là ByteDance, Alibaba, Baidu, Tencent và những doanh nghiệp khác.

Liang Wenfeng: Zhipu AI đã giảm giá của một sản phẩm cấp thấp, trong khi các mô hình tương đương với mô hình của chúng tôi vẫn còn đắt. ByteDance mới thực sự là người đầu tiên tham gia vào xu hướng nay, giảm giá mô hình hàng đầu của mình xuống bằng giá của chúng tôi, điều này sau đó đã kích thích các gã khổng lồ công nghệ khác hạ giá. Vì chi phí vận hành mô hình của các công ty lớn cao hơn nhiều so với chúng tôi, nên cuối cùng họ phải tham gia vào vòng xoáy đốt tiền để thu hút người dùng. Ngoài ra, việc "săn trộm" người dùng không phải là mục đích chính của chúng tôi. Chúng tôi cắt giảm giá thành vì, một mặt, chi phí của chúng tôi sẽ giảm khi kiến trúc mô hình thế hệ tiếp theo được phát triển, mặt khác, chúng tôi cũng cảm thấy rằng cả API và AI nên dễ tiếp cận với giá cả phải chăng đối với mọi người.

Phóng viên: Trước đó, hầu hết các công ty Trung Quốc sẽ sao chép trực tiếp kiến trúc Llama của thế hệ hiện tại cho các ứng dụng. Tại sao bạn bắt đầu từ việc đổi mới kiến trúc mô hình?

Liang Wenfeng: Nếu mục tiêu là tạo ra các ứng dụng, thì việc sử dụng cấu trúc Llama để triển khai sản phẩm nhanh chóng là hợp lý. Nhưng đích đến của chúng tôi là AGI, có nghĩa là chúng tôi cần nghiên cứu các cấu trúc mô hình mới để khai phá và phát triển khả năng của mô hình với nguồn lực hạn chế. Đây là một trong những lĩnh vực nghiên cứu cần thiết để mở rộng quy mô lên các mô hình lớn hơn. Và ngoài cấu trúc mô hình, chúng tôi đã thực hiện nghiên cứu sâu rộng trong các lĩnh vực khác, bao gồm xây dựng dữ liệu và làm cho mô hình giống con người hơn - tất cả đều đã được phản ánh trong các mô hình chúng tôi phát hành. Ngoài ra, việc sử dụng cấu trúc của Llama của các doanh nghiệp Trung Quốc đang tiêu tốn rất nhiều nguồn lực so với doanh nghiệp quốc tế, nếu xét trên phương diện hiệu quả đào tạo và chi phí suy luận.

Phóng viên: Tình trạng này nghĩa là sao?

Liang Wenfeng: Trước hết, đối với hiệu quả đào tạo. Chúng tôi ước tính rằng so với quốc tế, chúng ta phải tiêu tốn gấp đôi sức mạnh tính toán để đạt được kết quả tương tự. Ngoài ra, đối hiệu quả đào tạo dữ liệu, chúng ta phải tiêu tốn gấp đôi lượng dữ liệu đào tạo và sức mạnh tính toán để đạt được kết quả tương tự. Những gì chúng tôi đang cố gắng làm là tiếp tục thu hẹp những khoảng cách này.

Phóng viên: Hầu hết các công ty Trung Quốc đều chọn việc phát triển cả mô hình và ứng dụng. Tại sao DeepSeek lại chọn chỉ tập trung vào nghiên cứu và khám phá?

Liang Wenfeng: Bởi vì chúng tôi tin rằng điều quan trọng nhất bây giờ là tham gia vào làn sóng đổi mới toàn cầu. Trong nhiều năm, các công ty Trung Quốc đã quen với việc những người khác thực hiện đổi mới công nghệ, trong khi chúng tôi tập trung vào kiếm tiền từ ứng dụng - nhưng điều này không phải là không thể tránh khỏi. Trong làn sóng này, điểm xuất phát của chúng tôi không phải là tận dụng cơ hội để kiếm lợi nhuận nhanh chóng, mà là để đạt đến giới hạn kỹ thuật và thúc đẩy sự phát triển của toàn bộ hệ sinh thái. Chúng tôi tin rằng khi nền kinh tế phát triển, Trung Quốc nên dần dần trở thành người đóng góp thay vì người đi nhờ xe. Trong hơn 30 năm qua của làn sóng CNTT, về cơ bản chúng tôi không tham gia vào đổi mới công nghệ thực sự. Chúng tôi đã quen với việc Định luật Moore rơi từ trên trời xuống, nằm ở nhà chờ đợi 18 tháng để phần cứng và phần mềm tốt hơn xuất hiện.

Trên thực tế, đây là điều đã được tạo ra thông qua những nỗ lực không mệt mỏi của nhiều thế hệ cộng đồng công nghệ do phương Tây dẫn đầu. Chỉ vì trước đây chúng tôi không tham gia vào quá trình này nên chúng tôi đã bỏ qua sự tồn tại của nó.

Phần 2: Khoảng cách thực sự


Phóng viên: Tại sao DeepSeek V2 lại khiến nhiều chuyên gia ở Thung lũng Silicon ngạc nhiên đến vậy?

Liang Wenfeng: Trong số rất nhiều đổi mới đang diễn ra hàng ngày ở Hoa Kỳ, điều này khá bình thường. Họ ngạc nhiên vì đó là một công ty Trung Quốc tham gia trò chơi của họ với tư cách là người đóng góp đổi mới. Rốt cuộc, hầu hết các công ty Trung Quốc đều quen với việc làm theo chứ không phải đổi mới.

Phóng viên: Nhưng việc chọn đổi mới trong bối cảnh Trung Quốc hiện tại là một quyết định rất xa xỉ. Các mô hình lớn là một khoản đầu tư lớn và không phải tất cả các công ty đều có đủ vốn để chỉ nghiên cứu và đổi mới thay vì nghĩ đến việc thương mại hóa.

Liang Wenfeng: Chi phí R&D chắc chắn không hề thấp, và xu hướng vay mượn bừa bãi trong quá khứ cũng liên quan đến điều kiện trước đây của Trung Quốc. Nhưng bây giờ bạn thấy đấy, cho dù đó là quy mô kinh tế của Trung Quốc hay lợi nhuận của những gã khổng lồ như ByteDance và Tencent - thì không có gì là thấp so với tiêu chuẩn toàn cầu. Điều chúng tôi thiếu trong đổi mới chắc chắn không phải là vốn, mà là thiếu tự tin và kiến thức về cách xây dựng một tổ chức với lượng nhân tài ở mật độ cao nhằm đổi mới hiệu quả.

Phóng viên: Tại sao các công ty Trung Quốc - bao gồm cả những gã khổng lồ công nghệ lớn - lại mặc định coi thương mại hóa nhanh chóng là ưu tiên số 1 của họ?

Liang Wenfeng: Trong 30 năm qua, chúng ta chỉ nhấn mạnh việc kiếm tiền mà bỏ qua đổi mới. Đổi mới không hoàn toàn được thúc đẩy bởi yếu tố kinh doanh; nó cũng đòi hỏi sự tò mò và mong muốn sáng tạo. Chúng ta bị ràng buộc bởi những thói quen cũ, nhưng điều này gắn liền với một giai đoạn kinh tế cụ thể.

Phóng viên: Nhưng cuối cùng bạn là một tổ chức kinh doanh, không phải là một tổ chức nghiên cứu vì lợi ích cộng đồng - vậy bạn xây dựng lợi thế cạnh tranh của mình ra sao khi bạn chọn đổi mới và sau đó công khai toàn bộ những đổi mới của mình? Liệu kiến trúc MLA mà bạn phát hành vào tháng 5 có bị người khác sao chép một cách nhanh chóng không?

Liang Wenfeng: Khi đối mặt với các công nghệ đột phá, các "con hào" được tạo ra bởi mã nguồn đóng là tạm thời. Ngay cả phương pháp mã nguồn đóng của OpenAI cũng không thể ngăn cản người khác bắt kịp. Vì vậy, chúng tôi neo giá trị của mình vào yếu tố con người, tích lũy và hình thành một tổ chức có khả năng đổi mới và duy trì văn hóa đổi mới. Đó là con hào của chúng tôi.

Công khai các mã nguồn và phát hành các báo cáo, trên thực tế, không tốn kém gì cho chúng tôi. Đối với các nhân tài trong nhành kỹ thuật, việc có người khác làm theo sự đổi mới của bạn mang lại cảm giác thành tựu tuyệt vời. Trên thực tế, nguồn mở là một hành vi văn hóa hơn là một hành vi thương mại, và nó sẽ mang lại cho chúng ta sự tôn trọng của mọi người.

Phóng viên: Nhưng khi nói đến các mô hình lớn, vị trí dẫn đầu về yếu tố kỹ thuật thuần túy hiếm khi tạo thành một lợi thế tuyệt đối. Bạn đang đặt cược vào điều gì lớn hơn đúng không?

Liang Wenfeng: Điều chúng tôi thấy là AI của Trung Quốc không thể mãi đi sau các quốc gia khác. Chúng ta thường nói rằng có khoảng cách một hoặc hai năm giữa AI của Trung Quốc và Hoa Kỳ, nhưng khoảng cách thực sự là sự khác biệt giữa tính nguyên bản và sự bắt chước. Nếu điều này không thay đổi, Trung Quốc sẽ mãi mãi chỉ là kẻ theo sau - vì vậy một số tìm tòi và khám phá là cần thiết đối với vị thế của quốc gia

Vị trí dẫn đầu của Nvidia không chỉ dựa vào nỗ lực của một công ty mà là kết quả của toàn bộ cộng đồng kỹ thuật và ngành công nghiệp phương Tây cùng nhau làm việc. Họ thấy xu hướng công nghệ thế hệ tiếp theo và có một lộ trình trong tay. Sự phát triển AI của Trung Quốc cần một hệ sinh thái như vậy. Việc phát triển các con chip trong nước gặp khó khăn vì chúng thiếu cộng đồng kỹ thuật hỗ trợ.

ChinaTalk

Broker listing

Thư mục bài viết

Cùng chuyên mục

Năm 2025: Thị trường năng lượng chuyển mình như thế nào?
Thái Linh

Thái Linh

Junior Editor

Năm 2025: Thị trường năng lượng chuyển mình như thế nào?

Thị trường năng lượng đang chuẩn bị cho một năm 2025 có thể đầy biến động trong bối cảnh các xung đột toàn cầu đang diễn ra, sự thay đổi trong chính quyền Mỹ, những trở ngại tiềm tàng trong quá trình chuyển đổi năng lượng, các chính sách thương mại liên quan đến thuế quan và nhiều hạn chế về nguồn cung.
Triển vọng kinh tế 2025: Kinh tế toàn cầu vững vàng giữa làn sóng giảm tốc từ Trung Quốc (Phần 2)
Ngọc Lan

Ngọc Lan

Junior Editor

Triển vọng kinh tế 2025: Kinh tế toàn cầu vững vàng giữa làn sóng giảm tốc từ Trung Quốc (Phần 2)

Thị trường ngoại hối năm 2025 dự kiến sẽ chịu ảnh hưởng mạnh mẽ từ các chính sách hậu bầu cử Mỹ. Song song với điều này, các yếu tố nền tảng truyền thống của thị trường như sự khác biệt về chu kỳ kinh tế, chính sách tiền tệ và định giá cũng đóng vai trò then chốt.
Nhịp đập kinh tế: Tốc độ tăng trưởng của Mỹ và Canada vẫn "bứt phá", chưa có dấu hiệu chững lại
Thái Linh

Thái Linh

Junior Editor

Nhịp đập kinh tế: Tốc độ tăng trưởng của Mỹ và Canada vẫn "bứt phá", chưa có dấu hiệu chững lại

Thị trường lao động Canada kết thúc năm 2024 với kết quả ấn tượng. Nền kinh tế ghi nhận số lượng việc làm nhiều nhất mới trong gần hai năm qua, trong khi tỷ lệ thất nghiệp giảm và số giờ làm việc tăng mạnh, thúc đẩy sức mạnh nền kinh tế vào năm 2025.
Đồng USD mạnh lên trong bối cảnh những nghi ngờ về động lực cắt giảm lãi suất của Fed
Tuấn Hưng

Tuấn Hưng

Junior Analyst

Đồng USD mạnh lên trong bối cảnh những nghi ngờ về động lực cắt giảm lãi suất của Fed

Thị trường Hoa Kỳ tuần trước được định hình bởi hai chủ đề chính: sự không chắc chắn xung quanh các chính sách thương mại của chính quyền Hoa Kỳ sắp tới và tác động của dữ liệu kinh tế mạnh mẽ của Hoa Kỳ. Sự nhầm lẫn ban đầu của thị trường, do các tín hiệu mơ hồ liên quan đến thuế quan, đã tạo ra sự biến động đáng kể. Tuy nhiên, sự do dự này đã nhường chỗ cho sự rõ ràng khi dữ liệu mạnh mẽ của Hoa Kỳ khẳng định lại khả năng phục hồi của nền kinh tế, gây nghi ngờ về khả năng Fed sẽ cắt giảm lãi suất nhiều hơn vào năm 2025.
Báo cáo Kaiko Research tuần 2 tháng 1: Thị trường sau một năm ra mắt ETF BTC
Tuấn Hưng

Tuấn Hưng

Junior Analyst

Báo cáo Kaiko Research tuần 2 tháng 1: Thị trường sau một năm ra mắt ETF BTC

Bitcoin đóng cửa tuần trước ở mức thấp nhất trong hai tháng do báo cáo việc làm của Hoa Kỳ nóng hơn dự kiến. Trong tin tức khác, Bộ Tư pháp Hoa Kỳ đã chấp thuận bán 6.5 tỷ USD BTC, làm tăng thêm tâm lý tránh rủi ro. Tuần này, chúng ta sẽ tìm hiểu về BTC sau một năm xuất hiện ETF giao ngay, Bitcoin đang thu hút dòng tiền trú ẩn an toàn tại Hàn Quốc và khả năng chính phủ Hoa Kỳ tiếp tục bán BTC.
Forex Forecast - Diễn đàn dự báo tiền tệ