ChatGPT não não AI là gì? Phân tích các linh kiện chính do các nhà sản xuất Đài Loan cung cấp.

Mỗi khi bạn đặt câu hỏi cho ChatGPT, những câu trả lời nhanh chóng trong vài giây thực sự là nhờ vào khả năng xử lý tốc độ cao của máy chủ AI. Một tủ máy có giá lên tới 3 triệu USD thường được cấu hình với nhiều máy chủ AI. Khi phân tích các thành phần chính của nó, bao gồm GPU, CPU, bộ nhớ HBM, bo mạch chủ, nguồn điện, hệ thống làm mát và vỏ máy. Dù hiện nay máy chủ AI chỉ chiếm chưa đầy 10% tổng lượng máy chủ xuất xưởng, nhưng vào năm 2026, con số này có khả năng đạt 15%. Đài Loan sản xuất 90% máy chủ AI toàn cầu và đóng vai trò quan trọng trong các thành phần chính.

Máy chủ AI là gì?

Máy chủ AI được xây dựng dành riêng cho việc xử lý các khối lượng công việc AI, như thị giác máy tính, bot trò chuyện và AI sinh, nhằm giải quyết những bài toán huấn luyện và suy diễn AI phức tạp. Chúng sử dụng một hệ thống tính toán tiên tiến, được trang bị phần cứng chuyên dụng hiệu năng cao để xử lý một lượng lớn dữ liệu.

Sự khác biệt giữa máy chủ AI và máy chủ đa năng?

Máy chủ đa năng: chủ yếu được sử dụng để lưu trữ và xử lý dữ liệu, trang bị CPU, bộ nhớ RAM và ổ cứng HDD hoặc SSD.

Máy chủ AI: chủ yếu thực hiện các phép toán phức tạp và tốc độ cao, thường được trang bị GPU, TPU, hoặc các chip ứng dụng đặc biệt (ASIC) và chip FPGA. Chúng sử dụng bộ nhớ băng thông cao (HBM) và công nghệ lưu trữ NVMe.

Xét về chi phí, máy chủ đa năng có mức giá từ vài chục đến vài trăm triệu đồng, với máy chủ x86 có chi phí khoảng 10.000 USD. Theo ước tính của Raymond James Securities, chi phí cho một GPU NVIDIA H100 là khoảng 3.320 USD, điều này có nghĩa là một máy chủ AI trang bị 8 GPU NVIDIA H100 có chi phí khoảng 26.560 USD.

Tại sao NVIDIA lại chiếm ưu thế trong lĩnh vực AI?

GPU là trung tâm của máy chủ AI, trong khi NVIDIA là một trong những nhà sản xuất GPU lớn nhất thế giới và sở hữu chiến lược tích hợp phần mềm và phần cứng dành riêng cho AI. So với GPU thông thường, GPU trung tâm dữ liệu của NVIDIA được tối ưu hóa hoàn toàn cho hiệu năng AI.

NVIDIA hầu như phát hành phiên bản kiến trúc mới mỗi hai năm, bao gồm Fermi, Kepler, Maxwell, Pascal, Volta, Ampere, Hopper, Blackwell, trong đó dòng sản phẩm Blackwell mới nhất được gọi là “kiến trúc thế hệ thứ 8”, không ngừng cải thiện hiệu suất huấn luyện AI và hỗ trợ các công nghệ AI mới nhất.

Chip Blackwell của NVIDIA

Chip Blackwell thế hệ thứ 8 của NVIDIA, bao gồm B100, được thiết kế đặc biệt cho tính toán hiệu năng cao (HPC) và suy diễn AI. B200 là phiên bản nâng cấp từ B100, cung cấp hiệu suất tính toán và hiệu năng năng lượng cao hơn, trong khi B200A dựa trên chip B102 với thiết kế một chip duy nhất, phù hợp cho thị trường Trung Quốc.

Sản phẩm cao cấp hơn là GB200 kết hợp hai GPU B200 với một CPU Grace, và trong thiết kế quy mô tủ, kết nối 36 chip GB200 siêu mạnh, bao gồm 72 GPU Blackwell và 36 CPU Grace, phù hợp cho các công việc huấn luyện và suy diễn AI quy mô lớn với hệ thống GB200 NVL72.

Phân tích chuỗi cung ứng máy chủ AI

Đối với hệ thống GB200 NVL72 của NVIDIA, giá bán là 3 triệu USD và nặng từ 1-2 tấn. Khi phân tích các thành phần chính, bao gồm GPU, CPU, bộ nhớ HBM, bo mạch chủ, nguồn điện, hệ thống làm mát và vỏ máy, các nhà sản xuất chủ yếu sẽ được đặt tại Đài Loan, Việt Nam, sản xuất bo mạch L6 và xuất khẩu sang Mexico để lắp ráp L10, sau đó vận chuyển máy chủ hoàn chỉnh đến Mỹ.

Giá của GB200 NVL72 rất cao, chủ yếu là do chip siêu mạnh GB200 có giá từ 60.000 đến 70.000 USD, và toàn bộ hệ thống tủ cần kết nối 36 chip, chiếm khoảng 80% tổng giá. Chuỗi cung ứng bao gồm TSMC, ASE, Kioxia, TWNE, Nanya, Delta, Double Win, Chi Hwang, Foxconn, Quanta, và Wistron.

Đối với máy chủ GB200, các tổ chức cho biết Quanta và Foxconn là hai nhà cung cấp lớn nhất, mỗi công ty chiếm hơn 35% thị phần, sau đó là Wistron. Theo kế hoạch mở rộng CoWoS-L, dự kiến trong năm 2024 chỉ có một lượng nhỏ GB200 được giao hàng, nhưng từ quý đầu năm sẽ tăng lên hàng trăm tủ mỗi tháng, sau đó sẽ tăng theo từng quý cho đến khi mỗi nhà sản xuất có thể giao hàng hàng nghìn tủ, cho thấy đang bước vào giai đoạn sản xuất thực sự.

Máy chủ AI L1 đến L12 là gì?

Máy chủ AI L1 đến L12 đề cập đến các giai đoạn sản xuất mà các nhà máy hợp tác phát triển, trong đó L6, L10, L11, L12 là các giai đoạn sản xuất mà các nhà máy lắp ráp tại Đài Loan thường tham gia. Những giai đoạn này thường có tính kỹ thuật cao hơn, cho thấy năng lực cạnh tranh mạnh mẽ, có thể cung cấp các giải pháp toàn diện cho khách hàng đám mây, chẳng hạn như Foxconn, Quanta, và Wistron.

L1: sản xuất linh kiện, bao gồm cả linh kiện không sơn và sản xuất khuôn linh kiện
L2: lắp ráp linh kiện
L3: lắp ráp các linh kiện điện tử vào trong vỏ máy
L4: tất cả L3 đi kèm bộ nguồn, dây cáp phẳng mềm và bảng điều khiển
L5: tất cả L4 kết nối với các linh kiện vỏ máy, tích hợp cáp và trải qua bài kiểm tra I/O
L6: tích hợp bo mạch chủ và thực hiện kiểm tra nguồn điện, trở thành “hệ thống máy chủ chuẩn”
L7: tích hợp card bổ sung vào hệ thống máy chủ chuẩn và thực hiện kiểm tra nguồn điện
L8: tích hợp ổ đĩa vào hệ thống máy chủ chuẩn và thực hiện kiểm tra nguồn điện
L9: tích hợp CPU và bộ nhớ vào hệ thống máy chủ chuẩn và thực hiện kiểm tra nguồn điện
L10: hoàn tất lắp ráp máy chủ và thực hiện bài kiểm tra toàn hệ thống và cấp độ linh kiện, bao gồm hệ điều hành và tích hợp phần mềm giao hàng
L11: lắp ráp node, kiểm tra và tải hệ điều hành, sau đó lắp ráp vào tủ mạng hoàn chỉnh để thử nghiệm
L12: lắp ráp nhiều tủ từ một tủ L11 duy nhất, bao gồm cả phần mềm hoàn chỉnh, xác thực và tối ưu hóa tất cả mạng

Từ góc độ đơn vị lắp ráp, Inventec chiếm 60% thị phần ở giai đoạn tích hợp bo mạch chính L6, là một trong những nhà cung cấp bo mạch máy chủ AI hàng đầu thế giới, trong khi Quanta chiếm 20% thị phần ở giai đoạn L6, đồng thời tích cực mở rộng vào các giai đoạn L10, L11 và L12. Foxconn cung cấp giải pháp tích hợp một cửa từ giai đoạn L10 đến L12, bao gồm cả việc lắp ráp máy chủ và quy trình giao hàng toàn bộ.

Cải tiến mới GB300

Đối với tủ GB300, các linh kiện so với GB200 được sản xuất bằng quy trình 4NP của TSMC, hiệu suất tính toán cao hơn 50% so với dòng B200. Bộ nhớ HBM3E 12-Hi cung cấp 288GB dung lượng và băng thông 8TB/s, hỗ trợ xử lý khối lượng lớn hơn và chuỗi dài hơn.

Mạng hiệu suất cao 800G ConnectX-8 NIC cung cấp băng thông gấp đôi theo chiều ngang, trang bị 48 kênh PCIe, tối ưu hóa hiệu suất đám mây lớn, với TDP lên tới 1.4kW, cao hơn 200W so với B200, yêu cầu giải pháp làm mát tiên tiến hơn, hoàn toàn sử dụng hệ thống làm mát bằng chất lỏng để đáp ứng nhu cầu tính toán mật độ cao, tích hợp module nguồn dự phòng (BBU) và công nghệ siêu tụ điện để đảm bảo tính ổn định nguồn điện.

Tình hình chuỗi cung ứng AI hiện tại

Từ trước đến nay GB200 luôn bị ảnh hưởng bởi các nút thắt trong cung ứng, bao gồm tỷ lệ chất lượng thấp của Cable Cartridge, đường cong học tập chậm trong giai đoạn sản xuất giữa và cuối của nhà máy lắp ráp, và chất lượng nước làm mát cần được cải thiện, dẫn đến thời gian sản xuất chính thức dự kiến từ tháng 3 đã bị trì hoãn nghiêm trọng. Tuy nhiên, sau khi NVIDIA chính thức chuyển giao phần mềm thử nghiệm mới cho các nhà máy lắp ráp, tốc độ lắp ráp và thử nghiệm GB200 của Foxconn, Quanta và các nhà máy khác đã nâng cao đáng kể.

Các tổ chức ước tính tổng lượng hàng GB200 xuất xưởng trong tháng 4 khoảng 800-900 tủ, dự kiến đạt 2.800-3.000 tủ vào tháng 5 và có khả năng xuất hàng khoảng 7.000 tủ trong nửa đầu năm, trong đó nhà máy lắp ráp chính cho GB200 là Foxconn, còn Quanta đóng vai trò phụ. GB300 sẽ do Quanta chủ trì, và nhà máy lắp ráp dự kiến sẽ hoàn thành thiết kế vào tháng 6 và bắt đầu thử nghiệm GB300. Nếu mọi việc diễn ra thuận lợi, sẽ có lô hàng nhỏ vào tháng 11-12.

Thế hệ máy chủ AI tiếp theo

Cơ sở hạ tầng điện lực trung tâm dữ liệu đang tiến tới điện một chiều áp cao, và chất bán dẫn thế hệ thứ ba cùng với hệ thống làm mát bằng chất lỏng sẽ trở thành xu hướng. Do hiệu suất hệ thống đạt đến giới hạn vật lý, NVIDIA sẽ chuyển đổi điện lưới AC 13.8kV thành điện một chiều áp cao 800V (HVDC) để hỗ trợ cho nền tảng Vera Rubin và Rubin Ultra mới sẽ ra mắt từ năm 2027 với công suất hơn 1 MW.

Điều này là để đáp ứng nhu cầu ngày càng tăng của các tủ máy chủ AI. Khi công suất tăng lên trên 200kW, các kiến trúc cũ sẽ gặp khó khăn do mật độ công suất, nhu cầu về đồng và việc sử dụng bộ biến áp thể rắn (SST) cũng như bộ chỉnh lưu công nghiệp, loại bỏ nhiều bước chuyển đổi AC/DC và DC/DC. Dự kiến sẽ thúc đẩy nhu cầu về các linh kiện công suất GaN và SiC.

Sự nổi lên của sức mạnh mới “ASIC”

ASIC là từ viết tắt của “Application Specific Integrated Circuit”, có nghĩa là chip được thiết kế cho các ứng dụng cụ thể. Điều này khác với CPU (bộ xử lý trung tâm) hay MCU (bộ điều khiển vi mô) đa chức năng, vì ASIC tập trung vào một ứng dụng cụ thể, là những chip được tùy chỉnh cho những nhiệm vụ cụ thể nhằm cung cấp dịch vụ đám mây được tối ưu hóa hơn, thường có hiệu suất cao hơn và tiêu thụ điện năng thấp hơn so với GPU.

Với sự gia tăng của nhu cầu tính toán AI, vấn đề tiêu thụ điện năng ngày càng trầm trọng, các nhà cung cấp dịch vụ đám mây (CSP) đang đối mặt với thách thức cao về chi phí và tiêu thụ điện năng, vì vậy ASIC đã trở thành giải pháp quan trọng, có nghĩa là Amazon và Google có thể giảm sự phụ thuộc vào GPU của NVIDIA và tăng hiệu suất tính toán của trung tâm dữ liệu của họ thông qua việc thiết kế ASIC đa dạng hơn cho riêng mình.

(Ảnh đầu tiên: TechNews)

Đọc thêm:

Máy chủ AI đang nóng lên! Sau khi chuyển sang “làm mát bằng chất lỏng”, còn những thử thách công nghệ nào khác? Từ châu Á đến châu Mỹ, cuộc đua sản xuất máy chủ AI đã bắt đầu một cách âm thầm. Dòng sản phẩm CT của Omron series 3D VT-X ra mắt giai đoạn ba! Thiết lập tiêu chuẩn mới cho kiểm tra 3D tốc độ cao và độ chính xác cao.