Xiaomi MiMo: Mô hình suy luận mở đầu tiên của Xiaomi, điểm số thử nghiệm vượt qua OpenAI.

Xiaomi hôm nay (ngày 30) đã công bố mã nguồn mở mô hình lớn đầu tiên được phát triển cho suy luận mang tên “Xiaomi MiMo”, mô hình này tích hợp giữa tiền huấn luyện và hậu huấn luyện, nâng cao khả năng suy luận một cách toàn diện.

Xiaomi cho biết, MiMo là một mô hình lớn có khả năng suy luận giống con người, tương tự như DeepSeek-R1 được công ty khởi nghiệp công nghệ sâu của Trung Quốc phát hành trước đó. Công ty nhấn mạnh sẽ tập trung phát triển trí tuệ nhân tạo tổng hợp (AGI) với trình độ của con người.

Theo thông tin từ tài khoản công cộng “Mô hình lớn của Xiaomi”, MiMo đã vượt qua mô hình suy luận đóng của OpenAI là o1-mini và mô hình suy luận mã nguồn mở lớn hơn của Alibaba là QwQ-32B-Preview trong các bài đánh giá công khai về suy luận toán học (AIME 24-25) và cuộc thi mã (LiveCodeBench v5), chỉ với quy mô tham số 7B.

Xiaomi cho biết, sự nâng cao khả năng suy luận của mô hình MiMo được thúc đẩy bởi sự đổi mới đa phương diện trong các giai đoạn tiền huấn luyện và hậu huấn luyện, bao gồm dữ liệu và thuật toán.

Trong phần tiền huấn luyện, điều cốt lõi là để mô hình tiếp xúc với nhiều kiểu suy luận hơn, được chia thành dữ liệu và huấn luyện. Về dữ liệu, tập trung khai thác tài liệu suy luận phong phú và tổng hợp khoảng 200B tokens dữ liệu suy luận; về huấn luyện, thực hiện huấn luyện ba giai đoạn để dần tăng độ khó của huấn luyện, tổng huấn luyện là 25T tokens.

Trong phần hậu huấn luyện, điều cốt lõi là thuật toán và khung học tăng cường hiệu quả và ổn định, bao gồm thuật toán và khung làm việc. Về thuật toán, đã đề xuất phương pháp Test Difficulty Driven Reward để giảm thiểu vấn đề giảm giải thưởng trong các thuật toán khó, đồng thời giới thiệu chiến lược Easy Data Re-Sampling để ổn định việc huấn luyện RL; về khung làm việc, thiết kế hệ thống Seamless Rollout giúp tăng tốc huấn luyện RL lên 2.29 lần và tăng tốc xác minh lên 1.96 lần.

Với DeepSeek-R1 kích thích làn sóng hợp tác học tăng cường (RL) trong ngành công nghiệp, DeepSeek-R1-Distill-7B và Qwen2.5-32B đã trở thành mô hình khởi đầu học tăng cường được sử dụng rộng rãi. Trong cùng điều kiện dữ liệu huấn luyện RL, tiềm năng học tăng cường của MiMo-7B trong lĩnh vực toán học và mã lệnh vượt trội rõ rệt.

Đáng chú ý, toàn bộ dòng mô hình MiMo-7B đã được mã nguồn mở. Theo thông tin, MiMo là một nỗ lực ban đầu của “Đội ngũ Core Mô hình lớn của Xiaomi” vừa mới được thành lập. Họ tuyên bố “Mặc dù năm 2025 nhìn có vẻ là giai đoạn sau của giấc mơ mô hình lớn, nhưng chúng tôi tin chắc rằng hành trình đến AGI vẫn còn dài.”

Ngày hôm sau khi Alibaba công bố mô hình Qwen3 thế hệ mới, Xiaomi ra mắt MiMo, làm nổi bật cục diện cạnh tranh ngày càng gay gắt giữa các doanh nghiệp công nghệ tại Trung Quốc về AI.

(Hình ảnh nguồn: shutterstock)