Nghiên cứu chỉ ra rằng mô hình Llama tái tạo 42% nội dung của "Harry Potter", cung cấp bằng chứng mạnh mẽ cho vụ kiện vi phạm bản quyền.

Một nghiên cứu mới cho thấy mô hình Meta Llama 3.1 có khả năng ghi nhớ và tái tạo gần một nửa nội dung của “Harry Potter and the Sorcerer’s Stone”, chứng minh rằng việc tái hiện nội dung được bảo vệ bản quyền không chỉ là “hành vi phụ” như một số phòng thí nghiệm AI đã tuyên bố, mà là bằng chứng mạnh mẽ cho việc nội dung phổ biến được sử dụng để đào tạo mô hình.

Sự trỗi dậy của AI đã khiến các nhà sáng tạo nội dung cáo buộc rằng các mô hình giống như máy tái tạo vi phạm bản quyền, trong khi các công ty công nghệ lại biện minh rằng các mô hình chỉ học các mối quan hệ thống kê và không lưu trữ các tác phẩm được bảo vệ bản quyền, hai bên đang tranh luận pháp lý.

Một bài nghiên cứu từ các nhà khoa học tại Đại học Stanford, Đại học Cornell và Đại học West Virginia chỉ ra rằng mô hình Meta Llama 3.1 70B ghi nhớ 42% nội dung văn bản của “Harry Potter and the Sorcerer’s Stone”, cao hơn nhiều so với 4.4% của mô hình Llama thế hệ đầu tiên, cho thấy phương pháp đào tạo đã được cập nhật của Meta đã cải thiện đáng kể khả năng giữ và tái hiện nội dung bản quyền của mô hình.

Các nhà nghiên cứu cũng phát hiện rằng mô hình Llama 3.1 70B chỉ ghi nhớ 0.13% tiểu thuyết “Sandman Slim” của tác giả Richard Kadrey, người cũng là một trong những nguyên đơn trong vụ kiện tập thể chống lại Meta. Khi những cuốn sách nổi tiếng được ghi nhớ nhiều, trong khi hầu hết các cuốn sách khác lại không, điều này có thể khiến việc chứng nhận vụ kiện tập thể trở nên phức tạp, nhưng đồng thời cung cấp bằng chứng mạnh mẽ cho các chủ sở hữu bản quyền cá nhân.

Cuộc tranh luận về đào tạo AI và bản quyền đã mở rộng từ việc liệu nội dung đầu ra của mô hình có vi phạm hay không, đến việc liệu chính mô hình có tạo thành bản sao vi phạm hay không. Nghiên cứu trên đã hỗ trợ cho quan điểm sau. Giáo sư luật Mark Lemley tại Đại học Stanford, cũng là một đồng tác giả của nghiên cứu này, cho biết kết quả nghiên cứu cho thấy mô hình có thể chứa “các phần nội dung đã được luật coi là bản sao của một cuốn sách”.

Quan điểm này cũng đã được các cơ quan liên bang của Hoa Kỳ quan tâm. Văn phòng bản quyền Hoa Kỳ (U.S. Copyright Office, USCO) đã công bố một báo cáo dài 108 trang vào tháng 5 năm nay cho thấy nếu mô hình có khả năng tái hiện một “số lượng lớn các biểu đạt được bảo vệ”, trọng số trong mô hình có thể được coi là bản sao vi phạm. Báo cáo này rõ ràng bác bỏ lập luận rằng đào tạo AI có thể so sánh với học tập của con người, và chỉ ra rằng khả năng của AI trong việc tái tạo nội dung số hoàn hảo hoàn toàn khác với trí nhớ không hoàn hảo của con người.

Meta đã gặp phải nhiều cuộc tranh chấp pháp lý liên quan đến nguồn dữ liệu. Gần đây, một tài liệu từ tòa án cho thấy Meta đã thừa nhận sử dụng một lượng lớn sách bị vi phạm bản quyền từ các “thư viện bóng” như Libgen để làm dữ liệu đào tạo cho mô hình Llama. Tài liệu kiện cáo cho biết CEO Mark Zuckerberg đã phê duyệt sử dụng những cuốn sách bị vi phạm mặc dù đã có cảnh báo nội bộ trong công ty.

Một phân tích của các chuyên gia vào tháng 3 năm nay chỉ ra rằng Meta có thể đã bị cáo buộc “seeding” thông qua BitTorrent, tải về khoảng 30% sách bị vi phạm, tăng rủi ro pháp lý. Hành động này đã biến Meta từ việc “sử dụng hợp lý và phục vụ cho đào tạo” thành “phát tán vi phạm một cách chủ động”, và các vụ kiện tương tự đang lan rộng toàn cầu, các nhà xuất bản và tác giả Pháp đã mô tả hành vi này là “sự cướp bóc chưa từng có” và kiện Meta.

Chiến lược dữ liệu gây tranh cãi của Meta phản ánh áp lực lớn mà công ty phải đối mặt trong cuộc cạnh tranh AI. Trong số 14 tác giả của bài nghiên cứu về Llama, đã có 11 người rời khỏi Meta, dẫn đến việc phát triển mô hình Llama bị cản trở. Mô hình Llama 4 “Behemoth” với 2 ngàn tỷ tham số gần đây được thông báo rằng sẽ ra mắt muộn đến cuối năm 2025 do vấn đề hiệu suất mô hình. Dù Meta đã đầu tư 14.3 tỷ USD vào công ty khởi nghiệp Scale AI để củng cố nguồn dữ liệu và mời giám đốc điều hành Alexandr Wang tham gia đội ngũ siêu trí tuệ, việc Meta có thể tự khôi phục trong cuộc đua AI vẫn cần được theo dõi.

Mô hình Llama 3.1 của Meta có thể ghi nhớ 42% của cuốn sách đầu tiên Harry Potter

(Nguồn hình ảnh: shutterstock)