Với sự ra mắt của ChatGPT vào cuối năm 2022, một lượng lớn nội dung do AI tạo ra đã xuất hiện trên internet, dẫn đến việc nội dung sáng tạo của con người trở nên ngày càng hiếm. Do đó, nhiều nhà nghiên cứu đã bắt đầu lưu trữ nội dung do con người tạo ra trước năm 2021, vì những nội dung này được coi là nền tảng của thế giới kỹ thuật số, giúp các mô hình AI hiểu rõ hơn về tư duy của con người. Theo lời của Phó Chủ tịch Cloudflare, Will Allen, những dữ liệu sớm này rất quan trọng để đảm bảo độ chính xác của các mô hình AI, đặc biệt trong các lĩnh vực chuyên nghiệp như y tế và pháp lý.
Khi nội dung do AI tạo ra trở nên phổ biến, nhiều người dùng nhận ra rằng khi tìm kiếm thông tin, họ phải đặc biệt chú ý đến ngày tạo nội dung, nhằm tránh tiếp xúc với những nội dung SEO do AI tạo ra. Nhà đầu tư khởi nghiệp Paul Graham từng đề cập rằng khi ông tìm cách điều chỉnh nhiệt độ của lò nướng pizza, ông phát hiện mình phải tìm kiếm các dữ liệu cũ hơn để đảm bảo thông tin không phải là do AI tạo ra.
Để đối phó với thử thách này, Giám đốc Công nghệ của Cloudflare, John Graham-Cumming, đã khởi động dự án LowBackgroundSteel.ai, nhằm lưu trữ dữ liệu trước năm 2022, những dữ liệu này được coi là nội dung chưa bị ô nhiễm bởi AI. Việc lưu trữ dữ liệu này không chỉ để bảo vệ tài sản kỹ thuật số của con người, mà còn để đảm bảo tương lai các mô hình AI có thể được đào tạo dựa trên dữ liệu thực, thay vì chỉ phụ thuộc vào nội dung do AI tạo ra.
Bên cạnh đó, nhà ngôn ngữ học Robyn Speer cũng chỉ ra rằng AI tạo ra đã ô nhiễm dữ liệu mạng, khiến internet trở thành một chỉ số không đáng tin cậy, không thể phản ánh chính xác cách viết và tư duy của con người. Khi công nghệ AI ngày càng tiến bộ, nhu cầu lưu trữ nội dung do con người tạo ra trở nên cấp thiết hơn, điều này không chỉ liên quan đến sự phát triển của công nghệ, mà còn liên quan đến cách chúng ta hiểu và ghi lại thực tại chung của loài người.
(Nguồn hình: pixabay)