Đi kèm với việc hàng triệu quyển sách giấy bị phá hủy, là hàng triệu USD chi phí để scan các quyển sách đó phục vụ cho việc huấn luyện mô hình AI.

Một tiết lộ gây sốc từ tài liệu tòa án hôm thứ Hai tuần trước đã làm nổi bật những chiều kích đạo đức phức tạp trong cuộc đua phát triển trí tuệ nhân tạo. Anthropic, công ty đứng sau chatbot AI Claude, đã chi hàng triệu USD để scan sau đó phá hủy hàng triệu cuốn sách giấy với mục đích duy nhất là xây dựng mô hình AI của mình.
Theo tài liệu pháp lý dài 32 trang, vào tháng 2 năm 2024, Anthropic đã thuê Tom Turvey, cựu trưởng phòng quan hệ đối tác của dự án Google Books, với nhiệm vụ thu thập "tất cả sách trên thế giới". Việc tuyển dụng chiến lược này dường như nhằm sao chép cách tiếp cận số hóa sách thành công về mặt pháp lý của Google - cùng hoạt động quét đã vượt qua các thách thức bản quyền và thiết lập các tiền lệ quan trọng về sử dụng hợp lý.
Tuy nhiên, phương pháp của Anthropic có sự khác biệt đáng kể so với Google Books. Trong khi Google sử dụng quy trình camera không phá hủy được cấp bằng sáng chế để quét hàng triệu cuốn sách mượn từ thư viện và sau đó trả lại, Anthropic lại chọn con đường hoàn toàn khác. Công ty này đã cắt hàng triệu cuốn sách khỏi bìa, quét chúng thành file số, rồi vứt bỏ hoàn toàn bản gốc chỉ để phục vụ mục đích huấn luyện AI.
Quy trình này diễn ra với quy mô khổng lồ và được ghi chép chi tiết. Anthropic mua sách cũ với số lượng lớn từ các nhà bán lẻ chính, sau đó tách chúng khỏi bìa, cắt các trang theo kích thước phù hợp để quét. Những cuốn sách này được quét thành các file PDF có văn bản có thể đọc bằng máy, bao gồm cả bìa, trước khi tất cả bản gốc giấy bị vứt bỏ. Đối với Anthropic, tốc độ nhanh hơn và chi phí thấp hơn của quy trình phá hủy dường như quan trọng hơn việc bảo tồn chính những cuốn sách vật lý đó.
Cuối cùng, Thẩm phán William Alsup đã phán quyết rằng hoạt động quét phá hủy này được coi là "sử dụng hợp lý" - nhưng chỉ bởi vì Anthropic đã mua sách một cách hợp pháp trước tiên, phá hủy mỗi bản in sau khi quét, và giữ các file số nội bộ thay vì phân phối chúng. Thẩm phán so sánh quy trình này với việc "tiết kiệm không gian" thông qua chuyển đổi định dạng và nhận thấy nó mang tính biến đổi.

Thay vì được giữ lại sau khi scan, hàng triệu quyển sách đã bị Anthropic vứt bỏ vì chi phí thấp hơn
Để hiểu tại sao Anthropic sẵn sàng chi hàng triệu USD để phá hủy sách, cần nhận thức về cơn đói dữ liệu chất lượng cao không thể thỏa mãn của ngành AI. Các nhà nghiên cứu AI xây dựng mô hình ngôn ngữ lớn như những mô hình cung cấp sức mạnh cho ChatGPT và Claude bằng cách đưa hàng tỷ từ vào mạng neural. Trong quá trình huấn luyện, hệ thống AI xử lý văn bản một cách lặp đi lặp lại, xây dựng các mối quan hệ thống kê giữa từ và khái niệm.
Chất lượng của dữ liệu huấn luyện được đưa vào mạng neural ảnh hưởng trực tiếp đến khả năng của mô hình AI kết quả. Các mô hình được huấn luyện trên sách và bài viết được biên tập tốt có xu hướng tạo ra các phản hồi mạch lạc, chính xác hơn so với những mô hình được huấn luyện trên văn bản chất lượng thấp hơn như bình luận YouTube ngẫu nhiên.
Các nhà xuất bản kiểm soát hợp pháp nội dung mà các công ty AI khao khát, nhưng các công ty AI không phải lúc nào cũng muốn đàm phán giấy phép. Thế nhưng một giải pháp thay thế đã xuất hiện: một khi bạn mua một cuốn sách vật lý, bạn có thể làm gì tùy thích với bản sao đó - bao gồm cả việc phá hủy nó. Điều đó có nghĩa là việc mua sách vật lý đã mở ra một lối thoát pháp lý.

Tuy nhiên, giống như nhiều công ty AI trước đó, Anthropic ban đầu đã chọn con đường nhanh và dễ. Trong quá trình tìm kiếm dữ liệu huấn luyện chất lượng cao, hồ sơ tòa án nêu rõ, Anthropic đầu tiên đã chọn tích lũy các phiên bản số hóa của sách có bản quyền để tránh né các cuộc đàm phán cấp phép phức tạp với các nhà xuất bản. Nhưng đến năm 2024, Anthropic đã trở nên "không còn nhiệt tình" về việc sử dụng ebook "vì lý do pháp lý" và cần một nguồn an toàn hơn.
Việc mua sách vật lý đã qua sử dụng đã tránh hoàn toàn việc cấp phép trong khi cung cấp văn bản chất lượng cao, được biên tập chuyên nghiệp mà các mô hình AI cần, và quét phá hủy đơn giản là cách nhanh nhất để số hóa hàng triệu tập. Công ty đã chi "nhiều triệu USD" cho hoạt động mua và quét này, thường mua sách đã qua sử dụng với số lượng lớn.
Cho dù tài liệu tòa án không cho thấy có bất kỳ cuốn sách hiếm nào bị phá hủy trong quá trình này - nhưng nếu so sánh với các nhà lưu trữ dữ liệu khác, có thể thấy cách làm của Anthropic là sự lãng phí không cần thiết.
Ví dụ, Internet Archive đã tiên phong các phương pháp quét sách không phá hủy để bảo tồn các tập vật lý trong khi tạo ra các bản sao số. Và đầu tháng này, OpenAI và Microsoft đã thông báo họ đang làm việc với các thư viện của Harvard để huấn luyện các mô hình AI trên gần 1 triệu cuốn sách thuộc phạm vi công cộng có niên đại từ thế kỷ 15 – vốn được số hóa hoàn toàn nhưng vẫn bảo tồn dưới dạng vật lý để một ngày nào đó con cháu chúng ta có thể chiêm ngưỡng chúng ngoài đời thật.