torune
Film critic
Trí thông minh nhân tạo (AI) luôn là một đề tài gây nhiều tranh cãi bởi nó mô phỏng nhận thức của con người nhưng không được phát triển trong môi trường sống của con người. Do đó, quan điểm của một AI và một bộ não sinh học chắc chắn có nhiều sự khác biệt.
Để có được AI, các nhà khoa học đã và đang từng bước xây dựng 'mạng nơ-ron nhân tạo' (Artificial Neural Network/ANN). Ứng dụng gần đây nhất của ANN là phân loại hình ảnh và nhận diện âm thanh. Nhưng, nó không hoàn hảo 100%. Do đó, một nhóm kỹ sư phần mềm đã tiến hành thí nghiệm chi tiết vào ANN để tìm hiểu nó đã học được những gì và còn thiết sót ra làm sao. Kết quả đã được đăng tải trên trang: Research Blog: Inceptionism: Going Deeper into Neural Networks
Nhóm nghiên cứu huấn luyện ANN bằng cách cho nó xem hàng triệu kết quả cho một ví dụ và dần dần tinh chỉnh các thông số để kết quả được như ý họ muốn. Mạng lưới gồm từ 10 tới 30 lớp (layer) nơ-ron nhân tạo xếp chồng lên nhau. Hình ảnh (input) được gửi cho layer đầu vào và nó sẽ chuyển cho các layer khác. Kết quả chính là đầu ra (output) đến từ layer cuối cùng.
Một trong những thử thách khi tìm hiểu ANN là thấu hiểu mỗi layer đang làm gì. Nhóm nghiên cứu biết rằng, các layer sẽ chiết xuất những đặc điểm cao cấp hơn của hình ảnh, cho đến khi layer cuối cùng đưa ra quyết định: hình ảnh đã hiển thị cài gì? Cụ thể, layer đầu tiên tìm kiếm các đường cong và góc cạnh. Những layer kẹp chính giữa phân tích các đặc điểm cơ bản nhằm bao quát hình dáng và các tiểu tiết (chẳng hạn như: cánh cửa,chiếc lá...). Layer cuối cùng kết hợp mọi thứ lại và hoàn thiện quá trình phiên dịch (ngôi nhà, cái cây...)
Tiếp theo, nhóm tiến hành thử nghiệm đảo ngược quá trình (nhập hình ảnh -> đưa định nghĩa). Họ đưa đầu vào là một bức ảnh toàn nhiễu (noise), đồng thời đưa ra từ khóa "quả chuối" (banana). Trí thông minh nhân tạo sẽ điều chỉnh các pixel có sẵn theo cách mà ANN hiểu về quả chuối và cho ra kết quả hiển thị. Mặc dù hình ảnh không được rõ nét, nhưng nó chứng tỏ hệ thống nhận diện được những thông số nhất định (chẳng hạn như: mối tương quan giữa các điểm ảnh) đế cho ra kết quả giống nhất với đầu vào (ảnh chụp tự nhiên).
Và, một ngạc nhiên nữa khi: ANN (được huấn luyện để phân biệt hình ảnh) có khả năng tạo ra hình ảnh mới. Bên dưới là hình ảnh được tạo ra từ đầu vào (một ảnh nhiễu 100%) kèm các từ khóa:
Phát hiện này rất quan trọng. Nhóm nghiên cứu đã huấn luyện ANN bằng cách đưa vô nhiều ví dụ cho định nghĩa mà họ muốn nó học, với hy vọng rằng nó sẽ chắt lọc thông tin chủ chốt (ví dụ: cái nĩa có 1 tay cầm và 2-4 đầu nhọn) đồng thời bỏ qua những tiểu tiết tùy biến khác (như: kích cỡ, hình dáng, màu sắc, phương hướng...)
Nhưng, trong một vài thí nghiệm, ANN không đưa ra kết quả như mong đợi. Ví dụ như trong hình bên dưới, từ khóa là "dumbell" (tạ tay).
Chúng ta vẫn thấy thấp thoáng hình dáng chiếc tạ tay; nhưng nó luôn đi kèm chi tiết: bắp tay của vận động viên. Suy ra, trong trường hợp này, ANN đã thất bại trong việc định hình sự tồn tại của chiếc tạ tay. Có lẽ toàn bộ hình ảnh đầu vào đều kèm theo chi tiết: bắp tay của vận động viên đang nâng tạ. Vì lỗi đã được tìm ra, nó sẽ giúp nhóm nghiên cứu tiến hành chỉnh sửa.
Tiếp theo với một thử thách cao cấp hơn, nhóm giao cho ANN quyền quyết định bằng các đưa cho nó một hình ảnh ngẫu nhiên và để nó tự phân tích. Sau đó, họ sẽ lấy một layer ngẫu nhiên và bắt nó tự mình cải thiện. Mỗi layer của ANN sẽ có cách giải quyết riêng với hình ảnh. Vì vậy, độ phức tạp của hình ảnh phụ thuộc vào layer được chọn để cải thiện. Ví dụ, layer cấp thấp có xu hướng tạo ra nhiều đường thẳng hoặc họa tiết trang trí đơn giản; bởi các layer này nhạy cảm với đặc điểm đơn giản, như: đường nét và định hướng.
Nếu chọn các layer cấp cao (có thể nhận dạng nhiều đặc điểm phức tạp hơn), thì các đặc điểm phức tạp có khuynh hướng vượt trội. Một lần nữa, các kỹ sư đưa cho ANN một hình ảnh (tự nhiên, chưa qua xử lý) và hỏi nó "Bạn nhìn thấy những gì, hãy làm rõ nó cho tôi". Điều này tạo ra một vòng lặp phản hồi, cụ thể: nếu một đám mây có hình con chim, ANN sẽ xử lý để nó gần giống với con chim.
Kết quả rất thú vị. ANN đôi lúc phiên dịch quá mức cần thiết, nó như một đứa trẻ tưởng tượng ra những hình ảnh hết sức ngẫu nhiên. Vì hệ thống được huấn luyện với phần lớn hình ảnh về động vật; nên, nó có xu hướng phiên dịch ra hình dáng của động vật.
Trái qua phải: chó + vẹt; heo + ốc sên; lạc đà + chim; chó + cá
Thay vì sử dụng ảnh các đám mây, nhóm kỹ sư tiếp tục thí nghiệm với ảnh ngẫu nhiên. Kết quả biến đổi khá nhiều bởi những đặc điểm dễ nhận thấy rơi vào vùng thiên vị do chính ANN tạo nên. Cụ thể, "đường chân trời" dễ bị nhầm thành "tháp" hay "chùa"; "tảng đá" và "cây" dễ bị nhầm thành "cao ốc" trong khi "chim" và "côn trùng" xuất hiện trong ảnh về "hoa lá".
Ở chừng mực nào đó, thí nghiệm thành công trong việc mô tả mức độ tưởng tượng mà một layer hiểu được về bức hình mà nó xem. Nhóm nghiên cứu gọi kỹ thuật này là "Inceptionism" (inception: bước đầu => inceptionism: chủ nghĩa bắt đầu?)
Nhóm nghiên cứu tiếp tục ứng dụng thuật toán một cách lặp lại dựa trên các đầu vào đồng thời phóng to kết quả sau mỗi lần lặp, kết quả là chuỗi nhận thức bất tận trong hành trình khám phá những gì mà ANN đã biết. Quá trình này bắt đầu từ một ảnh nhiễu (bất kỳ), vì vậy kết quả 100% là do ANN tạo ra. Điều này gần giống với cách thức bộ não con người hoạt động: dựa trên những dữ liệu có sẵn để tạo nên giấc mơ. Đó là lý do vì sao bài viết có tên: Giấc mơ của ...A ...I
Giấc mơ AI!?
Những kỹ thuật được nêu trên đây sẽ giúp nhóm nghiên cứu thấu hiểu và minh họa (trực quan) cách ANN sẽ tiến hành những nhiệm vụ phân loại khó khăn hơn, cải thiện cấu trúc mạng lưới (nơ-ron) và kiểm tra ANN đã học được những gì; đồng thời đặt ra câu hỏi: liệu ANN sẽ trở thành một công cụ cho nghệ sĩ hay thay thế họ hoàn toàn. Nhưng, cũng không ngoại trừ khả năng ANN giúp con người hiểu về nguồn gốc của sự sáng tạo.
Bạn đọc có thể ghé gallery sau để xem thêm cách AI bày tỏ nhận thức trong các bức tranh thông thường và những gì nó mơ thấy.
https://photos.google.com/share/AF1...?key=aVBxWjhwSzg2RjJWLWRuVFBBZEN1d205bUdEMnhB

Để có được AI, các nhà khoa học đã và đang từng bước xây dựng 'mạng nơ-ron nhân tạo' (Artificial Neural Network/ANN). Ứng dụng gần đây nhất của ANN là phân loại hình ảnh và nhận diện âm thanh. Nhưng, nó không hoàn hảo 100%. Do đó, một nhóm kỹ sư phần mềm đã tiến hành thí nghiệm chi tiết vào ANN để tìm hiểu nó đã học được những gì và còn thiết sót ra làm sao. Kết quả đã được đăng tải trên trang: Research Blog: Inceptionism: Going Deeper into Neural Networks
Nhóm nghiên cứu huấn luyện ANN bằng cách cho nó xem hàng triệu kết quả cho một ví dụ và dần dần tinh chỉnh các thông số để kết quả được như ý họ muốn. Mạng lưới gồm từ 10 tới 30 lớp (layer) nơ-ron nhân tạo xếp chồng lên nhau. Hình ảnh (input) được gửi cho layer đầu vào và nó sẽ chuyển cho các layer khác. Kết quả chính là đầu ra (output) đến từ layer cuối cùng.
Một trong những thử thách khi tìm hiểu ANN là thấu hiểu mỗi layer đang làm gì. Nhóm nghiên cứu biết rằng, các layer sẽ chiết xuất những đặc điểm cao cấp hơn của hình ảnh, cho đến khi layer cuối cùng đưa ra quyết định: hình ảnh đã hiển thị cài gì? Cụ thể, layer đầu tiên tìm kiếm các đường cong và góc cạnh. Những layer kẹp chính giữa phân tích các đặc điểm cơ bản nhằm bao quát hình dáng và các tiểu tiết (chẳng hạn như: cánh cửa,chiếc lá...). Layer cuối cùng kết hợp mọi thứ lại và hoàn thiện quá trình phiên dịch (ngôi nhà, cái cây...)
Tiếp theo, nhóm tiến hành thử nghiệm đảo ngược quá trình (nhập hình ảnh -> đưa định nghĩa). Họ đưa đầu vào là một bức ảnh toàn nhiễu (noise), đồng thời đưa ra từ khóa "quả chuối" (banana). Trí thông minh nhân tạo sẽ điều chỉnh các pixel có sẵn theo cách mà ANN hiểu về quả chuối và cho ra kết quả hiển thị. Mặc dù hình ảnh không được rõ nét, nhưng nó chứng tỏ hệ thống nhận diện được những thông số nhất định (chẳng hạn như: mối tương quan giữa các điểm ảnh) đế cho ra kết quả giống nhất với đầu vào (ảnh chụp tự nhiên).

Và, một ngạc nhiên nữa khi: ANN (được huấn luyện để phân biệt hình ảnh) có khả năng tạo ra hình ảnh mới. Bên dưới là hình ảnh được tạo ra từ đầu vào (một ảnh nhiễu 100%) kèm các từ khóa:
- Hartebeest (Một loại linh dương)
- Measuring Cup (Cốc đong thể tích)
- Ant (Con kiến)
- Starfish (Sao biển)
- Anemone Fish (Cá hề)
- Banana (Quả chuối)
- Parachute (Nhảy dù)
- Screw (Ốc vặn)

Phát hiện này rất quan trọng. Nhóm nghiên cứu đã huấn luyện ANN bằng cách đưa vô nhiều ví dụ cho định nghĩa mà họ muốn nó học, với hy vọng rằng nó sẽ chắt lọc thông tin chủ chốt (ví dụ: cái nĩa có 1 tay cầm và 2-4 đầu nhọn) đồng thời bỏ qua những tiểu tiết tùy biến khác (như: kích cỡ, hình dáng, màu sắc, phương hướng...)
Nhưng, trong một vài thí nghiệm, ANN không đưa ra kết quả như mong đợi. Ví dụ như trong hình bên dưới, từ khóa là "dumbell" (tạ tay).

Chúng ta vẫn thấy thấp thoáng hình dáng chiếc tạ tay; nhưng nó luôn đi kèm chi tiết: bắp tay của vận động viên. Suy ra, trong trường hợp này, ANN đã thất bại trong việc định hình sự tồn tại của chiếc tạ tay. Có lẽ toàn bộ hình ảnh đầu vào đều kèm theo chi tiết: bắp tay của vận động viên đang nâng tạ. Vì lỗi đã được tìm ra, nó sẽ giúp nhóm nghiên cứu tiến hành chỉnh sửa.
Tiếp theo với một thử thách cao cấp hơn, nhóm giao cho ANN quyền quyết định bằng các đưa cho nó một hình ảnh ngẫu nhiên và để nó tự phân tích. Sau đó, họ sẽ lấy một layer ngẫu nhiên và bắt nó tự mình cải thiện. Mỗi layer của ANN sẽ có cách giải quyết riêng với hình ảnh. Vì vậy, độ phức tạp của hình ảnh phụ thuộc vào layer được chọn để cải thiện. Ví dụ, layer cấp thấp có xu hướng tạo ra nhiều đường thẳng hoặc họa tiết trang trí đơn giản; bởi các layer này nhạy cảm với đặc điểm đơn giản, như: đường nét và định hướng.


Nếu chọn các layer cấp cao (có thể nhận dạng nhiều đặc điểm phức tạp hơn), thì các đặc điểm phức tạp có khuynh hướng vượt trội. Một lần nữa, các kỹ sư đưa cho ANN một hình ảnh (tự nhiên, chưa qua xử lý) và hỏi nó "Bạn nhìn thấy những gì, hãy làm rõ nó cho tôi". Điều này tạo ra một vòng lặp phản hồi, cụ thể: nếu một đám mây có hình con chim, ANN sẽ xử lý để nó gần giống với con chim.

Kết quả rất thú vị. ANN đôi lúc phiên dịch quá mức cần thiết, nó như một đứa trẻ tưởng tượng ra những hình ảnh hết sức ngẫu nhiên. Vì hệ thống được huấn luyện với phần lớn hình ảnh về động vật; nên, nó có xu hướng phiên dịch ra hình dáng của động vật.

Trái qua phải: chó + vẹt; heo + ốc sên; lạc đà + chim; chó + cá

Nhóm nghiên cứu tiếp tục ứng dụng thuật toán một cách lặp lại dựa trên các đầu vào đồng thời phóng to kết quả sau mỗi lần lặp, kết quả là chuỗi nhận thức bất tận trong hành trình khám phá những gì mà ANN đã biết. Quá trình này bắt đầu từ một ảnh nhiễu (bất kỳ), vì vậy kết quả 100% là do ANN tạo ra. Điều này gần giống với cách thức bộ não con người hoạt động: dựa trên những dữ liệu có sẵn để tạo nên giấc mơ. Đó là lý do vì sao bài viết có tên: Giấc mơ của ...A ...I

Giấc mơ AI!?
Bạn đọc có thể ghé gallery sau để xem thêm cách AI bày tỏ nhận thức trong các bức tranh thông thường và những gì nó mơ thấy.
https://photos.google.com/share/AF1...?key=aVBxWjhwSzg2RjJWLWRuVFBBZEN1d205bUdEMnhB
Theo googleresearch.blogspot