Google cho biết vi xử lý TPU của họ đang cho hiệu năng bỏ xa CPU và GPU từ 15 đến 30 lần

pegasus3390

Well-Known Member
95b214f2e6ed15a55df3e6a46d28f768.jpg


Cách đây 4 năm, Google phải đối mặt với một vấn đề lớn: nếu tất cả người dùng của hãng sử dụng ứng dụng nhận dạng giọng nói trong vòng 3 phút mỗi ngày, công ty này cần phải gấp đối số lượng trung tâm dữ liệu để có thể xử lý toàn bộ các yêu cầu về hệ thống machine learning cho các hoạt động này.

Tuy nhiên thay vì phải mua thêm các trung tâm dữ liệu cũng như các tòa nhà bổ sung thì công ty này lại chuyển hướng sang việc tạo ra phần cứng đặc thù để giải quyết các vấn đề về machine learning như nhận dạng giọng nói.

Kết quả của việc này là hãng đã tạo ra Tensor Processing Unit (TPU), một con chip được tạo ra để đẩy nhanh các tác vụ mạng lưới sâu rộng. Google đã công bố các tài liệu về mức độ hiệu năng được tăng cường khi so sánh giải pháp của hãng với CPU và GPU về sức mạnh đơn thuần lẫn hiệu năng trên từng W năng lượng tiêu thụ.

Một con chip TPU về cơ bản vượt 15 đến 30 lần về các tác vụ machine learning khi được thử nghiệm so với các con chip server của Intel hoặc GPU Nvidia K80. Điều quan trọng là hiệu năng tiêu thụ tốt hơn từ 25 đến 80 lần so với các hệ thống dùng GPU và CPU.

Việc gia tăng hiệu năng đáng kể này là điều cực kỳ quan trọng đối với Google, khi mà công ty này đang xây dựng các ứng dụng dựa trên machine learning. Sự gia tăng này cũng đã cho thấy quyết định đúng đắn khi xây dựng phần cứng riêng bởi rất khó để có thể tạo ra được sự gia tăng về hiệu năng trên các con chip truyền thống.

Đây không đơn thuần chỉ là vấn đề về lý thuyết bởi vì Google đã sử dụng các TPU của mình trên các trung tâm dữ liệu từ năm 2015 và nó cải thiện hiệu năng của các ứng dụng bao gồm ứng dụng dịch cũng như nhận dạng hình ảnh. TPU đặc biệt quan trọng trong việc giảm mức sử dụng năng lượng, yếu tố quan trọng trong việc giảm bớt chi phí liên quan khi đưa vào sử dụng ở quy mô lớn.

tpu.jpg


Một trong những yếu tố quan trọng trong mục tiêu của Google chính là giảm bớt độ trễ và chính là điểm mà TPU vượt trội khi so sánh với các giải pháp chip khác. Và điều này là yếu tố cực kỳ cần thiết khi mà các hệ thống machine learning cần phải phản hồi nhanh theo các yêu cầu nhằm tạo ra trải nghiệm tốt cho người dùng. Bởi vấn đề là khi mà các ứng dụng machine learning chủ yếu sử dụng thông qua hệ thống đám mây, các lệnh được người đưa ra cần phải có thời gian chuyển đến trung tâm dữ liệu thông qua internet, xử lý và tốn thời gian trả kết quả về cũng thông qua internet và chỉ chừng đó thôi cũng đã có thể tạo ra độ trễ đối với việc tạo ra trải nghiệm phản hồi gần như tức thì của ứng dụng.

Google đã thử nghiệm con chip của học trên 6 ứng dụng sử dụng machine learning và đại diện cho 95% những gì các ứng dụng mà Google đang thực hiện trên các trung tâm dữ liệu của mình. Các ứng dụng này bao gồm cả DeepMind AlphaGo, hệ thống đã đánh bại Lee Sedol trong cuộc thi cờ năm ngoái.

google-datacenter-people-02.jpg


Hiện vẫn còn có thể cải thiện hiệu năng của TPU. Việc sử dụng bộ nhớ GDDR5 sử dụng trên Nvidia K80 với các TPU sẽ cải thiện hiệu năng của hệ thống hơn các thiết lập hiện tại. Theo như nghiên cứu của công ty này thì hiệu năng của một số ứng dụng hiện vẫn bị hạn chế bởi hăng thông bộ nhớ.

Xa hơn nữa ngoài vấn đề về phần cứng thì vẫn còn có thể tối ưu hóa hiệu năng phần mềm nhằm cải thiện tốc độ xử lý. Tuy nhiên với việc cải thiện lớn về hiệu năng khi sử dụng TPU, hiện vẫn chưa rõ khi nào việc cải thiện về phần mềm sẽ diễn ra.

TPU là loại chip được thiết kế riêng cho mục đích cụ thể. Chúng được đưa vào các lệnh cứng để thực hiện các lệnh đặc thù, tuy nhiên con chip TPU cũng đủ linh hoạt để xử lý được các thay đổi trong hình mẫu machine learning.

Google cũng không phải là công ty duy nhất sử dụng các phần cứng đặc thù để giải quyết các vấn đề về ứng dụng machine learning, nhiều startup cũng đang nghiên cứu lĩnh vực này, ngay cả Microsoft cũng đang ứng dụng các con chip có thể lập trình được lên các trung tâm dữ liệu của mình để thực hiện các tác vụ mạng và machine learning.

 
Bên trên