Thanksforsharing
Moderator

Một thanh sắt gầm cầu dù được sơn phết đều đặn cũng có ngày bị rỉ sét. Một cây đà gỗ có tẩm hóa chất chống được mối mọt như qua thời gian sử dụng rồi cũng bị mục nát. Cũng vậy, một chiếc xe chạy năm này qua năm khác dù có được lau chùi đổ nhớt đúng kỳ rồi cũng có lúc nó bị hư. Thế các bạn có bao giờ nghĩ là dữ liệu (data) phim, nhạc, hình ảnh, tài liệu,… chúng ta đang lưu trữ và sử dụng hàng ngày sẽ bị hư như bao loại khác không? Câu trả lời là có đấy các bạn ạ.
Bit rot là gì?
Có bao giờ bạn gặp trường hợp là coi một vài phim bị nhòe nhẹt nhảy hình méo tiếng mà không thể phát hiện nguyên nhân? Kiểm tra đầu máy dây nhợi không thấy vấn đề gì, qua ổ cứng làm cái CHKDSK và S.M.A.R.T utility thì cũng không phát hiện gì hết. Mà trước đó vài tháng phim đã được kiểm tra cẩn thận không bị hư trước khi chép vào ổ cứng. Có nhiều phần là data của bạn (tôi đã bị một lần) đang bị lỗi và hư một cách âm thầm. Đó chính là bit rot. Trong trường hợp này nhiều bạn (trong đó có cả tôi) thường đổ thừa là ổ cứng bị hư rồi (bad sector) và nếu còn thời hạn thì đem bảo hành. Còn không thì chỉ biết tặc lưỡi quăng cái ổ vào sọt rác.
Vậy bit rot là gì?
Bit rot hay còn gọi là bit decay, data rot hay data decay dùng để chỉ hiện tượng khi mà các bit dữ liệu qua quá trình sử dụng và lưu trữ một cách ngẫu nhiên bị biến đổi trạng thái (flipping) từ ‘0’ sang ‘1’ hoặc ngược lại. Nói khác đi các bit này dần bị mất các trạng thái đặc tả ban đầu mà chúng được ấn định.
Xác xuất tỉ lệ này khá thấp khoảng 1 trên 10^14 trên các consumer HDD và 1 trên 10^16 ở bussinness HDD. Mặc dầu vậy, qua thời gian, như một vết chàm loang nó có thể gây ra những vấn đề lớn hơn từ việc máy sẽ chạy không ổn định (lúc được lúc không) hoặc chậm hẳn đi do máy cố đọc các bit bị hư cho tới việc không thể đọc truy cập dữ liệu, thậm chí sụp cả hệ thống dữ liệu trong một vài trường hợp khi bạn dùng RAID (sẽ giải thích thêm trong bài về Raid).
Tại sao phải quan tâm đến bit rot?

Lỗi này được biết như là sự sụp đổ của dữ liệu một cách âm thầm và nó sẽ lan rộng ra nếu không được phát hiện và sửa chữa kịp thời. Các bạn nên nhớ rằng ổ đĩa cứng ngày nay được sản xuất đã dành một phần đáng kể tài nguyên để tăng khả năng phát hiện và sửa lỗi data. Trung bình cứ 1TB ổ cứng được format ở 512 byte/sector sẽ dành khoảng 93GB dùng cho việc sửa lỗi ECC (Error Checking and Correction) thường thấy ở các máy chủ (server). Rất nhiều lỗi đã xảy ra ngay cả trong lúc máy hoạt động bình thường, nhưng phần lớn được sửa bởi firmware của HDD trước khi OS kịp phát hiện ra. Tuy nhiên với bit rot, cái tai hại quái ác nhất của loại lỗi này là nó không dễ gì bị phát hiện, thậm chí là firmware của ổ đĩa hay hệ điều hành của máy chủ. Trong một cuộc khảo cứu thực tế trên 1,5 triệu ổ cứng trong cơ sở dữ liệu của NetApp người ta thấy rằng , cứ trung bình trong 90 ổ đĩa SATA thì có một ổ bị dính lỗi này mà không bị phát hiện bởi quá trình xác minh của hardware RAID. Còn trong hệ thống RAID-5, cứ mỗi 67 TB dữ liệu được đọc thì phát hiện ra một lỗi thuộc loại này. Tuy nhiên, tỷ lệ lỗi theo công bố của một nghiên cứu CERN về dữ liệu bị hỏng âm thầm là cao hơn nhiều. Cứ mỗi 1500 files thì có một file dính lỗi này. Tài liệu trên Wiki cũng dẫn lời Webshop Amazon.com khẳng định tỉ lệ dữ liệu bị hỏng mà không thể bị phát hiện là cao.
Vài hình ảnh về lỗi bit rot


Vấn đề chính ở đây là các dung lượng các ổ đĩa cứng ngày nay đã trở nên lớn hơn rất nhiều , nhưng tỷ lệ lỗi của họ vẫn không thay đổi . Tỷ lệ dữ liệu hỏng trong âm thầm luôn luôn là khoảng không đổi theo thời gian , có nghĩa là ổ đĩa hiện đại không phải là an toàn hơn nhiều so với các ổ đĩa cũ. Trong đĩa cũ xác suất của dữ liệu hỏng là rất nhỏ vì họ lưu trữ một lượng nhỏ dữ liệu. Trong ổ đĩa hiện đại xác suất lớn hơn nhiều bởi vì họ lưu trữ nhiều dữ liệu hơn, trong khi chả có biện pháp nào khiến chúng được an toàn hơn. Bằng cách đó, dữ liệu bị hư (Silent data corruption) không phải là một mối quan tâm nghiêm trọng nếu bạn có các thiết bị lưu trữ với dung lượng nhỏ và vẫn còn tương đối chậm chạp. Dĩ nhiên do các đĩa nhỏ rất hiếm khi phải đối mặt với Silent data corruption , và vì vậy sẽ có bạn không coi đó là một vấn đề đòi hỏi một sự quan tâm cũng như một giải pháp làm gì cho nặng đầu. Nhưng trong giai đoạn hiện nay, khi mà ngày càng nhiều bạn nâng cấp thiết bị nghe nhìn của mình để chuyên chơi phim bluray, 3D bluray, nhạc thì phải FLAC hay WAV, v..v… thì nhu cầu về mua sắm HDD có dung lượng cao cho các thiết bị lưu trữ cũng phải tương ứng theo. Với sự ra đời của ổ đĩa lớn hơn 2TB và thiết lập RAID để vận hành nhanh, dân lưu trữ HD số lượng lớn có khả năng trong một thời gian ngắn dễ dàng đối mặt với vấn nạn Silent data corruption.
Thế nguyên nhân gì gây nên bit rot?
Nếu bạn còn mơ hồ về bit rot ‘dư lào’ thì nguyên nhân gây bit rot trong hệ thống lưu trữ càng mơ hồ hơn. Nó có thể đến từ hardware, nhưng nó cũng có thể đến từ software. Một cái motherboard, ram, hard drive hay PSU chạy không ổn định cũng gây nên lỗi bit rot. Máy cài và chạy nhiều soft quá, dùng driver không đúng hay version quá cũ cũng gây nên tội. Thậm chí update, install hoặc uninstall, tắt mở máy không đúng cách cũng làm các bit ‘trở mặt’.
Tất cả vì sự toàn vẹn dữ liệu.

Nhớ có một lần sau khi rút tiền ở máy rút tiền ra, chợt sực nhớ tháng này mình xài tiền hơi bị nhiều. Ngẫm nghĩ một hồi rồi ngồi ước thật đơn giản – Giá mà tụi nhà băng nó không biết mình rút tiền trong mấy ngày nay nhỉ. Ví dụ như data dữ liệu của nó vì lý do nào đó bị mất sạch! Dĩ nhiên là làm gì có chuyện đó. Cứ thử tưởng tượng xem trong vòng 1 h biết bao nhiêu giao dịch ngân hàng (gửi tiền, rút tiền, cầm cố thế chấp, chuộc ra, chứng khoán,…) của biết bao nhiêu đối tượng khách hàng thông qua nhà băng? Nếu như họ mất hết những chứng cớ giao dịch đó thì họ sẽ trả lời ra sao với khách hàng? Phá sản là còn nhẹ, không khéo thì tù mọt gông hoặc ‘dựa cột’ như chơi. Từ đó tôi có suy nghĩ là chắc chắn ngoài việc có một hệ thống datacenter được bảo mật nghiêm ngặt, họ còn có các phương án lưu trữ được tính toán đến từng chi tiết nhằm bảo vệ dự toàn vẹn của dữ liệu.
Cũng vậy, tôi đang có cả trăm TB phim ảnh tài liệu quý được sưu tầm, tuyển lựa kỹ càng từ gần 10 năm nay thế thì tôi phải làm gì để bảo vệ chúng đây?
Ai cũng biết trong trường hợp của các nhà băng, hoặc doanh nghiệp lớn họ dĩ nhiên sẽ dùng các biện pháp backup để sao lưu lại các dữ liệu quý thật cẩn thận. Phương pháp này tuy an toàn nhưng hầu bao phải chi ra chắc chắn sẽ không nhỏ. Thế còn trong trường của tôi cũng như của các bạn thì sao? Không lẽ cũng lại bỏ thêm khoản tiền mua cả trăm TB để làm backup cái hiện có? Rõ ràng là rườm rà và tính hiệu quả kinh tế là không cao.
Dùng RAID? Vâng RAID xem ra là phương pháp khả dĩ nhất trong giai đoạn hiện nay. Nhưng bạn có biết ngay cả RAID mà các bạn đã và đang sử dụng cũng sẽ chết trong vài năm tới không? Tôi rất đồng cảm với một vài ý kiến được post đây đó trong diễn đàn chê bai Raid ngày nay không tiện dụng cho lắm. Tôi xin để câu trả lời được bỏ ngỏ ở đây để sau khi đọc xong bài về RAID, bạn sẽ hiểu thêm nhiều về phương án nào là tối ưu nhất hiện nay khi lưu trữ các dữ liệu HD trong gia đình.
Một trong các bài tới tôi sẽ nói về RAID. Đương nhiên tôi sẽ không nhắc lại RAID là gì, có tác dụng ra sao hay RAID0, RAID1, RAID 5 và RAID10 khác nhau như thế nào? Mà là RAID - dưới góc nhìn của dân lưu trữ HD.