Data swamp - Thách thức dữ liệu doanh nghiệp phải đối mặt trong kỷ nguyên số

 

Dữ liệu được xem là một trong những tài sản quý báu của doanh nghiệp trong thời đại số. Hồ dữ liệu - Data lake là một trong những kho dữ liệu của doanh nghiệp với chi phí tiết kiệm và dễ dàng mở rộng. Tuy nhiên nếu không có chiến lược quản trị lưu trữ hợp lý, rõ ràng thì các hồ dữ liệu sẽ nhanh chóng trở thành data swamp - Đầm lầy dữ liệu thách thức do doanh nghiệp tạo ra cho chính mình.

Hồ dữ liệu kho lưu trữ dữ liệu thô khổng lồ của doanh nghiệp

1. Khái niệm data lake (hồ dữ liệu) và data swamp (đầm lầy dữ liệu)

Theo trang thông tin điện tử Cục Chuyển đổi số quốc gia (www.aita.gov.vn) thì:

“Data lake là một thuật ngữ được đưa ra bởi Pentaho CTO James Dixon vào năm 2011 để chỉ một kho dữ liệu lớn ở dạng tự nhiên, không có cấu trúc . Dữ liệu thô được đưa vào lưu trữ trong data lake và người dùng có thể biến đổi, phân loại hay phân tích các phần dữ liệu khác nhau dựa trên nhu cầu của họ và các dữ liệu này cần được xử lý thêm khi có nhu cầu sử dụng”.

Nói một cách dễ hiểu thì data lake chính là nơi lưu trữ dữ liệu thô từ tất cả các nguồn của hệ thống mà không giới hạn kích thước thậm chí những nguồn “tài liệu có giá trị tìm ẩn” (Dữ liệu không có giá trị sử dụng ở hiện tại nhưng có thể cần thiết trong tương lai) bị kho dữ liệu của các hệ thống lưu trữ của doanh nghiệp Data Warehouse (nơi lưu trữ dữ liệu có ý nghĩa dùng để phân tích, báo cáo, phục vụ doanh nghiệp) từ chối.

Data lake có thể lưu trữ lượng dữ liệu gốc (Dữ liệu khô) khổng lồ không cần định dạng, không giới hạn kích thước, nếu hồ dữ liệu không được kiểm soát đúng cách. thiếu đi quy trình đánh giá cụ thể thì hồ dữ liệu sẽ biến thành đầm lầy dữ liệu data swamp rất khó tìm kiếm và phân tích.

Hồ dữ liệu không được kiểm soát đúng cách sẽ rất dễ trở thành đầm lầy dữ liệu không có nhiều giá trị sử dụng

2. Sự khác nhau giữa hồ dữ liệu và đầm lầy dữ liệu

Từ định nghĩa mà chúng tôi vừa nêu chúng ta có thể thấy data lake (hồ dữ liệu)  và data swamp (đầm lầy dữ liệu) có sự khác nhau vô cùng rõ rệt về nhiều mặt. Cụ thể:

 

Hồ dữ liệu - Data lake

Đầm lầy dữ liệu - Data swamp

  • Lưu trữ dữ liệu được làm sạch, không bị lỗi không bị trùng lặp
  • Dữ liệu lưu trữ không được làm sạch, chứa nhiều lỗi, bị trùng lặp thông tin
  • Chứa các siêu dữ liệu, việc tìm kiếm truy xuất thông tin dễ dàng
  • Thiếu siêu dữ liệu, khiến việc tìm kiếm truy xuất thông tin gặp khó khăn
  • Thông tin lưu trữ có ý nghĩa, hữu ích đối với doanh nghiệp, có giá trị sử dụng cao
  • Chứa thông tin không liên quan đến hoạt động doanh nghiệp, dữ liệu không có giá trị sử dụng
  • Chất lượng dữ liệu cao được chọn lọc, quản lý rõ ràng theo quy trình
  • Chất lượng dữ liệu thấp, không có tổ chức, quản lý

 

 

Thiếu metadata, không được quản lý,.. là dấu hiệu của một đầm lầy dữ liệu tại doanh nghiệp

3. Dấu hiệu của một đầm lầy dữ liệu trong dữ liệu của doanh nghiệp

Một số dấu hiệu nhận biết đầm lầy dữ liệu mà doanh nghiệp cần lưu ý bao gồm:

  • Thiếu Metadata (siêu dữ liệu)
  • Siêu dữ liệu đóng vai trò như các thẻ có vai trò mô tả thông tin, đặc tính của dữ liệu, cho phép mọi người tìm kiếm, sử dụng và tái sử dụng dữ liệu một cách thuận lợi hơn nhanh chóng hơn.
  • Việc thiếu siêu dữ liệu sẽ khiến doanh nghiệp khó nắm bắt về thông tin lưu trữ khiến việc truy xuất trở nên khó khăn không có giá trị sử dụng. Từ đó, dữ liệu không chứa Metadata sẽ nằm im không được doanh nghiệp chú ý dần dần rơi vào đầm lầy dữ liệu.
  • Dữ liệu không được quản lý: Những dữ liệu không được quản lý không rõ nội dung, đích đến của dữ liệu, thời gian lưu trữ,...rất dễ bị ứ đọng bị lưu trữ quá lâu và phá hỏng các quy trình liên quan tới dữ liệu. Điều này khiến dữ liệu nhanh chóng trở thành data swamp của doanh nghiệp.
  • Dữ liệu không có liên quan đến hoạt động của công ty: Với suy nghĩ thu thập càng nhiều dữ liệu càng tốt, nhiều doanh nghiệp đã lưu trữ dữ liệu một cách vô tội vạ, với tâm lý sợ bỏ sót dữ liệu nhưng lại không có một tiêu chuẩn cụ thể cho việc sử dụng, sẽ khiến các tài liệu trở thành tài liệu thừa và biến thành các data swamp đầm lầy dữ liệu.
  • Dữ liệu bẩn: Đây là những dữ liệu đã cũ của doanh nghiệp chứa những thông tin không còn giá trị sử dụng, hoặc những số liệu cũ khiến doanh nghiệp có thể đưa ra những quyết định sai lệch, hay là những tài liệu trùng lặp. Đây cũng là một nhóm thông tin thuộc đầm lầy dữ liệu của doanh nghiệp.
  • Thiếu quy trình tự động hóa: Việc thiếu các quy trình tự động hóa trong việc lập danh mục dữ liệu hay bảo trì dữ liệu trong khi các dữ liệu đang được doanh nghiệp lưu trữ ngày càng tăng về số lượng lẫn kích thước thì khả năng cao một đầm lầy dữ liệu mới của doanh nghiệp đang được hình thành.

Thiết lập nhu cầu mục đích sử dụng dữ liệu từ đầu vào sẽ hạn chế đầm lầy dữ liệu phát sinh tại doanh nghiệp

4. Giải pháp làm khô đầm lầy dữ liệu

Nếu không may, tài liệu lưu trữ của doanh nghiệp trở thành data swamp, đừng quá lo lắng, hãy biến chúng trở thành các dữ liệu thô ban đầu trong hồ dữ liệu theo những cách sau:

  • Lên kế hoạch cụ thể làm sạch dữ liệu: Làm sạch dữ liệu định kỳ, thiết lập tham số lưu trữ cụ thể, loại bỏ và dọn sạch những dữ liệu cũ đã lỗi thời, bị trùng lặp, không còn giá trị sử dụng, sẽ giúp phòng tránh các sự cố và tối ưu hoá lợi ích của các thông tin.
  • Bảo vệ, bảo mật dữ liệu nhạy cảm: Cần phân loại cụ thể tài liệu theo nội dung và mục đích sử dụng riêng, đặc biệt đối với các dữ liệu nhạy cảm của doanh nghiệp dù không sử dụng nhưng tuyệt đối cần được tách riêng vừa để bảo mật thông tin tránh những vấn đề pháp lý vừa tránh dữ liệu nhạy cảm trở thành data swamp của doanh nghiệp.
  • Thiết lập nhu cầu và mục tiêu sử dụng dữ liệu: Điều này sẽ giúp doanh nghiệp dễ dàng kiểm soát được chất lượng nội dung đầu vào đồng thời, đặt ra mục tiêu sử dụng cụ thể của dữ liệu doanh nghiệp sẽ biết đâu là dữ liệu cần thiết cần giữ lại, đâu là dữ liệu nên loại bỏ tránh biến thành các đầm lầy dữ liệu.
  • Tiến hành tự động hóa một số quy trình: Điều này giúp doanh nghiệp xử lý các dữ liệu thô theo một quy trình thống nhất sẽ giúp hạn chế các tài liệu tồn đọng trùng lặp, không đạt chuẩn,...Nhờ đó các đầm lầy dữ liệu sẽ dần được xóa bỏ.
  • Sử dụng các ứng dụng phần mềm hỗ trợ quản lý data lake: Việc sử dụng phần mềm trong quản lý lưu trữ là điều vô cùng cần thiết trong việc ngăn ngừa data lake trở thành các data swamp.

Data swamp luôn là thách thức của doanh nghiệp hiện nay. Việc quản lý, lưu trữ dữ liệu đúng cách phù hợp sẽ giúp các data lake trong doanh nghiệp trong sạch mang đến nhiều giá trị sử dụng cho doanh nghiệp, không biến thành các data swamp kéo chân doanh nghiệp trong thời đại số.

 

 

 

Các bài khác:

 
 
Bài viết nổi bật