Big Data và cách tiếp cận thực tiễn

by Louis Vu
0 comment

Ứng dụng Big Data – Dữ liệu lớn vào thực tiễn

Sự tăng trưởng nhanh chóng của dữ liệu trong mọi ngành công nghiệp đặt ra nhu cầu lớn
về quản lý dữ liệu, phân tích và khối lượng công việc tính toán hiệu năng cao hơn. Phân tích dữ liệu lớn đã thay đổi bộ mặt kinh doanh. Ngoài ra, các kiến trúc và khung mới hơn cung cấp các công cụ và dịch vụ mạnh mẽ tiếp tục mở rộng với nhu cầu ngày càng cao của khách hàng và đối tác. Khối lượng và chi tiết thông tin ngày càng tăng của các tổ chức và sự gia tăng của đa phương tiện, phương tiện truyền thông xã hội, thiết bị đa cảm biến, thiết bị siêu âm cầm tay và Internet of Things sẽ thúc đẩy sự tăng trưởng theo cấp số nhân của dữ liệu lớn cho tương lai . Điều này sẽ tạo ra một cơ hội lớn để chuyển đổi các doanh nghiệp và toàn bộ ngành công nghiệp, và tạo ra một chất lượng cuộc sống tốt hơn.

Giới thiệu

Theo nhiều cách, dữ liệu lớn giống như dữ liệu truyền thống : nó phải được thu thập, lưu trữ, tổ chức và phân tích và kết quả của phân tích đó phải được tích hợp vào các quy trình đã được thiết lập để ảnh hưởng đến cách thức hoạt động của doanh nghiệp.

Nhưng vì dữ liệu lớn đến từ các nguồn tương đối mới mà chúng ta chưa phân tích trước đây để hiểu rõ hơn, nên các tổ chức đã quen với việc thu thập thông tin từ các nguồn này, chúng không được sử dụng để xử lý khối lượng lớn dữ liệu phi cấu trúc như vậy.

Dữ liệu phi cấu trúc (hoặc thông tin phi cấu trúc ) là thông tin không có mô hình dữ liệu được xác định trước hoặc không được tổ chức theo cách được xác định trước. Thông tin phi cấu trúc thường là văn bản , nhưng cũng có thể chứa dữ liệu như ngày tháng, số và sự kiện. Điều này dẫn đến sự bất thường và mơ hồ gây khó hiểu khi sử dụng các chương trình truyền thống so với dữ liệu được lưu trữ ở dạng trường trong cơ sở dữ liệu hoặc được chú thích ( được gắn thẻ ngữ nghĩa ) trong tài liệu.

Năm 1998, Merrill Lynch đã trích dẫn một quy tắc ngón tay cái rằng đâu đó khoảng 80-90% tất cả các thông tin kinh doanh có thể sử dụng có thể bắt nguồn từ hình thức phi cấu trúc. Quy tắc này không dựa trên nghiên cứu định lượng chính hoặc bất kỳ nghiên cứu định lượng nào, nhưng dù sao cũng được một số người chấp nhận.  Các nguồn khác đã báo cáo tỷ lệ phần trăm tương tự hoặc cao hơn của dữ liệu phi cấu trúc.

Kể từ năm 2012 , IDC và EMC dự kiến ​​dữ liệu sẽ tăng lên 40 zettabyte vào năm 2020, dẫn đến tăng trưởng gấp 50 lần từ đầu năm 2010  Gần đây, IDC và Seagate dự đoán rằng vùng dữ liệu toàn cầu sẽ tăng lên tới 163 zettabyte đến năm 2025  và phần lớn trong số đó sẽ không có cấu trúc. Tạp chí Thế giới máy tính tuyên bố rằng thông tin phi cấu trúc có thể chiếm hơn 70% mật 80% trong tất cả dữ liệu trong các tổ chức.

Công ty dự báo dữ liệu quốc tế (IDC) dự kiến thị trường công nghệ và dịch vụ dữ liệu lớn toàn cầu sẽ đạt 16,9 tỷ USD vào năm 2015. Điều này sẽ đạt mức tăng trưởng gộp 39% hàng năm từ 3,2 tỷ USD năm 2010, và gấp 7 lần tốc độ tăng trưởng của toàn bộ thị trường thông tin và truyền thông thế giới.

Khối lượng dữ liệu trong thế giới ngày càng kỹ thuật số của chúng ta đã bùng nổ, với hàng nghìn tỷ byte dữ liệu được tạo ra mỗi ngày. Làm thế nào để chúng tôi xử lý việc mở rộng dữ liệu này và hiểu ý nghĩa của nó để cung cấp các mục tiêu có thể thực hiện được ?

Đọc Thêm :   Ứng dụng phân tích dữ liệu lớn để cải thiện sản xuất

Những Ứng dụng trong thế giới thực

Với sự chú ý mà dữ liệu lớn nhận được, một số vấn đề chính xảy ra trong các tương tác hàng ngày.

Dược phẩm

• Vấn đề – Ngành dược phẩm có những yêu cầu chi tiêu vốn lớn nếu nó tạo ra loại thuốc tiếp theo để giúp nhân loại. Nghiên cứu và phát triển chiếm phần lớn chi phí, tiếp theo là các thủ tục pháp lý và phê duyệt.

• Cơ hội – Một lượng lớn máy tính trong các cụm có thể giúp các công ty dược phẩm xác định các ứng cử viên thuốc mới, tiềm năng và giảm thời gian phát triển. Từng được cho là chỉ dành cho các tổ chức nghiên cứu lớn hơn, công nghệ này hiện đang phân tán. Bất cứ ai có bộ dữ liệu, thuật toán và danh sách các tiêu chí thành công đều có thể sử dụng hàng trăm máy ảo ngay lập tức để tìm ra công thức tốt nhất.

Thương mại điện tử

• Vấn đề – Kênh chuyển đổi khách hàng cho thương mại điện tử hoàn toàn khác với bán lẻ truyền thống. Dòng chảy từ khách truy cập duy nhất đầu tiên và toàn bộ hành trình của họ thông qua điều hướng, lựa chọn và mua sản phẩm cần phải được theo dõi và phân tích.

• Cơ hội – để khắc phục các sự cố tải trang, cung cấp giao diện tốt hơn, duy trì lòng trung thành của khách hàng và tăng chuyển đổi tổng thể. Thử nghiệm với các trải nghiệm khác nhau rất lớn đối với nhân khẩu học ngẫu nhiên có chọn lọc hoặc nhắm mục tiêu cho phép giảm chi phí chìm và một tập hợp đầu tư hợp lý hơn có thể là trọng tâm cho doanh nghiệp.

Công nghiệp Chế tạo

• Vấn đề – Mối quan tâm trong sản xuất rất khác nhau. Thời gian giao hàng, kiểm tra chất lượng,
bảo dưỡng một phần, hiệu quả của máy, giá cả khi mua nguyên liệu thô … tất cả đều dễ dàng ghi lại điểm dữ liệu, nhưng các mục này có thể hành động ở đâu?
• Cơ hội – Cơ hội ở đây là để hiểu toàn bộ tổ chức như sản xuất hàng hóa và dịch vụ cho khách hàng của mình. Những cải tiến có thể được thực hiện bằng cách chọn các nhà cung cấp tốt hơn dựa trên chất lượng, tối ưu hóa thời gian giao hàng để giao hàng nhanh hơn hoặc cải thiện hậu cần chuỗi cung ứng.

Đọc Thêm :   Big Data , Data Lake và phân tích dữ liệu lớn trong doanh nghiệp

Cách tiếp cận thực tiễn Big Data

Với lời hứa về dữ liệu lớn trong việc này kỷ nguyên doanh nghiệp số và Internet of Things cần một chiến lược triển khai mạnh mẽ. Chiến lược phải giải quyết khả năng thực hiện quản trị dữ liệu phù hợp, đàm phán, sắp xếp ngày càng tăng các giải pháp thay thế công nghệ, tái thiết kế quy trình kinh doanh, giải quyết bất kỳ khoảng cách về kỹ năng, và chứng minh giá trị của công nghệ.

Nó có kiến thức phổ biến rằng hầu hết các tổ chức đều không có chiến lược để quản lý dữ liệu họ có thể sản xuất, theo dõi hoặc lưu trữ. Cho dù điều đó liên quan đến việc triển khai mới hệ thống quản lý dữ liệu hoặc mở rộng các hệ thống hiện có để chứa dữ liệu đó là khá phổ biến.

Sau đây là một cách tiếp cận bao gồm bảy bước ở cấp độ high level để giúp tổ chức đảm bảo rằng dự án dữ liệu lớn của mình đang đi nhanh đến thành công :

Bước 1: Xác định các tình huống kinh doanh thực tế cần cải thiện

Các trường hợp để cải thiện là dễ dàng để tìm, nhưng vô cùng khó để ưu tiên cái nào quan trọng.
Bản chất của chính trị nội bộ cùng với tất cả các bên muốn đóng góp cải tiến của họ, làm cho nó trở nên khó khăn hơn.

Cụ thể có thể là : nâng cao chất lượng sản phẩm, cho ra một sản phẩm mới phù hợp với thị trường và trong khả năng sản xuất, cải thiện chất lượng dịch vụ CSKH.

Một sự khác biệt rõ ràng có thể được thực hiện bởi ra hai câu hỏi: thứ nhất, trường hợp này có mang lại lợi ích trực tiếp cho khách hàng của chúng tôi không? (trực tiếp là từ khóa) và thứ hai, có bao nhiêu dữ liệu đã được thu thập cho trường hợp này?

Trả lời những câu hỏi này dẫn đến một loạt các ưu tiên vững chắc hơn bằng cách sử dụng bằng chứng thực nghiệm thay vì sắc thái, với sự thiên vị là yếu tố thúc đẩy. Bước đầu tiên này sẽ tạo ra một ý tưởng về kết quả mong muốn.

Bước 2: Hiểu quy trình kinh doanh

Mỗi tổ chức có quy trình riêng hoặc cách thức tiến hành kinh doanh. Những quy trình này có thể là các quy trình nội bộ như nhân sự on board cho tất cả nhân viên hoặc quy trình kinh doanh như xử lý thanh toán khi mua hàng. Sự khác biệt khá rõ ràng và sự hiểu biết chi tiết về quy trình kinh doanh có liên quan là rất quan trọng.

7 bước để ứng dụng Big Data

Bước 3: Hiểu cách phân loại loại và mức độ phân tích cần thiết

Bài tập này sẽ hoàn toàn phụ thuộc vào bản chất của ngành. Để một tổ chức có một cái nhìn hoàn chỉnh về thị trường và cách một công ty cạnh tranh hiệu quả trong thị trường đó, đòi hỏi một khung phân tích mạnh mẽ bao gồm các phân tích mô tả, phân tích dự đoán và phân tích theo quy định.

Bước 4: Tiến hành khám phá chi tiết

Khám phá dữ liệu có thể xảy ra theo nhiều cách, nhưng đối với dữ liệu chúng ta cần tìm ra quá trình nào bị ảnh hưởng bởi dữ liệu. Khám phá đúng đắn có thể bắt đầu với các quy trình kinh doanh liên quan trực tiếp đến việc tạo doanh thu. Sau đó, các quy trình phụ trợ và hỗ trợ có thể được kiểm tra cho mục đích tối ưu hóa. Trong khi hầu hết mọi thứ có thể được điều khiển dữ liệu, một số phải được ưu tiên để cải thiện.

Đọc Thêm :   Big Data , Data Lake và phân tích dữ liệu lớn trong doanh nghiệp

Bước 5: Xác định các yêu cầu chính về dữ liệu

Khi kết quả mong muốn và các trường hợp cải tiến đã được xác định với sự hiểu biết kinh doanh rõ ràng, các điểm dữ liệu chính, số liệu và điểm đánh dấu cần được xác định. Nhu cầu trước mắt có thể dùng để tối ưu hóa mô hình doanh thu cho tổ chức và giảm chi phí mua lại khách hàng, hoặc tăng tốc độ phân phối sản phẩm và các cải tiến bổ trợ.

Bước 6: Thiết kế kiến trúc dữ liệu mạnh mẽ

Kiểu kiến trúc dữ liệu tốt nhất là một trong đó có khả năng mở rộng và giải quyết các yêu cầu của tổ chức trong thập kỷ tới, không chỉ trong hai năm tới (khả năng scale lớn và flexible). Số lượng các số liệu và các điểm chính cần nắm bắt sẽ tăng theo thời gian, nhưng kiến trúc cơ bản nên có thể mở rộng để đáp ứng các nhu cầu này. Điều quan trọng là giữ cho các cải tiến và thiết kế tập trung vào báo cáo tự phục vụ, phân tích thời gian thực và Dashboardsáng tạo thể hiện bản chất thực sự của tổ chức.

Bước 7: Triển khai ứng dụng

Hoàn thành công việc cần giải quyết đã đặt ra trước đó Điều này làm nổi bật các tổ chức đã trưởng thành và sẵn sàng khi các cửa xả lũ dữ liệu lớn mở ra. Khi một tầm nhìn rõ ràng đã được đặt ra với một cam kết thực hiện từ tất cả các bên, nó sẽ sạc đầy trước. Giảm số lượng  rào cản sẽ giúp đẩy nhanh quá trình thực hiện thành công hơn.

Giải pháp High Level và Giải pháp chi tiết

Kiến trúc Big Data high level tham khảo

Xử lý dữ liệu lớn đòi hỏi các công nghệ và công cụ có thể  thu thập, lưu trữ dữ liệu, suy luận các mẫu và rút ra những hiểu biết cho các tổ chức:

  • Cơ sở hạ tầng máy tính trong hình thức lưới phân tán, môi trường tính toán hiệu năng cao và đám mây cho cơ sở hạ tầng dưới dạng dịch vụ (IaaS)
  • Quản lý dữ liệu bao gồm các công cụ quản lý dữ liệu phân tán như Hadoop và Dryad và các cơ sở dữ liệu không liên quan như NoQuery
  • Các công cụ xử lý bao gồm các khái niệm trừu tượng như MapReduce và các ngôn ngữ lập trình như Pig và R.
  • Các thông tin về kỹ thuật liên quan : Performance? Scalability ? Standards-Based APIs and Tools ? Direct Access NFS™ ? Manageability ? Monitoring ? Integrated Security ? Multi-tenancy? High Availability? Disaster Recovery?

Từ góc độ người dùng, phân tích dữ liệu lớn vẫn là một khả năng của doanh nghiệp mới nổi và đi kèm với đó là một số rủi ro cố hữu và đầu tư thời gian cần thiết để đạt được lợi ích mong đợi.

Các lợi ích kinh doanh chính của Big Data bao gồm :

  • sắp xếp chiến lược dữ liệu lớn với chiến lược kinh doanh
  • đề xuất lộ trình cho dữ liệu lớn thông qua các trường hợp kinh doanh tập trung
  • đánh giá định lượng bằng cách sử dụng các công cụ để xác định phân tích ROI / TCO
  • thực tiễn, công cụ và framework tốt nhất đưa ra bản đồ chi tiết về các cơ hội dữ liệu lớn
  • kết quả phân tích có thể dẫn đến tiếp thị hiệu quả hơn, cơ hội doanh thu mới, dịch vụ khách hàng tốt hơn, hiệu quả hoạt động được cải thiện và các lợi ích kinh doanh khác

Nguồn : Dimension Data.

 

Có thể bạn quan tâm

Leave a Comment