Thứ Sáu, 29 tháng 8, 2014

Tại sao Big data lại gặp nhiều khó khăn trong khai thác đến vậy? (Phần 1)

Biztek xin giới thiệu phần 1 của bài phân tích về lý do tại sao Big Data đang gặp nhiều khó khăn trong việc khai thác từ trang công nghệ Gigaom.Việc thu thập và phân tích dữ liệu ngày càng dễ dàng hơn bao giờ hết nhưng giờ đây các nhà khoa học và nhà nghiên cứu đang có những khoảng thời gian khó khắn chống lại những thế lực “hùng mạnh” khác. 

 
Việc thu thập và phân tích dữ liệu ngày càng dễ dàng hơn bao giờ hết nhưng giờ đây các nhà khoa học và nhà nghiên cứu đang có những khoảng thời gian khó khắn chống lại những thế lực “hùng mạnh” khác.

Qua tất cả các buổi thảo luận về việc sử dụng big data và dữ liệu khoa học nhằm giải quyết các vấn đề còn tồn tại của thế giới – và thậm chí cả những buổi thảo luận về việc coi big data là một vấn đề mới mà thế giói cần giải quyết, thfi có vẻ những chúng ta vẫn còn rất nhiều điều phải làm.
Đầu tuần này, hội nghị thường niên bàn về khai thác dữ liệu, KDD 2014, đã diễn ra tại New Yorrk với tuyên bố nhấn mạnh “khoa học dữ liệu cho một xã hội tốt đẹp”. Đây là một mục tiêu cao quý, và trên thực tế, sự kiện này đã thực sự nhấn mạnh nhiều nghiên cứu, thậm chí cả các ví dụ thực tế, về việc dữ liệu có thể giúp giải quyết rất nhiều vấn đề ra sao, từ lĩnh vực y tế đến quy hoạch đô thị. Bên cạnh đó, sự kiện này cũng đặt ra những thách thức thực tế trong việc sử dụng dữ liệu khoa học để giải quyết các vấn đề xã hội.
Hầu hết, các thách thức được đề cập đế là có quá ít thứ có thể làm được với lượng dữ liệu thu thập. Bởi lẽ giờ đây, chúng ta có thể dễ dàng thu thập và phân tích dữ liệu hơn bao giờ hết. Thay vào đó, vấn đề là các nhà khoa học và nhà nghiên cứu dữ liện, thâm chí cả những ai quan tâm đến việc giải quyết các vấn đề nghiêm trọng của thế giới, thì thường có khoảng thời gian vượt qua những thế lực hùng mạnh chống lại họ.
Nghiên cứu các dự án trong vòng vài năm trở lại đây để xem xem liệu dữ liệu đã ứng dụng giải quyết các vấn đề ra sao, thì thực tế chỉ có dường như chỉ vẫn là những nghiên cứu, chủ yếu vẫn đưa ra khái niệm mà hiếm khi áp dụng để phân tích những dữ liệu thực tế hay giúp đỡ người dân. Ngoại trừ một số ít những hình mẫu hay khu vực dễ dàng kiếm được tiền như các công ty khởi nghiệp hay các nhà thầu lớn cung cấp dịch vụ chăm sóc sức khỏe, thì cũng chẳng phải nhiều ứng dụng của dữ liệu cho lắm.
Hiện có ba thế lực lớn chống lại việc thực hiện thành công các ký thuật của ngành dữ liệu khoa học: nỗi sợ hãi, chính trị và pháp luật. Mặc dù có vẻ những thế lực này chẳng liên quan gì đến nhau, nhưng hiện chúng có một mối liên kết rất chặt chẽ.
Sợ hãi những điều chưa biết rõ
Từ góc độ người diêu dùng, sợ hãi những điều họ chưa biết rõ có lẽ là vấn đề lớn nhất trong việc khai thác dữ liệu. Hầu hết người dùng đều cảm thấy họ cần phải cảnh giác với tất cả dữ liệu mà các công ty như Google hay Facebook đang thu thập về bản thân họ, nhưng nhiều người tiêu dùng cũng không biết chính xác liệu các công ty này đang khai thác dữ liệu bản thân họ đến đâu hay lý do chính xác tại sao họ sợ.
Thái độ đó lan truyền đến những khu vực khác. Dan Wagner, nhà đồng sáng lập và là CEO của Civis, một công ty khởi nghiệp tại Chicago phân tích dữ liệu nhằm giải quyết các vấn đề trong doanh nghiệp, phát biểu trong buổi thảo luận tại KDD rằng các nhà hoa học dữ liệu đang bị hạn chế khả năng làm việc của họ trong một số lĩnh vực như nghiên cứu gen, giáo dục, và tội phạm vì mọi người không sẵn sàng gửi những dữ liệu nhạy cảm cần thiết để khiến những nghiên cứu đó thực sự mang tính đột phá.
Thật vậy, phản ứng dữ dội chống lại công ty InBloom chuyên thu thập dữ liệu sinh viên đầu năm nay khiến công ty này phải đóng cửa vào tháng 04. Cũng có rất nhiều cuộc tranh luận liên quan đến quyền riêng tư trong y tế, không chỉ về việc liệu pháp luật sẽ điều chỉnh những thông tin gì mà bệnh viện sẽ chia sẻ mà còn về khoản phí mã mỗi người sẵn sàng tự bản thân họ muốn nộp.
Văn bản trên trang web của inBloom giải thích lý do dẫn đến quyết định đóng cửa của mình:
Việc sử dụng công nghệ để thiết kế những hướng dẫn dành riêng cho từng sinh viên vẫn còn là một khái niệm mới và inBloom cung cấp các giải pháp kỹ thuật mà chưa từng có trước đây, Kết quả là nó đã trở thành nhân vật phản diển và thu hút những chỉ trích lạc hướng. Tại NewYork, những hiểu lầm gần đây đã dẫn đến việc công bố các văn bản pháp luật hạn chế nghiêm trọng các tổ chức giáo dục ký kết hợp động với những công ty bên ngoài như inBloom để lưu trữ, tổ chức, hoặc tổng hợp số liệu sinh viên, kể cả trong trường hợp các công ty cung cấp được xác định có mức độ riêng tư và bảo mật thông tin hơn so với bất kỳ hệ thống nào đang sử dụng hiện nay.
Có lẽ, một phần của nỗi sợ hãi này là xu hướng thu thập ngày càng nhiều dữ liệu và những hình ảnh cực kỳ chi tiết về mỗi cá nhân. Điều này được minh họa trong một bài đăng trên blog gần đây của tác giả, nhà phê bình công nghệ Nick Carr, người đã cho rằng Google và Facebook nên được kiểm trả lượng thông tin mà họ có. Đó là một lời chỉ trích thích đáng khi nói về quảng cáo ở hai ông lớn này, dù có lẽ là hơi phóng đại, đặc biệt khi nói đến việc khai thác dữ liệu trong việc tạo ra phúc lợi xã hội.
Thay vào đó, có thể người ta cho rằng mục tiêu thực sự khi thu thập dữ liệu – cho dù đó là Google, bác sĩ hay trường học – là để giảm thiểu số lượng thứ có thể được đánh giá. Hiện chúng ta đang ở thời kỳ có con người có khả năng bị đánh giá và phân tích rất nhiều mà không ai thực sự, hoặc số ít, biết được liệu những số liệu thu thập về họ liệu có bị điều chỉnh gì không và dùng để làm gì. Liệu càng nhiều cảnh sát có phải là câu trả lời cho tỉ lệ phạm tội thấp hay là tác động nào khác dễ dàng hơn mà hiệu quả hơn? Hay những trường học ở những vùng hẻo lánh có thể làm gì để vượt qua tình trạng túng thiếu tiền và ngày càng nhiều nhiều trẻ con không còn thích cuộc sống gia đình?

Ảnh: Ông Dan Wagner
Civis’s Wager nói rằng công ty sẵn sàng vượt qua những khó khăn này bằng cách xây dựng niềm tin với khách hàng một cách dần dần, trước tiên chúng tôi sẽ giải quyết những vấn đề chỉ cần đến những dữ liệu vô danh và bắt đầu xây dựng niềm tin với khách hàng từ đó.
Từ khóa : ADATA, Big Data, KDD 2014, data,

Không có nhận xét nào:

Đăng nhận xét