WHAT'S NEW?
Loading...

Big Data là gì ?

Định nghĩa lý thuyết

Big Data là một thuật ngữ rộng cho việc xử lý một tập hợp dữ liệu rất lớn và phức tạp mà các ứng dụng xử lý dữ liệu truyền thống không xử lý được. Bao gồm các thách thức như phân tích, thu thập, giám sát dữ liệu, tìm kiếm, chia sẻ, lưu trữ, truyền nhận, trực quan hóa, truy vấn và tính riêng tư. Thuật ngữ Big Data thường được hiểu đơn giản là sử dụng để phân tích dự đoán hoặc là một số phương pháp tiên tiến khác rõ ràng để trích xuất giá trị từ dữ liệu mà ít khi đề cập đến kích thước của bộ dữ liệu. Độ chính xác trong Big Data có thể dẫn tới ra quyết định đúng đắng hơn, và những quyết định tốt hơn có thể đưa đến kết quả hoạt động tốt hơn như giảm chi phí và rủi ro.
Theo Wikipedia
Định nghĩa lý thuyết là vậy, nhưng nói một cách đơn giản và dễ nhìn nhận về Big Data theo cách của mình thì nó là tập hợp khổng lồ khối dữ liệu từ hàng tỉ tỉ các thiết bị kết nối Internet với nhau. Hẳn là các ban còn nhớ khái niệm IoT (Internet vạn vật) trong bài viết trước của mình; các thiết bị như máy tính, điện thoại, máy tính bản, thiết bị thông minh trong nhà kết nối internet, những cảm biến nhúng trong các hệ thống lớn như giao thông đô thị, đèn giao thông, và cơ sở hạ tầng… sẽ tạo ra khối dữ liệu khổng lồ như file ghi log nhật ký, tin nhắn, video kỹ thuật số, hình ảnh, dữ liệu cảm biến… Nguồn dữ liệu khác chính là các nội dung kỹ thuật số mà các bạn sử dụng từ internet như: nhạc, truyện, app, game đều là Big Data. Một ví dụ đơn giản đó là giám sát hành vi, bạn mở trình duyệt web trên máy tính lên, trình duyệt web là Google Chrome; sau đó bạn truy cập Facebook và đọc New Feed của bạn. Google Chrome sẽ tự ghi log lại hành vi của bạn và gởi về Google để góp phần nâng cao trải nghiệm về trình duyệt của họ, Facebook cũng làm điều tương tự để họ có thể cải tiến hơn mạng xã hội của họ cũng như làm sao để thời gian truy cập của bạn trên Facebook lâu hơn góp phần giúp các quảng cáo trên Facebook đến với bạn nhiều hơn,… Mọi thứ bạn làm khi truy cập Internet trên máy tính, điện thoại, tablet,… đều được ghi log lại theo hành vi, tính cách và nhân khẩu học của bạn, đó cũng chính là một nguồn dữ liệu của Big Data.
04
Sau đây mình xin demo cho các bạn thấy, đây là hình ảnh công cụ quảng cáo của Facebook. Mình thử lọc dữ liệu là người sinh sống tại Việt Nam, nói tiếng Việt Nam và độ tuổi từ 18 tuổi trở lên, quan tâm đến Facebook. Kết quả Facebook lọc ra được có khoảng 3 đến 3,5 triệu người dùng tích cực hàng tháng. Đây là một VD cụ thể về việc Facebook tracking người dùng như thế nào; ngoài ra còn rất nhiều thông tin khác mà Facebook lấy được từ người dùng như: hành vi khi lướt Facebook như: like, share quảng cáo hay không, độc thân hay kết hôn, trình độ học vấn,…
02
Độ tuổi truy cập Facebook nhiều nhất ở nước ta là từ 18-34 trong đó nam giới chiếm 54% còn nữ giới là 46%
Bạn truy cập Facebook, ngoài kia có hơn 1 tỉ người cũng đang lướt Facebook; vậy bạn nghĩ dữ liệu mà Facebook xử lý sẽ to lớn như thế nào, cùng mình tìm hiểu sang phần kế tiếp.

Kích thước của Big Data

Tập dữ liệu đang tăng rất nhanh một phần vì chúng được thu thập bởi số lượng thiết bị di động ngày càng rẻ và nhiều, các thiết bị thu thập thông tin trên không như máy bay hoặc vệ tinh, nhật ký phần mềm, các thiết bị thu hình, thu thanh, đầu đọc RFID, mạng cảm biến không dây,… Khả năng lưu trữ thông tin của thế giới đã tăng bình quân gấp đôi sau mỗi 40 tháng từ những năm 1980; riêng năm 2012, mỗi ngày thế giới tạo ra 2.5 exabytes (2.5×1018) dữ liệu. 
Theo Wikipedia
IBM ước lượng, có 2.5 nhân 10 mũ 18 bytes (2,500,000,000,000,000,000) dữ liệu được tạo ra mỗi ngày.
Theo IBM 
Mình sẽ cụ thể hóa khối dữ liệu khổng lồ đó cho các bạn dễ hình dung như sau; theo thống kê từ website go-globe.com thì 60 giây trên Internet có: 
  • 13,000 ứng dụng iPhone được download.
  • 370,000 phút gọi điện thoại trên Skype.
  • 98,000 dòng tweet trên mạng xã hội Twitter.
  • 600 video mới được upload lên Youtube.
  • 694,445 truy vấn tìm kiếm trên Google.
  • 695,000 dòng status trên Facebook.
Và còn rất nhiều dữ liệu khác,…
==> (Thống kê mang tính đương đối vì dữ liệu luôn thay đổi theo thời gian thực).
03
Trên đây chỉ là một ví dụ cụ thể và dữ liệu của Big Data, như đã nói là phần trước; Big Data có rất nhiều nguồn dữ liệu khác nhau. Điện toán đám mây, Internet vạn vật (IoT) đều là 1 phần của Big Data.
Hiện nay trên thế giới, số người truy cập Internet vào khoảng 46,1% dân số thế giới, khoảng 3,4 tỉ người dùng Internet (Xem thêm tại đây). Tạo ra một khối lượng rất lớn dữ liệu tham gia vào dòng chảy Big Data.
Bạn nên truy cập website internetlivestats.com để có những cái nhìn thực tế về độ rộng lớn và phát triển không ngừng nghỉ của Internet: cụ thể là ngay lúc bạn truy cập vào internetlivestats.com thì số người dùng internet, số lượng website, số email được gởi,… không ngừng gia tăng theo thời gian thực.
OK, vậy Big Data to lớn đến vậy nhưng nó có công dụng gì cho chúng ta, hãy cùng mình làm rõ vấn đề này ở phần tiếp theo!

Sử dụng Big Data để làm gì ?

Big Data vô cùng giá trị, để thu thập nó cần có cả một quy trình rất lớn nhưng sở hữu, sau đó phân tích và để sử dụng nó như thế nào lại còn khó hơn. Vì dữ liệu Big Data gồm rất nhiều lĩnh vực, nhiều nguồn khác nhau nên nó rất có ích cho tất cả các lĩnh vực trong xã hội như: y tế, giáo dục, an ninh, an ninh mạng, khoa học như nghiên cứu môi trường, biến đổi khí hậu; kinh doanh mà cụ thể nhất là Internet marketing, online marketing…
08
Mình xin được lấy vài ví dụ dụ thể về sử dụng Big Data trong thời đại hiện nay:
Y tế: giờ đây hồ sơ bệnh án điều được lưu trữ online, đó chính là nguồn tư liệu tham khảo vô cùng giá trị cho các bác sỹ, công ty y tế,…
Giáo dục: giờ đây với các khóa học online đang nở rộ, con đường khám phá tri thức đã dễ dàng hơn đối với mọi người và chi phí cho việc học tập cũng đã giảm thiểu rất nhiều.
An ninh: với hệ thống Camera chống trộm đang ngày càng phổ biến như hiện nay đã góp phần rất lớn cho vấn đề an ninh trật tự xã hội.
An ninh mạng: các cuộc tấn công mạng, tấn công DDos gây ra hậu quả nghiêm trọng nhưng sau mỗi cuộc tấn công thì các nhà an ninh mạng điều thu được số lượng dữ liệu quan trọng để ngày một đảm bảo an ninh mạng được tốt hơn.
Biến đổi khí hậu: các nhà khoa học khi nghiên cứu quá trình biến đổi khí hậu đều chia sẻ, cộng tác với nhau về quá trình cũng như kết quả nghiên cứu.
Internet Marketing: bạn lướt Facebook và vô tình thấy một mẫu quảng cáo trong đó sản phẩm quảng cáo rất phù hợp với bạn và bạn quyết định click vào mẫu quảng cáo đó. Việc làm đó của bạn được gọi thành quảng cáo thành công, là kết quả sau những giai đoạn thu thập thông tin người dùng từ Facebook nhằm nâng cao hiệu quả và tiết kiệm chi phí cho nhà quảng cáo.
Và một điều rất cần thiết để có thể sử dụng Big Data cần đến các Kỹ sư Big Data, mình xin nói rõ hơn ở phần tiếp theo.
Kỹ sư Big Data
Giá trị của Big Data là như vậy, nhưng muốn sử dụng chúng cũng không hề đơn giản. Hiện nay vị trí Kỹ sư Big Data là một vị trí cao cấp yêu cầu các kỹ năng như: có kinh nghiệm làm việc với các thuật toán, tính toán phân tán,… Lý do là để xử lý Big Data cần đến các kỹ thuật nâng cao, phức tạp mà các hệ thống, ứng dụng truyền thống không thể xử lý được; lý do là dữ liệu Big Data vô cùng lớn (2 x 1018  byte dữ liệu/ 24h và còn tiếp tục tăng thêm theo thời gian thực.)
01
Một mẫu tin đăng tuyển Kỹ sư Big Data của VCcorp
Hiện tại ở Việt Nam vẫn còn rất ít công ty có nhu cầu tuyển dụng Kỹ sư Big Data nhưng nó sớm sẽ trở thành xu thế mới giống như thời điểm hiện nay thì hệ thống điện toán ảo hóa (chủ yếu trên nền tảng VMware) đang thịnh hành và phát triển. Vì vậy, mình có lời khuyên các bạn nào đang muốn tìm một định hướng mới để học về CNTT thì nên nghiên cứu về Big Data. 

Big Data trong tương lai

Trong tương lai thì chắc các bạn điều biết sự phát triển mạnh mẽ như thế nào của Internet vạn vật (IoT), hàng tỉ tỉ các thiết bị kết nối Internet chia sẻ thông tin, bạn có thể điều kiển, quản lý mọi thứ trong nhà của bạn từ xa thông qua smartphone,… đó là viễn cảnh tương lại chắc chắn sẽ xảy ra. Cùng với sự phát triển đó thì nguồn dữ liệu sẽ tăng theo cấp số nhân và Big Data sẽ vô cùng to lớn và nó cũng sẽ làm đau đầu các nhà phân tích, hoạch định chính sách làm sao để quản lý, phát triển Big Data một cách có lợi nhất cho chúng ta. Và không để mình không bắt kịp xu thế, các công ty tập đoàn cộng nghệ lớn đã bắt tay đầu tư vào IoT để có thể làm chủ Big Data trong thời gian sắp tới.
Dưới đây là danh sách các nhà đầu tư vào IoT:
06
Thống kê từ CBInsights
Không chỉ có các công ty lớn, các công ty khởi nghiệp (startup) cũng bắt tay vào sử dụng và nghiên cứu về Big Data, cho chúng ta thấy tầm quan trọng của Big Data đối với cuộc sống hiện đại ngày nay và trong tương lai (đó cũng là lý do mà khuyên các bạn có định hướng học CNTT thì Big Data cũng là một gợi ý rất giá trị.)
05
Các Startup sử dụng Big Data theo thống kê từ CBInsights

 Đôi lời nhắn nhủ

Mình xin được nói lên vài dòng suy nghĩ của mình, một câu nói hay một bức ảnh các bạn đăng tải lên mạng xã hội các bạn cho rằng đó là thói quen, sở thích của bạn. Đúng vậy, nhưng đứng trên phương diện mặt kỹ thuật mà nói việc làm đó đang chiếm một phần tài nguyên Internet. Nói vậy thì Internet cũng như mạng xã hội phát triển làm cái gì, tin tức tức thì ra đời để làm gì??? Mình không có ý là đi ngược lại xu hướng phát triển của thời đại. Cái mình nói đây là ý thức sử dụng tài nguyên Internet. Bạn đăng một bức ảnh lên facebook rồi tuần sau có thể bạn không còn nhớ đến bức ảnh đó. Nhưng bạn có biết rằng bức ảnh đó sẽ không bao giờ mất trên tài khoản Facebook của bạn. Lý do tại sao hả, vì hệ thống trung tâm dữ liệu của facebook sẽ nhân bản bức ảnh đó ra và lưu trữ ở nhiều nơi khác nhau trên toàn thế giới để đề phòng ảnh hưởng của các thảm họa thiên nhiên. Mình đang nói là 1 bức ảnh được post từ bạn, vậy hơn 1 tỉ người đang sử dụng facebook hằng ngày cùng post ảnh lên thì mức độ to lớn của dữ liệu sẽ như thế nào??? Rất rất lớn các bạn và số tiền bỏ ra để đảm bảo khối dữ liệu khổng lồ ấy luôn luôn “sẵn sàng” 24/7/365 là vô cùng to lớn. Tài nguyên Internet rất phong phú nhưng không gì là không cạn kiệt, các hệ thống máy chủ Facebook ngày đêm hoạt động, sao lưu dữ liệu cho bạn. Hệ thống máy chủ cần đến một lượng điện khổng lồ, làm gia tăng nhu cầu về điện năng và dẫn đến tiêu tốn chi phí rất lớn khác nữa như chi phí bảo trì máy móc, thay thế ổ cứng máy chủ hỏng hóc, chi phí vận hành Data Center,… Càng nhiều người có thể tiếp cận và sử dụng Internet thì lại cần nhiều hơn các Data Cener, cần nhiều nguồn điện hơn và cũng là môi trường bị phá hủy thêm nhiều hơn. Mình mong rằng các bạn hãy góp phần nâng cao ý thức bảo vệ chính cuộc sống này, góp phần giảm và làm chậm đi quá trình tiêu tốn tài nguyên thiên nhiên. Mình biết sẽ có bạn cho rằng mình dở hơi hay rảnh quá đi lo chuyện mà chẳng ai thèm quan tâm. Nhưng mong rằng bạn hãy dành ra ít phút nghĩ về đôi dòng tâm sự này của mình, các bạn chỉ cần nghĩ về tác động của việc tạo ra nguồn điện đã gây ra biết bao ảnh hưởng đến cho môi trường. Hãy nghỉ về việc đó các bạn!
09
Mình mong rằng các bạn sẽ đồng cảm với suy nghĩ của mình, chân thành cảm ơn.
Bài viết tham khảo nội dung từ thư viện của IBM tại đây.

0 nhận xét:

Đăng nhận xét

free auto backlink, tao backlink, tao backlink chat luong cao mien phi