Tìm hiểu về PRISM, hệ thống BigData của NSA

NSA là gì ?

Trước khi tìm hiểu, ta cần biết qua về NSA. Đây là viết tắt của National Security Agency, cơ quan an ninh quốc gia của Mỹ.

Nghề của NSA là thu thập giải mã và phân tích thông tin tình báo từ các nước để phục vụ cho CP Mỹ. Như vậy có thể nói NSA là nơi có nhiều dự án và các cao thủ về 3 món: thu thập, giải mã và phân tích thông tin.

PRISM là gì ?

Là dự án Big Data của NSA, với mục tiêu phát hiện khủng bố và khai thác các mô hình/khuôn mẫu khác được sự cho phép của thẩm phán liên bang làm việc theo Luật giám sát tình báo nước ngoài. PRISM có nghĩa là Lăng kính, lấy ý tưởng từ việc lăng kính được dùng trong các sợi cáp quang để truyền thông tin.

PRISM hoạt động như thế nào ?

Bằng việc thu thập tất cả các nguồn dữ liệu có thể có: nội dung điện thoại, nội dung email, các truy cập web, video, hình ảnh, các status trên Facebook, Twitter, địa chỉ IP, địa chỉ email, số điện thoại…. PRISM sẽ phân tích và đưa ra các cảnh báo cho CP Mỹ về các dấu hiệu khủng bố có thể có. Để từ đó họ sẽ khoanh vùng, ngăn chặn các vụ khủng bố. Hoặc khi họ cần thông tin về 1 cá nhân/tổ chức nào đó, chỉ cần gõ số điện thoại/email, tên… PRISM sẽ trả về tất cả các thông tin mà nó thu thập và tổng hợp được từ nhiều nguồn.

Về cơ bản, chúng ta sẽ không biết nhiều về PRISM nếu không có Edward Snowden và các tài liệu do anh ta cung cấp. Hãy cùng tìm hiểu sơ bộ về PRISM qua một số tài liệu này.

1

Hình 1

Theo hình trên thì ta thấy, họ có 2 nguồn để thu thập thông tin đó là: Upstream và PRISM. Như vậy có thể thấy PRISM không phải là 1 dự án duy nhất. Nếu như Upstream tập trung vào việc thu thập tất cả các dữ liệu từ hạ tầng từ các nhà mạng thì PRISM là thu thập trực tiếp từ máy chủ của các nhà cung cấp dịch vụ tại Mỹ. Tạm hiểu Upstream là chuyện hớt cá giữa dòng nước, còn PRISM thì mang cả sọt đến tận hang cá để tóm.

2

Hình 2

Hình 2 cho thấy, PRISM thu thập được 11 loại dữ liệu khác nhau bao gồm: E-mails, instant messages, videos, photos, stored data (kiểu Google Drive  hay MS SkyDrive chăng ?), voice chats, file transfers, video conferences, log-in times, social network profile details và loại cuối cùng là “Special Request”

Những dữ liệu này lấy được từ  9 công ty lớn bao gồm có: Microsoft, Google, Yahoo, Facebook… tham gia vào việc cung cấp dữ liệu cho PRISM (Provider). Bạn có dùng dịch vụ của các hãng trên không 😀

Hình 3 cho thấy thời điểm mà các Provider tham gia vào PRISM cho đến cuối năm 2012. Microsoft là hãng đầu tiên, tham gia ngày 11/9/2007 và Apple là hãng cuối cùng tham gia tháng 10/2012. Chưa rõ khi Microsoft tham gia PRISM thì có xem ngày hay không mà khéo thật.

3

Hình 3

Tùy từng Provider, NSA có thể sẽ nhận được 1 thông báo ngay lập tức khi có sự kiện log in hoặc gửi mail của đối tượng (Hình 4)

4

Hình 4

5

Hình 5

 Theo  hình 5 thì tại thời điểm ngày 5 tháng 4, 2013 có 117,675 mục tiêu theo dõi nằm trong CSDL chống khủng bố của PRISM

6

Hình 6

Hình 6 một lần nữa mô tả tổng quan về các nguồn dữ liệu mà NSA đã thu thập.

PRISM xử lý bao nhiêu dữ liệu ?

Chưa thấy thông tin chính thức từ NSA, nhưng cứ hình dung riêng Facebook hoặc Google phải xử lý đống data của họ đã đủ mệt rồi, đằng này PRISM xử lý của cả Facebook, Google, MS…. cộng lại.

Theo một nghiên cứu đăng tại HighScability thì tác giả dự tính số lượng dữ liệu mà PRISM xử lý là như sau:

Facebook: 500 TB/ngày* 30 = 1.5 PT/tháng (source)

Twitter: 8 TB/ngày* 30 = 240 TB/tháng (source)

Email/Other info: 193PT/tháng (source)

Mobile traffic/machine­to­machine exchanges/vehicles etc:  117 PB/tháng (source)

Như vậy tổng dữ liệu xử lý là gần 312PB/tháng

Công nghệ, thành phần của PRISM ?

7

Hình 7

 Theo  Hình 7, chúng ta có thể thấy 1 số các hệ thống sau nằm trong PRISM

  • PRINTAURA automates the traffic flow
  • SCISSORS and Protocol Exploitation sort data types for analysis
  • NUCLEON (voice)
  • PINWALE (video): http://en.wikipedia.org/wiki/Pinwale
  • MAINWAY (call records)
  • MARINA (Internet records)
  • FALLOUT ?
  • CONVEYANCE ?

Ngoài ra, trong các tài liệu khác còn có xuất hiện 1 số các hệ thống khác như

  • Accumulo (http://en.wikipedia.org/wiki/Apache_Accumulo): 1 dạng NoSQL (NSA đóng góp ngược lại cho cộng đồng nguồn mở Apache và có cả 1 công ty thương mại  hóa thành Sqrrl http://sqrrl.com/, công ty này cũng do cựu nhân viên của NSA thành lập
  • NSA Graph search
  • Xstroke (http://en.wikipedia.org/wiki/XKeyscore): Theo wiki thì là  a system “for searching and analyzing Internet data about foreign nationals across the world”
  •  Boundless Informant: Công cụ để phân loại, quản lý, phân tích các đối tượng trên toàn cầu

Những hệ thống này nếu tìm hiểu thêm sẽ có khá nhiều thông tin thú vị phục vụ cho xây dựng Big Data.

PRISM có từ khi nào ?

Theo tài liệu của NSA thì PRISM được phát triển từ năm 2007. Như vậy đây là 1 dự án Big Data có ít nhất 6 năm tuổi.

Phản ứng của các “ông lớn” trước thông tin họ nằm trong PRISM

Về cơ bản thì 100% người sử dụng trên toàn thế giới có dùng dịch vụ của ít nhất 1 trong 9 công ty kia. Điều đó có nghĩa là các hãng này ít nhiều bị ảnh hưởng tới uy tín khi thông tin PRISM bị lộ lọt. Hãy xem phản ứng của các hãng trước việc này ra sao.

Larry Page, CEO của Google có viết 1 bài với tiêu đề “What the…” phủ nhận hoàn toàn việc tham gia vào PRISM và việc NSA không  thể có quyền truy cập trực tiếp vào các server  cũng như có backdoor để truy cập vào các dữ liệu của Google. (http://googleblog.blogspot.com/2013/06/what.html)

Đại diện về luật pháp của Yahoo cũng viết trên blog , “Quan điểm cho rằng Yahoo! cung cấp cho bất kỳ cơ quan liên bang nào truy cập tự do vào hồ sơ của người sử dụng là sai” (http://yahoo.tumblr.com/post/52491403007/setting-the-record-straight)

CEO của Facebook, Mark Zuckerberg đăng 1 status về vấn đề này “Facebook không và chưa bao giờ là 1 bộ phận của bất kỳ chương trình nào cho phép CP Mỹ hoặc các quốc gia khác, truy cập trực tiếp vào server của chúng tôi.” (https://www.facebook.com/zuck/posts/10100828955847631)

Phát ngôn viên của Apple cũng trả lời rằng, “Chúng tôi chưa bao giờ nghe đến PRISM”

Thực tế thì chúng ta thấy rất dễ, là các hãng này đều nói họ không cho phép “truy cập trực tiếp” vào  máy chủ. Nhưng không thấy họ nói đến “truy cập gián tiếp” :D. 

Chi phí cho PRISM

Theo thông tin từ NSA ở Hình 3 thì PRISM tiêu tốn khoảng 20 triệu USD/năm.

Trong khi đó, có 1 nghiên cứu khác cho rằng PRISM tốn khoảng 180 triệu USD/năm mà vẫn còn khen là chi phí thấp (http://highscalability.com/blog/2013/7/1/prism-the-amazingly-low-cost-of-using-bigdata-to-know-more-a.html).

Điều này chứng tỏ NSA rất biết tiêu tiền 1 cách hiệu quả.

Hạ tầng cho PRISM ?

Hiện, dữ liệu của PRISM được cho là lưu trữ tại trung tâm dữ liệu Utah.

NSA Phone Records

Hình 8

Kết luận

Kết luận lại, theo phỏng đoán thì PRISM sẽ có 1 cấu trúc tương tự như hình sau đây:

9 Hình 9

Không bàn đến vấn đề mục đích sử dụng của PRISM, tuy nhiên rõ ràng việc tìm  hiểu hệ thống Big Data của NSA này cũng sẽ giúp chúng ta có được 1 case study về hệ thống lớn, để áp dụng vào các dự án Big Data khác.

Tài liệu tham khảo

3 thoughts on “Tìm hiểu về PRISM, hệ thống BigData của NSA

  1. gta 5 cheats

    Hey,

    Stumbled upon your blog on Google and you definitely deserve more visitors!

    Shared your blog on Facebook if that helps :)

    Jared

    Check out my site if you have time, maybe even share it on Facebook

    Reply
  2. soundcloud

    Greetings! I came across your site on Google. I am
    making this comment to find out what theme you are using on this blog, I
    would love to use the theme that you are using so I can
    use it on my blog.

    Thank you!

    Reply

Leave a Reply

Your email address will not be published. Required fields are marked *