Monthly Archives: January 2014

Big Data & DDoS Analysis

Lý do có bài viết này: Đang làm về Big Data, lại nhân việc hỗ trợ 1 công ty bị tấn công DDoS.

Phân tích DDoS

Khi hệ thống bị tấn công DDoS với hàng ngàn truy vấn độc hại trong 1 giây, sinh ra vài chục GB log, việc bạn mở các file log này ra để phân tích là điều không đơn giản. Nguyên nhân là do server của bạn đang bị nghẽn, đến remote vào server chưa chắc đã được chứ đừng nói là bạn vào server để mở file log hay kể cả là chia nhỏ file, nén và tải về máy khác.

Chính vì vậy, Big Data có thể hỗ trợ bạn trong việc xử lý, phân tích các file log lớn.

Hệ thống Big Data phục vụ phân tích DDoS

Đầu tiên chúng ta phải xây dựng 1  hệ thống xử lý Big Data dựa trên nền Hadoop.

3Mô hình Big Data sử dụng để phân tích DDoS

Như hình tôi vẽ ở trên thì bạn sẽ thấy, quá trình phân tích DDoS có thể chia làm 3 giai đoạn

1. Thu thập dữ liệu

4Log của một website đang bị tấn công tại Việt Nam

Ta sử dụng Flume để đón dữ liệu từ các file logs kiểu như hình ở trên vào các channel. Sau đó, Flume sẽ sink dữ liệu thành file lưu ở HDFS

1

Flume đang chạy để đón dữ liệu ghi vào HDFS

2. Xử lý dữ liệu

Khi file đã được lưu sang HDFS, ta có thể dùng Hcatalog để định nghĩa 1 table theo định dạng ta mong muốn. Cụ thể ở đây ta sẽ chuyển 1 file log với nhiều trường thành 1 bảng gồm một số trường đơn giản hơn như: IP, Status, Time, Country. Dựa vào đó ta có thể dùng PIG hoặc Hive để xử lý.

 5Sử dụng HCatalog để tạo bảng

3. Visualization

Biến đống thông tin từ text chuyển sang các sơ đồ bảng biểu để dễ nhìn và dễ phân tích. Ta có thể viết các script cho PIG để phục vụ việc xuất dữ liệu sang các công cụ BI (Business Intelligence).

2Botnet này gồm nhiều máy tính ở Châu Âu

Hoặc ta có thể lấy ra danh sách các địa chỉ IP đang tấn công để đưa vào blacklist của Firewall.

6

Danh sách các IP của bot

Tất cả các công đoạn này có thể xử lý nhanh chóng và tức thì nếu hệ thống Big Data của bạn đủ mạnh.

Các vụ tấn công nhằm vào Bitcoin

Cách đây khoảng 2 tuần, tôi có 1 buổi trao đổi với các bạn đồng nghiệp về ứng dụng của “large scale system”. Khi đến chủ để độ máy để đào Bitcoin, tôi có đùa với mọi người rằng là thay vì mua máy về để đào, người ta có thể huy động botnet để làm việc này.

Không ngờ, câu nói đùa đó lại trở thành sự thật nhanh như vậy. Cách đây khoảng vài ngày một mạng botnet kiểu này đã được công bố. Thông tin có thể đọc thêm tại đây: http://news.cnet.com/8301-1009_3-57616958-83/yahoo-malware-turned-pcs-into-bitcoin-miners

Trước đó 2 ngày, mã độc đánh cắp Bitcoin, phát tán qua email đã được cảnh báo. Thông tin về chiến dịch này có thể đọc ở đây: http://blog.logrhythm.com/uncategorized/emerging-bitcoin-theft-campaign-uncovered/

Như vậy có thể thấy, chỉ trong vòng 1 tuần, 2 cuộc tấn công của tội phạm mạng liên quan điến Bitcoin đã xảy ra. Chắc chắn đây sẽ không phải là những cuộc tấn công cuối cùng. Chúng ta tin rằng, các cuộc tấn công trong thời gian tới sẽ còn tinh vi và nguy hiểm hơn rất nhiều.

Dự đoán trong thời gian tới sẽ có những botnet tương tự bị phát hiện. Ngoài ra, không chỉ các máy tính cá nhân được huy động vào việc này, hacker sẽ tấn công cả các máy chủ và sử dụng các máy chủ  này cho việc đào bitcoin. Bên cạnh các vụ lừa đảo, ăn trộm bitcoin thường xuyên xảy ra, bản thân tính an toàn của “ví bitcoin” cũng có thể sẽ gặp vài lỗ hổng mà hacker phát hiện ra.

Một khi Bitcoin đã là tiền và tiền này không nằm trong ví của bạn mà nằm trên máy tính của bạn –> Giới tội phạm mạng sẽ không ngồi yên cho việc đó.

Bitcoin là gì ?

Đã có khá nhiều bài viết về chủ đề này rồi, nên chúng ta có thể tìm hiểu nó qua mạng.

Con đường phát triển của Bitcoin

Các bạn có thể xem thêm biểu đồ sau đây (cập nhật đến tháng 10/2013), để hiểu rõ hơn về Bitcoin.

Bitcoin(Ảnh: Internet)

Tìm hiểu về PRISM, hệ thống BigData của NSA

NSA là gì ?

Trước khi tìm hiểu, ta cần biết qua về NSA. Đây là viết tắt của National Security Agency, cơ quan an ninh quốc gia của Mỹ.

Nghề của NSA là thu thập giải mã và phân tích thông tin tình báo từ các nước để phục vụ cho CP Mỹ. Như vậy có thể nói NSA là nơi có nhiều dự án và các cao thủ về 3 món: thu thập, giải mã và phân tích thông tin.

PRISM là gì ?

Là dự án Big Data của NSA, với mục tiêu phát hiện khủng bố và khai thác các mô hình/khuôn mẫu khác được sự cho phép của thẩm phán liên bang làm việc theo Luật giám sát tình báo nước ngoài. PRISM có nghĩa là Lăng kính, lấy ý tưởng từ việc lăng kính được dùng trong các sợi cáp quang để truyền thông tin.

PRISM hoạt động như thế nào ?

Bằng việc thu thập tất cả các nguồn dữ liệu có thể có: nội dung điện thoại, nội dung email, các truy cập web, video, hình ảnh, các status trên Facebook, Twitter, địa chỉ IP, địa chỉ email, số điện thoại…. PRISM sẽ phân tích và đưa ra các cảnh báo cho CP Mỹ về các dấu hiệu khủng bố có thể có. Để từ đó họ sẽ khoanh vùng, ngăn chặn các vụ khủng bố. Hoặc khi họ cần thông tin về 1 cá nhân/tổ chức nào đó, chỉ cần gõ số điện thoại/email, tên… PRISM sẽ trả về tất cả các thông tin mà nó thu thập và tổng hợp được từ nhiều nguồn.

Về cơ bản, chúng ta sẽ không biết nhiều về PRISM nếu không có Edward Snowden và các tài liệu do anh ta cung cấp. Hãy cùng tìm hiểu sơ bộ về PRISM qua một số tài liệu này.

1

Hình 1

Theo hình trên thì ta thấy, họ có 2 nguồn để thu thập thông tin đó là: Upstream và PRISM. Như vậy có thể thấy PRISM không phải là 1 dự án duy nhất. Nếu như Upstream tập trung vào việc thu thập tất cả các dữ liệu từ hạ tầng từ các nhà mạng thì PRISM là thu thập trực tiếp từ máy chủ của các nhà cung cấp dịch vụ tại Mỹ. Tạm hiểu Upstream là chuyện hớt cá giữa dòng nước, còn PRISM thì mang cả sọt đến tận hang cá để tóm.

2

Hình 2

Hình 2 cho thấy, PRISM thu thập được 11 loại dữ liệu khác nhau bao gồm: E-mails, instant messages, videos, photos, stored data (kiểu Google Drive  hay MS SkyDrive chăng ?), voice chats, file transfers, video conferences, log-in times, social network profile details và loại cuối cùng là “Special Request”

Những dữ liệu này lấy được từ  9 công ty lớn bao gồm có: Microsoft, Google, Yahoo, Facebook… tham gia vào việc cung cấp dữ liệu cho PRISM (Provider). Bạn có dùng dịch vụ của các hãng trên không 😀

Hình 3 cho thấy thời điểm mà các Provider tham gia vào PRISM cho đến cuối năm 2012. Microsoft là hãng đầu tiên, tham gia ngày 11/9/2007 và Apple là hãng cuối cùng tham gia tháng 10/2012. Chưa rõ khi Microsoft tham gia PRISM thì có xem ngày hay không mà khéo thật.

3

Hình 3

Tùy từng Provider, NSA có thể sẽ nhận được 1 thông báo ngay lập tức khi có sự kiện log in hoặc gửi mail của đối tượng (Hình 4)

4

Hình 4

5

Hình 5

 Theo  hình 5 thì tại thời điểm ngày 5 tháng 4, 2013 có 117,675 mục tiêu theo dõi nằm trong CSDL chống khủng bố của PRISM

6

Hình 6

Hình 6 một lần nữa mô tả tổng quan về các nguồn dữ liệu mà NSA đã thu thập.

PRISM xử lý bao nhiêu dữ liệu ?

Chưa thấy thông tin chính thức từ NSA, nhưng cứ hình dung riêng Facebook hoặc Google phải xử lý đống data của họ đã đủ mệt rồi, đằng này PRISM xử lý của cả Facebook, Google, MS…. cộng lại.

Theo một nghiên cứu đăng tại HighScability thì tác giả dự tính số lượng dữ liệu mà PRISM xử lý là như sau:

Facebook: 500 TB/ngày* 30 = 1.5 PT/tháng (source)

Twitter: 8 TB/ngày* 30 = 240 TB/tháng (source)

Email/Other info: 193PT/tháng (source)

Mobile traffic/machine­to­machine exchanges/vehicles etc:  117 PB/tháng (source)

Như vậy tổng dữ liệu xử lý là gần 312PB/tháng

Công nghệ, thành phần của PRISM ?

7

Hình 7

 Theo  Hình 7, chúng ta có thể thấy 1 số các hệ thống sau nằm trong PRISM

  • PRINTAURA automates the traffic flow
  • SCISSORS and Protocol Exploitation sort data types for analysis
  • NUCLEON (voice)
  • PINWALE (video): http://en.wikipedia.org/wiki/Pinwale
  • MAINWAY (call records)
  • MARINA (Internet records)
  • FALLOUT ?
  • CONVEYANCE ?

Ngoài ra, trong các tài liệu khác còn có xuất hiện 1 số các hệ thống khác như

  • Accumulo (http://en.wikipedia.org/wiki/Apache_Accumulo): 1 dạng NoSQL (NSA đóng góp ngược lại cho cộng đồng nguồn mở Apache và có cả 1 công ty thương mại  hóa thành Sqrrl http://sqrrl.com/, công ty này cũng do cựu nhân viên của NSA thành lập
  • NSA Graph search
  • Xstroke (http://en.wikipedia.org/wiki/XKeyscore): Theo wiki thì là  a system “for searching and analyzing Internet data about foreign nationals across the world”
  •  Boundless Informant: Công cụ để phân loại, quản lý, phân tích các đối tượng trên toàn cầu

Những hệ thống này nếu tìm hiểu thêm sẽ có khá nhiều thông tin thú vị phục vụ cho xây dựng Big Data.

PRISM có từ khi nào ?

Theo tài liệu của NSA thì PRISM được phát triển từ năm 2007. Như vậy đây là 1 dự án Big Data có ít nhất 6 năm tuổi.

Phản ứng của các “ông lớn” trước thông tin họ nằm trong PRISM

Về cơ bản thì 100% người sử dụng trên toàn thế giới có dùng dịch vụ của ít nhất 1 trong 9 công ty kia. Điều đó có nghĩa là các hãng này ít nhiều bị ảnh hưởng tới uy tín khi thông tin PRISM bị lộ lọt. Hãy xem phản ứng của các hãng trước việc này ra sao.

Larry Page, CEO của Google có viết 1 bài với tiêu đề “What the…” phủ nhận hoàn toàn việc tham gia vào PRISM và việc NSA không  thể có quyền truy cập trực tiếp vào các server  cũng như có backdoor để truy cập vào các dữ liệu của Google. (http://googleblog.blogspot.com/2013/06/what.html)

Đại diện về luật pháp của Yahoo cũng viết trên blog , “Quan điểm cho rằng Yahoo! cung cấp cho bất kỳ cơ quan liên bang nào truy cập tự do vào hồ sơ của người sử dụng là sai” (http://yahoo.tumblr.com/post/52491403007/setting-the-record-straight)

CEO của Facebook, Mark Zuckerberg đăng 1 status về vấn đề này “Facebook không và chưa bao giờ là 1 bộ phận của bất kỳ chương trình nào cho phép CP Mỹ hoặc các quốc gia khác, truy cập trực tiếp vào server của chúng tôi.” (https://www.facebook.com/zuck/posts/10100828955847631)

Phát ngôn viên của Apple cũng trả lời rằng, “Chúng tôi chưa bao giờ nghe đến PRISM”

Thực tế thì chúng ta thấy rất dễ, là các hãng này đều nói họ không cho phép “truy cập trực tiếp” vào  máy chủ. Nhưng không thấy họ nói đến “truy cập gián tiếp” :D. 

Chi phí cho PRISM

Theo thông tin từ NSA ở Hình 3 thì PRISM tiêu tốn khoảng 20 triệu USD/năm.

Trong khi đó, có 1 nghiên cứu khác cho rằng PRISM tốn khoảng 180 triệu USD/năm mà vẫn còn khen là chi phí thấp (http://highscalability.com/blog/2013/7/1/prism-the-amazingly-low-cost-of-using-bigdata-to-know-more-a.html).

Điều này chứng tỏ NSA rất biết tiêu tiền 1 cách hiệu quả.

Hạ tầng cho PRISM ?

Hiện, dữ liệu của PRISM được cho là lưu trữ tại trung tâm dữ liệu Utah.

NSA Phone Records

Hình 8

Kết luận

Kết luận lại, theo phỏng đoán thì PRISM sẽ có 1 cấu trúc tương tự như hình sau đây:

9 Hình 9

Không bàn đến vấn đề mục đích sử dụng của PRISM, tuy nhiên rõ ràng việc tìm  hiểu hệ thống Big Data của NSA này cũng sẽ giúp chúng ta có được 1 case study về hệ thống lớn, để áp dụng vào các dự án Big Data khác.

Tài liệu tham khảo

Dự đoán các xu hướng tấn công mạng năm 2014 tại Việt Nam

1. Tấn công mạng xã hội gia tăng

Facebook đang là một mảnh đất màu mỡ đối với tội phạm mạng. Đã có nhiều cuộc tấn công người sử dụng FB tại Việt Nam trong 2013 (xem thêm tại đây về 1 chiến dịch lừa đảo trên FB) và chắc chắn 2014 chúng sẽ tiếp tục gia tăng với các mức độ tinh vi hơn. Các cuộc tấn công sẽ tập trung vào đánh cắp tài khoản Facebook, mạo danh người thân để lừa lấy tiền và các chiêu lừa đảo để câu like. Con đường tấn công không mới là Facebook Messenger, các link độc hại mạo danh các app hoặc video… Chủ yếu nạn nhân của những cuộc tấn công này là những người nhẹ dạ, không đề phòng các thủ đoạn lừa đảo của tội phạm. Để hạn chế tối đa các nguy cơ bị lừa đảo trên FB, các bạn có thể xem thêm phần tư vấn tại đây.

2. Các dịch vụ thanh toán trực tuyến của Ngân hàng sẽ là đích ngắm trong năm 2014

Các bạn có thể đã nghe đến một số vụ tấn công lợi dụng kẽ hở của phương pháp xác thực OTP của ngân hàng (link) hoặc cướp SIM để chiếm đoạt tiền (link). Đây chỉ là 2 trong số nhiều cuộc tấn công vào ngân hàng ở Việt Nam được công bố. Mục đích của những cuộc tấn công này chúng ta có thể thấy rõ đó là: Tiền, và những kẻ tấn công vào đây là những kẻ chuyên nghiệp. Có 2 đối tượng là mục tiêu của những cuộc tấn công đó là hệ thống giao dịch của ngân hàng và những khách hàng của các ngân hàng này. Chúng ta có thể sẽ phải chứng kiến trong năm 2014 một số cuộc tấn công lớn, trực diện và hệ thống giao dịch trực tuyến của ngân hàng và/hoặc xuất hiện một botnet nhằm vào người sử dụng có tài khoản trực tuyến của các ngân hàng.

3. Mã độc trên Android trở thành vấn đề thật sự.

Đã có nhiều mã độc trên Android xuất hiện, ví dụ như con Obad được công bố cuối năm 2013. Nhưng có vẻ như người sử dụng Việt Nam chưa có nhiều cơ hội để tiếp xúc với những thành phần này. 2014 sẽ xuất hiện 1 hoặc 1 vài chiến dịch tấn công sử dụng mã độc nhằm vào cộng đồng người sử dụng Android tại Việt Nam.

4. OTT – Hồ cá mới cho các chiến dịch phishing

 Tại thời điểm này, các tin nhắn qua OTT có nhiều ưu điểm:

  • Miễn phí
  • Tin nhắn có độ dài lớn
  • Chèn link và hình ảnh dễ dàng vào nội dung tin nhắn.

Những ưu điểm này có lợi cho người sử dụng chúng ta bao nhiêu thì cũng có lợi cho những kẻ lửa đảo bấy nhiêu. Năm 2014 nạn spam và lừa đảo qua các mạng OTT sẽ trở thành vấn đề nhức nhối, gây nhiều phiền toái cho người sử dụng. Các nhà cung cấp dịch vụ và các hãng security chuẩn bị tinh thần cho các giải pháp an toàn cho OTT là vừa.