Phương pháp phân tích Entropy để phát hiện che giấu mã độc

15:34 | 27/09/2012 | GIẢI PHÁP KHÁC

Hiện nay, kỹ thuật đóng gói (code packing) bao gồm nén hoặc mã hóa được sử dụng để che giấu mã độc. Kỹ thuật này giúp cho các phần mềm virus khó bị phát hiện và đang đặt ra một thách thức không nhỏ cho quá trình phân tích mã độc để xác định đặc tính và chức năng của chúng.

1. Kỹ thuật đóng gói để che giấu mã độc
Ban đầu, kỹ thuật đóng gói được phát triển nhằm tối ưu hóa bộ nhớ và băng thông trong quá trình lưu trữ và truyền tệp tin. Thuật toán sử dụng trong kỹ thuật đóng gói trở thành công cụ được kẻ viết mã độc cải tiến để tránh bị phát hiện. Kỹ thuật đóng gói (bao gồm kỹ thuật nén và mã hóa) với mục đích che giấu mã độc thường được sử dụng để chuyển đổi mã thực thi nhị phân sang một định dạng khác nhằm thu gọn mã độc và làm biến dạng khác biệt hẳn so với ban đầu, tránh sự phát hiện của các chương trình diệt virus dựa trên cơ sở mẫu nhận dạng. Trong nhiều trường hợp, mã độc hại được tổ hợp đệ quy từ các kỹ thuật nén và mã hóa khác nhau, để cùng một mã độc nhưng có thể nhanh chóng tạo ra một lượng lớn biến thể nhị phân thực thi nhằm phát tán.
Đoạn mã thực thi được xây dựng với hai phần chính trong quy trình đóng gói, gồm hai giai đoạn. Giai đoạn 1, đoạn mã thực thi gốc được nén và lưu giữ trong tệp thực thi nén như dữ liệu thông thường. Giai đoạn 2, môđun giải nén được thêm vào tệp thực thi nén và sẽ được sử dụng để phục hồi đoạn mã gốc.
Quá trình mở gói thực hiện theo các bước có thứ tự ngược lại với quá trình đóng gói. Môđun giải nén trước tiên được thực hiện và đoạn mã thực thi nhảy đến câu lệnh thực thi đầu tiên của mã giải nén. Sau khi phục hồi đoạn mã thực thi gốc, con trỏ lệnh thực thi sẽ nhảy ra khỏi câu lệnh cuối cùng của môđun giải nén để nhảy đến điểm vào (entry point) của đoạn mã thực thi.
Kỹ thuật đóng gói xuất hiện trong phần lớn các mẫu mã độc hại, tạo ra thách thức lớn cho người phân tích mã, đặc biệt là khi sử dụng phương pháp phân tích tĩnh để phân tích một lượng lớn mẫu mã độc hại. Bởi vì, trước khi bắt tay vào thực hiện quá trình phân tích mã độc, ta cần phải xác định đoạn mã bị mã hóa hay nén để thực hiện việc giải nén cũng như giải mã một cách nhanh chóng và hiệu quả. Do nhiều mẫu virus vẫn duy trì trạng thái mã hóa và nén, người phân tích phải xác định chúng bằng phân tích thủ công hoặc sử dụng kỹ thuật phân tích ngược (reverse engineering). Yêu cầu đặt ra là cần phải xác định nhanh chóng và chính xác đoạn mã độc nén và giải nén. Phương pháp phân tích entropy là một kỹ thuật hỗ trợ cho người phân tích mã độc giải quyết yêu cầu này.

2. Phương pháp Entropy phát hiện mã độc được nén và mã hóa
Khái niệm Entropy
Nguồn gốc khái niệm entropy đến từ khoa học nhiệt động lực học. Entropy là một đặc trưng cho độ nhiễu loạn trong một hệ thống khép kín. Năm 1948, Claude Shannon đã “mượn” khái niệm entropy để miêu tả sự ngẫu nhiên trong luồng thông tin. Điểm khác nhau cơ bản giữa entropy trong lý thuyết nhiệt động lực học và entropy trong lý thuyết thông tin là người ta không thể biết tất cả các trạng thái có thể xảy ra. Do vậy, phương pháp thống kê chỉ được sử dụng ở mức gần đúng. Trong lý thuyết thông tin, số trạng thái và khả năng các trạng thái được xác định chính xác vì nội dung của tệp tin được biết một cách chắc chắn.
Chúng ta có thể tính entropy của các sự kiện rời rạc ngẫu nhiên x sử dụng công thức sau: Phương pháp phân tích Entropy để phát hiện che giấu mã độc

Phương pháp phân tích Entropy để phát hiện che giấu mã độc

Trong đó p(i) là khả năng của khối thông tin thứ i trong chuỗi n biểu tượng của sự kiện x, n là tổng số các giá trị có thể nhận của tín hiệu.
Trong phân tích thông tin, chúng ta quan tâm đến các byte dữ liệu (mỗi byte có 256 giá trị xảy ra khác nhau). Bởi vậy, giá trị entropy của một tệp sẽ là giá trị trong khoảng từ 0 đến 8: Phương pháp phân tích Entropy để phát hiện che giấu mã độc

Phân tích Entropy phát hiện mã độc được nén hoặc mã hóa
Entropy thông tin mô tả mức độ hỗn loạn trong một tín hiệu lấy từ một sự kiện ngẫu nhiên. Nói cách khác, entropy cũng chỉ ra có bao nhiêu thông tin trong tín hiệu, với thông tin là các phần không hỗn loạn ngẫu nhiên của tín hiệu. Một tập tin được nén cũng có thể bị phát hiện nhờ kỹ thuật tính toán entropy. Các dữ liệu nén hoặc mã hóa khá giống với các dữ liệu ngẫu nhiên, do đó nó có mức entropy cao. Trong khi các dữ liệu không được mã hóa hay nén thường có mức entropy thấp. Sử dụng entropy để đo sự ngẫu nhiên và không dự đoán trước trong một chuỗi sự kiện hoặc một dãy giá trị dữ liệu là chấp nhận được về mặt thống kê trong lĩnh vực lý thuyết thông tin. Trong phân tích mã độc hại, các nhà nghiên cứu đã sử dụng một số công cụ phân tích entropy phát hiện đoạn mã độc nén và mã hóa, chẳng hạn như PEAT (Portable Executable Analysis Toolkit).
PEAT là bộ công cụ cho phép người phân tích kiểm tra các khía cạnh của cấu trúc tệp Window PE (Portable Executable). PEAT tính toán entropy cho mỗi đoạn PE của từng đoạn tệp. Sau đó, nó chuẩn hóa những giá trị entropy này so với entropy tổng cộng của các giai đoạn PE đã tính. Điều này giúp người phân tích xác định đoạn PE có sự thay đổi lớn giá trị entropy, từ đó xác định đoạn PE có khả năng bị sửa so với đoạn tệp nguyên bản ban đầu. Để sử dụng PEAT hiệu quả, người phân tích phải có nền tảng kiến thức về tệp PE, virus, cũng như kinh nghiệm làm việc với PEAT.

Công cụ phân tích entropy nhị phân Bintropy
Bintropy là công cụ phân tích mẫu, ước tính khả năng một tệp tin có chứa các thông tin nén hoặc mã hóa. Bintropy có hai chế độ hoạt động:
- Chế độ thứ nhất, công cụ sẽ phân tích entropy của mỗi đoạn thực thi có định dạng PE, được xác định trong phần đầu của tệp thực thi. Điều này giúp người phân tích xác định đoạn mã thực thi nào có thể bị mã hóa và nén. Một bộ biên dịch chuẩn tạo ra PE thực thi có các phần theo định dạng chuẩn (.text, .data, .reloc, .rsrc). Tuy nhiên, nhiều công cụ đóng gói biến đổi định dạng của tệp thực thi gốc, nén các đoạn mã, dữ liệu và dồn chúng vào một hay hai đoạn mới. Trong chế độ này, Bintropy tính giá trị entropy cho mỗi đoạn nó cần. Tuy nhiên, không tính entropy cho phần đầu tệp tin bởi vì phần này thường không chứa các byte dữ liệu nén hay mã hóa.
- Chế độ thứ hai hoàn toàn bỏ qua định dạng tệp, thay vào đó Bintropy phân tích entropy của toàn bộ tệp, từ byte đầu tiên cho đến byte cuối cùng. Với tệp định dạng PE, người dùng có thể phân tích entropy của đoạn mã và dữ liệu ẩn tại cuối tệp hoặc ở giữa các đoạn định dạng PE.
Entropy của một khối dữ liệu là một phép đo thống kê lượng thông tin chứa bên trong. Trong bài báo “Sử dụng phân tích entropy để tìm ra mã độc nén và mã hóa” Hamrock và Lyda đưa ra một quan sát đáng chú ý là các dữ liệu nén và mã hóa trong mẫu mã dữ liệu độc hại đóng gói có mức entropy cao. Mã chương trình và dữ liệu bình thường có mức entropy thấp hơn nhiều. Mã độc hại sử dụng kỹ thuật đóng gói được xác định bởi mức entropy cao trong nội dung của nó.
Để đánh giá khả năng công cụ Bintropy dựa trên phân tích entropy, Lynda và Hamrock đã tiến hành đánh giá thử nghiệm trên bốn tập dữ liệu với các phân loại tệp khác nhau: plain text, thực thi thông thường, thực thi nén và thực thi mã hóa. Mỗi tập dữ liệu gồm 100 tệp khác nhau, mỗi tệp được tính entropy dựa trên các khối dữ liệu có độ dài 256 byte. Công cụ Bintropy tính entropy mức trung bình của các khối và khối có mức entropy cao nhất. Mục đích thử nghiệm này là xác định mức entropy tối ưu để phân loại tệp thực thi thông thường và tệp thực thi đã biến đổi sử dụng kỹ thuật mã hóa hoặc kỹ thuật nén. Sau khi sử dụng tập dữ liệu training, Bintropy có khả năng phát hiện các tệp thực thi bị nén hoặc mã hóa khi đặc tính entropy vượt qua một mức định trước.

Bảng 1. Độ chính xác thống kê entropy dựa trên tập dữ liệu

Dựa trên bảng kết quả chúng ta nhận thấy, với độ chính xác đạt 99% và mức Entropy trong khoảng 6,677 đến 7,177, công cụ Bintropy sẽ phát hiện tệp nén hay mã hóa.
Lyda và Hamrock cũng đã thực hiện xác định xu hướng entropy bởi công cụ Bintropy và để tạo độ tin cậy của đánh giá đã áp dụng trên một tập 21.567 mã độc Win32 - với thực thi định dạng PE từ bộ thu thập của các hãng phần mềm chống virus nổi tiếng trên thế giới trong khoảng thời gian từ tháng 01/2000 đến tháng 12/2005. Dựa trên khảo sát bởi sử dụng công cụ Bintropy để phân tích, kết quả chỉ ra rằng, UPX1 là phần được kẻ viết mã độc sử dụng kỹ thuật đóng gói phổ biến nhất, sau đó là phần text (Hình 1).

Hình 1. Phân bố số lưọng tệp mã độc theo đoạn (secsion) bị mã hóa hoặc nén, trong đó UPX1 phổ biến nhất

3. Kết luận
Ưu điểm của phương pháp phân tích entropy là đưa ra một kỹ thuật tiện dụng và nhanh chóng để phân tích một mẫu mức nhị phân và xác định vùng tệp PE khả nghi. Một khi việc phân tích xác định được phần có mức entropy bất thường, người phân tích có thể thực hiện phân tích sâu và chi tiết hơn với các công cụ kỹ thuật dịch ngược khác (reverse – engineering) chẳng hạn như IDAPro diassembler.

Phân tích entropy đơn giản trong ứng dụng và được chỉ ra là khá hiệu quả. Phân tích này có thể thất bại khi các mã độc hại được sử dụng kỹ thuật đóng gói viết theo chương trình đã cố ý làm mức entropy của nó thấp xuống so với mức entropy thực. Phân tích entropy cũng có thể không thành công khi mã độc sử dụng kỹ thuật đóng gói mã mà không sử dụng kỹ thuật nén hay mã hóa. Trong đó, kẻ viết mã độc chỉ thực hiện che giấu đơn giản trên nội dung của mã độc hại sử dụng ảo hóa câu lệnh không đòi hỏi mã hóa hay nén, khiến phân tích entropy không thể xác định mã độc sử dụng phương pháp này

‹ › ×

Tin liên quan

Mô hình và đánh giá nguồn Entropy sử dụng cho các bộ tạo số ngẫu nhiên theo NIST

16:00 | 13/02/2019

Xây dựng các nguồn entropy nhằm tạo ra các đầu ra không thể dự đoán được là rất khó, và đưa ra các chỉ dẫn cung cấp chỉ dẫn cho việc thiết kế và kiểm tra đánh giá chúng còn khó hơn nhiều. NIST đã phát hành tài liệu SP 800-90B nhằm giúp các nhà phát triển hiểu quy trình đánh giá, lập kế hoạch quy trình đánh giá và thực hiện đánh giá nguồn entropy sử dụng cho các bộ tạo số ngẫu nhiên, trong đó giả định rằng các nhà phát triển hiểu rõ cách xử lý của nguồn nhiễu trong nguồn entropy và nỗ lực để đưa ra nguồn entropy ngẫu nhiên. Bài viết dưới đây sẽ giới thiệu về mô hình và đánh giá nguồn entropy sử dụng cho các bộ tạo số ngẫu nhiên theo NIST.

Dịch vụ cung cấp Entropy mở khóa toàn bộ tiềm năng của mật mã

13:00 | 17/02/2021

Độ an toàn của các hệ thống mật mã hiện nay phụ thuộc vào việc có các khóa mật mã mạnh (có entropy cao) và giữ bí mật các khóa đó. Khả năng tạo ra các khóa mật mã mạnh yêu cầu phải truy cập tới một nguồn ngẫu nhiên không thể dự đoán. Tuy nhiên, việc này trên các thiết bị máy tính thông thường hoặc các thiết bị IoT là khó và không đáng tin cậy. Dịch vụ entropy được đề xuất bởi Viện Tiêu chuẩn quốc gia Hoa Kỳ là một kiến trúc dịch vụ Internet mới, cho phép cung cấp dữ liệu ngẫu nhiên không thể dự đoán, với entropy cao được tạo bởi các nguồn entropy lượng tử từ các trung tâm tin cậy đến các máy khách gửi yêu cầu.

Tin cùng chuyên mục

Thiết lập chính sách mật khẩu an toàn trên Linux

10:00 | 10/04/2024

Hiện nay, số lượng các cuộc tấn công mạng nhắm đến hệ điều hành Linux đang ngày càng gia tăng cả về số lượng lẫn mức độ tinh vi, đặc biệt là các sự cố liên quan đến việc lộ lọt mật khẩu. Thông thường, khi tạo tài khoản mới trên Linux, người dùng có thể sử dụng những mật khẩu tùy ý, kể cả những mật khẩu yếu, điều này có thể gây ra nhiều rủi ro bảo mật tiềm ẩn trong hệ thống mạng, các tác nhân đe dọa sẽ dễ dàng tấn công và xâm phạm tài khoản hơn. Do đó, cần phải thực thi các chính sách sử dụng mật khẩu đủ mạnh để bảo vệ tài khoản người dùng tránh bị tấn công. Trong bài viết này sẽ gửi đến độc giả hướng dẫn thiết lập cấu hình mật khẩu an toàn trên Linux với nền tảng Centos 7.

Tăng cường bảo mật tệp lưu trữ trên Google Drive

10:00 | 28/03/2024

Google Drive là một trong những nền tảng lưu trữ đám mây được sử dụng nhiều nhất hiện nay, cùng với một số dịch vụ khác như Microsoft OneDrive và Dropbox. Tuy nhiên, chính sự phổ biến này là mục tiêu để những kẻ tấn công tìm cách khai thác bởi mục tiêu ảnh hưởng lớn đến nhiều đối tượng. Bài báo này sẽ cung cấp những giải pháp cần thiết nhằm tăng cường bảo mật khi lưu trữ tệp trên Google Drive để bảo vệ an toàn dữ liệu của người dùng trước các mối đe dọa truy cập trái phép và những rủi ro tiềm ẩn khác.

Phương pháp dự đoán và chủ động trong bảo mật trí tuệ nhân tạo

08:00 | 15/03/2024

Bảo mật công nghệ trí tuệ nhân tạo (AI) đặt ra nhiều thách thức và luôn thay đổi trong bối cảnh chuyển đổi số hiện nay. Khi công nghệ AI phát triển, rủi ro và bề mặt tấn công cùng các mối đe dọa mới ngày càng tăng cao. Điều này đặt ra yêu cầu đối với các nhà phát triển, tổ chức và doanh nghiệp phải có cách tiếp cận chủ động, thường xuyên đánh giá và cập nhật các biện pháp bảo mật.

Một phương pháp mã hóa phân vùng dữ liệu trên máy tính nhúng (Phần II)

16:00 | 27/07/2023

Trong phần I của bài báo, nhóm tác giả đã trình bày về các phương pháp mã hóa dữ liệu lưu trữ, trong đó tập trung về giải pháp mã hóa phân vùng bằng dm-crypt và LUKS trên máy tính nhúng, cụ thể là Raspberry Pi. Với những ưu điểm của việc thiết kế module dưới dạng tách rời, trong phần II này, nhóm tác giả sẽ trình bày cách xây dựng module Kuznyechik trong chuẩn mật mã GOST R34.12-2015 trên Raspberry Pi, từ đó xây dựng một phần mềm mã hóa phân vùng lưu trữ video từ camera sử dụng thuật toán mật mã mới tích hợp.

Tin được quan tâm

Bảo đảm an ninh thông tin cơ sở hạ tầng quan trọng của Hoa Kỳ

08:00 | 11/01/2024 | Chính sách - Chiến lược
Giải pháp phân loại tương tác giữa 2 người trong chuỗi ảnh rời rạc (Phần I)

09:00 | 10/01/2024 | Giải pháp khác

Giải pháp tăng cường an ninh mạng ở Italia

09:00 | 05/01/2024|Chính sách - Chiến lược
Cạnh tranh Mỹ - Trung về cáp quang biển toàn cầu (phần 1)

09:00 | 05/01/2024|An ninh – Quốc Phòng

CISA cung cấp dịch vụ an ninh mạng cho các tổ chức trọng yếu không thuộc Chính quyền

09:00 | 21/12/2023|CA Công cộng
5 lưu ý giúp tăng cường bảo mật công nghệ vận hành cho các doanh nghiệp sản xuất

14:00 | 14/08/2023|Giải pháp khác

GP Mật mã

Sự phát triển của lược đồ chữ ký số kháng lượng tử dựa trên hàm băm

Lược đồ chữ ký số dựa trên hàm băm là một trong những lược đồ chữ ký số kháng lượng tử đã được Viện Tiêu chuẩn và Công nghệ Quốc gia Mỹ (NIST) chuẩn hóa trong tiêu chuẩn đề cử FIPS 205 (Stateless Hash Based Digital Signature Standard) vào tháng 8/2023. Bài báo này sẽ trình bày tổng quan về sự phát triển của của lược đồ chữ ký số dựa trên hàm băm thông qua việc phân tích đặc trưng của các phiên bản điển hình của dòng lược đồ chữ ký số này.

09:00 | 01/04/2024
Về một phương pháp tấn công kênh kề lên mã khối Kalyna
Khuyến nghị độ dài các tham số sử dụng cho hệ thống mật mã RSA trong một số tiêu chuẩn mật mã
Một số khuyến nghị về độ an toàn của hệ mật RSA (Phần I)