Thuật toán DT với những ưu điểm của mình được đánh giá là một công cụ mạnh, phổ biến và đặc biệt thích hợp cho khai phá dữ liệu (data mining) nói chung và kiểu tấn công dữ liệu nói riêng. Ưu điểm của DT có thể kể đến như xây dựng tương đối nhanh, đơn giản và dễ hiểu.
Thuật toán Cây phân loại và hồi quy (Classification and Regression Tree - CART) là một loại thuật toán của DT, nó hỗ trợ các biến mục tiêu số (hồi quy) và không tính toán các bộ quy tắc. CART thường sử dụng phương pháp Gini để tạo các điểm phân chia. Tương tự như phương pháp tính độ lợi thông tin, Gini index được dùng để đánh giá việc phân chia nút có tốt hay không. Phương pháp Gini được hiểu cụ thể như sau:
- Là phương pháp hướng đến đo lường tần suất một đối tượng dữ liệu ngẫu nhiên trong tập dữ liệu ban đầu được phân loại không chính xác, trên cơ sở đối tượng dữ liệu đã nằm trong một tập con được phân ra từ tập dữ liệu ban đầu, có dán nhãn thể hiện thuộc tính chung bất kỳ của các đối tượng còn lại trong tập con này, giá trị phân loại chính là nhãn của tập con.
- Gini index chính là chỉ số đo lường mức độ đồng nhất, nhiễu loạn của thông tin hay sự khác biệt về các giá trị mà mỗi điểm dữ liệu trong một tập con, hoặc một nhánh của DT. Công thức của Gini index có thể dùng cho cả dữ liệu rời rạc và liên tục. Nếu điểm dữ liệu thuộc về một nút và có chung thuộc tính bất kỳ thì nút này thể hiện sự đồng nhất lúc này Gini=0 và ngược lại Gini sẽ lớn.
Quý độc giả quan tâm vui lòng xem chi tiết bài viết tại đây.
TS. Nguyễn Văn Căn, Trần Ngọc Tú, Đỗ Đình Quang (Đại học Kỹ thuật - Hậu cần Công an nhân dân)
16:00 | 30/11/2022
09:00 | 24/08/2018
10:00 | 04/03/2015
14:00 | 17/05/2023
Mọi người đều biết rằng nên chuẩn bị cho một “tương lai lượng tử”, nhưng nó được cho là sẽ xảy ra sau 10 - 20 năm nữa. Thế nhưng vào những ngày cuối cùng của năm 2022, cộng đồng công nghệ thông tin (CNTT) khá xôn xao trước một nghiên cứu do một nhóm các nhà khoa học Trung Quốc trình bày. Kết quả nghiên cứu này tuyên bố rằng trong tương lai gần nhất, có thể bẻ khóa thuật toán mã hóa RSA với độ dài khóa là 2048 bit, đây vốn là nền tảng cho hoạt động của các giao thức internet bằng cách kết hợp khéo léo tính toán cổ điển và tính toán lượng tử. Vậy thực hư mối đe dọa này như thế nào? Liệu có một sự đột phá trong năm nay?
11:00 | 27/01/2023
Tháng 7/2020, Rainbow - một trong 3 thuật toán chữ ký số là ứng cử viên vào vòng 3 của quá trình tuyển chọn thuật toán hậu lượng tử của NIST. Tuy nhiên, vào tháng 2/2022, Ward Beullens đã phá được thuật toán này chỉ trong thời gian một dịp nghỉ cuối tuần trên một máy tinh xách tay. Vì thế, tháng 7/2022, trong danh sách các thuật toán chữ ký số hậu lượng tử sẽ được chuẩn hóa mà NIST công bố đã không có tên Rainbow.
13:00 | 23/06/2022
Zero trust là tư duy bảo mật được phát triển với mục tiêu xây dựng một mô hình bảo mật nhằm bảo vệ mọi tài nguyên trong hệ thống IT/OT khỏi các đối tượng không có quyền hạn. Mô hình bảo mật Zero trust được thiết kế nhằm đảm bảo khả năng kiểm soát các tài nguyên có trong một hệ thống thông tin. Mô hình này yêu cầu định danh, quản lý và kiểm soát danh tính (con người hoặc máy móc), tài khoản người dùng, quyền truy cập thông tin và thiết bị vận hành, thiết bị đầu cuối trên mọi môi trường mạng, cũng như là mối liên kết, kết nối của mọi hạ tầng hệ thống có trong một hệ thống thông tin.
14:00 | 11/08/2021
Tiếp theo Phần I (được trình bày trong Tạp chí An toàn thông tin, số 5 (057) 2020), bài báo này trình bày những tư tưởng chính của tác phẩm “Mật mã quân sự” của Kerckhoffs. Về cơ bản, tác phẩm trình bày tổng quan về các phương pháp mật mã hiện đại vào thời điểm công bố công trình (năm 1883) và cả về khả năng nắm bắt chúng từ vị thế người phân tích mật mã. Trong bài báo dưới dạng rút gọn (2 phần gồm 66 trang), tác giả đã trình bày tầm nhìn của mình về thiết kế các hệ thống mật mã. Đặc biệt Nguyên lý nổi tiếng Kerckhoffs về hiệu quả của một hệ thống mật mã không nhất thiết phải dựa trên việc đối phương không được biết đến nó.