Thuật toán DT với những ưu điểm của mình được đánh giá là một công cụ mạnh, phổ biến và đặc biệt thích hợp cho khai phá dữ liệu (data mining) nói chung và kiểu tấn công dữ liệu nói riêng. Ưu điểm của DT có thể kể đến như xây dựng tương đối nhanh, đơn giản và dễ hiểu.
Thuật toán Cây phân loại và hồi quy (Classification and Regression Tree - CART) là một loại thuật toán của DT, nó hỗ trợ các biến mục tiêu số (hồi quy) và không tính toán các bộ quy tắc. CART thường sử dụng phương pháp Gini để tạo các điểm phân chia. Tương tự như phương pháp tính độ lợi thông tin, Gini index được dùng để đánh giá việc phân chia nút có tốt hay không. Phương pháp Gini được hiểu cụ thể như sau:
- Là phương pháp hướng đến đo lường tần suất một đối tượng dữ liệu ngẫu nhiên trong tập dữ liệu ban đầu được phân loại không chính xác, trên cơ sở đối tượng dữ liệu đã nằm trong một tập con được phân ra từ tập dữ liệu ban đầu, có dán nhãn thể hiện thuộc tính chung bất kỳ của các đối tượng còn lại trong tập con này, giá trị phân loại chính là nhãn của tập con.
- Gini index chính là chỉ số đo lường mức độ đồng nhất, nhiễu loạn của thông tin hay sự khác biệt về các giá trị mà mỗi điểm dữ liệu trong một tập con, hoặc một nhánh của DT. Công thức của Gini index có thể dùng cho cả dữ liệu rời rạc và liên tục. Nếu điểm dữ liệu thuộc về một nút và có chung thuộc tính bất kỳ thì nút này thể hiện sự đồng nhất lúc này Gini=0 và ngược lại Gini sẽ lớn.
Quý độc giả quan tâm vui lòng xem chi tiết bài viết tại đây.
TS. Nguyễn Văn Căn, Trần Ngọc Tú, Đỗ Đình Quang (Đại học Kỹ thuật - Hậu cần Công an nhân dân)
16:00 | 30/11/2022
09:00 | 24/08/2018
10:00 | 04/03/2015
14:00 | 26/02/2024
Khi dữ liệu được gửi từ nơi này đến nơi khác thì cần phải bảo vệ dữ liệu trong quá trình đang được gửi. Tương tự như vậy, khi dữ liệu được lưu trữ trong một môi trường mà các bên không được phép cập thì cần thiết phải có các biện pháp bảo vệ dữ liệu đó. Bài báo sẽ giới thiệu tóm tắt nội dung tiêu chuẩn ISO/IEC 19772:2020 về an toàn thông tin – mã hóa có sử dụng xác thực. Xác định các cách thức xử lý một chuỗi dữ liệu theo các mục tiêu an toàn bao gồm 5 cơ chế mã hóa có sử dụng xác thực.
14:00 | 12/07/2023
Ngày 20/7 tới đây, tại Thành phố Hồ Chí Minh, Cục Quản lý mật mã dân sự và Kiểm định sản phẩm mật mã, Ban Cơ yếu Chính phủ sẽ tổ chức Hội nghị tập huấn về mật mã dân sự năm 2023 và triển khai Nghị định số 32/2023/NĐ-CP ngày 09/6/2023 của Chính phủ.
14:00 | 14/06/2023
Ngày 09/6/2023, Thủ tướng Chính phủ đã ký ban hành Nghị định số 32/2023/NĐ-CP (Nghị định 32) sửa đổi, bổ sung Nghị định số 53/2018/NĐ-CP (Nghị định 53) ngày 16/4/2018 của Chính phủ sửa đổi, bổ sung Nghị định số 58/2016/NĐ-CP ngày 01/7/2016 của Chính phủ quy định chi tiết về kinh doanh sản phẩm, dịch vụ mật mã dân sự và xuất khẩu, nhập khẩu sản phẩm mật mã dân sự.
17:00 | 08/12/2021
Khi công nghệ ngày càng phát triển và thế giới đang dần số hóa, thì việc xuất hiện nhiều cuộc tấn công mạng với mức độ phức tạp, tinh vi, gây thất thoát dữ liệu ngày càng phổ biến. Các dịch vụ của bên thứ ba và thông tin nhạy cảm bị tiết lộ đã gây tác động tiêu cực đến lòng tin của người dùng. Vi phạm dữ liệu của bên thứ ba xảy ra khi dữ liệu nhạy cảm bị đánh cắp hoặc khi hệ thống của họ được sử dụng để truy cập và lấy cắp thông tin được lưu trữ trên hệ thống.