Bài viết này chỉ ra một mạng nơron sâu sử dụng kiến trúc Transformer để nhận diện từ tiếng Việt, cho ra các kết quả khả quan. Hiệu quả của phương pháp này được đánh giá bằng cách hiệu chỉnh mô hình Transformer với kết quả chính xác đạt khoảng 95%. Kết quả này khá tốt so với các phương pháp trước đó. Điều này nhấn mạnh tiềm năng của các phương pháp dựa trên Transformer đối với OCR tiếng Việt.
Nhận diện ký tự quang học (Optical Character Recognition - OCR) là một công nghệ tự động nhận diện văn bản trong các hình ảnh tài liệu, sau đó chuyển nó thành văn bản để có thể tìm kiếm và chỉnh sửa được trên máy tính. Các phần mềm OCR có rất nhiều ứng dụng, bao gồm nhận diện biển số xe, đọc séc ngân hàng, xác minh chữ ký và giải mã CAPTCHA. Việc triển khai hệ thống OCR có thể gặp nhiều thách thức do sự khác biệt về phong cách viết, kích thước phông chữ, chất lượng tài liệu, bao gồm tài liệu viết tay, in hoặc quét. Những hệ thống này có thể đơn ngữ hoặc đa ngữ, hoạt động offline hoặc online. Các hệ thống OCR offline chấp nhận đầu vào ở dạng tài liệu đã được quét, in ấn hoặc viết tay, trong khi hệ thống OCR online xử lý và phân tích hình ảnh theo thời gian thực. Các ứng dụng offline bao gồm việc đọc địa chỉ bưu điện, kiểm tra séc và xử lý biểu mẫu, trong khi các bút kỹ thuật số hỗ trợ người khiếm thị hoặc người không biết chữ sử dụng hệ thống online.
Tiếng Việt là một ngôn ngữ Latinh với bảng chữ cái gồm 29 chữ cái và 5 dấu thanh, mỗi dấu có thể xuất hiện ở trên hoặc dưới các chữ cái, thay đổi hoàn toàn cách phát âm của từ. Sự phức tạp của các dấu thanh này cùng với việc một số dấu thanh và chữ cái có hình dáng tương tự, tạo ra thách thức lớn khi thiết kế hệ thống OCR cho tiếng Việt. Thêm vào đó, tiếng Việt cũng có những ký tự và dấu câu riêng biệt, làm tăng thêm mức độ khó cho các hệ thống OCR.
Phương pháp nhận diện ký tự dựa trên mô hình Transformer là một giải pháp tiên tiến cho bài toán nhận dạng ký tự quang học. Trong đó, mô hình Transformer được sử dụng cho cả hai nhiệm vụ phân tích hình ảnh và sinh chuỗi ký tự. Phương pháp này tận dụng kiến trúc Transformer để thay thế các phương pháp truyền thống sử dụng mạng nơron tích chập (Convolutional Neural Network - CNN) và mạng nơron hồi quy (Recurrent Neural Network - RNN), nhằm xử lý đồng thời cả hình ảnh và ngôn ngữ.
Cấu trúc của mô hình gồm hai phần chính: bộ mã hóa (encoder) và bộ giải mã (decoder). Bộ mã hóa có nhiệm vụ xử lý và trích xuất đặc trưng từ hình ảnh văn bản, trong khi bộ giải mã sẽ dựa trên các đặc trưng này để tạo ra chuỗi từ tương ứng.
Xem toàn bộ bài báo tại đây.
Lê Bá Cường, Học viện Kỹ thuật mật mã
09:00 | 14/10/2019
09:07 | 27/08/2014
14:08 | 26/12/2014
22:00 | 26/01/2025
Các sản phẩm được thiết kế an toàn là những sản phẩm được các nhà sản xuất phần mềm tạo ra, phân phối và bảo trì, trong đó bảo mật là yếu tố cốt lõi cần quan tâm ngay từ những giai đoạn đầu tiên của vòng đời phát triển sản phẩm. Điều này giúp đảm bảo rằng các sản phẩm mà tổ chức mua sắm và sử dụng được thiết kế an toàn, có khả năng chống lại mã độc tống tiền và các cuộc tấn công mạng khác. Hiện nay, các nhà sản xuất phần mềm đang cố gắng cung cấp các tính năng bảo mật theo yêu cầu của khách hàng, vì vậy điều quan trọng là bản thân khách hàng phải hiểu và đưa ra được những yêu cầu rõ ràng về bảo mật như một phần của quy trình mua sắm.
10:00 | 18/10/2024
Nhằm trang bị cho người dân “vũ khí” chống lừa đảo trên không gian mạng, Cục An toàn thông tin (Bộ TT&TT) triển khai chiến dịch quốc gia với 5 nhóm kỹ năng thiết yếu, từ nhận biết dấu hiệu lừa đảo đến xử lý tình huống khi bị tấn công.
10:00 | 27/05/2024
Quản lý rủi ro chuỗi cung ứng (Supply Chain Risk Management - SCRM) là quá trình tìm kiếm và giải quyết các lỗ hổng tiềm ẩn trong chuỗi cung ứng của một doanh nghiệp. Mục đích của SCRM là nhằm giảm thiểu tác động của những rủi ro này đối với hoạt động, thương hiệu và hiệu quả tài chính của doanh nghiệp.
08:00 | 22/05/2024
Phần II của bài báo tiếp tục tập trung đánh giá một số công nghệ Blockchain phổ biến hiện nay, từ đó, xem xét tính ứng dụng của các công nghệ này đối với Việt Nam.
Trong bối cảnh chuyển đổi số và ứng dụng rộng rãi của công nghệ thông tin (CNTT) thì xu hướng kết nối liên mạng để chia sẻ cơ sở dữ liệu (CSDL) trở nên tất yếu. Các hệ thống công nghệ vận hành (Operational Technology - OT) cũng không nằm ngoài xu hướng này, quá trình đó được gọi là Hội tụ IT/OT. Do vậy, nhu cầu truyền dữ liệu một chiều giữa các mạng độc lập ngày càng tăng để phục vụ cho mục đích khai thác dữ liệu. Bài viết này giới thiệu một giải pháp mới dựa trên công nghệ vi mạch tích hợp khả trình (Field-Programmable Gate Array - FPGA), sử dụng cơ chế xử lý đa luồng tốc độ cao, giúp duy trì băng thông hệ thống mà không gây ra tình trạng treo hoặc nghẽn mạng, cho phép các kết nối yêu cầu thời gian thực. Đồng thời, bài viết cũng sẽ trình bày giải pháp giả lập giao thức TCP/IP hỗ trợ cho các giao thức truyền thông trong các hệ thống mạng điều khiển IT/OT.
09:00 | 06/01/2025
Sau hơn một tháng hợp tác với Cục An toàn thông tin Việt Nam (AIS), tính năng Google Play Protect nâng cao đã bảo vệ hơn 360.000 thiết bị khỏi hơn 1,5 triệu cài đặt rủi ro trên 8.000 ứng dụng độc hại tại Việt Nam. Google đã tiết lộ 5 hình thức lừa đảo trực tuyến phổ biến nhất hiện nay, đồng thời chia sẻ cách giúp người dùng an toàn hơn trên Internet.
13:00 | 14/02/2025