Các công ty AI thường giữ bí mật về nguồn dữ liệu đào tạo của họ, nhưng một cuộc điều tra của Proof News cho thấy một loạt các công ty AI hàng đầu thế giới đã sử dụng tài liệu từ hàng nghìn video YouTube để đào tạo AI. Các công ty này đã sử dụng bộ dữ liệu tạo bởi công ty phi lợi nhuận có tên EleutherAI, chứa các bản ghi lại nội dung từ phụ đề 173.536 video YouTube của hơn 48.000 kênh mà không hề có sự xin phép chủ sở hữu hay nhà sáng tạo nội dung. Được biết phụ đề YouTube không bao gồm hình ảnh video mà bao gồm văn bản đơn giản của phụ đề video, thường cùng với bản dịch sang các ngôn ngữ bao gồm tiếng Nhật, tiếng Đức và tiếng Ả Rập.
Mặc dù tập dữ liệu không chứa hình ảnh hay video, song các nội dung được lấy lại từ những nhà sáng tạo nội dung hàng đầu trên nền tảng, chẳng hạn như Marques Brownlee (19 triệu người đăng ký, bảy video đã quay) và MrBeast (289 triệu người đăng ký, hai video quay), cũng như các nhà xuất bản tin tức lớn như The New York Times, BBC và ABC News. Ngoài ra, còn có phụ đề từ các video từ các kênh giáo dục và học tập trực tuyến như Khan Academy, MIT và Harvard.
Ông David Pakman, người dẫn chương trình “The David Pakman Show”, một kênh với hơn hai triệu người đăng ký và hơn hai tỷ lượt xem, cho biết: “Không ai đến gặp tôi và nói muốn sử dụng cái này". Trong khi đó, gần 160 video của kênh đã được đưa vào tập dữ liệu đào tạo AI.
“Apple lấy dữ liệu cho AI của họ từ một số công ty”, Brownlee một YouTuber nổi tiếng đăng trên X. “Một trong số đó là hàng tấn dữ liệu/bản ghi từ các video trên YouTube, bao gồm cả của tôi”.
Trước đó, CEO YouTube Neal Mohan khẳng định, việc các công ty sử dụng dữ liệu của YouTube để đào tạo các mô hình AI là vi phạm các điều khoản và dịch vụ của nền tảng này.
Đại diện tại EleutherAI, công ty tạo ra tập dữ liệu, đã không trả lời yêu cầu bình luận về phát hiện của Proof, bao gồm cả cáo buộc rằng video đã được sử dụng mà không được phép. Trang web của công ty nêu rõ mục tiêu tổng thể của họ là giảm bớt các rào cản đối với việc phát triển AI.
Theo một bài báo nghiên cứu do EleutherAI xuất bản, tập dữ liệu này là một phần của bộ sưu tập mà tổ chức phi lợi nhuận phát hành có tên là Pile. Pile bao gồm tài liệu không chỉ từ YouTube mà còn từ Nghị viện Châu Âu, Wikipedia tiếng Anh và một loạt email của nhân viên Enron Corporation. Hầu hết các bộ dữ liệu của Pile đều có thể truy cập và mở cho bất kỳ ai trên internet có đủ dung lượng và khả năng tính toán để truy cập.
Apple, Nvidia và Salesforce những công ty trị giá hàng trăm tỷ và hàng nghìn tỷ USD mô tả trong tài liệu nghiên cứu của họ và đăng tải cách họ sử dụng Pile để đào tạo AI. Các tài liệu cũng cho thấy Apple đã sử dụng Pile để đào tạo OpenELM, một mẫu máy cao cấp được phát hành vào tháng 4, vài tuần trước khi công ty tiết lộ sẽ bổ sung các khả năng AI mới cho iPhone và MacBook.
Hiện các công ty AI vẫn chưa minh bạch về dữ liệu được sử dụng để đào tạo thuật toán. Đầu tháng 7/2024, các nghệ sĩ và nhiếp ảnh gia đã chỉ trích Apple vì không tiết lộ nguồn dữ liệu đào tạo cho Apple Intelligence tính năng AI mới sẽ có mặt trên hàng triệu thiết bị của “nhà táo” trong năm nay.
YouTube vốn được coi là kho lưu trữ video lớn nhất thế giới và hiện cũng là “mỏ vàng” dữ liệu để đào tạo AI.
Hà Phương
15:00 | 01/11/2024
09:00 | 21/05/2024
08:00 | 17/07/2024
13:00 | 30/09/2024
07:00 | 07/11/2024
08:00 | 10/10/2024
16:00 | 03/01/2025
Ngày 03/01/2025, Hiệp hội Blockchain Việt Nam (VBA) tổ chức thành công Phiên họp lần thứ 04 của Ban Chấp hành nhiệm kỳ 2022 - 2027. Ông Phan Đức Trung, Phó Chủ tịch thường trực được bầu làm Chủ tịch VBA kể từ ngày 03/01/2025. Ông Hoàng Văn Huây, Nguyên Chủ tịch sẽ đảm nhận vai trò là Chủ tịch Hội đồng cố vấn cấp cao VBA.
10:00 | 26/12/2024
"Gã khổng lồ" công nghệ Apple vừa có động thái công kích đối thủ Meta, cáo buộc Meta liên tục đòi hỏi quyền truy cập vào các công cụ phần mềm cốt lõi, làm dấy lên lo ngại về nguy cơ xâm phạm quyền riêng tư người dùng. Cuộc đối đầu giữa hai "ông lớn" này đang ngày càng nóng lên tại thị trường châu Âu.
13:00 | 16/12/2024
Sáng ngày 16/12, tại Hà Nội, Ban Cơ yếu Chính phủ tổ chức Hội nghị thông báo Quyết định của Chủ tịch nước về việc thăng quân hàm cấp bậc Trung tướng đối với đồng chí Vũ Ngọc Thiềm, Trưởng ban Ban Cơ yếu Chính phủ.
08:00 | 16/12/2024
Chiều ngày 13/12, tại Hà Nội, Trường Đại học Công nghiệp Hà Nội diễn ra Lễ bế mạc và Trao thưởng Olympic Tin học Sinh viên Việt Nam lần thứ 33 và Kỳ thi lập trình sinh viên quốc tế ICPC Asia Hanoi 2024.
Khoảng giữa năm 1995, cơ quan An ninh Quốc gia Mỹ (National Security Agency - NSA) bắt đầu công bố hàng nghìn thông điệp được giải mật từ dự án VENONA. Đó là các thông điệp được truyền trong hoạt động ngoại giao và hoạt động tình báo của Liên Xô được trao đổi từ năm 1940. Trong đó, có chứa các thông tin liên quan đến Cơ quan tình báo trung ương Liên Xô (Komitet Gosudarstvennoy Bezopasnosti - KGB), Cơ quan Tình báo Quân đội Nga (Glavnoye Razvedyvatel’noye Upravleniye - GRU), Cơ quan Dân ủy Nội vụ (Narodnyy Komissariat Vnutrennikh Del - NKVD)…. Đây là kết quả hợp tác truyền thông tình báo của Mỹ, Anh và một số nước đồng minh. Bài viết dưới đây trình bày khái quát các kết quả chính và nguyên nhân thám mã thành công của dự án VENONA.
15:00 | 30/12/2018
Chatbot AI DeepSeek đang tạo ra làn sóng chấn động trên Phố Wall và ảnh hưởng mạnh mẽ đến Nvidia, khiến cổ phiếu công ty này bốc hơi 600 tỷ USD chỉ trong một ngày. Không chỉ có vậy, DeepSeek cũng đã vượt qua chatbot AI ChatGPT để vươn lên dẫn đầu trên App Store về danh mục ứng dụng miễn phí. Sự phát triển nhanh chóng mặt này đã khiến các công ty trí tuệ nhân tạo (AI) cũng như các chính phủ phương Tây và Cơ quan Hàng không Vũ trụ Mỹ (NASA) phải lên tiếng cảnh báo.
13:00 | 14/02/2025
Khép lại năm 2024, Lãnh đạo Ban Cơ yếu Chính phủ, cấp ủy, lãnh đạo các cấp trong toàn lực lượng cơ yếu, nhất là đội ngũ cán bộ chủ chốt đã chủ động bám sát yêu cầu nhiệm vụ và thực tiễn, cùng với sự nỗ lực rất lớn của toàn thể cán bộ, nhân viên ngành Cơ yếu Việt Nam tổ chức triển khai đồng bộ, toàn diện trên các mặt công tác, hoàn thành tốt nhiệm vụ được giao, trong đó có nhiều nhiệm vụ hoàn thành xuất sắc, tiếp tục khẳng định vị thế, vai trò đặc biệt quan trọng của hoạt động cơ yếu. Dưới đây là 10 dấu ấn nổi bật trong năm 2024 của ngành Cơ yếu Việt Nam.
08:00 | 29/01/2025