Nghiên cứu điển hình: Kiểm duyệt nội dung
Hơn 30 nghìn tài liệu trên web đã được loại bỏ và chú thích cho Kiểm duyệt nội dung
cố gắng bảo vệ không gian trực tuyến nơi chúng ta kết nối và giao tiếp.
Khi việc sử dụng phương tiện truyền thông xã hội tiếp tục phát triển,
vấn đề bắt nạt trên mạng đã nổi lên như một
trở ngại đáng kể cho các nền tảng phấn đấu để
đảm bảo một không gian trực tuyến an toàn. một đáng kinh ngạc
38% cá nhân gặp phải điều này
hành vi bất lợi trên cơ sở hàng ngày,
nhấn mạnh nhu cầu cấp bách về sáng tạo
phương pháp kiểm duyệt nội dung.
Các tổ chức ngày nay dựa vào việc sử dụng
trí tuệ nhân tạo để giải quyết vấn đề lâu dài
vấn đề bắt nạt trên mạng một cách chủ động.
An ninh mạng:
Báo cáo thực thi tiêu chuẩn cộng đồng quý 4 của Facebook đã tiết lộ – hành động đối với 6.3 triệu nội dung bắt nạt và quấy rối, với tỷ lệ phát hiện chủ động là 49.9%
Giáo dục:
A 2021 nghiên cứu phát hiện ra rằng 36.5%% học sinh ở Hoa Kỳ trong độ tuổi từ 12 & 17 năm kinh nghiệm bị bắt nạt trên mạng lúc này hay lúc khác trong thời gian đi học của họ.
Theo báo cáo năm 2020, thị trường giải pháp kiểm duyệt nội dung toàn cầu được định giá 4.07 tỷ USD vào năm 2019 và dự kiến sẽ đạt 11.94 tỷ USD vào năm 2027, với tốc độ CAGR là 14.7%.
Giải pháp thế giới thực
Dữ liệu kiểm duyệt các cuộc hội thoại toàn cầu
Khách hàng đang phát triển một hệ thống tự động mạnh mẽ
kiểm duyệt nội dung Machine Learning
mô hình cho dịch vụ Đám mây của mình, mà họ
đang tìm kiếm nhà cung cấp tên miền cụ thể
có thể hỗ trợ họ với dữ liệu đào tạo chính xác.
Tận dụng kiến thức sâu rộng của mình về xử lý ngôn ngữ tự nhiên (NLP), chúng tôi đã hỗ trợ khách hàng thu thập, phân loại và chú thích hơn 30,000 tài liệu bằng cả tiếng Anh và tiếng Tây Ban Nha để xây dựng mô hình Máy học kiểm duyệt nội dung tự động được chia thành nội dung Độc hại, Người trưởng thành hoặc Khiêu dâm danh mục.
Vấn đề
- Quét web 30,000 tài liệu bằng cả tiếng Tây Ban Nha và tiếng Anh từ các miền ưu tiên
- Phân loại nội dung được thu thập thành các phân đoạn ngắn, trung bình và dài
- Gắn nhãn dữ liệu được biên dịch là nội dung độc hại, trưởng thành hoặc khiêu dâm
- Đảm bảo chú thích chất lượng cao với độ chính xác tối thiểu 90%.
Dung dịch
- Web đã loại bỏ 30,000 tài liệu cho mỗi tài liệu bằng tiếng Tây Ban Nha và tiếng Anh từ BFSI, Chăm sóc sức khỏe, Sản xuất, Bán lẻ. Nội dung được chia thành các tài liệu ngắn, trung bình và dài
- Gắn nhãn thành công nội dung được phân loại là nội dung độc hại, trưởng thành hoặc khiêu dâm
- Để đạt được 90% chất lượng, Shaip đã thực hiện quy trình kiểm soát chất lượng hai cấp:
» Cấp độ 1: Kiểm tra đảm bảo chất lượng: 100% hồ sơ được thẩm định.
» Cấp độ 2: Kiểm tra Phân tích Chất lượng Quan trọng: Nhóm CQA của Shaips đánh giá 15%-20% các mẫu hồi cứu.
Kết quả
Dữ liệu đào tạo đã giúp xây dựng mô hình ML kiểm duyệt nội dung tự động có thể mang lại một số kết quả có lợi cho việc duy trì môi trường trực tuyến an toàn hơn. Một số kết quả chính bao gồm:
- Hiệu quả để xử lý lượng dữ liệu khổng lồ
- Tính nhất quán trong việc đảm bảo thực thi thống nhất các chính sách kiểm duyệt
- Khả năng mở rộng để thích ứng với khối lượng nội dung và cơ sở người dùng ngày càng tăng
- Kiểm duyệt thời gian thực có thể xác định &
xóa nội dung có thể gây hại khi nó được tạo - Hiệu quả chi phí bằng cách giảm sự phụ thuộc vào người điều hành con người
Ví dụ về Kiểm duyệt Nội dung
Hãy cho chúng tôi biết cách chúng tôi có thể trợ giúp với sáng kiến AI tiếp theo của bạn.