Nghiên cứu điển hình: Kiểm duyệt nội dung

As social media usage continues to grow, the problem of cyberbullying has surfaced as a significant hurdle for platforms striving to ensure a secure online space. A staggering 38% of individuals encounter this detrimental conduct on a daily basis, emphasizing the urgent demand for inventive content moderation approaches. Organizations today rely on the use of artificial intelligence to address the enduring problem of cyberbullying proactively.
An ninh mạng:
Báo cáo thực thi tiêu chuẩn cộng đồng quý 4 của Facebook đã tiết lộ – hành động đối với 6.3 triệu nội dung bắt nạt và quấy rối, với tỷ lệ phát hiện chủ động là 49.9%
Giáo dục:
A 2021 nghiên cứu phát hiện ra rằng 36.5%% học sinh ở Hoa Kỳ trong độ tuổi từ 12 & 17 năm kinh nghiệm bị bắt nạt trên mạng lúc này hay lúc khác trong thời gian đi học của họ.
Theo báo cáo năm 2020, thị trường giải pháp kiểm duyệt nội dung toàn cầu được định giá 4.07 tỷ USD vào năm 2019 và dự kiến sẽ đạt 11.94 tỷ USD vào năm 2027, với tốc độ CAGR là 14.7%.
Giải pháp thế giới thực
Dữ liệu kiểm duyệt các cuộc hội thoại toàn cầu
The client was developing a robust automated content moderation Machine Learning model for its Cloud offering, for which they were looking for domain-specific vendor who could assist them with accurate training data.
Tận dụng kiến thức sâu rộng của mình về xử lý ngôn ngữ tự nhiên (NLP), chúng tôi đã hỗ trợ khách hàng thu thập, phân loại và chú thích hơn 30,000 tài liệu bằng cả tiếng Anh và tiếng Tây Ban Nha để xây dựng mô hình Máy học kiểm duyệt nội dung tự động được chia thành nội dung Độc hại, Người trưởng thành hoặc Khiêu dâm danh mục.
Vấn đề
- Quét web 30,000 tài liệu bằng cả tiếng Tây Ban Nha và tiếng Anh từ các miền ưu tiên
- Phân loại nội dung được thu thập thành các phân đoạn ngắn, trung bình và dài
- Gắn nhãn dữ liệu được biên dịch là nội dung độc hại, trưởng thành hoặc khiêu dâm
- Đảm bảo chú thích chất lượng cao với độ chính xác tối thiểu 90%.
Dung dịch
- Web đã loại bỏ 30,000 tài liệu cho mỗi tài liệu bằng tiếng Tây Ban Nha và tiếng Anh từ BFSI, Chăm sóc sức khỏe, Sản xuất, Bán lẻ. Nội dung được chia thành các tài liệu ngắn, trung bình và dài
- Gắn nhãn thành công nội dung được phân loại là nội dung độc hại, trưởng thành hoặc khiêu dâm
- Để đạt được 90% chất lượng, Shaip đã thực hiện quy trình kiểm soát chất lượng hai cấp:
» Cấp độ 1: Kiểm tra đảm bảo chất lượng: 100% hồ sơ được thẩm định.
» Cấp độ 2: Kiểm tra Phân tích Chất lượng Quan trọng: Nhóm CQA của Shaips đánh giá 15%-20% các mẫu hồi cứu.
Kết quả
Dữ liệu đào tạo đã giúp xây dựng mô hình ML kiểm duyệt nội dung tự động có thể mang lại một số kết quả có lợi cho việc duy trì môi trường trực tuyến an toàn hơn. Một số kết quả chính bao gồm:
- Hiệu quả để xử lý lượng dữ liệu khổng lồ
- Tính nhất quán trong việc đảm bảo thực thi thống nhất các chính sách kiểm duyệt
- Khả năng mở rộng để thích ứng với khối lượng nội dung và cơ sở người dùng ngày càng tăng
- Kiểm duyệt thời gian thực có thể xác định &
xóa nội dung có thể gây hại khi nó được tạo - Hiệu quả chi phí bằng cách giảm sự phụ thuộc vào người điều hành con người
Tăng tốc phát triển ứng dụng AI đàm thoại của bạn lên 100%
Hãy cho chúng tôi biết cách chúng tôi có thể trợ giúp với sáng kiến AI tiếp theo của bạn.