Một nghiên cứu điển hình về mô hình nhận dạng khuôn mặt

Bộ dữ liệu video chống giả mạo cho các mô hình AI phát hiện gian lận

Khám phá cách Shaip cung cấp 25,000 tập dữ liệu video chống giả mạo chất lượng cao có các tình huống tấn công thực tế và phát lại để đào tạo các mô hình AI nhằm phát hiện gian lận.

Thu thập dữ liệu video chống giả mạo

Tổng Quan Dự Án

Shaip đã hợp tác với một công ty bảo mật AI hàng đầu để cung cấp một bộ dữ liệu video chống giả mạo chất lượng cao, có sẵn, được thiết kế để nâng cao quá trình đào tạo mô hình AI nhằm phát hiện gian lận. Bộ dữ liệu bao gồm 25,000 video ghi lại cả các tình huống tấn công thực tế và phát lại, đảm bảo dữ liệu đào tạo mạnh mẽ cho các mô hình chống giả mạo.

Mỗi Người tham gia 12,500 đã đóng góp hai video—một video thực tế và một video phát lại—được ghi lại tại Độ phân giải 720p hoặc cao hơn với tốc độ khung hình là 26 FPS trở lên.

Mục tiêu của dự án là cung cấp bộ dữ liệu xác thực và đa dạng điều đó sẽ cho phép các mô hình AI phân biệt hiệu quả giữa video sinh trắc học thật và giả mạo, do đó giảm thiểu rủi ro gian lận trong các hệ thống xác thực sinh trắc học.

Thu thập dữ liệu video chống giả mạo

Số liệu thống kê chính

25,000 tổng số video (12,500 video thực tế, 12,500 phát lại video tấn công)

12,500 độc đáo
tham gia

5 nhóm dân tộc
được thể hiện trong tập dữ liệu

Giao hàng theo từng giai đoạn: 46,250 video mỗi loại

Thuộc tính siêu dữ liệu: 12 các thông số chính để tăng cường khả năng sử dụng tập dữ liệu

Phạm vi bộ dữ liệu sinh trắc học chống giả mạo

Quản lý tập dữ liệu: Dự án tập trung vào việc cung cấp các tập dữ liệu video chống giả mạo chất lượng cao bao gồm video tấn công thực tế và phát lại. Các khía cạnh chính bao gồm:

  • Người tham gia 12,500 góp phần mỗi người hai video (1 thật, 1 giả).
  • Sự đa dạng trong các thiết bị ghi âm để tăng cường khả năng thích ứng của mô hình.
  • Sự đại diện dân tộc cân bằng để đảm bảo tính toàn diện của tập dữ liệu.

Bộ sưu tập siêu dữ liệu: Mỗi video đều có kèm theo 12 thuộc tính siêu dữ liệu để nâng cao khả năng sử dụng tập dữ liệu.

Thách thức thu thập dữ liệu video

Đại diện bình đẳng

Duy trì phân phối dữ liệu cân bằng theo dân tộc trong khi vẫn tìm được nguồn video chất lượng cao.

Kiểm tra chất lượng

Đảm bảo rằng mỗi người tham gia đóng góp một video tấn công thực và một video phát lại để duy trì tính toàn vẹn của tập dữ liệu.

Tính nhất quán về mặt kỹ thuật

Tuân thủ các hướng dẫn nghiêm ngặt về FPS (≥ 26), độ phân giải (≥ 720p) và độ chính xác của dấu thời gian (+/- 0.5ms).

Chúng tôi đã giải quyết nó như thế nào

Shaip đã cung cấp một tập dữ liệu có cấu trúc và chất lượng cao để đáp ứng các yêu cầu của dự án. Giải pháp bao gồm:

Quản lý dữ liệu & Kiểm soát chất lượng

  • 25,000 video thu thập trên khắp Các giai đoạn 4 để đảm bảo luồng dữ liệu ổn định và có cấu trúc, tránh tình trạng tắc nghẽn.
  • Quy trình xác thực nghiêm ngặt để đảm bảo tuân thủ FPS, độ phân giải và độ chính xác của siêu dữ liệu. Mỗi video đều trải qua nhiều lần kiểm tra chất lượng trước khi được chấp nhận cuối cùng.
  • Đánh dấu siêu dữ liệu toàn diện với 12 thuộc tính:
  • ID/Tên tệp
  • Kiểu tấn công (Thật/Phát lại)
  • ID người
  • Độ phân giải
  • Duration
  • Dân tộc của đối tượng
  • Giới tính của chủ thể
  • Video có phải là bản gốc hay là bản giả mạo
  • Tên/Mô hình thiết bị
  • Người Nói Hay Không
  • Dấu thời gian Thời gian bắt đầu
  • Dấu thời gian Thời gian kết thúc
  • Phân bố nhóm dân tộc cân bằng: Bộ dữ liệu được tuyển chọn kỹ lưỡng để duy trì sự đại diện dân tộc cân bằng. Phân bố bao gồm người gốc Tây Ban Nha (33%), Nam Á (21%), người da trắng (20%), người châu Phi (15%) và dân số Đông Á & Trung Đông (mỗi nhóm chiếm tới 6%).
  • Không có mục trùng lặp để duy trì tính duy nhất của tập dữ liệu và ngăn ngừa sự thiên vị trong quá trình đào tạo AI.
  • Lựa chọn người tham gia đa dạng về dân tộc để tạo ra một tập dữ liệu phản ánh những biến thể của người dùng trong thế giới thực, cải thiện khả năng thích ứng và tính công bằng của mô hình AI.
  • Biến thể thiết bị ghi âm bao gồm nhiều mẫu điện thoại thông minh, máy ảnh và điều kiện ánh sáng để tăng cường độ bền của mô hình trong các điều kiện môi trường khác nhau.

Kết quả

Bộ dữ liệu video chống giả mạo đa dạng, chất lượng cao do Shaip cung cấp cho phép khách hàng đào tạo các mô hình AI để phân biệt chính xác giữa video thật và video giả mạo trong nhiều tình huống xác thực sinh trắc học khác nhau. Bộ dữ liệu đã đóng góp vào:

Phát hiện gian lận

Nâng cao hiệu suất AI trong việc phát hiện các cuộc tấn công sinh trắc học gian lận.

Dữ liệu đào tạo đa dạng

Tăng cường khả năng nhận diện các cuộc tấn công phát lại của mô hình trên nhiều dân tộc, thiết bị và điều kiện môi trường khác nhau.

khả năng mở rộng

Bộ dữ liệu đóng vai trò là nền tảng cho việc cải tiến và mở rộng mô hình chống giả mạo trong tương lai.

Bộ dữ liệu của Shaip đóng vai trò quan trọng trong việc nâng cao các mô hình chống giả mạo do AI điều khiển của chúng tôi. Sự đa dạng, chất lượng và siêu dữ liệu có cấu trúc đã tạo nên nền tảng vững chắc để cải thiện khả năng phát hiện gian lận trong các hệ thống xác thực sinh trắc học.

Vàng-5 sao