Xây dựng bộ dữ liệu hình ảnh khuôn mặt ngoài EU/Vương quốc Anh với tính đa dạng tiến trình tuổi tác

Một kho dữ liệu hình ảnh khuôn mặt cách nhau theo thời gian với 1,205 người tham gia nhằm tăng cường tính công bằng và độ mạnh mẽ cho các mô hình thị giác máy tính.

Bộ dữ liệu hình ảnh khuôn mặt với sự đa dạng tiến triển theo độ tuổi

Tổng Quan Dự Án

Một công ty công nghệ toàn cầu đang xây dựng AI lấy khuôn mặt làm trung tâm cho các trải nghiệm về an toàn, cá nhân hóa và nhận dạng đã tìm kiếm một tập dữ liệu ngoài EU/Vương quốc Anh với các bức ảnh được phân tách theo thời gian để giảm độ lệch và cải thiện khả năng phục hồi của mô hình theo độ tuổi, môi trường và phụ kiện.

Khách hàng đã hợp tác với Shaip để thu thập, quản lý và xác thực một kho dữ liệu ảnh khuôn mặt lớn, trong đó mỗi người tham gia đóng góp ảnh gần đây và cũ hơn. Mục đích là mã hóa quá trình lão hóa tự nhiên, đồng thời đảm bảo nguồn gốc ngoài EU/Vương quốc Anh nghiêm ngặt và đạt được hạn ngạch cân bằng về giới tính/tuổi tác.

Bộ dữ liệu hình ảnh khuôn mặt với sự đa dạng tiến triển theo độ tuổi

Số liệu thống kê chính

Những người tham gia

 1,205 (Chỉ dành cho người ngoài EU/Vương quốc Anh, giới tính 50/50 ±10–15%)

 Độ tuổi hỗn hợp

 40% (10–29), 40% (30–49), 20% (50+) ±10–15% dung sai

Toàn Diện

Nam/Đông Nam Á, Bắc & Bắc/Đông Phi, Singapore, Nam Mỹ

Lịch Trình Sự Kiện

19 tuần

Những thách thức

Hạn chế địa lý

Chỉ lấy nguồn từ những người không thuộc EU/Anh trong khi tránh sử dụng hình ảnh có nguồn gốc từ EU/Anh khi đi du lịch.

Hạn ngạch cân bằng theo quy mô

Có 1,205 người tham gia với giới tính và độ tuổi khác nhau.

Bằng chứng tách biệt theo thời gian

Đảm bảo mọi giấy tờ tùy thân đều có ảnh chụp gần đây và ảnh chụp trước đây, phù hợp với từng nhóm tuổi.

Chất lượng hoạt động

Áp dụng giới hạn tối thiểu về kích thước hình ảnh/khuôn mặt, tính đa dạng và sự trùng lặp mà không làm chậm thông lượng.

Dung dịch

1. Bảng điều khiển quốc gia và kiểm soát nguồn gốc

Chúng tôi thành lập nhóm tìm nguồn cung ứng cấp quốc gia trên khắp các khu vực mục tiêu và các đối tác được đào tạo về quy tắc xuất xứ (Chỉ áp dụng cho các quốc gia ngoài EU/Vương quốc Anh). Ảnh đã được sàng lọc để xác định rủi ro nguồn gốc du lịch bằng cách sử dụng tín hiệu siêu dữ liệu (năm, dấu hiệu vị trí) cộng với chứng nhận của người nộp, giúp giảm thiểu rò rỉ dữ liệu từ EU/Vương quốc Anh trước khi kiểm soát chất lượng. Điều này phản ánh phương pháp đã được chứng minh của Shaip trong việc kiểm tra rủi ro trước để bảo vệ thông lượng đầu ra.

2. Thiết kế ghi lại tiến trình tuổi

Thay vì "yêu cầu 20 hình ảnh", chúng tôi đã thiết kế một luồng gửi hai bản nhạc đã hướng dẫn người tham gia:

  • Bản nhạc A (Gần đây): ảnh chụp trong hai năm qua;
  • Tuyến B (Lịch sử): ảnh cũ phù hợp với độ tuổi của người tham gia khi nộp ảnh (ví dụ: khung thời gian từ 2–10/15/20 năm).

Cổng thông tin này cung cấp cho người dùng các ví dụ (trong nhà/ngoài trời, góc độ, phụ kiện) để tăng tính đa dạng mà không cần nêu quá chi tiết.

3. Điều phối sự đa dạng và các rào cản hạn ngạch

A bảng điều khiển hạn ngạch thời gian thực theo dõi việc ghi danh của giới tính, độ tuổi và địa lý, tạm dừng việc tiếp nhận khi một tầng đạt đến giới hạn đã định. Điều này ngăn chặn việc điều chỉnh chu kỳ muộn và phản ánh phương pháp tiếp cận tiêu chuẩn của Shaip. tuyển sinh phân tầng + khóa cửa được sử dụng trong các tập dữ liệu sinh trắc học trước đó để duy trì sự biểu diễn cân bằng.

4. Quy trình chất lượng (Con người trong vòng lặp + Kiểm tra trước tự động)

  • Cổng tự động: phát hiện khuôn mặt + ngưỡng kích thước tối thiểu, kiểm tra độ mờ/nhiễu cơ bản và phân cụm trong ngày để đánh dấu sớm các bản sao tiềm ẩn.
  • Các cấp độ QA của con người: người đánh giá cấp độ hình ảnh đã được xác thực tính độc quyền của chủ đề (chỉ dành cho người tham gia chính), cảnh/góc độ đa dạngkhông có bộ lọc làm đẹp; Các kiểm toán viên CQA đã kiểm tra ngẫu nhiên các lô hàng trước khi chấp nhận. Điều này QA nhiều lớp phản ánh các chương trình dữ liệu sinh trắc học đã công bố của Shaip.

5. Tuân thủ và đồng ý

Tuyển sinh ≥20 năm với sự đồng ý đã ký; dưới 20 trường hợp chỉ được chấp nhận khi có sự đồng ý của người giám hộ. Chúng tôi đã ghi lại sự hiện diện của sự đồng ý trong siêu dữ liệu và căn chỉnh danh sách kiểm tra của người đánh giá để đủ điều kiện + sự đồng ý các lĩnh vực, đảm bảo khả năng kiểm toán.

6. Siêu dữ liệu & Khả năng truy xuất nguồn gốc

Chúng tôi đã giao hàng siêu dữ liệu cấp độ người tham gia và hình ảnh (Liên kết ID, thông tin nhân khẩu học, quốc tịch/nơi cư trú, năm chụp ảnh, ngày nộp, v.v.) và tên trường chuẩn hóa để đơn giản hóa đánh giá và dán nhãn hạ lưu. Điều này tuân theo phương pháp hay nhất của Shaip là gắn thẻ siêu dữ liệu phong phú cho các tập dữ liệu sinh trắc học.

7. Phân phối theo giai đoạn đến quy mô giảm rủi ro

An Kế hoạch 8 đợt bắt đầu bằng một Hiệu chuẩn 10 người tham gia được thiết lập, tiếp theo là tăng quy mô có kiểm soát. Phản hồi của khách hàng sau đợt 1 đã thông báo về việc điều chỉnh tiêu chí, sau đó khối lượng được tăng dần theo từng đợt có thể dự đoán được để đạt được Người tham gia 1,205 trong khoảng 19 tuần.

Phạm vi dự án

kích thước Những gì chúng tôi đã giao
Dân số 1,205 người tham gia không thuộc EU/Vương quốc Anh với độ tuổi và giới tính cân bằng.
Nội dung ≥20 hình ảnh cho mỗi người tham gia: gần đây + trước đây để mã hóa tiến trình tuổi tác; nhiều cảnh, góc chụp và phụ kiện khác nhau.
Hoạt động chất lượng Kiểm tra trước tự động + QA nhiều lớp của con người (kiểm soát trùng lặp; độc quyền đối tượng; loại bỏ bộ lọc).
Tuân thủ Xác minh nguồn gốc ngoài EU/Vương quốc Anh; quản trị sự đồng ý và xác nhận đủ điều kiện.
Siêu dữ liệu Thuộc tính hình ảnh + người tham gia để truy xuất nguồn gốc và đánh giá ML hạ lưu.
Giao hàng tận nơi 8 lô hàng theo từng giai đoạn, bắt đầu bằng hiệu chuẩn rồi chuyển giao ở trạng thái ổn định đến mục tiêu cuối cùng.

Các kết quả

  • Ngữ liệu cân bằng, sẵn sàng để kiểm toán: Đạt được hạn ngạch nhân khẩu học trong phạm vi cho phép; Nguồn gốc ngoài EU/Vương quốc Anh được áp dụng cho tất cả hình ảnh để đào tạo tuân thủ.
  • Sự thay đổi của mô hình sẵn sàng: Hình ảnh phân tách theo thời gian, môi trường/góc độ đa dạng và phạm vi phủ sóng phụ kiện hỗ trợ thử nghiệm độ mạnh mẽ và phân tích độ lệch.
  • Khả năng dự đoán hoạt động: Triển khai hiệu chuẩn đầu tiên + hạn ngạch hạn ngạch đã giảm bớt việc phải làm lại và đảm bảo tiến độ theo đúng mục tiêu là 1,205 người tham gia.
  • Hiệu quả hạ lưu: Siêu dữ liệu phong phú và tính nhất quán của tệp đã rút ngắn con đường chú thích và xây dựng chuẩn mực, theo hướng dẫn về bộ dữ liệu sinh trắc học của Shaip.

Shaip đã biến một bản tóm tắt dữ liệu khuôn mặt phức tạp của các quốc gia ngoài EU/Vương quốc Anh thành một kho dữ liệu cân bằng, sẵn sàng cho việc kiểm toán. Thiết kế tiến trình tuổi và QA theo từng cấp độ của họ đã mang đến cho nhóm CV của chúng tôi dữ liệu sạch, đa dạng mà chúng tôi có thể tin tưởng—mà không gặp rủi ro về lịch trình.

Vàng-5-Sao