Cấp phép dữ liệu hình ảnh và video khuôn mặt có sẵn
Bộ dữ liệu nhận dạng khuôn mặt có sẵn để đào tạo mô hình AI
Tận dụng các tập dữ liệu có nguồn gốc đạo đức và đa dạng về mặt nhân khẩu học để đẩy nhanh quá trình đào tạo mô hình AI và giảm thiểu sự thiên vị cho một tập đoàn công nghệ toàn cầu hàng đầu.
Tổng Quan Dự Án
Khách hàng muốn đẩy nhanh tiến độ Phát triển công nghệ nhận dạng khuôn mặt dựa trên AI mà không cần trải qua các chu kỳ thu thập dữ liệu dài và tốn kém. Để đạt được điều này, họ cần bộ dữ liệu sẵn sàng sử dụng không chỉ là lớn và đa dạng, Mà còn có nguồn gốc đạo đức và tuân thủ các quy định về quyền riêng tư dữ liệu toàn cầu.
Shaip đã cung cấp các bộ dữ liệu toàn diện với các biến thể được kiểm soát về ánh sáng, tư thế đầu, che khuất và cảm xúc, cho phép các mô hình của khách hàng đạt được cả độ chính xác và tính công bằng, đồng thời đáp ứng các tiêu chí dân tộc và nhân khẩu học cần thiết. Mỗi bộ dữ liệu bao gồm siêu dữ liệu chi tiết, chú thích tư thế và hộp giới hạn để nhận dạng cảm xúc, cho phép các mô hình được đào tạo và kiểm tra trong các tình huống thực tế đa dạng.
Số liệu thống kê chính
Hơn 7,000 chủ đề
Trong bộ dữ liệu lịch sử với hơn 300,000 hình ảnh và 2,000 video.
Hơn 10,000 chủ đề
trong Bộ dữ liệu cảm xúc đa góc độ.
Hình ảnh 74,880
trong chiếu sáng
Bộ dữ liệu biến thể.
Hình ảnh 18,600
bao gồm sáu
cảm xúc cốt lõi.
Phạm vi dự án
Khách hàng yêu cầu các tập dữ liệu hình ảnh và video khuôn mặt quy mô lớn, có nguồn gốc đạo đức và đa dạng về mặt nhân khẩu học để hỗ trợ phát triển và đào tạo các mô hình nhận dạng khuôn mặt. Các tập dữ liệu này rất cần thiết để cung cấp năng lượng cho các trường hợp sử dụng trong hệ thống chống giả mạo, xác minh danh tính, khớp hình ảnh và phân tích biểu cảm, đảm bảo hiệu suất AI mạnh mẽ và khách quan trong các ứng dụng thực tế.
Phạm vi của sự tham gia bao gồm:
- Cung cấp bộ dữ liệu được quản lý được thiết kế để đáp ứng các trường hợp sử dụng nhận dạng khuôn mặt như chống giả mạo, xác minh danh tính và nhận dạng biểu cảm.
- Cung cấp hình ảnh và video có chú thích chi tiết về nhân khẩu học, tư thế đầu, che khuất, loại ánh sáng và cảm xúc.
- đảm bảo phạm vi nhân khẩu học cân bằng để giảm thiểu sự thiên vị mang tính hệ thống trong đào tạo.
- bảo lãnh sự tuân thủ và đồng ý với các tiêu chuẩn bảo vệ dữ liệu và quyền riêng tư toàn cầu.
Đóng góp cho tập dữ liệu mẫu:
- Tập dữ liệu lịch sử (~7,000 đối tượng): Hơn 300,000 hình ảnh và 2,000 video với nhiều tư thế và sự thay đổi về độ che khuất.
- Bộ dữ liệu cảm xúc đa góc độ (~10,000 đối tượng): 15–20 hình ảnh cho mỗi đối tượng ở nhiều góc độ và trạng thái cảm xúc khác nhau.
- Bộ dữ liệu sáu cảm xúc (~3,100 đối tượng): 18,600 hình ảnh có chú thích bao gồm các biểu cảm cốt lõi của con người.
- Bộ dữ liệu biến đổi ánh sáng (~468 đối tượng): 74,880 hình ảnh trong chín điều kiện ánh sáng.
Những thách thức
Dự án giải quyết những thách thức chính thường gặp trong việc xây dựng các mô hình AI mạnh mẽ:
Xu hướng trong các mô hình AI
Ngăn chặn tình trạng đại diện quá mức của các dân tộc hoặc giới tính cụ thể để đảm bảo công bằng.
Sự biến đổi trong thế giới thực
Ghi lại điều kiện ánh sáng, góc khuôn mặt, sự che khuất và biểu cảm tự nhiên.
Quy mô & Chất lượng
Cung cấp hàng trăm nghìn hình ảnh có độ phân giải cao mà không ảnh hưởng đến tính đa dạng.
Tuân thủ quy định phát luật
Đáp ứng các yêu cầu nghiêm ngặt về bảo vệ dữ liệu và quyền riêng tư toàn cầu với sự đồng ý hoàn toàn của người tham gia.
Dung dịch
Shaip đã thực hiện một Cách tiếp cận có cấu trúc để đảm bảo chất lượng và tính liên quan của tập dữ liệu:
- Bộ dữ liệu cân bằng được tuyển chọn với sự đại diện đa dạng về dân tộc, giới tính và độ tuổi.
- Bị bắt nhiều tư thế góc độ và các biến thể ánh sáng để mô phỏng các điều kiện thực tế.
- Thêm chú thích chi tiết (ví dụ: tư thế đầu, che khuất, cảm xúc) để làm phong phú thêm khả năng sử dụng tập dữ liệu.
- Đã thiết lập nghiêm ngặt quy trình kiểm soát chất lượng và tuân thủ để đảm bảo nguồn cung ứng có đạo đức và tuân thủ quyền riêng tư.
Danh mục dữ liệu
| Bộ dữ liệu | Khối lượng | Nhân khẩu học / Đa dạng | Tiêu chuẩn / Thông số kỹ thuật |
|---|---|---|---|
| Bộ dữ liệu hình ảnh và video khuôn mặt lịch sử (~7,000 đối tượng) | 7,000 hình ảnh ghi danh; hơn 300,000 hình ảnh lịch sử; 2,000 video (1 trong nhà + 1 ngoài trời trên 1,000 đối tượng) | Dân tộc: Da đen (35%), Đông Á (42%), Nam Á (13%), Da trắng (10%); Giới tính: 50% Nam / 50% Nữ; Độ tuổi: Người lớn từ 18 tuổi trở lên (10 năm trở lại đây) | Thời lượng video: 1–2 phút; Thay đổi tư thế đầu (P1–P7); 5 loại khớp cắn (O0–O4) |
| Bộ dữ liệu hình ảnh khuôn mặt (~5,000 đối tượng) | 35 hình ảnh cho mỗi chủ đề; 2,500 người Ấn Độ; 1,000 người Châu Á; 1,500 người Da đen | Độ tuổi: 18–60 tuổi; Phân bố giới tính cân bằng | Không làm đẹp; Nền và trang phục đa dạng; Độ phân giải tối thiểu: 960×1280 |
| Bộ dữ liệu cảm xúc đa góc độ (~10,000 đối tượng – tiếng Trung) | 15–20 hình ảnh cho mỗi chủ thể; Tư thế: Chính diện, Trái, Phải (30°–60°); Biểu cảm: Mỉm cười, há miệng, buồn, nghiêm túc, trung tính | Dân tộc: Trung Quốc; Độ tuổi: 18–26; Giới tính: chia đều 50/50 | Độ phân giải: 2160×3840 pixel hoặc cao hơn |
| Bộ dữ liệu sáu cảm xúc của con người (~3,100 đối tượng) | 6 hình ảnh cho mỗi chủ đề (biểu cảm khác nhau); tổng cộng 18,600 hình ảnh | Dân tộc: Nhật Bản (9,000), Hàn Quốc (2,400), Trung Quốc (2,400), Đông Nam Á (2,400), Nam Á (2,400); Độ tuổi: 20–65 tuổi | Chú thích hộp giới hạn cho cảm xúc; Nền đơn giản; Không có mũ, kính hoặc vật cản |
| Bộ dữ liệu biến đổi ánh sáng (~468 đối tượng người Ấn Độ) | 160 hình ảnh cho mỗi chủ đề; Tổng cộng: 74,880 hình ảnh | Độ tuổi: 20–70; 70% Nam | 9 điều kiện ánh sáng (trong nhà, ngoài trời, ánh sáng bên, đèn nền, đèn neon, v.v.) |
| Bộ dữ liệu hình ảnh khuôn mặt đa sắc tộc (~600 đối tượng) | Tổng cộng 3,752 hình ảnh | Dân tộc: Châu Phi, Trung Đông, Người Mỹ bản địa, Nam Á, Đông Nam Á; Độ tuổi: 20–70 tuổi | - |
Kết quả
Sự hợp tác này mang lại tác động đáng kể về mặt kinh doanh và kỹ thuật:
- Độ chính xác của mô hình được cải thiện: Độ chính xác và khả năng thu hồi được cải thiện cho các mô hình nhận dạng khuôn mặt trong nhiều trường hợp sử dụng.
- Giảm thiên vị: Sự đại diện nhân khẩu học cân bằng làm giảm sự thiên vị mang tính hệ thống trong kết quả đầu ra của AI.
- Tiến độ phát triển nhanh chóng: Các tập dữ liệu có sẵn cho phép tạo mẫu nhanh và đào tạo mô hình mà không cần thu thập dữ liệu dài dòng.
- Tuân thủ quy định phát luật:Tất cả các tập dữ liệu đều tuân thủ các tiêu chuẩn bảo mật toàn cầu và có sự đồng ý của người tham gia.
Các tập dữ liệu đa dạng, có nguồn gốc đạo đức của Shaip đã mang lại cho chúng tôi tốc độ, chất lượng và sự tuân thủ cần thiết. Với dữ liệu sẵn sàng sử dụng, chúng tôi đã đẩy nhanh quá trình đào tạo mô hình AI và giảm đáng kể sai lệch hệ thống.