Tác động của tính đa dạng lên dữ liệu huấn luyện

Dữ liệu đào tạo AI đa dạng cho tính toàn diện và loại bỏ sự thiên vị

Trí tuệ nhân tạo và Dữ liệu lớn có tiềm năng tìm giải pháp cho các vấn đề toàn cầu đồng thời ưu tiên các vấn đề địa phương và biến đổi thế giới theo nhiều cách sâu sắc. AI mang đến giải pháp cho tất cả mọi người – và trong mọi môi trường, từ gia đình đến nơi làm việc. Máy tính AI, với Machine Learning đào tạo, có thể mô phỏng hành vi và hội thoại thông minh theo cách tự động nhưng được cá nhân hóa.

Tuy nhiên, AI phải đối mặt với vấn đề bao hàm và thường bị sai lệch. May mắn thay, tập trung vào đạo đức trí tuệ nhân tạo có thể mở ra những khả năng mới hơn về mặt đa dạng hóa và bao gồm bằng cách loại bỏ sự thiên vị vô thức thông qua dữ liệu đào tạo đa dạng.

Tầm quan trọng của sự đa dạng trong dữ liệu đào tạo AI

Ai training data diversity Tính đa dạng và chất lượng của dữ liệu đào tạo có liên quan với nhau vì cái này ảnh hưởng đến cái kia và tác động đến kết quả của giải pháp AI. Sự thành công của giải pháp AI phụ thuộc vào dữ liệu đa dạng nó được đào tạo trên. Tính đa dạng của dữ liệu ngăn không cho AI trang bị quá mức – nghĩa là mô hình chỉ thực hiện hoặc học hỏi từ dữ liệu được sử dụng để đào tạo. Với việc trang bị quá mức, mô hình AI không thể cung cấp kết quả khi thử nghiệm trên dữ liệu không được sử dụng trong đào tạo.

Hiện trạng đào tạo AI dữ liệu

Sự bất bình đẳng hoặc thiếu sự đa dạng trong dữ liệu sẽ dẫn đến các giải pháp AI không công bằng, phi đạo đức và không toàn diện, có thể làm sâu sắc thêm sự phân biệt đối xử. Nhưng làm thế nào và tại sao sự đa dạng trong dữ liệu lại liên quan đến các giải pháp AI?

Sự thể hiện không đồng đều của tất cả các lớp dẫn đến nhận dạng sai khuôn mặt – điển hình là một trường hợp quan trọng là Google Photos đã phân loại một cặp vợ chồng da đen là 'khỉ đột'. Và Meta nhắc người dùng đang xem video về những người đàn ông da đen liệu người dùng có muốn 'tiếp tục xem video về các loài linh trưởng hay không'.

Ví dụ: việc phân loại dân tộc thiểu số hoặc chủng tộc không chính xác hoặc không phù hợp, đặc biệt là trong chatbot, có thể dẫn đến định kiến ​​trong các hệ thống đào tạo AI. Theo báo cáo năm 2019 về Hệ thống phân biệt đối xử – Giới tính, chủng tộc, quyền lực trong AI, hơn 80% giáo viên của AI là nam giới; các nhà nghiên cứu AI nữ trên FB chỉ chiếm 15% và 10% trên Google.

Tác động của dữ liệu đào tạo đa dạng đến hiệu suất AI

Tác động của sự đa dạng đến dữ liệu đào tạo Loại bỏ các nhóm và cộng đồng cụ thể khỏi biểu diễn dữ liệu có thể dẫn đến các thuật toán sai lệch.

Xu hướng dữ liệu thường vô tình được đưa vào hệ thống dữ liệu – bằng cách lấy mẫu dưới mức các chủng tộc hoặc nhóm nhất định. Khi các hệ thống nhận dạng khuôn mặt được đào tạo trên nhiều khuôn mặt khác nhau, nó sẽ giúp mô hình xác định các đặc điểm cụ thể, chẳng hạn như vị trí của các cơ quan trên khuôn mặt và các biến thể màu sắc.

Một kết quả khác của việc có tần suất nhãn không cân bằng là hệ thống có thể coi thiểu số là bất thường khi được tạo áp lực để tạo ra đầu ra trong một thời gian ngắn.

Hãy thảo luận về yêu cầu Dữ liệu đào tạo AI của bạn ngay hôm nay.

Đạt được sự đa dạng trong dữ liệu đào tạo AI

Mặt khác, việc tạo ra một tập dữ liệu đa dạng cũng là một thách thức. Việc thiếu dữ liệu về một số lớp nhất định có thể dẫn đến sự thiếu đại diện. Nó có thể được giảm thiểu bằng cách làm cho các nhóm nhà phát triển AI trở nên đa dạng hơn về kỹ năng, dân tộc, chủng tộc, giới tính, kỷ luật, v.v. Hơn nữa, cách lý tưởng để giải quyết các vấn đề về đa dạng dữ liệu trong AI là đối mặt với nó ngay từ đầu thay vì cố gắng sửa chữa những gì đã làm – truyền tải tính đa dạng ở giai đoạn thu thập và quản lý dữ liệu.

Bất chấp sự cường điệu xung quanh AI, nó vẫn phụ thuộc vào dữ liệu được con người thu thập, lựa chọn và đào tạo. Thành kiến ​​bẩm sinh ở con người sẽ phản ánh trong dữ liệu do họ thu thập và thành kiến ​​vô thức này cũng len lỏi vào các mô hình ML. 

Các bước để thu thập và quản lý dữ liệu đào tạo đa dạng

Training data diversity inclusion

đa dạng dữ liệu có thể đạt được bằng cách:

  • Cân nhắc thêm nhiều dữ liệu hơn từ các lớp ít được đại diện và hiển thị các mô hình của bạn với các điểm dữ liệu khác nhau. 
  • Bằng cách thu thập dữ liệu từ các nguồn dữ liệu khác nhau. 
  • Bằng cách tăng cường dữ liệu hoặc thao túng bộ dữ liệu một cách giả tạo để tăng/bao gồm các điểm dữ liệu mới khác biệt rõ ràng với các điểm dữ liệu ban đầu. 
  • Khi thuê ứng viên cho quy trình phát triển AI, hãy xóa tất cả thông tin không liên quan đến công việc khỏi ứng dụng. 
  • Cải thiện tính minh bạch và trách nhiệm giải trình bằng cách cải thiện tài liệu về sự phát triển và đánh giá các mô hình. 
  • Đưa ra các quy định để xây dựng sự đa dạng và tính toàn diện trong AI hệ thống từ cấp cơ sở. Nhiều chính phủ đã phát triển các hướng dẫn để đảm bảo tính đa dạng và giảm thiểu sự thiên vị của AI có thể mang lại kết quả không công bằng. 

[Cũng đọc: Tìm hiểu thêm về quy trình thu thập dữ liệu đào tạo AI ]

Kết luận

Hiện tại, chỉ có một số công ty công nghệ lớn và trung tâm đào tạo độc quyền tham gia phát triển các giải pháp AI. Những không gian ưu tú này chìm trong sự loại trừ, phân biệt đối xử và thiên vị. Tuy nhiên, đây là những không gian nơi AI đang được phát triển và logic đằng sau các hệ thống AI tiên tiến này chứa đầy sự thiên vị, phân biệt đối xử và loại trừ giống nhau do các nhóm ít được đại diện tạo ra. 

Trong khi thảo luận về sự đa dạng và không phân biệt đối xử, điều quan trọng là phải đặt câu hỏi về những người mà nó mang lại lợi ích và những người mà nó gây hại. Chúng ta cũng nên xem nó đặt ai vào thế bất lợi – bằng cách ép buộc ý tưởng về một người 'bình thường', AI có khả năng gây nguy hiểm cho 'những người khác'. 

Thảo luận về sự đa dạng trong dữ liệu AI mà không thừa nhận các mối quan hệ quyền lực, công bằng và công lý sẽ không cho thấy bức tranh toàn cảnh hơn. Để hiểu đầy đủ phạm vi đa dạng trong dữ liệu đào tạo AI và cách con người và AI có thể cùng nhau giảm thiểu cuộc khủng hoảng này, liên hệ với các kỹ sư tại Shaip. Chúng tôi có các kỹ sư AI đa dạng, những người có thể cung cấp dữ liệu động và đa dạng cho các giải pháp AI của bạn. 

Xã hội Chia sẻ