Trong nỗ lực xây dựng các giải pháp AI mạnh mẽ và không thiên vị, điều thích hợp là chúng ta nên tập trung vào đào tạo các mô hình trên một loại dữ liệu đại diện, năng động và không thiên vị. Quy trình thu thập dữ liệu của chúng tôi cực kỳ quan trọng trong việc phát triển các giải pháp AI đáng tin cậy. Về vấn đề này, tập hợp Dữ liệu đào tạo AI thông qua công nhân đám đông trở thành một khía cạnh quan trọng của chiến lược thu thập dữ liệu.
Trong bài viết này, hãy cùng khám phá vai trò của đám đông công nhân, tác động của nó đối với sự phát triển của AI học thuật toán và các mô hình ML cũng như nhu cầu và lợi ích mà nó mang lại cho toàn bộ quá trình.
Tại sao cần có công nhân đám đông để xây dựng các mô hình AI?
Là con người, chúng ta tạo ra hàng tấn dữ liệu, tuy nhiên, chỉ một phần nhỏ trong số dữ liệu được tạo và thu thập này là có giá trị. Do thiếu các tiêu chuẩn đánh giá dữ liệu, hầu hết dữ liệu được thu thập đều bị sai lệch, có vấn đề về chất lượng hoặc không đại diện cho môi trường. Vì ngày càng nhiều học máy và các mô hình học sâu đang được phát triển để phát triển mạnh trên lượng dữ liệu khổng lồ, nhu cầu về các bộ dữ liệu tốt hơn, mới hơn và đa dạng ngày càng được cảm nhận.
Đó là nơi công nhân đám đông phát huy tác dụng.
Crowd-sourcing data đang xây dựng một bộ dữ liệu với sự tham gia của nhiều nhóm người. Công nhân đám đông truyền trí thông minh của con người vào trí tuệ nhân tạo.
Nền tảng tìm nguồn cung ứng đám đông cung cấp các vi nhiệm vụ thu thập và chú thích dữ liệu cho một nhóm người lớn và đa dạng. Crowdsourcing cho phép các công ty tiếp cận lực lượng lao động đông đảo, năng động, tiết kiệm chi phí và có thể mở rộng.
Nền tảng tìm nguồn cung ứng đám đông phổ biến nhất – Amazon Mechanical Turk, đã có thể cung cấp 11 nghìn cuộc đối thoại giữa người với người trong vòng 15 giờ và nó đã trả tiền cho người lao động $0.35 cho mỗi cuộc đối thoại thành công. Các công nhân đám đông đang tham gia với số lượng ít ỏi như vậy, làm sáng tỏ tầm quan trọng của việc xây dựng các tiêu chuẩn tìm nguồn dữ liệu có đạo đức.
Về mặt lý thuyết, đây có vẻ là một kế hoạch thông minh, tuy nhiên, nó không phải là một chiến lược dễ thực hiện. Tính ẩn danh của đám đông công nhân đã làm nảy sinh các vấn đề về lương thấp, coi thường quyền của người lao động và chất lượng công việc kém ảnh hưởng đến hiệu suất của mô hình AI.
Lợi ích của việc có nhân viên đám đông để lấy dữ liệu
Bằng cách thu hút một nhóm công nhân đám đông đa dạng, các nhà phát triển giải pháp dựa trên AI có thể phân phối các nhiệm vụ vi mô và thu thập các quan sát đa dạng và phổ biến một cách nhanh chóng với chi phí tương đối thấp.
Một số lợi ích nổi bật của việc sử dụng nhân viên đám đông cho các dự án AI là
Thời gian đưa ra thị trường nhanh hơn: Theo nghiên cứu từ Cognilyticica, gần 80% trí tuệ nhân tạo thời gian của dự án được dành cho các hoạt động thu thập dữ liệu như làm sạch dữ liệu, ghi nhãn và tổng hợp dữ liệu. Chỉ 20% thời gian dành cho phát triển và đào tạo. Các rào cản truyền thống đối với việc tạo dữ liệu được loại bỏ vì một số lượng lớn cộng tác viên có thể được tuyển dụng trong một thời gian ngắn.
Giải pháp hiệu quả: Thu thập dữ liệu từ đám đông giảm thời gian và năng lượng dành cho đào tạo, tuyển dụng và đưa họ lên tàu. Điều này giúp loại bỏ chi phí, thời gian và nguồn lực cần thiết do lực lượng lao động được tuyển dụng theo phương pháp trả cho mỗi nhiệm vụ.
Tăng tính đa dạng trong Bộ dữ liệu: Đa dạng dữ liệu là rất quan trọng đối với toàn bộ quá trình đào tạo giải pháp AI. Để một mô hình tạo ra kết quả khách quan, nó phải được đào tạo trên một tập dữ liệu đa dạng. Với nguồn dữ liệu đám đông, có thể tạo các bộ dữ liệu đa dạng (địa lý, ngôn ngữ, phương ngữ) với ít nỗ lực và chi phí.
Tăng cường khả năng mở rộng: Khi bạn tuyển dụng nhân viên đám đông đáng tin cậy, bạn có thể đảm bảo chất lượng cao thu thập dữ liệu có thể được thu nhỏ dựa trên nhu cầu dự án của bạn.
Nội bộ so với nguồn cung ứng cộng đồng – Ai là người chiến thắng?
Dữ liệu nội bộ | Dữ liệu nguồn cộng đồng |
---|---|
Độ chính xác và tính nhất quán của dữ liệu có thể được đảm bảo. | Chất lượng, độ chính xác và tính nhất quán của dữ liệu có thể được duy trì nếu các nền tảng tìm nguồn cung ứng đám đông đáng tin cậy với các biện pháp QA tiêu chuẩn được tham gia |
Tìm nguồn dữ liệu nội bộ không phải lúc nào cũng là một quyết định thiết thực vì nhóm nội bộ của bạn có thể không đáp ứng được nhu cầu của dự án. | Sự đa dạng dữ liệu có thể được đảm bảo vì có thể tuyển dụng một nhóm công nhân đám đông không đồng nhất dựa trên nhu cầu của dự án. |
Đắt tiền để tuyển dụng và đào tạo công nhân cho nhu cầu của dự án. | Giải pháp tiết kiệm chi phí để thu thập dữ liệu vì có thể tuyển dụng, đào tạo và đưa công nhân lên tàu với mức đầu tư ít hơn. |
Thời gian đưa sản phẩm ra thị trường cao do việc thu thập dữ liệu nội bộ mất nhiều thời gian. | Thời gian đưa ra thị trường ít hơn đáng kể vì nhiều đóng góp đến nhanh chóng. |
Một nhóm nhỏ những người đóng góp nội bộ và người dán nhãn | Một nhóm lớn và đa dạng của những người đóng góp và nhãn dữ liệu |
Tính bảo mật dữ liệu rất cao với đội ngũ nội bộ. | Khó duy trì tính bảo mật dữ liệu khi làm việc với số lượng lớn nhân viên trên toàn thế giới. |
Dễ dàng theo dõi, đào tạo và đánh giá người thu thập dữ liệu hơn | Thách thức để theo dõi và đào tạo những người thu thập dữ liệu. |
Thu hẹp khoảng cách giữa nhân viên nguồn cộng đồng và người yêu cầu.
Có một nhu cầu cấp thiết để thu hẹp khoảng cách giữa những người làm việc theo đám đông và những người yêu cầu, không chỉ trong lĩnh vực trả lương.
Người yêu cầu thiếu thông tin rõ ràng vì người lao động chỉ được cung cấp thông tin liên quan đến nhiệm vụ cụ thể. Ví dụ, mặc dù người lao động được giao các nhiệm vụ vi mô như ghi âm các cuộc đối thoại bằng phương ngữ mẹ đẻ của họ, nhưng họ hiếm khi được cung cấp ngữ cảnh. Họ không có thông tin cần thiết về lý do tại sao họ đang làm những gì họ đang làm và cách tốt nhất để làm điều đó. Việc thiếu thông tin này ảnh hưởng đến chất lượng của công việc có nguồn gốc từ đám đông.
Đối với một con người, có toàn bộ bối cảnh mang lại sự rõ ràng và mục đích cho công việc của họ.
Thêm vào hỗn hợp này một khía cạnh khác của NDA – các thỏa thuận không tiết lộ giới hạn lượng thông tin mà một nhân viên đám đông được cung cấp. Từ góc độ nhân viên đám đông, việc rút lại thông tin này cho thấy sự thiếu tin tưởng và giảm tầm quan trọng đối với công việc của họ.
Khi tình huống tương tự được nhìn từ phía bên kia của quang phổ, sẽ có sự thiếu minh bạch từ phía người lao động. Người yêu cầu không hiểu đầy đủ về người lao động được giao thực hiện công việc. Một số dự án có thể yêu cầu một loại công nhân cụ thể; tuy nhiên, trong hầu hết các dự án, có sự mơ hồ. Các thực địa điều này có thể làm phức tạp quá trình đánh giá, phản hồi và đào tạo sau này không.
Để giải quyết những khó khăn này, làm việc với các chuyên gia thu thập dữ liệu có thành tích cung cấp dữ liệu đa dạng, được tuyển chọn và trình bày tốt từ nhiều lựa chọn cộng tác viên là rất quan trọng.
Chọn Shaip làm đối tác dữ liệu của bạn có thể có nhiều lợi ích. Chúng tôi tập trung vào sự đa dạng và phân phối đại diện của dữ liệu. Đội ngũ nhân viên tận tâm và giàu kinh nghiệm của chúng tôi hiểu được sự bắt buộc của từng dự án và phát triển các bộ dữ liệu có thể đào tạo các giải pháp mạnh mẽ dựa trên AI ngay lập tức.
[Cũng đọc: Hướng dẫn bắt đầu dữ liệu đào tạo AI: Định nghĩa, ví dụ, bộ dữ liệu]