Chìa khóa để vượt qua những trở ngại phát triển AI

Dữ liệu đáng tin cậy hơn

Giới thiệu

Trí thông minh nhân tạo bắt đầu ghi lại những hình ảnh tưởng tượng khi Người đàn ông Tin Man từ “The Wizard of Oz” lên màn bạc vào năm 1939 và nó chỉ có được một chỗ đứng vững chắc hơn trong giới mộ điệu kể từ đó. Tuy nhiên, trong ứng dụng, các sản phẩm AI đã trải qua các chu kỳ bùng nổ thường xuyên và cho đến nay đã cản trở việc áp dụng có ảnh hưởng nhất.

Trong thời kỳ bùng nổ, các kỹ sư và nhà nghiên cứu đã đạt được những bước tiến to lớn, nhưng khi nguyện vọng của họ chắc chắn vượt xa khả năng tính toán sẵn có vào thời điểm đó, thì một thời kỳ im lìm đã kéo theo. May mắn thay, sự gia tăng theo cấp số nhân của sức mạnh tính toán được tiên tri bởi Định luật Moore vào năm 1965, phần lớn đã được chứng minh là chính xác, và tầm quan trọng của sự gia tăng này rất khó để phóng đại.

Trở ngại phát triển Ai
Đọc sách điện tử: Chìa khóa để vượt qua những trở ngại phát triển trí tuệ nhân tạo, hoặc tải xuống phiên bản PDF của sách điện tử.

Chìa khóa để vượt qua những trở ngại phát triển AI: Dữ liệu đáng tin cậy hơn

Ngày nay, một người bình thường hiện có sức mạnh tính toán trong túi nhiều hơn hàng triệu lần so với việc NASA phải hạ cánh lên mặt trăng vào năm 1969. Cũng chính thiết bị phổ biến đó thể hiện một cách thuận tiện sức mạnh tính toán dồi dào cũng đang đáp ứng một điều kiện tiên quyết khác cho thời kỳ hoàng kim của AI: rất nhiều dữ liệu. Theo thông tin chi tiết từ Nhóm nghiên cứu quá tải thông tin, 90% dữ liệu trên thế giới được tạo ra trong hai năm qua. Giờ đây, tốc độ tăng trưởng theo cấp số nhân về sức mạnh tính toán cuối cùng đã hội tụ với tốc độ tăng trưởng đồng đều trong quá trình tạo dữ liệu, các đổi mới dữ liệu AI đang bùng nổ đến mức một số chuyên gia cho rằng sẽ khởi động cuộc Cách mạng công nghiệp lần thứ tư.

Dữ liệu từ Hiệp hội Đầu tư Mạo hiểm Quốc gia chỉ ra rằng lĩnh vực AI đã đạt mức đầu tư kỷ lục 6.9 tỷ đô la trong quý đầu tiên của năm 2020. Không khó để nhìn thấy tiềm năng của các công cụ AI bởi vì nó đã được khai thác khắp nơi xung quanh chúng ta. Một số trường hợp sử dụng dễ thấy hơn cho các sản phẩm AI là công cụ đề xuất đằng sau các ứng dụng yêu thích của chúng tôi như Spotify và Netflix. Mặc dù thật thú vị khi khám phá ra một nghệ sĩ mới để nghe hoặc một chương trình truyền hình mới để xem một cách say sưa, nhưng những cách triển khai này khá thấp. Các thuật toán khác chấm điểm bài kiểm tra - một phần xác định nơi học sinh được chấp nhận vào đại học - và những thuật toán khác sẽ sàng lọc thông qua lý lịch của ứng viên, quyết định ứng viên nào nhận được một công việc cụ thể. Một số công cụ AI thậm chí có thể có ý nghĩa sinh tử, chẳng hạn như mô hình AI tầm soát ung thư vú (hoạt động tốt hơn các bác sĩ).

Bất chấp sự tăng trưởng ổn định trong cả các ví dụ thực tế về phát triển AI và số lượng công ty khởi nghiệp cạnh tranh để tạo ra thế hệ công cụ chuyển đổi tiếp theo, những thách thức đối với sự phát triển và triển khai hiệu quả vẫn còn. Đặc biệt, đầu ra của AI chỉ chính xác ở mức đầu vào cho phép, có nghĩa là chất lượng là điều tối quan trọng.

Trở ngại phát triển Ai

Thách thức về chất lượng dữ liệu không nhất quán trong các giải pháp AI

Thực sự có một lượng dữ liệu đáng kinh ngạc được tạo ra mỗi ngày: 2.5 tạ triệu byte, theo Social Media Today. Nhưng điều đó không có nghĩa là tất cả đều xứng đáng để đào tạo thuật toán của bạn. Một số dữ liệu không đầy đủ, một số có chất lượng thấp và một số khác hoàn toàn không chính xác, vì vậy, việc sử dụng bất kỳ thông tin bị lỗi nào này sẽ dẫn đến những đặc điểm giống nhau đối với sự đổi mới dữ liệu AI (đắt tiền) của bạn. Theo nghiên cứu từ Gartner, khoảng 85% dự án AI được tạo ra vào năm 2022 sẽ tạo ra kết quả không chính xác vì dữ liệu sai lệch hoặc không chính xác. Mặc dù bạn có thể dễ dàng bỏ qua đề xuất bài hát không phù hợp với sở thích của mình, nhưng các thuật toán không chính xác khác sẽ phải trả một cái giá đáng kể về tài chính và danh tiếng.

Vào năm 2018, Amazon đã bắt đầu sử dụng một công cụ tuyển dụng do AI hỗ trợ, được sản xuất từ ​​năm 2014, có thành kiến ​​mạnh mẽ và không thể nhầm lẫn đối với phụ nữ. Nó chỉ ra rằng các mô hình máy tính làm nền tảng cho công cụ này đã được đào tạo bằng cách sử dụng các bản lý lịch nộp cho công ty trong hơn một thập kỷ. Bởi vì hầu hết những người ứng dụng công nghệ là nam giới (và vẫn còn, có lẽ là do công nghệ này), thuật toán đã quyết định phạt những bản lý lịch có "phụ nữ" ở bất kỳ đâu - ví dụ như đội trưởng bóng đá nữ hoặc nhóm kinh doanh của phụ nữ. Nó thậm chí còn quyết định phạt các ứng viên của hai trường đại học nữ. Amazon tuyên bố rằng công cụ này chưa bao giờ được sử dụng làm tiêu chí duy nhất để đánh giá các ứng viên tiềm năng, nhưng các nhà tuyển dụng đã xem xét công cụ đề xuất khi tìm kiếm nhân viên mới.

Công cụ tuyển dụng của Amazon cuối cùng đã bị loại bỏ sau nhiều năm làm việc, nhưng bài học vẫn còn đó, làm nổi bật tầm quan trọng của chất lượng dữ liệu khi đào tạo các thuật toán và công cụ AI. Dữ liệu "chất lượng cao" trông như thế nào? Tóm lại, nó kiểm tra năm hộp sau:

1. Có liên quan

Để được coi là chất lượng cao, dữ liệu phải mang lại điều gì đó có giá trị cho quá trình ra quyết định. Có mối tương quan nào giữa địa vị của một người xin việc với tư cách là vận động viên vô địch tiểu bang và hiệu suất của họ trong công việc không? Nó có thể, nhưng nó có vẻ rất khó xảy ra. Bằng cách loại bỏ dữ liệu không liên quan, một thuật toán có thể tập trung vào việc phân loại thông tin thực sự ảnh hưởng đến kết quả.

2. Chính xác

Dữ liệu bạn đang sử dụng phải thể hiện chính xác những ý tưởng bạn đang thử nghiệm. Nếu không, nó không đáng. Ví dụ: Amazon đã đào tạo thuật toán tuyển dụng của mình bằng cách sử dụng 10 năm bản lý lịch của ứng viên, nhưng không rõ liệu công ty có xác nhận thông tin được cung cấp trên những bản lý lịch đó trước hay không. Nghiên cứu từ công ty kiểm tra tài liệu tham khảo Checkster cho thấy 78% ứng viên nói dối hoặc sẽ cân nhắc việc nói dối trong đơn xin việc. Ví dụ: nếu một thuật toán đang đưa ra quyết định đề xuất bằng cách sử dụng điểm trung bình của ứng viên, thì trước tiên bạn nên xác nhận tính xác thực của những con số đó. Quá trình này sẽ tốn thời gian và tiền bạc, nhưng nó cũng sẽ cải thiện độ chính xác của kết quả của bạn một cách chắc chắn.

3. Được tổ chức và chú thích hợp lý

Trong trường hợp mô hình tuyển dụng dựa trên lý lịch, chú thích là tương đối dễ dàng. Theo một nghĩa nào đó, một bản lý lịch được chú thích trước, mặc dù chắc chắn sẽ có những trường hợp ngoại lệ. Hầu hết các ứng viên liệt kê kinh nghiệm làm việc của họ dưới tiêu đề “Kinh nghiệm” và các kỹ năng liên quan trong “Kỹ năng”. Tuy nhiên, trong các tình huống khác, chẳng hạn như tầm soát ung thư, dữ liệu sẽ đa dạng hơn nhiều. Thông tin có thể đến dưới dạng hình ảnh y tế, kết quả khám sức khỏe hoặc thậm chí là cuộc trò chuyện giữa bác sĩ và bệnh nhân về tiền sử sức khỏe gia đình và các trường hợp ung thư, trong số các dạng dữ liệu khác. Để thông tin này góp phần tạo ra thuật toán phát hiện chính xác, nó phải được tổ chức và chú thích cẩn thận để đảm bảo mô hình AI học cách đưa ra dự đoán chính xác dựa trên các suy luận đúng.

4. Cập nhật

Amazon đã cố gắng tạo ra một công cụ có thể tiết kiệm thời gian và tiền bạc bằng cách tái tạo các quyết định tuyển dụng tương tự mà con người đưa ra trong thời gian ngắn hơn rất nhiều. Để đưa ra các đề xuất chính xác nhất có thể, dữ liệu cần phải được cập nhật. Ví dụ, nếu một công ty từng thể hiện sự ưu tiên đối với các ứng viên có khả năng sửa chữa máy đánh chữ, thì những việc tuyển dụng lịch sử này có lẽ sẽ không ảnh hưởng nhiều đến thể lực của những người xin việc ngày nay cho bất kỳ loại vai trò nào. Kết quả là, sẽ là khôn ngoan nếu loại bỏ chúng.

5. Đa dạng một cách thích hợp

Các kỹ sư của Amazon đã chọn đào tạo một thuật toán với một nhóm ứng viên hầu hết là nam giới. Quyết định này là một sai lầm nghiêm trọng và nó được đưa ra không kém phần nghiêm trọng bởi thực tế đó là những bản lý lịch mà công ty có sẵn vào thời điểm đó. Các kỹ sư của Amazon có thể đã hợp tác với các tổ chức có uy tín tương tự những vị trí có sẵn đã nhận được nhiều nữ xin việc hơn để bù đắp sự thiếu hụt, hoặc có thể có cắt giảm một cách giả tạo số lượng lý lịch của nam giới để phù hợp với số lượng phụ nữ và được đào tạo và đã hướng dẫn thuật toán với cách trình bày dân số chính xác hơn. Vấn đề là dữ liệu sự đa dạng là chìa khóa quan trọng, và trừ khi nỗ lực phối hợp được thực hiện để loại bỏ sự thiên vị trong các đầu vào, thì các đầu ra bị sai lệch sẽ Chiếm ưu thế.

Rõ ràng, dữ liệu chất lượng cao không chỉ xuất hiện bất cứ nơi đâu. Thay vào đó, nó phải được lựa chọn cẩn thận với các kết quả dự kiến ​​trong tâm trí. Trong lĩnh vực AI, người ta thường nói rằng “rác vào nghĩa là rác thải ra ngoài”. Câu nói này đúng, nhưng nó phần nào làm giảm đi tầm quan trọng của chất lượng. AI có thể xử lý một lượng lớn thông tin đáng kinh ngạc và biến nó thành bất cứ thứ gì, từ việc chọn kho, đề xuất tuyển dụng đến chẩn đoán y tế. Năng lực này vượt xa khả năng của con người, điều đó cũng có nghĩa là nó phóng đại kết quả. Một nhà tuyển dụng thiên vị chỉ có thể coi thường quá nhiều phụ nữ, nhưng một nhà tuyển dụng AI thiên vị có thể bỏ qua tất cả. Theo nghĩa đó, rác vào không chỉ có nghĩa là bỏ rác - nó có nghĩa là một lượng nhỏ dữ liệu “rác” có thể biến thành toàn bộ bãi rác.

Vượt qua các trở ngại phát triển AI

Những nỗ lực phát triển AI bao gồm những trở ngại đáng kể cho dù chúng diễn ra trong ngành nào và quá trình đi từ một ý tưởng khả thi đến một sản phẩm thành công là đầy khó khăn. Giữa những thách thức của việc có được dữ liệu phù hợp và nhu cầu ẩn danh dữ liệu đó để tuân thủ tất cả các quy định liên quan, có thể cảm thấy việc thực sự xây dựng và đào tạo một thuật toán là một phần dễ dàng.

Để mang lại cho tổ chức của bạn mọi lợi thế cần thiết trong nỗ lực thiết kế một sự phát triển AI mới mang tính đột phá, bạn sẽ muốn xem xét hợp tác với một công ty như Shaip. Chetan Parikh và Vatsal Ghiya thành lập Shaip để giúp các công ty thiết kế các loại giải pháp có thể thay đổi ngành chăm sóc sức khỏe ở Mỹ Sau hơn 16 năm kinh doanh, công ty của chúng tôi đã phát triển với hơn 600 thành viên trong nhóm và chúng tôi đã làm việc với hàng trăm khách hàng để biến các ý tưởng hấp dẫn thành các giải pháp AI.

Với con người, quy trình và nền tảng của chúng tôi làm việc cho tổ chức của bạn, bạn có thể mở khóa ngay lập tức bốn lợi ích sau đây và thúc đẩy dự án của bạn kết thúc thành công:

1. Khả năng giải phóng các nhà khoa học dữ liệu của bạn

Khả năng giải phóng các nhà khoa học dữ liệu của bạn
Không có gì phải bàn cãi rằng quá trình phát triển AI cần một khoản đầu tư đáng kể về thời gian, nhưng bạn luôn có thể tối ưu hóa các chức năng mà nhóm của bạn dành nhiều thời gian nhất để thực hiện. Bạn đã thuê các nhà khoa học dữ liệu của mình vì họ là chuyên gia trong việc phát triển các thuật toán tiên tiến và mô hình học máy, nhưng nghiên cứu luôn chứng minh rằng những công nhân này thực sự dành 80% thời gian của họ để tìm nguồn cung ứng, làm sạch và tổ chức dữ liệu sẽ cung cấp năng lượng cho dự án. Hơn 76/20 (XNUMX%) các nhà khoa học dữ liệu báo cáo rằng các quy trình thu thập dữ liệu thông thường này cũng là những phần họ yêu thích nhất trong công việc, nhưng nhu cầu về dữ liệu chất lượng chỉ dành XNUMX% thời gian của họ để phát triển thực tế, đó là công việc thú vị và kích thích trí tuệ nhất đối với nhiều nhà khoa học dữ liệu. Bằng cách tìm nguồn cung cấp dữ liệu thông qua một nhà cung cấp bên thứ ba như Shaip, một công ty có thể cho phép các kỹ sư dữ liệu tài năng và đắt tiền của họ thuê ngoài công việc của họ với tư cách là người kiểm tra dữ liệu và thay vào đó dành thời gian của họ cho các phần của giải pháp AI nơi họ có thể tạo ra giá trị cao nhất.

2. Khả năng đạt được kết quả tốt hơn

Khả năng đạt được kết quả tốt hơn Nhiều nhà lãnh đạo phát triển AI quyết định sử dụng dữ liệu nguồn mở hoặc nguồn lực cộng đồng để giảm chi phí, nhưng quyết định này hầu như luôn dẫn đến chi phí cao hơn về lâu dài. Những loại dữ liệu này luôn có sẵn, nhưng chúng không thể phù hợp với chất lượng của các tập dữ liệu được sắp xếp cẩn thận. Đặc biệt, dữ liệu từ nguồn cộng đồng có rất nhiều lỗi, thiếu sót và không chính xác, và trong khi những vấn đề này đôi khi có thể được giải quyết trong quá trình phát triển dưới sự giám sát của các kỹ sư của bạn, thì cần phải lặp lại bổ sung mà không cần thiết nếu bạn bắt đầu với -dữ liệu chất lượng ngay từ đầu.

Dựa vào dữ liệu nguồn mở là một lối tắt phổ biến khác đi kèm với những cạm bẫy riêng. Thiếu sự khác biệt là một trong những vấn đề lớn nhất, bởi vì một thuật toán được đào tạo bằng cách sử dụng dữ liệu nguồn mở dễ dàng sao chép hơn một thuật toán được xây dựng trên các tập dữ liệu được cấp phép. Bằng cách đi theo con đường này, bạn mời gọi sự cạnh tranh từ những người tham gia khác trong không gian, những người có thể giảm giá của bạn và chiếm thị phần bất cứ lúc nào. Khi bạn dựa vào Shaip, bạn đang truy cập vào dữ liệu chất lượng cao nhất được tập hợp bởi lực lượng lao động được quản lý khéo léo và chúng tôi có thể cấp cho bạn giấy phép độc quyền cho tập dữ liệu tùy chỉnh để ngăn đối thủ cạnh tranh dễ dàng tạo lại tài sản trí tuệ khó giành được của bạn.

3. Tiếp cận với các chuyên gia giàu kinh nghiệm

Tiếp cận với các chuyên gia có kinh nghiệm Ngay cả khi danh sách nội bộ của bạn bao gồm các kỹ sư lành nghề và nhà khoa học dữ liệu tài năng, các công cụ AI của bạn có thể được hưởng lợi từ sự khôn ngoan chỉ có được nhờ kinh nghiệm. Các chuyên gia về chủ đề của chúng tôi đã dẫn đầu nhiều triển khai AI trong các lĩnh vực của họ và học được những bài học quý giá trong suốt chặng đường và mục tiêu duy nhất của họ là giúp bạn đạt được mục tiêu của mình.

Với các chuyên gia miền xác định, tổ chức, phân loại và gắn nhãn dữ liệu cho bạn, bạn biết thông tin được sử dụng để đào tạo thuật toán của mình có thể tạo ra kết quả tốt nhất có thể. Chúng tôi cũng tiến hành đảm bảo chất lượng thường xuyên để đảm bảo rằng dữ liệu đáp ứng các tiêu chuẩn cao nhất và sẽ hoạt động như dự định không chỉ trong phòng thí nghiệm mà còn trong tình huống thực tế.

4. Tiến trình phát triển tăng tốc

Sự phát triển của AI không diễn ra trong một sớm một chiều, nhưng nó có thể diễn ra nhanh hơn khi bạn hợp tác với Shaip. Việc thu thập và chú thích dữ liệu nội bộ tạo ra một nút thắt hoạt động đáng kể giữ phần còn lại của quá trình phát triển. Làm việc với Shaip cho phép bạn truy cập tức thì vào thư viện dữ liệu sẵn sàng sử dụng rộng lớn của chúng tôi và các chuyên gia của chúng tôi sẽ có thể cung cấp bất kỳ loại đầu vào bổ sung nào mà bạn cần bằng kiến ​​thức chuyên sâu về ngành và mạng lưới toàn cầu của chúng tôi. Không cần gánh nặng tìm nguồn cung ứng và chú thích, nhóm của bạn có thể bắt tay vào phát triển thực tế ngay lập tức và mô hình đào tạo của chúng tôi có thể giúp xác định những điểm không chính xác sớm để giảm số lần lặp lại cần thiết để đáp ứng các mục tiêu về độ chính xác.

Nếu bạn chưa sẵn sàng thuê ngoài tất cả các khía cạnh quản lý dữ liệu của mình, Shaip cũng cung cấp nền tảng dựa trên đám mây giúp các nhóm sản xuất, thay đổi và chú thích các loại dữ liệu khác nhau hiệu quả hơn, bao gồm hỗ trợ cho hình ảnh, video, văn bản và âm thanh . ShaipCloud bao gồm nhiều công cụ xác thực và quy trình làm việc trực quan, chẳng hạn như giải pháp được cấp bằng sáng chế để theo dõi và giám sát khối lượng công việc, công cụ phiên âm để phiên âm các bản ghi âm phức tạp và khó, và một thành phần kiểm soát chất lượng để đảm bảo chất lượng không thỏa hiệp. Hơn hết, nó có thể mở rộng, vì vậy nó có thể phát triển khi các nhu cầu khác nhau của dự án của bạn tăng lên.

Thời đại đổi mới của AI chỉ mới bắt đầu và chúng ta sẽ thấy những tiến bộ và đổi mới đáng kinh ngạc trong những năm tới có khả năng định hình lại toàn bộ các ngành công nghiệp hoặc thậm chí thay đổi toàn bộ xã hội. Tại Shaip, chúng tôi muốn sử dụng chuyên môn của mình để đóng vai trò là lực lượng biến đổi, giúp các công ty mang tính cách mạng nhất trên thế giới khai thác sức mạnh của các giải pháp AI để đạt được các mục tiêu đầy tham vọng.

Chúng tôi có kinh nghiệm chuyên sâu về các ứng dụng chăm sóc sức khỏe và AI đàm thoại, nhưng chúng tôi cũng có các kỹ năng cần thiết để đào tạo các mô hình cho hầu hết mọi loại ứng dụng. Để biết thêm thông tin về cách Shaip có thể giúp đưa dự án của bạn từ ý tưởng đến thực hiện, hãy xem nhiều tài nguyên có sẵn trên trang web của chúng tôi hoặc liên hệ với chúng tôi ngay hôm nay.

Một dòng thời gian phát triển tăng tốc

Hãy nói chuyện

  • Bằng cách đăng ký, tôi đồng ý với Shaip Chính sách bảo mậtCác Điều Khoản của Dịch Vụ và cung cấp sự đồng ý của tôi để nhận thông tin tiếp thị B2B từ Shaip.