Thu thập dữ liệu cho AI hội thoại

Cách tiếp cận việc thu thập dữ liệu cho AI hội thoại

Ngày nay, chúng ta có một số robot biết nói như chatbot, trợ lý ảo, v.v. trong nhà của chúng ta, hệ thống xe hơi, thiết bị di động, giải pháp tự động hóa gia đình, v.v. .

Và nếu bạn đang sử dụng một trợ lý như Siri hoặc Alexa, bạn cũng sẽ nhận ra rằng họ đang trở nên kỳ quặc hơn theo từng ngày. Phản ứng của họ rất dí dỏm, họ nói lại, họ dè bỉu, khen ngợi và cư xử giống con người hơn một số đồng nghiệp mà bạn có thể biết. Chúng tôi không nói đùa. Theo PwC, 27% người dùng đã tương tác với nhân viên dịch vụ khách hàng gần đây của họ không biết họ đang nói chuyện với con người hay một chatbot.

Việc phát triển các hệ thống và thiết bị hội thoại phức tạp như vậy rất phức tạp và khó khăn. Đó là một trò chơi bóng hoàn toàn khác với các cách tiếp cận phát triển riêng biệt. Đó là lý do tại sao chúng tôi nghĩ rằng chúng tôi nên chia nhỏ nó để bạn dễ hiểu hơn. Vì vậy, nếu bạn đang tìm cách phát triển công cụ AI đàm thoại hoặc trợ lý ảo, hướng dẫn này sẽ giúp bạn hiểu rõ hơn.

Tầm quan trọng của AI hội thoại

Khi công nghệ trở thành một khía cạnh không thể thiếu trong cuộc sống của chúng ta dưới dạng các thiết bị và hệ thống mới hơn, nảy sinh nhu cầu đẩy lùi các rào cản, phá vỡ các quy ước và tìm ra những cách mới để tương tác với chúng. Từ việc chỉ sử dụng các thiết bị ngoại vi được kết nối như chuột và bàn phím, chúng tôi đã chuyển sang sử dụng tấm lót chuột mang lại nhiều tiện ích hơn. Sau đó, chúng tôi đã chuyển sang màn hình cảm ứng mang lại sự tiện lợi hơn nữa trong việc cấp dữ liệu đầu vào và thực hiện các tác vụ.

Với việc các thiết bị trở thành tiện ích mở rộng của chính chúng tôi, chúng tôi hiện đang mở khóa một phương tiện chỉ huy mới thông qua giọng nói. Chúng tôi thậm chí không cần phải ở gần một thiết bị để vận hành nó. Tất cả những gì chúng ta phải làm là sử dụng giọng nói của mình để mở khóa và ra lệnh cho đầu vào của chúng ta. Từ một căn phòng gần đó, khi lái xe, đồng thời sử dụng một thiết bị khác, AI đàm thoại sẽ thực hiện các tác vụ dự kiến ​​của chúng ta một cách liền mạch. Vậy chúng ta bắt đầu từ đâu - tất cả đều bắt đầu với dữ liệu giọng nói chất lượng cao để đào tạo các mô hình ML.

Kiến thức cơ bản về thu thập dữ liệu đào tạo giọng nói

Thu thập và chú thích dữ liệu đào tạo AI cho AI đàm thoại rất khác nhau. Có rất nhiều điều phức tạp liên quan đến mệnh lệnh của con người và các biện pháp đa dạng phải được thực hiện để đảm bảo mọi khía cạnh đều được đáp ứng để có kết quả có tác động. Hãy xem một số nguyên tắc cơ bản của dữ liệu giọng nói là gì.

Hiểu ngôn ngữ tự nhiên (NLU)

Để chatbot và trợ lý ảo hiểu và phản hồi những gì chúng tôi nhắn tin hoặc ra lệnh, một quy trình được gọi là trường ĐHNL được thực thi. Nó là viết tắt của Hiểu ngôn ngữ tự nhiên và liên quan đến ba khái niệm công nghệ để giải thích và xử lý các loại đầu vào đa dạng.

  • Intent

    Tất cả đều bắt đầu với mục đích. Một người dùng cụ thể đang cố gắng truyền đạt, giao tiếp hoặc đạt được điều gì thông qua một lệnh? Người dùng đang tìm kiếm thông tin? Họ đang chờ cập nhật cho một hành động? Họ có đang ra lệnh cho hệ thống thực thi không? Họ chỉ huy nó như thế nào? Đó là thông qua một câu hỏi hoặc một yêu cầu? Tất cả những khía cạnh này giúp máy móc hiểu và phân loại ý định và mục đích để đưa ra các phản ứng kín khí tương ứng.

  • Bộ sưu tập Utterance

    Có một sự khác biệt giữa lệnh, "ATM gần nhất ở đâu?" và lệnh, "Tìm cho tôi một máy ATM gần đó." Bây giờ con người sẽ thừa nhận rằng cả hai đều có nghĩa giống nhau nhưng máy móc phải được giải thích với sự khác biệt này. Chúng giống nhau về ý định nhưng ý định đã được định hình như thế nào thì hoàn toàn khác nhau.

    Bộ sưu tập Utterance là tất cả về việc xác định và ánh xạ các cách nói và cụm từ khác nhau hướng tới các mục tiêu cụ thể để thực hiện chính xác các nhiệm vụ và phản hồi. Về mặt kỹ thuật, các chuyên gia chú thích dữ liệu làm việc trên dữ liệu giọng nói hoặc dữ liệu văn bản để giúp máy móc phân biệt điều này.

  • Trích xuất thực thể

    Mỗi câu đều có những từ hoặc cụm từ cụ thể mang trọng số được nhấn mạnh và chính sự nhấn mạnh này dẫn đến việc giải thích ngữ cảnh và mục đích. Máy móc, giống như các hệ thống cứng nhắc, cần phải được đút thìa cho những thực thể như vậy. Ví dụ: "Tôi có thể tìm dây đàn từ cây đàn guitar của mình gần Đại lộ số 6 ở đâu?"

    Nếu bạn tinh chỉnh câu, tìm là thực thể một, dây là hai, guitar là ba và đại lộ 6 là 4. Các thực thể này được kết hợp với nhau bởi máy móc để thu được kết quả phù hợp và để điều này xảy ra, các chuyên gia sẽ làm việc tại phần phụ trợ.

Bộ dữ liệu giọng nói / giọng nói / âm thanh có sẵn để đào tạo mô hình AI hội thoại của bạn nhanh hơn

Thiết kế các cuộc đối thoại cho AI hội thoại

Mục tiêu của AI chủ yếu là tái tạo hành vi của con người thông qua cử chỉ, hành động và phản ứng. Tâm trí con người có ý thức có khả năng bẩm sinh để hiểu ngữ cảnh, ý định, giọng điệu, cảm xúc và các yếu tố khác và phản ứng phù hợp. Nhưng làm thế nào mà máy móc có thể phân biệt những khía cạnh này? 

Thiết kế các cuộc đối thoại cho AI đàm thoại là rất phức tạp và quan trọng hơn là không thể đưa ra một mô hình phổ quát. Mỗi cá nhân có một cách suy nghĩ, cách nói chuyện và phản ứng khác nhau. Ngay cả trong các câu trả lời, tất cả chúng ta đều nói rõ suy nghĩ của mình một cách độc đáo. Vì vậy, máy móc phải lắng nghe và phản hồi tương ứng. 

Tuy nhiên, điều này cũng không suôn sẻ. Khi con người nói chuyện, các yếu tố như trọng âm, cách phát âm, dân tộc, ngôn ngữ, v.v. xuất hiện và không dễ để máy móc hiểu sai và hiểu sai từ và phản hồi lại.. Một từ cụ thể có thể được hiểu bởi máy móc theo vô số cách khi được đọc bởi một người Ấn Độ, một người Anh, một người Mỹ và một người Mexico. Có rất nhiều rào cản ngôn ngữ xuất hiện và cách thiết thực nhất để đưa ra hệ thống phản hồi là thông qua lập trình trực quan dựa trên lưu đồ. 

Thông qua các khối dành riêng cho cử chỉ, phản hồi và kích hoạt, tác giả và chuyên gia có thể giúp máy móc phát triển tính cách. Điều này giống như một cỗ máy thuật toán có thể sử dụng để đưa ra các phản hồi phù hợp. Khi một đầu vào được cung cấp, thông tin sẽ đi qua các yếu tố tương ứng, dẫn đến phản ứng phù hợp để máy móc phân phối. 

Quay số D để có sự đa dạng

Giống như chúng tôi đã đề cập, tương tác của con người rất độc đáo. Mọi người trên khắp thế giới đến từ các tầng lớp xã hội, nguồn gốc, quốc tịch, nhân khẩu học, dân tộc, giọng, cách phát âm, cách phát âm, v.v. khác nhau. 

Để một bot đàm thoại hoặc một hệ thống có thể hoạt động trên toàn cầu, nó phải được đào tạo với dữ liệu đào tạo đa dạng nhất có thể. Ví dụ: nếu một mô hình đã được huấn luyện chỉ với dữ liệu giọng nói của một ngôn ngữ hoặc dân tộc cụ thể, thì một giọng mới sẽ gây nhầm lẫn cho hệ thống và buộc nó phải đưa ra kết quả sai. Điều này không chỉ gây khó chịu cho chủ doanh nghiệp mà còn gây xúc phạm cho người dùng. 

Đó là lý do tại sao giai đoạn phát triển nên liên quan đến dữ liệu đào tạo AI từ một nhóm phong phú gồm các bộ dữ liệu đa dạng bao gồm mọi người từ tất cả các nguồn gốc có thể. Hệ thống của bạn càng hiểu được nhiều trọng âm và dân tộc thì hệ thống của bạn càng phổ biến. Bên cạnh đó, điều khiến người dùng khó chịu hơn không phải là việc truy xuất thông tin không chính xác mà là không hiểu được thông tin đầu vào của họ ngay từ đầu. 

Loại bỏ sự thiên vị nên là ưu tiên hàng đầu và một cách mà các công ty có thể làm điều này là chọn sử dụng dữ liệu có nguồn gốc từ cộng đồng. Khi bạn tạo nguồn dữ liệu văn bản hoặc dữ liệu giọng nói của mình, bạn cho phép mọi người từ khắp nơi trên thế giới đóng góp vào các yêu cầu của bạn, làm cho nhóm dữ liệu của bạn chỉ là hữu ích (Đọc của chúng tôi Blog của chúng tôi. để hiểu những lợi ích và cạm bẫy của việc thuê ngoài dữ liệu để thu hút người lao động). Bây giờ, mô hình của bạn sẽ hiểu các trọng âm và cách phát âm khác nhau và phản hồi tương ứng. 

Con đường phía trước

Phát triển trí tuệ nhân tạo trò chuyện cũng khó như nuôi dạy một đứa trẻ sơ sinh. Sự khác biệt duy nhất là đứa trẻ sơ sinh cuối cùng sẽ lớn lên để hiểu mọi thứ và trở nên tốt hơn trong việc giao tiếp một cách tự chủ. Đó là những cỗ máy cần được thúc đẩy một cách nhất quán. Hiện có một số thách thức trong không gian này và chúng ta nên thừa nhận thực tế rằng chúng ta có một số hệ thống AI đàm thoại mang tính cách mạng nhất xuất hiện bất chấp những thách thức này. Chúng ta hãy chờ xem tương lai sẽ ra sao đối với các chatbot và trợ lý ảo hàng xóm thân thiện của chúng ta. Trong khi đó, nếu bạn có ý định phát triển AI đàm thoại như Google Home cho doanh nghiệp của mình, liên hệ với chúng tôi để biết nhu cầu về dữ liệu đào tạo và chú thích AI của bạn.

Xã hội Chia sẻ