Nghiên cứu điển hình: Bộ sưu tập Utterance

Đã cung cấp 7M+ lần xuất hiện để xây dựng trợ lý kỹ thuật số đa ngôn ngữ trong 13 ngôn ngữ

Bộ sưu tập Utterance

Giải pháp thế giới thực

Dữ liệu hỗ trợ các cuộc trò chuyện toàn cầu

Nhu cầu đào tạo về Utterance nảy sinh bởi vì không phải tất cả khách hàng đều sử dụng các từ hoặc cụm từ chính xác trong khi tương tác hoặc đặt câu hỏi cho trợ lý giọng nói của họ theo định dạng kịch bản. Đó là lý do tại sao các ứng dụng giọng nói cụ thể phải được đào tạo trên dữ liệu giọng nói tự phát. Ví dụ: "Bệnh viện gần nhất nằm ở đâu?" “Tìm bệnh viện gần tôi” hoặc “Có bệnh viện nào gần đây không?” tất cả đều chỉ ra cùng một mục đích tìm kiếm nhưng được diễn đạt khác nhau.

Bộ sưu tập Utterance1

Vấn đề

Để thực hiện lộ trình giọng nói của Trợ lý kỹ thuật số của khách hàng cho các ngôn ngữ trên toàn thế giới, nhóm cần thu thập khối lượng lớn dữ liệu đào tạo cho mô hình AI nhận dạng giọng nói. Các yêu cầu quan trọng của khách hàng là:

  • Nhận khối lượng lớn dữ liệu đào tạo (lời nhắc phát âm của một người nói dài không quá 3-30 giây) cho các dịch vụ nhận dạng giọng nói bằng 13 ngôn ngữ toàn cầu
  • Đối với mỗi ngôn ngữ, nhà cung cấp sẽ tạo lời nhắc bằng văn bản để người nói ghi lại (trừ khi
    nguồn cung cấp của khách hàng) và phiên âm âm thanh thu được.
  • Cung cấp dữ liệu âm thanh và phiên âm các câu nói được ghi lại bằng các tệp JSON tương ứng
    chứa siêu dữ liệu cho tất cả các bản ghi.
  • Đảm bảo sự kết hợp đa dạng của những người nói theo độ tuổi, giới tính, trình độ học vấn và phương ngữ
  • Đảm bảo sự kết hợp đa dạng của các môi trường ghi âm theo Thông số kỹ thuật.
  • Mỗi bản ghi âm phải có tần số ít nhất là 16kHz nhưng tốt nhất là 44kHz

Tăng tốc AI hội thoại của bạn
phát triển ứng dụng 100%

“Sau khi đánh giá nhiều nhà cung cấp, khách hàng đã chọn Shaip vì chuyên môn của họ trong các dự án AI đàm thoại. Chúng tôi rất ấn tượng với năng lực thực hiện dự án của Shaip, khả năng chuyên môn của họ để tạo nguồn, phiên âm và cung cấp các phát biểu được yêu cầu từ các nhà ngôn ngữ học chuyên gia bằng 13 ngôn ngữ trong thời hạn nghiêm ngặt và với chất lượng yêu cầu ”

Dung dịch

Với sự hiểu biết sâu sắc của chúng tôi về AI hội thoại, chúng tôi đã giúp khách hàng thu thập, phiên âm và chú thích dữ liệu với một nhóm chuyên gia ngôn ngữ và chú giải để đào tạo Bộ giọng nói đa ngôn ngữ xử lý giọng nói do AI hỗ trợ.

Phạm vi công việc của Shaip bao gồm nhưng không giới hạn trong việc thu thập khối lượng lớn dữ liệu đào tạo âm thanh để nhận dạng giọng nói, sao chép các bản ghi âm bằng nhiều ngôn ngữ cho tất cả các ngôn ngữ trên lộ trình ngôn ngữ Cấp 1 và Cấp 2 của chúng tôi và cung cấp JSON các tệp chứa siêu dữ liệu. Shaip đã thu thập các câu nói từ 3-30 giây trên quy mô lớn trong khi vẫn duy trì mức chất lượng mong muốn cần thiết để đào tạo các mô hình ML cho các dự án phức tạp.

  • Âm thanh được Thu thập, Phiên âm & Chú thích: 22,250 giờ
  • Ngôn ngữ được hỗ trợ: 13 (Tiếng Đan Mạch, tiếng Hàn Quốc, tiếng Ả Rập Ả Rập Saudi, tiếng Hà Lan, tiếng Trung đại lục & tiếng Đài Loan, tiếng Pháp Canada, tiếng Tây Ban Nha Mexico, tiếng Thổ Nhĩ Kỳ, tiếng Hindi, tiếng Ba Lan, tiếng Nhật, tiếng Nga)
  • Số lần xuất hiện: 7M +
  • Mốc thời gian: 7-8 tháng

Trong khi thu thập âm thanh phát ra ở tần số 16 kHz, chúng tôi đảm bảo sự kết hợp lành mạnh giữa các người nói theo độ tuổi, giới tính, trình độ học vấn và phương ngữ trong các môi trường ghi âm đa dạng.

Kết quả

Dữ liệu âm thanh phát âm chất lượng cao từ các chuyên gia ngôn ngữ học giúp khách hàng đào tạo chính xác
mô hình Nhận dạng giọng nói đa ngôn ngữ của họ bằng 13 ngôn ngữ Cấp 1 & 2 toàn cầu. Với bộ dữ liệu đào tạo tiêu chuẩn vàng, khách hàng có thể cung cấp hỗ trợ kỹ thuật số thông minh và mạnh mẽ để giải quyết các vấn đề trong thế giới thực trong tương lai.

Chuyên môn của chúng tôi

0 +
Số giờ nói được Thu thập
0
Nhóm thu thập dữ liệu giọng nói
0 %
Tuân thủ PII
0 +
Số tuyệt vời
> 0
Chấp nhận và chính xác dữ liệu
0 +
Fortune 500 khách hàng

Hãy cho chúng tôi biết cách chúng tôi có thể trợ giúp với sáng kiến ​​AI tiếp theo của bạn.