Cụm từ chính/Lời nhắc Bộ sưu tập âm thanh

Nghiên cứu điển hình: Bộ sưu tập cụm từ khóa cho hệ thống kích hoạt bằng giọng nói trong ô tô

Bộ sưu tập cụm từ khóa

Ngày càng có nhiều nhu cầu về các hệ thống kích hoạt bằng giọng nói trong ô tô trong ngành công nghiệp ô tô, xác định lại cách chúng ta tương tác với các phương tiện di chuyển của mình.

Ngành công nghiệp ô tô đã nhanh chóng áp dụng các hệ thống kích hoạt bằng giọng nói, với những công ty lớn như Ford, Tesla và BMW tích hợp nhận dạng giọng nói tiên tiến trong xe của họ. Đến năm 2022, ước tính có hơn 50% ô tô mới có khả năng nhận dạng giọng nói. Những tích hợp này nhằm mục đích tăng cường an toàn, cho phép người lái vận hành các chức năng điều hướng, giải trí và liên lạc mà không bị phân tâm.

Giá trị thị trường của tính năng nhận dạng giọng nói trong ô tô được dự đoán sẽ vượt 1 tỷ USD vào năm 2023, cho thấy nhu cầu ngày càng tăng đối với các tương tác thông minh, rảnh tay trong ô tô.

Ô tô

Nghiên cứu cho thấy rằng đến năm 2022, 73% tài xế sẽ sử dụng trợ lý giọng nói trong ô tô.

Thị trường hệ thống nhận dạng giọng nói cho ô tô được định giá 2.01 tỷ USD vào năm 2021 và dự kiến ​​sẽ đạt 3.51 tỷ USD vào năm 2027, đạt tốc độ CAGR khoảng 8.07%.

Giải pháp thế giới thực

Dữ liệu cung cấp năng lượng cho các hệ thống kích hoạt bằng giọng nói

Hệ thống kích hoạt bằng giọng nói trong ô tô tăng cường sự an toàn và tiện lợi. Chúng cho phép người lái truy cập điều hướng, thực hiện cuộc gọi, gửi tin nhắn và điều khiển nhạc mà không cần rời tay khỏi vô lăng hoặc không cần rời mắt khỏi đường. Bằng cách phản hồi các mệnh lệnh bằng lời nói, các hệ thống này giảm thiểu sự phân tâm, thúc đẩy khả năng đa nhiệm và đảm bảo sự tập trung liên tục vào việc lái xe. 

Khách hàng là công ty hàng đầu thế giới về trí thông minh đàm thoại, người cung cấp các giải pháp AI bằng giọng nói cho phép các doanh nghiệp mang đến trải nghiệm đàm thoại đáng kinh ngạc cho khách hàng của họ. Họ đang làm việc với các công ty ô tô hàng đầu để huấn luyện hệ thống kích hoạt bằng giọng nói của họ bằng các cụm từ khóa có thương hiệu và cần chuyên môn của Shaip trong việc thu thập dữ liệu âm thanh.

Giải pháp thế giới thực
Những thách thức

Những thách thức

  • Tìm nguồn cung ứng đám đông: Tuyển dụng hơn 2800 người bản ngữ cho mỗi ngôn ngữ trên toàn cầu.
  • Thu thập dữ liệu: Bảo mật hơn 200 lời nhắc bằng 12 ngôn ngữ trong khung thời gian đã đặt.
  • Nhận dạng ngữ cảnh & ý định: Để hiểu chính xác các yêu cầu của người dùng, các hệ thống cần được đào tạo về các biến thể khác nhau cho cùng một cụm từ khóa.
  • Xử lý tiếng ồn nền: Xử lý nhiễu nền trong thế giới thực để có độ chính xác của mô hình ML.
  • Giảm sai lệch: Có được các mẫu giọng nói từ nhân khẩu học đa dạng để đảm bảo tính toàn diện.
  • Thông số kỹ thuật âm thanh: 16khz 16bits PCM, đơn âm, một kênh, WAV; không xử lý.
  • Môi trường ghi âm: Các bản ghi phải có âm thanh rõ ràng, không có tạp âm hoặc nhiễu. Các cụm từ chính được ghi lại bằng giọng nói bình thường.
  • Kiểm tra chất lượng:  Tất cả các bản ghi âm giọng nói sẽ trải qua quá trình đánh giá và xác thực chất lượng, chỉ những bản ghi âm giọng nói đã được xác thực mới được phân phối. Nếu Shaip không đáp ứng Tiêu chuẩn chất lượng đã thỏa thuận, Shaip sẽ gửi lại dữ liệu mà không tính thêm phí

Dung dịch

Shaip với chuyên môn của mình trong không gian AI đàm thoại đã hỗ trợ khách hàng:

  • Thu thập dữ liệu: 208 nghìn cụm từ khóa/lời nhắc thương hiệu được thu thập bằng 12 ngôn ngữ toàn cầu từ 2800 người nói trong khung thời gian quy định
  • Giọng & Phương ngữ đa dạng: Các chuyên gia được tuyển dụng từ khắp nơi trên thế giới, thông thạo các giọng và phương ngữ mong muốn.
  • Nhận dạng ngữ cảnh & ý định: Mỗi diễn giả được giao nhiệm vụ ghi lại các cụm từ chính theo 20 biến thể riêng biệt, cho phép các mô hình ML nắm bắt chính xác các yêu cầu của người dùng về ngữ cảnh và ý định.
  • Xử lý tiếng ồn nền: Để đảm bảo chất lượng âm thanh nguyên sơ, chúng tôi đảm bảo rằng các cụm từ chính được ghi lại trong môi trường thanh bình với độ ồn dưới 40dB, không có tạp âm nền như TV, radio, nhạc, lời nói hoặc âm thanh đường phố.
  • Giảm sai lệch: Để giảm thiểu sự thiên vị, chúng tôi đã thu hút các cá nhân từ các khu vực khác nhau và duy trì sự đại diện nhân khẩu học cân bằng với 50% nam giới và 50% nữ giới, bao gồm các nhóm tuổi từ 18 đến 60 tuổi.
  • Hướng dẫn ghi âm: Các cụm từ chính được nắm bắt trong một mẫu giọng nói bình thường, nhất quán, không có bất kỳ biến thể nào như nhịp độ nhanh hay chậm. Khoảng lặng 2 giây ở cả đầu và cuối để đảm bảo rằng không có phần nào của bài phát biểu bị cắt bớt một cách vô tình.
  • Định dạng ghi âm: Âm thanh được ghi ở 16kHz, 16-bit PCM ở dạng đơn âm, sử dụng một kênh duy nhất và được lưu ở định dạng tệp WAV. Âm thanh vẫn chưa được xử lý, nghĩa là không có ứng dụng nén, hồi âm hoặc EQ.
  • Chất lượng: Mọi bản ghi âm giọng nói đều được kiểm tra và xác nhận chất lượng nghiêm ngặt. Chỉ những bản ghi vượt qua đánh giá này mới được phân phối. Bất kỳ tệp nào không đạt tiêu chuẩn chất lượng đã thỏa thuận đều được ghi lại và cung cấp mà không tính thêm bất kỳ khoản phí nào
Dung dịch
Kết quả

Kết quả

Dữ liệu âm thanh cụm từ khóa thương hiệu chất lượng cao hoặc lời nhắc bằng giọng nói sẽ cho phép các công ty ô tô và khách hàng của họ:

  1. Xây dựng thương hiệu và bản sắc: Lời nhắc bằng giọng nói với cụm từ thương hiệu, cụ thể giúp các công ty tạo kết nối trực tiếp và đáng nhớ giữa người dùng và thương hiệu giúp tăng cường khả năng ghi nhớ thương hiệu.
  2. Dễ sử dụng: Ra lệnh bằng giọng nói giúp người lái tương tác với phương tiện dễ dàng hơn mà không cần rời tay khỏi vô lăng hoặc không rời mắt khỏi đường, nhờ đó nâng cao an toàn đường bộ.
  3. Chức năng: Ra lệnh bằng giọng nói giúp việc truy cập và điều khiển các tính năng của ô tô trở nên trực quan hơn. Cho dù đó là điều hướng, phát lại phương tiện hay kiểm soát khí hậu.
  4. Tích hợp với các hệ thống khác: Nhiều hệ thống kích hoạt bằng giọng nói được tích hợp với điện thoại thông minh, thiết bị nhà thông minh và các thiết bị IoT khác. Ví dụ: người dùng có thể yêu cầu ô tô của họ bật đèn ở nhà khi họ về đến nhà.
  5. Lợi thế cạnh tranh: Cung cấp các hệ thống kích hoạt bằng giọng nói tiên tiến có thể là điểm bán hàng & điểm khác biệt. Người mua tìm kiếm công nghệ mới nhất khi cân nhắc mua xe mới.
  6. Chứng minh trong tương lai: Khi công nghệ phát triển và IoT trở nên tích hợp hơn vào cuộc sống hàng ngày, việc có một hệ thống kích hoạt bằng giọng nói mạnh mẽ giúp các công ty ô tô thích ứng hơn với công nghệ tương lai.
  7. Cơ hội doanh thu: Các cơ hội kiếm tiền bổ sung, tức là hệ thống giọng nói đưa ra đề xuất hoặc trải nghiệm thương mại điện tử tích hợp (như đặt món ăn hoặc tìm dịch vụ gần đó) có thể mang lại doanh thu cho đơn vị liên kết.
Vàng-5 sao

Khi chúng tôi bắt đầu tìm nguồn cung ứng lời nhắc bằng giọng nói cho lĩnh vực ô tô, có rất nhiều thách thức. Việc nắm bắt được sự đa dạng trong giọng nói, trọng âm và âm sắc là rất quan trọng để đại diện cho nhóm khách hàng toàn cầu của khách hàng của chúng tôi. Shaip nổi bật không chỉ với tư cách là một nhà cung cấp mà còn là một đối tác thực sự. Cam kết của họ trong việc đảm bảo đa dạng tiếng nói từ các khu vực khác nhau là rất đáng khen ngợi. Họ không chỉ đơn thuần là thu thập tiếng nói; họ nắm bắt được các sắc thái của nhu cầu dự án của chúng tôi, đảm bảo các bản ghi âm chất lượng cao. Việc họ tuân thủ hoàn hảo các tiêu chuẩn thu âm đã thể hiện tính chuyên nghiệp và sự cống hiến của họ cho dự án.

Tăng tốc AI hội thoại của bạn
phát triển ứng dụng 100%