AI đàm thoại: Nhận dạng giọng nói tự động

Đã thu thập được hơn 8 nghìn giờ âm thanh, 800 giờ được phiên âm cho Công nghệ giọng nói đa ngôn ngữ

Giới thiệu

Ấn Độ cần một nền tảng tập trung vào việc tạo ra các bộ dữ liệu đa ngôn ngữ và các giải pháp công nghệ ngôn ngữ dựa trên AI để cung cấp các dịch vụ kỹ thuật số bằng các ngôn ngữ Ấn Độ. Để triển khai sáng kiến này, Khách hàng đã hợp tác với Shaip để thu thập và phiên âm tiếng Ấn Độ nhằm xây dựng các mô hình giọng nói đa ngôn ngữ.

Khối lượng

Số giờ dữ liệu được thu thập

Số trang được chú thích

10 +

Thời lượng dự án

< 1 tháng

Những thách thức

Để hỗ trợ khách hàng về lộ trình phát biểu Công nghệ giọng nói cho các ngôn ngữ Ấn Độ, nhóm cần thu thập, phân đoạn và chép lại khối lượng lớn dữ liệu đào tạo để xây dựng mô hình AI. Các yêu cầu quan trọng của khách hàng là:

Thu Thập Dữ Liệu

Thu được 8000 giờ dữ liệu đào tạo từ các địa điểm xa xôi của Ấn Độ
Nhà cung cấp thu thập bài phát biểu tự phát của các nhóm tuổi từ 20-70 tuổi
Đảm bảo sự kết hợp đa dạng của người nói theo độ tuổi, giới tính, trình độ học vấn và phương ngữ
Mỗi bản ghi âm phải có tần số tối thiểu là 16kHz với 16 bit/mẫu.

Phiên mã dữ liệu

Thực hiện theo các hướng dẫn phiên âm chi tiết xung quanh Ký tự và Ký hiệu đặc biệt, Chính tả và Ngữ pháp, Viết hoa, Viết tắt, Rút gọn, Chữ cái được nói riêng lẻ, Số, Dấu câu, Từ viết tắt và Chữ viết tắt, Lời nói trôi chảy, Lời nói khó hiểu, Ngôn ngữ không phải mục tiêu, Không phải giọng nói

Kiểm tra & phản hồi chất lượng

Tất cả các bản ghi đều phải trải qua quá trình đánh giá và xác nhận chất lượng, chỉ những bản ghi giọng nói đã được xác thực mới được gửi đi

Dung dịch

Với sự hiểu biết sâu sắc về AI đàm thoại, chúng tôi đã giúp khách hàng thu thập, chép lại dữ liệu âm thanh với đội ngũ chuyên gia sưu tầm, nhà ngôn ngữ học và nhà chú thích để xây dựng kho dữ liệu âm thanh lớn từ các vùng xa xôi của Ấn Độ.

Phạm vi công việc của Shaip bao gồm nhưng không giới hạn ở việc thu thập khối lượng lớn dữ liệu đào tạo âm thanh, sao chép dữ liệu và phân phối các tệp JSON tương ứng chứa siêu dữ liệu [cho cả người nói và người phiên âm. Đối với mỗi người nói, siêu dữ liệu bao gồm ID người nói ẩn danh, chi tiết thiết bị, thông tin nhân khẩu học như giới tính, độ tuổi và trình độ học vấn, cùng với mã pin, tình trạng kinh tế xã hội, ngôn ngữ được sử dụng và bản ghi về thời gian lưu trú của họ. Đối với mỗi người ghi âm, dữ liệu kết hợp ID người ghi ẩn danh, chi tiết nhân khẩu học tương tự như người nói, thời lượng trải nghiệm phiên âm của họ và thông tin chi tiết về ngôn ngữ mà họ có thể đọc, viết và nói.

Shaip thu thập 8000 giờ dữ liệu âm thanh / Lời nói tự phát trên quy mô lớn và được phiên âm 800 giờ trong khi vẫn duy trì mức chất lượng mong muốn cần thiết để đào tạo công nghệ giọng nói cho các dự án phức tạp. Mẫu chấp thuận rõ ràng được lấy từ mỗi người tham gia. / Bài phát biểu tự phát được sưu tầm dựa trên hình ảnh do Trường cung cấp. Của 3500 hình ảnh, 1000 là chung chung và 2500 liên quan đến văn hóa, lễ hội đặc trưng của quận, v.v. Hình ảnh mô tả nhiều lĩnh vực khác nhau như ga xe lửa, chợ, thời tiết, v.v.

Thu Thập Dữ Liệu

Tiểu bang	Huyện	Giờ âm thanh	Phiên mã (giờ)
Bihar	Saran, Đông Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaﬀarpur, Jamui	2000	200
Utarpradesh	Deoria, Varanasi, Gorakhpur, Ghazipur, Muzzaﬀarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun	1000	100
Rajasthan	Nagaur, Churu	200	20
Uttarakhand	Tehri Garhwal, Uttarkashi	200	20
Chhattisgarh	Bilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma	1000	100
Tây Bengal	Paschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, Bắc 24 Parganas, Dakshin Dinajpur	800	80
Jharkhand	Sahebganj, Jamtara	200	20
AP	Guntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam	600	60
Telangana	Karimnagar, Nalgonda	200	20
Goa	Bắc + Nam Goa	100	10
Karnataka	Dakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar	1000	100
Maharashtra	Sindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur	700	70
Tổng số:		8000	800

Hướng dẫn chung

Định dạng

- Âm thanh ở tần số 16 kHz, 16 bit/mẫu.
- Kênh đơn.
- Âm thanh thô mà không cần chuyển mã.

Phong cách

- Lời nói tự phát.
- Câu dựa trên hình ảnh do Trường cung cấp. Trong số 3500 hình ảnh, 1000 hình ảnh chung và 2500 hình ảnh liên quan đến văn hóa, lễ hội của từng quận, v.v. Hình ảnh mô tả nhiều lĩnh vực khác nhau như ga xe lửa, chợ, thời tiết, v.v.

Nền ghi âm

- Được ghi lại trong môi trường yên tĩnh, không có tiếng vang.
- Không có hiện tượng nhiễu loạn trên điện thoại thông minh (rung hoặc thông báo) trong quá trình ghi.
- Không có biến dạng như cắt xén hoặc hiệu ứng trường xa.
- Rung từ điện thoại không được chấp nhận; rung động bên ngoài có thể chấp nhận được nếu âm thanh rõ ràng.

Thông số kỹ thuật loa

- Độ tuổi từ 20-70 tuổi với sự phân bổ giới tính cân bằng theo từng huyện.
- Tối thiểu 400 người bản xứ ở mỗi quận.
- Người nói nên sử dụng ngôn ngữ/phương ngữ ở nhà của họ.
- Mẫu chấp thuận bắt buộc đối với tất cả người tham gia.

Kiểm tra chất lượng & Đảm bảo chất lượng quan trọng

Quy trình QA ưu tiên đảm bảo chất lượng cho bản ghi âm và chép lời. Các tiêu chuẩn âm thanh tập trung vào khoảng lặng chính xác, thời lượng phân đoạn, độ rõ nét của một loa và siêu dữ liệu chi tiết bao gồm độ tuổi và tình trạng kinh tế xã hội. Tiêu chí phiên âm nhấn mạnh đến độ chính xác của thẻ, tính xác thực của từ và chi tiết phân đoạn chính xác. Điểm chuẩn chấp nhận chỉ ra rằng nếu hơn 20% lô âm thanh không đáp ứng các tiêu chuẩn này thì lô âm thanh đó sẽ bị từ chối. Đối với chênh lệch nhỏ hơn 20%, cần phải có bản ghi thay thế có cấu hình tương tự.

Phiên mã dữ liệu

Nguyên tắc phiên âm nhấn mạnh đến tính chính xác và chỉ phiên âm nguyên văn khi các từ rõ ràng và dễ hiểu; những từ không rõ ràng được đánh dấu là [không thể hiểu được] hoặc [không nghe được] dựa trên vấn đề. Ranh giới câu trong âm thanh dài được đánh dấu bằng và không được phép diễn giải hoặc sửa lỗi ngữ pháp. Phiên âm nguyên văn bao gồm các lỗi, tiếng lóng và sự lặp lại nhưng bỏ qua phần mở đầu sai, âm phụ và tiếng lắp. Tiếng ồn nền và tiền cảnh được phiên âm bằng thẻ mô tả, trong khi tên riêng, tiêu đề và số tuân theo các quy tắc phiên âm cụ thể. Nhãn người nói được sử dụng cho mỗi câu và các câu chưa hoàn chỉnh được biểu thị bằng .

Quy trình làm việc của dự án

Quy trình làm việc mô tả quá trình phiên âm âm thanh. Nó bắt đầu với việc giới thiệu và đào tạo người tham gia. Họ ghi lại âm thanh bằng một ứng dụng được tải lên nền tảng QA. Âm thanh này trải qua quá trình kiểm tra chất lượng và phân đoạn tự động. Sau đó, nhóm công nghệ sẽ chuẩn bị các phân đoạn để phiên âm. Sau khi sao chép thủ công, có một bước đảm bảo chất lượng. Bản ghi được gửi đến khách hàng và nếu được chấp nhận, việc giao hàng được coi là hoàn tất. Nếu không, các sửa đổi sẽ được thực hiện dựa trên phản hồi của khách hàng.

Kết quả

Dữ liệu âm thanh chất lượng cao từ các chuyên gia ngôn ngữ học sẽ cho phép khách hàng của chúng tôi đào tạo và xây dựng chính xác các mô hình Nhận dạng giọng nói đa ngôn ngữ bằng nhiều ngôn ngữ Ấn Độ với các phương ngữ khác nhau trong thời gian quy định. Các mô hình nhận dạng giọng nói có thể được sử dụng để:

Vượt qua rào cản ngôn ngữ để hòa nhập kỹ thuật số bằng cách kết nối công dân với các sáng kiến bằng tiếng mẹ đẻ của họ.
Thúc đẩy quản trị kỹ thuật số
Chất xúc tác để hình thành một hệ sinh thái cho các dịch vụ và sản phẩm bằng ngôn ngữ Ấn Độ
Nội dung kỹ thuật số được bản địa hóa nhiều hơn trong các lĩnh vực được công chúng quan tâm, đặc biệt là quản trị & chính sách

Chúng tôi rất ngưỡng mộ chuyên môn của Shaip trong lĩnh vực AI đàm thoại. Ít nhất, nhiệm vụ xử lý 8000 giờ dữ liệu âm thanh cùng với 800 giờ phiên âm trên 80 quận khác nhau là rất lớn. Chính sự hiểu biết sâu sắc của Shaip về các chi tiết và sắc thái phức tạp của lĩnh vực này đã giúp cho việc thực hiện thành công một dự án đầy thách thức như vậy có thể thực hiện được. Khả năng quản lý và điều hướng liền mạch xuyên suốt sự phức tạp của lượng dữ liệu khổng lồ này trong khi vẫn đảm bảo chất lượng hàng đầu thực sự đáng khen ngợi.

Tăng tốc AI hội thoại của bạn
phát triển ứng dụng 100%

AI đàm thoại: Nhận dạng giọng nói tự động

Đã thu thập được hơn 8 nghìn giờ âm thanh, 800 giờ được phiên âm cho Công nghệ giọng nói đa ngôn ngữ

Giới thiệu

Khối lượng

Những thách thức

Thu Thập Dữ Liệu

Phiên mã dữ liệu

Kiểm tra & phản hồi chất lượng

Dung dịch

Hướng dẫn chung

Kiểm tra chất lượng & Đảm bảo chất lượng quan trọng

Phiên mã dữ liệu

Quy trình làm việc của dự án

Kết quả

Dịch vụ dữ liệu AI

Đặc biệt

Công nghiệp

Sản phẩm

Công ty

Thông tin

Liên hệ

Hãy cho chúng tôi biết thêm về bạn!