Nghiên cứu điển hình: AI hội thoại
Hơn 3 nghìn giờ dữ liệu được thu thập, phân đoạn và sao chép để xây dựng ASR bằng 8 ngôn ngữ Ấn Độ
BHASHINI, nền tảng dịch ngôn ngữ dựa trên AI của Ấn Độ, là một phần quan trọng của sáng kiến Digital India.
Được thiết kế để cung cấp các công cụ Trí tuệ nhân tạo (AI) và Xử lý ngôn ngữ tự nhiên (NLP) cho MSMEs, công ty khởi nghiệp và nhà đổi mới độc lập, nền tảng Bhashini đóng vai trò là tài nguyên công cộng. Mục tiêu của nó là thúc đẩy hòa nhập kỹ thuật số bằng cách cho phép công dân Ấn Độ tương tác với các sáng kiến kỹ thuật số của đất nước bằng ngôn ngữ mẹ đẻ của họ.
Ngoài ra, nó nhằm mục đích mở rộng đáng kể tính khả dụng của nội dung internet bằng các ngôn ngữ Ấn Độ. Điều này đặc biệt hướng tới các lĩnh vực được công chúng quan tâm như quản trị và chính sách, khoa học và công nghệ, v.v. Do đó, điều này sẽ khuyến khích người dân sử dụng internet bằng ngôn ngữ của họ, thúc đẩy sự tham gia tích cực của họ.
Khai thác NLP để kích hoạt một hệ sinh thái đa dạng bao gồm những người đóng góp, các tổ chức hợp tác và công dân nhằm mục đích vượt qua các rào cản ngôn ngữ, từ đó đảm bảo sự hòa nhập và trao quyền kỹ thuật số
Giải pháp thế giới thực
Giải phóng sức mạnh của bản địa hóa với dữ liệu
Ấn Độ cần một nền tảng tập trung vào việc tạo bộ dữ liệu đa ngôn ngữ và giải pháp công nghệ ngôn ngữ dựa trên AI để cung cấp dịch vụ kỹ thuật số bằng ngôn ngữ Ấn Độ. Để khởi động sáng kiến này, Viện Công nghệ Ấn Độ, Madras (IIT Madras) đã hợp tác với Shaip để thu thập, phân đoạn và phiên âm bộ dữ liệu ngôn ngữ Ấn Độ nhằm xây dựng các mô hình bài phát biểu đa ngôn ngữ.
Những thách thức
Để hỗ trợ khách hàng về lộ trình giọng nói của Công nghệ giọng nói cho các ngôn ngữ Ấn Độ, nhóm cần thu thập, phân đoạn và phiên âm khối lượng lớn dữ liệu đào tạo để xây dựng mô hình AI. Các yêu cầu quan trọng của khách hàng là:
Thu Thập Dữ Liệu
- Có được 3000 giờ dữ liệu đào tạo bằng 8 ngôn ngữ Ấn Độ với 4 phương ngữ cho mỗi ngôn ngữ.
- Đối với mỗi ngôn ngữ, nhà cung cấp sẽ thu thập Extepore Speech và
Bài phát biểu hội thoại từ các nhóm tuổi từ 18-60 tuổi - Đảm bảo sự kết hợp đa dạng của người nói theo độ tuổi, giới tính, trình độ học vấn và phương ngữ
- Đảm bảo kết hợp đa dạng các môi trường ghi âm theo Thông số kỹ thuật.
- Mỗi bản ghi âm phải có tần số ít nhất là 16kHz nhưng tốt nhất là 44kHz
Phân đoạn dữ liệu
- Tạo các phân đoạn lời nói trong 15 giây và đánh dấu thời gian âm thanh đến mili giây cho từng người nói, loại âm thanh nhất định (lời nói, tiếng lảm nhảm, âm nhạc, tiếng ồn), lượt, cách nói và cụm từ trong cuộc trò chuyện
- Tạo từng phân đoạn cho tín hiệu âm thanh được nhắm mục tiêu với phần đệm 200-400 mili giây ở đầu và cuối.
- Đối với tất cả các phân đoạn, các đối tượng sau phải được điền, ví dụ: Thời gian bắt đầu, Thời gian kết thúc, ID phân đoạn, Mức độ ồn, Loại âm thanh, Mã ngôn ngữ, ID người phát biểu, v.v.
Phiên mã dữ liệu
- Thực hiện theo các hướng dẫn phiên âm chi tiết xung quanh Ký tự và Ký hiệu đặc biệt, Chính tả và Ngữ pháp, Viết hoa, Viết tắt, Rút gọn, Chữ cái được nói riêng lẻ, Số, Dấu câu, Từ viết tắt, Nói sai, Lời nói, Lời nói khó hiểu, Ngôn ngữ phi mục tiêu, Không phải lời nói, v.v.
Kiểm tra & phản hồi chất lượng
- Tất cả các bản ghi âm phải được đánh giá và xác nhận chất lượng, chỉ bài phát biểu đã được xác thực mới được gửi
Dung dịch
Với sự hiểu biết sâu sắc về AI đàm thoại, chúng tôi đã giúp khách hàng thu thập, phân đoạn và sao chép dữ liệu với một nhóm chuyên gia thu thập, nhà ngôn ngữ học và nhà chú thích để xây dựng kho dữ liệu âm thanh lớn bằng 8 ngôn ngữ Ấn Độ
Phạm vi công việc của Shaip bao gồm nhưng không giới hạn ở việc thu thập khối lượng lớn dữ liệu đào tạo âm thanh, phân đoạn các bản ghi âm thanh thành nhiều bản, sao chép dữ liệu và phân phối các tệp JSON tương ứng có chứa siêu dữ liệu [SpeakerID, Tuổi, Giới tính, Ngôn ngữ, Phương ngữ,
Tiếng mẹ đẻ, Trình độ chuyên môn, Nghề nghiệp, Miền, Định dạng tệp, Tần suất, Kênh, Loại âm thanh, Số người nói, Số ngôn ngữ nước ngoài, Thiết lập được sử dụng, Âm thanh băng thông hẹp hoặc băng thông rộng, v.v.].
Shaip đã thu thập 3000 giờ dữ liệu âm thanh ở quy mô lớn trong khi vẫn duy trì mức chất lượng mong muốn cần thiết để đào tạo công nghệ giọng nói cho các dự án phức tạp. Mẫu chấp thuận rõ ràng được lấy từ mỗi người tham gia.
KHAI THÁC. Thu thập dữ liệu
2. Phân đoạn dữ liệu
- Dữ liệu âm thanh được thu thập được tiếp tục chia thành các phân đoạn lời nói, mỗi đoạn 15 giây và được đánh dấu thời gian đến mili giây cho từng người nói, loại âm thanh, lượt, cách nói và cụm từ nhất định trong cuộc hội thoại
- Đã tạo từng phân đoạn cho tín hiệu âm thanh được nhắm mục tiêu với phần đệm 200-400 mili giây ở đầu và cuối tín hiệu âm thanh.
- Đối với tất cả các phân đoạn, các đối tượng sau đã có mặt và được lấp đầy, ví dụ: Thời gian bắt đầu, Thời gian kết thúc, ID phân đoạn, Mức độ ồn (To, Bình thường, Yên tĩnh), Loại âm thanh chính (Lời nói, Tiếng lảm nhảm, Âm nhạc, Tiếng ồn, Chồng chéo), Mã ngôn ngữ ID người nói, Phiên âm, v.v.
3. Kiểm tra chất lượng và phản hồi
- Tất cả các bản ghi đều được đánh giá về chất lượng và chỉ những bản ghi giọng nói đã được xác thực với WER là 90% và TER là 90% mới được phân phối
- Danh sách kiểm tra chất lượng theo sau:
» Độ dài phân đoạn tối đa 15 giây
» Phiên âm từ các miền cụ thể, cụ thể là: Thời tiết, các loại tin tức khác nhau, sức khỏe, nông nghiệp, giáo dục, việc làm hoặc tài chính
» Tiếng ồn nền thấp
» Không tắt âm thanh – Không méo tiếng
» Phân đoạn âm thanh chính xác để sao chép
4. Phiên mã dữ liệu
Tất cả các từ được nói, bao gồm ngập ngừng, từ đệm, bắt đầu sai và các tật nói khác, đều được ghi lại chính xác trong bản phiên âm. Chúng tôi cũng tuân theo các hướng dẫn phiên âm chi tiết về chữ hoa và chữ thường, chính tả, viết hoa, viết tắt, rút gọn, số,
dấu chấm câu, Từ viết tắt, Lời nói không trôi chảy, tiếng ồn không phải lời nói, v.v. Ngoài ra, Quy trình công việc được thực hiện cho Bộ sưu tập và Phiên âm như sau:
Kết quả
Dữ liệu âm thanh chất lượng cao từ các chuyên gia ngôn ngữ học sẽ cho phép Viện Công nghệ Ấn Độ – Madras đào tạo và xây dựng chính xác các mô hình Nhận dạng giọng nói đa ngôn ngữ bằng 8 ngôn ngữ Ấn Độ với các phương ngữ khác nhau trong thời gian quy định. Các mô hình nhận dạng giọng nói có thể được sử dụng để:
- Vượt qua rào cản ngôn ngữ để hòa nhập kỹ thuật số bằng cách kết nối công dân với các sáng kiến bằng tiếng mẹ đẻ của họ.
- Thúc đẩy quản trị kỹ thuật số
- Chất xúc tác để hình thành một hệ sinh thái cho các dịch vụ và sản phẩm bằng ngôn ngữ Ấn Độ
- Nội dung kỹ thuật số được bản địa hóa nhiều hơn trong các lĩnh vực được công chúng quan tâm, đặc biệt là quản trị & chính sách
Chúng tôi rất ấn tượng với chuyên môn của Shaip trong lĩnh vực AI đàm thoại. Năng lực thực hiện dự án tổng thể của họ từ tìm nguồn cung ứng, phân đoạn, sao chép và cung cấp dữ liệu đào tạo cần thiết từ các chuyên gia ngôn ngữ học bằng 8 ngôn ngữ trong các mốc thời gian và hướng dẫn nghiêm ngặt; trong khi vẫn duy trì tiêu chuẩn chất lượng chấp nhận được.”
Khách hàng nổi bật
Trao quyền cho các nhóm xây dựng các sản phẩm AI hàng đầu thế giới.