Nghiên cứu điển hình: AI hội thoại
Hơn 3 nghìn giờ dữ liệu được thu thập, phân đoạn và sao chép để xây dựng ASR bằng 8 ngôn ngữ Ấn Độ
BHASHINI, nền tảng dịch ngôn ngữ dựa trên AI của Ấn Độ, là một phần quan trọng của sáng kiến Digital India.
Được thiết kế để cung cấp các công cụ Trí tuệ nhân tạo (AI) và Xử lý ngôn ngữ tự nhiên (NLP) cho MSMEs, công ty khởi nghiệp và nhà đổi mới độc lập, nền tảng Bhashini đóng vai trò là tài nguyên công cộng. Mục tiêu của nó là thúc đẩy hòa nhập kỹ thuật số bằng cách cho phép công dân Ấn Độ tương tác với các sáng kiến kỹ thuật số của đất nước bằng ngôn ngữ mẹ đẻ của họ.
Ngoài ra, nó nhằm mục đích mở rộng đáng kể tính khả dụng của nội dung internet bằng các ngôn ngữ Ấn Độ. Điều này đặc biệt hướng tới các lĩnh vực được công chúng quan tâm như quản trị và chính sách, khoa học và công nghệ, v.v. Do đó, điều này sẽ khuyến khích người dân sử dụng internet bằng ngôn ngữ của họ, thúc đẩy sự tham gia tích cực của họ.
Khai thác NLP để kích hoạt một hệ sinh thái đa dạng bao gồm những người đóng góp, các tổ chức hợp tác và công dân nhằm mục đích vượt qua các rào cản ngôn ngữ, từ đó đảm bảo sự hòa nhập và trao quyền kỹ thuật số
Giải pháp thế giới thực
Giải phóng sức mạnh của bản địa hóa với dữ liệu
Ấn Độ cần một nền tảng tập trung vào việc tạo bộ dữ liệu đa ngôn ngữ và giải pháp công nghệ ngôn ngữ dựa trên AI để cung cấp dịch vụ kỹ thuật số bằng ngôn ngữ Ấn Độ. Để khởi động sáng kiến này, Viện Công nghệ Ấn Độ, Madras (IIT Madras) đã hợp tác với Shaip để thu thập, phân đoạn và phiên âm bộ dữ liệu ngôn ngữ Ấn Độ nhằm xây dựng các mô hình bài phát biểu đa ngôn ngữ.
Những thách thức
Để hỗ trợ khách hàng về lộ trình giọng nói của Công nghệ giọng nói cho các ngôn ngữ Ấn Độ, nhóm cần thu thập, phân đoạn và phiên âm khối lượng lớn dữ liệu đào tạo để xây dựng mô hình AI. Các yêu cầu quan trọng của khách hàng là:
Thu Thập Dữ Liệu
- Có được 3000 giờ dữ liệu đào tạo bằng 8 ngôn ngữ Ấn Độ với 4 phương ngữ cho mỗi ngôn ngữ.
- Đối với mỗi ngôn ngữ, nhà cung cấp sẽ thu thập Extepore Speech và
Bài phát biểu hội thoại từ các nhóm tuổi từ 18-60 tuổi - Đảm bảo sự kết hợp đa dạng của người nói theo độ tuổi, giới tính, trình độ học vấn và phương ngữ
- Đảm bảo kết hợp đa dạng các môi trường ghi âm theo Thông số kỹ thuật.
- Mỗi bản ghi âm phải có tần số ít nhất là 16kHz nhưng tốt nhất là 44kHz
Phân đoạn dữ liệu
- Tạo các phân đoạn lời nói trong 15 giây và đánh dấu thời gian âm thanh đến mili giây cho từng người nói, loại âm thanh nhất định (lời nói, tiếng lảm nhảm, âm nhạc, tiếng ồn), lượt, cách nói và cụm từ trong cuộc trò chuyện
- Tạo từng phân đoạn cho tín hiệu âm thanh được nhắm mục tiêu với phần đệm 200-400 mili giây ở đầu và cuối.
- Đối với tất cả các phân đoạn, các đối tượng sau phải được điền, ví dụ: Thời gian bắt đầu, Thời gian kết thúc, ID phân đoạn, Mức độ ồn, Loại âm thanh, Mã ngôn ngữ, ID người phát biểu, v.v.
Phiên mã dữ liệu
- Thực hiện theo các hướng dẫn phiên âm chi tiết xung quanh Ký tự và Ký hiệu đặc biệt, Chính tả và Ngữ pháp, Viết hoa, Viết tắt, Rút gọn, Chữ cái được nói riêng lẻ, Số, Dấu câu, Từ viết tắt, Nói sai, Lời nói, Lời nói khó hiểu, Ngôn ngữ phi mục tiêu, Không phải lời nói, v.v.
Kiểm tra & phản hồi chất lượng
- Tất cả các bản ghi âm phải được đánh giá và xác nhận chất lượng, chỉ bài phát biểu đã được xác thực mới được gửi
Dung dịch
Với sự hiểu biết sâu sắc về AI đàm thoại, chúng tôi đã giúp khách hàng thu thập, phân đoạn và sao chép dữ liệu với một nhóm chuyên gia thu thập, nhà ngôn ngữ học và nhà chú thích để xây dựng kho dữ liệu âm thanh lớn bằng 8 ngôn ngữ Ấn Độ
Phạm vi công việc của Shaip bao gồm nhưng không giới hạn ở việc thu thập khối lượng lớn dữ liệu đào tạo âm thanh, phân đoạn các bản ghi âm thanh thành nhiều bản, sao chép dữ liệu và phân phối các tệp JSON tương ứng có chứa siêu dữ liệu [SpeakerID, Tuổi, Giới tính, Ngôn ngữ, Phương ngữ,
Tiếng mẹ đẻ, Trình độ chuyên môn, Nghề nghiệp, Miền, Định dạng tệp, Tần suất, Kênh, Loại âm thanh, Số người nói, Số ngôn ngữ nước ngoài, Thiết lập được sử dụng, Âm thanh băng thông hẹp hoặc băng thông rộng, v.v.].
Shaip đã thu thập 3000 giờ dữ liệu âm thanh ở quy mô lớn trong khi vẫn duy trì mức chất lượng mong muốn cần thiết để đào tạo công nghệ giọng nói cho các dự án phức tạp. Mẫu chấp thuận rõ ràng được lấy từ mỗi người tham gia.
KHAI THÁC. Thu thập dữ liệu