Ở một quốc gia đa dạng về văn hóa và giàu ngôn ngữ như Ấn Độ, việc xây dựng AI toàn diện bắt đầu bằng việc thu thập các tập dữ liệu đại diện, chất lượng cao. Đó là tầm nhìn đằng sau Dự án Vaani—một sáng kiến mã nguồn mở quy mô lớn do CÔNG VIÊN NGHỆ THUẬT, IISc Bengaluruvà Google, với mục đích tôn vinh mọi ngôn ngữ và phương ngữ của Ấn Độ.
Mục tiêu đầy tham vọng? Để thu thập Hơn 150,000 giờ nói và Hơn 15,000 giờ phiên âm từ 1 triệu người ngang qua 773 quận của Ấn Độ.
Là một trong những nhà cung cấp chính cho sứ mệnh quốc gia này, Shaip đóng vai trò quan trọng trong việc quản lý dữ liệu giọng nói tự phát, phiên âm và thu thập siêu dữ liệu—đặt nền tảng cho các công nghệ giọng nói công bằng thực sự đại diện cho Ấn Độ thực sự.
Tầm nhìn đằng sau dự án Vaani
Dự án Vaani được thiết kế để thu hẹp khoảng cách bao gồm AI bằng cách tạo ra bộ dữ liệu đa phương thức, đa ngôn ngữ, nguồn mở lớn nhất ở Ấn Độ. Dữ liệu này là nền tảng để phát triển hệ thống nhận dạng giọng nói, dịch thuật và AI tạo ra chính xác bằng ngôn ngữ bản địa của Ấn Độ—nhiều ngôn ngữ trong số đó không được đại diện đầy đủ trong hệ sinh thái công nghệ toàn cầu.
Tầm nhìn dài hạn là thúc đẩy các ứng dụng có tác động trong:
- phù hợp túi tiền – Y học từ xa bằng giọng nói
- có chất lượng – Nền tảng học tập bản ngữ
- Quản trị – Giao diện đàm thoại cho dịch vụ công dân
- Khả Năng Tiếp Cận – Công cụ giọng nói dành cho người khuyết tật
- Ứng phó thiên tai – Giao tiếp thời gian thực bằng phương ngữ địa phương
Shaip đã giúp xây dựng Bộ dữ liệu giọng nói nguồn mở lớn nhất của Ấn Độ cho Dự án Vaani như thế nào
Shaip được giao nhiệm vụ thu thập 8,000 giờ nói tự nhiên và 800 giờ biên bản được xác minh thủ công. Trách nhiệm của chúng tôi bao gồm việc giới thiệu diễn giả, thu âm, gắn thẻ siêu dữ liệu, phối hợp phiên âm và kiểm soát chất lượng.
8,000 giờ của dữ liệu âm thanh tự phát
Bản ghi âm từ Hơn 400 người bản ngữ trên mỗi quận, đại diện cho nhiều nhóm tuổi, giới tính và phương ngữ khác nhau
80 quận, phủ
Nhắc nhở dựa trên hình ảnh để đảm bảo lời nói tự nhiên, theo ngữ cảnh
Sau đây là những điểm khiến cách tiếp cận của chúng tôi trở nên độc đáo:
Sự đa dạng cấp huyện
Chúng tôi đã lấy nguồn bản ghi âm từ 80 quận trải dài trên khắp các tiểu bang như Bihar, Uttar Pradesh, Karnataka, Tây Bengal và Maharashtra. Mỗi quận đóng góp 100 giờ dữ liệu âm thanh, đảm bảo cân bằng khu vực. Chúng tôi đã thu hút người bản xứ, đảm bảo đại diện cho giọng địa phương và phương ngữ thường bị bỏ qua trong các tập dữ liệu AI chính thống.
Biểu diễn ngôn ngữ và nhân khẩu học
Chúng tôi đã lấy nguồn bản ghi âm từ 80 quận trải dài trên khắp các tiểu bang như Bihar, Uttar Pradesh, Karnataka, Tây Bengal và Maharashtra. Mỗi quận đóng góp 100 giờ dữ liệu âm thanh, đảm bảo cân bằng khu vực. Chúng tôi đã thu hút người bản xứ, đảm bảo đại diện cho giọng địa phương và phương ngữ thường bị bỏ qua trong các tập dữ liệu AI chính thống.
Lời nói được nhắc nhở bằng hình ảnh
Để kích thích vốn từ vựng tự phát và tự nhiên, người tham gia được cho xem 45–90 hình ảnh mỗi buổi và được yêu cầu mô tả chúng. Người tham gia được nhắc nhở sử dụng nhiều hình ảnh khác nhau—từ biểu tượng văn hóa đến đồ vật hàng ngày—để gợi ra những phản ứng tự nhiên, tự phát bằng ngôn ngữ mẹ đẻ của họ. Điều này đảm bảo các bản ghi phản ánh lời nói trong thế giới thực, theo ngữ cảnh—cần thiết để đào tạo các hệ thống NLP nâng cao.
Tiêu chuẩn phiên âm chất lượng cao
Chỉ có 10% dữ liệu giọng nói được phiên âm—tương đương với 800 giờ. Phiên âm được thực hiện bởi các nhà ngôn ngữ học địa phương trong bán kính 20–50 km tính từ người nói, đảm bảo sự quen thuộc với phương ngữ và sắc thái. Kiểm tra lớp thứ hai đảm bảo tỷ lệ lỗi từ (WER) <5%.
Đảm bảo chất lượng nghiêm ngặt
Dữ liệu âm thanh phải đạt tiêu chuẩn cao: không có tiếng ồn nền, tiếng vọng, rung điện thoại hoặc méo tiếng. Âm thanh được ghi trong môi trường yên tĩnh, không có tiếng vọng. Các tệp đã trải qua quá trình xem xét nghiêm ngặt để đáp ứng các hướng dẫn về độ rõ của giọng nói, mức độ tiếng ồn, độ chính xác của siêu dữ liệu và xác minh người nói. Việc gắn thẻ siêu dữ liệu phải chính xác trên tất cả các tệp và tất cả các bản ghi đều được kiểm tra để căn chỉnh người nói và vị trí.
Những thách thức chúng tôi đã giải quyết
- Hậu cần từ xa – Quản lý các đội trên 80 quận
- Sự đa dạng của người nói – Tuyển dụng hơn 32,000 diễn giả đã được xác minh tại các địa điểm xa xôi
- Nhạy cảm văn hóa – Tôn trọng phong tục, phương ngữ địa phương
- Toàn vẹn dữ liệu – Đáp ứng các tiêu chuẩn về chất lượng và tuân thủ
- Kiểm tra chất lượng – trên nhiều bối cảnh ngôn ngữ và văn hóa
Thành công của chúng tôi là nhờ vào kế hoạch tỉ mỉ, xác thực dựa trên công nghệ và quan hệ đối tác với các nhóm địa phương hiểu rõ sắc thái văn hóa của từng khu vực.
Tác động và ứng dụng
Đóng góp của Shaip không chỉ đẩy nhanh tiến độ của Dự án Vaani mà còn đặt nền tảng cho AI toàn diện ở Ấn Độ. Bộ dữ liệu giọng nói được quản lý đã được sử dụng để xây dựng và tinh chỉnh các mô hình AI cho:
- Trợ lý giọng nói bản địa
- Công cụ dịch thuật khu vực
- Công cụ giao tiếp dễ tiếp cận dành cho người khiếm thị
- Nền tảng công nghệ giáo dục AI dành cho học sinh nông thôn
- Y tế từ xa nông thôn
- Dịch vụ công dân bằng giọng nói
- Biên dịch và phiên âm thời gian thực
Kết luận
Dự án Vaani là một bước tiến táo bạo hướng tới AI toàn diện và dễ tiếp cận, và Shaip rất vinh dự khi được đóng vai trò sáng lập. Công trình của Shaip trong Dự án Vaani khẳng định lại cam kết của chúng tôi trong việc xây dựng các hệ thống AI có đạo đức, toàn diện dựa trên sự đa dạng và tính đại diện. Với hơn 8,000 giờ bài phát biểu được thu thập và 800 giờ được ghi chép, chúng tôi tự hào được đóng góp vào một trong những dự án hòa nhập kỹ thuật số có tầm nhìn xa nhất của Ấn Độ.
Khi Dự án Vaani tiếp tục hướng tới mục tiêu lớn hơn là thu thập hơn 150,000 giờ dữ liệu, chúng tôi sẵn sàng hỗ trợ ranh giới tiếp theo của đổi mới AI hướng đến và dành cho mọi người dân Ấn Độ.
Bạn có muốn hợp tác với chúng tôi để xây dựng AI có thể hiểu được thế giới thực không? www.shaip.com