Lời nhắc thanh toán UPI bằng giọng nói: Nắm bắt sự đa dạng cho các mô hình AI nâng cao
Tận dụng chuyên môn của Shaip trong việc tạo nhanh và ghi âm đa dạng để hỗ trợ hệ thống thanh toán UPI bằng giọng nói với dữ liệu đa dạng về văn hóa và chất lượng cao.
Tổng Quan Dự Án
Shaip đã hợp tác với một công ty công nghệ tài chính hàng đầu để phát triển một ứng dụng thanh toán bằng giọng nói bằng cách tạo và ghi lại các lời nhắc thanh toán UPI đa dạng. Dự án bao gồm việc tạo ra 2,500 lời nhắc độc đáo và 87,000 lời nhắc đa dạng trên 13 ý định liên quan đến thanh toán, chẳng hạn như gửi tiền, yêu cầu tiền, tra cứu số dư và thanh toán hóa đơn. Những lời nhắc này được ghi lại trong hơn 200 giờ bởi 45 diễn giả từ nhiều khu vực, hoàn cảnh và nhóm tuổi khác nhau, đảm bảo sự đa dạng về ngôn ngữ và môi trường.
Mục tiêu của dự án là phát triển dữ liệu đào tạo chất lượng cao cho mô hình AI có thể nhận dạng và phản hồi các lệnh thoại liên quan đến thanh toán UPI trong bối cảnh thực tế.
Số liệu thống kê chính
Giờ ghi âm nhắc nhở thanh toán UPI
200
Diễn giả đến từ nhiều nền tảng khác nhau (tuổi tác, trình độ học vấn, khu vực)
45
Bao gồm các mục đích, với hơn 87,000 lời nhắc đa dạng
13
Ngôn ngữ: Tiếng Anh, với những người nói đến từ nhiều nền ngôn ngữ bản địa khác nhau (Kumaoni, Bengali, Malayalam, Gujarati, Hindi, Marathi, v.v.)
Phạm vi dự án
Tạo lời nhắc
Phạm vi bao gồm việc tạo ra các lời nhắc độc đáo cho hệ thống thanh toán UPI dựa trên giọng nói. Các lời nhắc được thiết kế để bao gồm nhiều mục đích, đảm bảo chúng đa dạng về cấu trúc, từ vựng và các thực thể được đặt tên. Một số khía cạnh chính bao gồm:
13 mục đích chính, bao gồm:
- Gửi tiền: 65,653 lời nhắc độc đáo và đa dạng
- Truy vấn số dư: 3,052 lời nhắc
- Yêu cầu tiền: 26,972 lời nhắc
- Lịch sử giao dịch, nạp tiền, thanh toán hóa đơn, v.v.
Ghi âm
Để đảm bảo tính xác thực và khả năng áp dụng trong thế giới thực, các lời nhắc đã được ghi lại bởi 45 người nói từ các nền tảng ngôn ngữ khác nhau. Sự đa dạng được nắm bắt thông qua các ngôn ngữ bản địa, phương ngữ khu vực và môi trường khác nhau (trong nhà và ngoài trời) đã giúp nâng cao dữ liệu đào tạo.
- Đa dạng ngôn ngữ: Người dùng thông thạo tiếng Anh nhưng có thể nói nhiều ngôn ngữ bản địa khác nhau, chẳng hạn như tiếng Kumaoni, tiếng Gujarati, tiếng Hindi, tiếng Bangla, tiếng Marathi và tiếng Malayalam.
- Độ tuổi, giới tính và trình độ học vấn: Dữ liệu thu thập được nhiều thông tin nhân khẩu học khác nhau.
- Người nói ở thành thị và nông thôn: Để phản ánh việc sử dụng trong thế giới thực, cả người nói ở thành thị và nông thôn đều được đưa vào.
- Môi trường ghi âm: Các bản ghi âm được thực hiện ở cả trong nhà và ngoài trời, có kèm theo nhiều tiếng ồn nền khác nhau.
Những thách thức
Sự đa dạng về ngôn ngữ và khu vực
Đảm bảo lời nhắc phản ánh nhiều phương ngữ vùng miền và đặc điểm của người nói đòi hỏi phải lập kế hoạch và thực hiện cẩn thận.
Biến thể âm thanh tự nhiên
Việc xử lý tiếng ồn xung quanh và điều kiện môi trường (trong nhà so với ngoài trời) rất quan trọng đối với ứng dụng thực tế.
Hồ sơ diễn giả đa dạng
Việc bao gồm những người nói chuyện từ các nhóm tuổi, trình độ học vấn và vùng nông thôn/thành thị khác nhau đã làm tăng tính phức tạp trong việc thu thập dữ liệu xác thực.
Dung dịch
Shaip đã đưa ra một giải pháp giải quyết những thách thức của dự án bằng cách áp dụng các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) tiên tiến và lập kế hoạch cẩn thận trong cả việc tạo và ghi âm lời nhắc. Các khía cạnh chính của giải pháp bao gồm:
Tạo lời nhắc
- 2,500 những lời nhắc độc đáo đã được tạo ra, mỗi lời nhắc đều đa dạng về cấu trúc và từ vựng.
- 13 Các mục đích đã được đề cập, từ các yêu cầu thanh toán cơ bản đến các yêu cầu phức tạp hơn như lịch sử giao dịch và thanh toán hóa đơn.
Ghi âm
- 200 giờ của các bản ghi âm được thực hiện bởi 45 người dùng, đảm bảo tính đa dạng giữa các ngôn ngữ bản địa, môi trường và nhân khẩu học của người nói.
- Cả môi trường trong nhà và ngoài trời đều được sử dụng để ghi âm nhằm đảm bảo sự thay đổi âm thanh tự nhiên.
- Người nói đại diện cho nhiều phương ngữ vùng miền, đảm bảo sự thể hiện ngôn ngữ chính xác.
| Intent | Gửi | Kiểm tra số dư | Yêu cầu tiền | Lịch sử giao dịch |
|---|---|---|---|---|
| nhanh chóng | Thanh toán hai mươi một trăm cho Sumatra để thuê nhà | Tôi muốn biết số dư hiện tại trong tài khoản tiết kiệm của mình. | Anh có thể yêu cầu Raji ba trăm mười tám rupee cho trường hợp khẩn cấp không? | Cho tôi xem lịch sử giao dịch thẻ ghi nợ của tôi. |
| tiếng gujarat | સુમાત્રીને ઘરના ભાડા પેટે એકવીસસો ચૂકવો | . Tôi cảm thấy như vậy. | શું તમે રાજી પાસેથી ઇમર્જન્સી માટે ત્રણસો Bạn có muốn làm điều đó không? | Tôi nghĩ bạn có thể làm điều đó. |
| Tiếng Hin-ddi | सुमात्री को मकान . का भुगतान करें। | Bạn có thể làm điều đó một cách dễ dàng. bạn biết đấy. | Bạn có thể làm điều đó với tôi. Bạn có muốn làm điều đó không? | Bạn có thể làm điều đó không? दिखाओ। |
| Malayalam | വീട്ടുവാടകയായി സുമത്രിക്ക് Tôi nghĩ bạn nên làm điều đó. | Bạn có thể làm điều đó một cách dễ dàng. Tôi nghĩ bạn có thể làm điều đó. | രാജിയോട് മുന്നൂറ്റി പതിനെട്ട് രൂപ Bạn có muốn làm điều đó không? | എൻ്റെ ഡെബിറ്റ് കാർഡ് ഇടപാടം Vâng. |
| telugu | ఇంటి అద్దె కోసం సుమత్రికి ఇరవై ఒక్క వంద చెల్లించండి | Bạn có thể làm điều đó một cách dễ dàng. Tôi nghĩ bạn có thể làm điều đó. | ఎమర్జెన్సీ కోసం రాజిని మూడు వందల Bạn có muốn làm điều đó không? | నా డెబిట్ కార్డ్ లావాదేవీ చరిత్రను నాకు cảm ơn. |
| Bangla (বাংলা) | বাড়ি ভাড়ার জন্য সুমাত্রিকে ২১,০০০ টাকা পরিশোধ করুন | আমি আমার সঞ্চয় অ্যাকাউন্টে বর্তমান ব্যালেন্স জানতে চাই। | আপনি রাজির কাছে তাৎক্ষণিক অবস্থার জন্য Bạn có muốn làm điều đó không? | আমার ডেবিট কার্ডের লেনদেনের ইতিহাস দেখান। |
| Marathi | सुमात्रीला . bạn biết đấy. | Bạn có thể làm điều đó một cách dễ dàng. Tôi cảm thấy như vậy. | आपण राजीकडून . bạn đang làm gì vậy? | Tôi nghĩ bạn có thể làm điều đó. |
Các kết quả
Dữ liệu âm thanh đa dạng, chất lượng cao do Shaip cung cấp cho phép khách hàng phát triển hệ thống thanh toán UPI dựa trên giọng nói do AI điều khiển có khả năng nhận dạng các lệnh ở nhiều phương ngữ, môi trường và bối cảnh khác nhau. Dữ liệu giúp nâng cao:
- Nhận dạng giọng nói theo thời gian thực trong môi trường phức tạp.
- Giao dịch UPI chính xác hơn xử lý cho nhiều đối tượng người dùng hơn.
- Khả năng mở rộng: Dự án đặt nền tảng vững chắc cho việc mở rộng sang các ngôn ngữ Ấn Độ khác.
Phân phôi
- 200 giờ của các tập tin âm thanh (định dạng PCM WAV 8 kHz, đơn âm)
- 87,000 + lời nhắc đa dạng được chú thích với mục đích duy nhất
- Metadata: Hồ sơ người nói, chi tiết môi trường và độ chính xác của bản ghi
Khả năng nắm bắt sự đa dạng của Ấn Độ thông qua các lời nhắc độc đáo và bản ghi âm chân thực của Shaip đã tạo nên bước ngoặt cho hệ thống thanh toán UPI dựa trên giọng nói của chúng tôi. Nhóm của họ đảm bảo rằng mọi khía cạnh của dự án – từ việc tạo lời nhắc đến chất lượng bản ghi – đều được xử lý chính xác, giúp chúng tôi xây dựng một mô hình nhận dạng giọng nói toàn diện và mạnh mẽ hơn.