Nghiên cứu trường hợp AI âm nhạc

Thu thập dữ liệu giọng hát

Bộ sưu tập âm thanh hát dựa trên giọng nói để đào tạo thuật toán EQ & nén: Nắm bắt sự đa dạng về ngôn ngữ và âm nhạc

Bộ sưu tập âm thanh ca hát dựa trên giọng nói

Tổng Quan Dự Án

Shaip hợp tác với một công ty công nghệ hàng đầu để thu thập các bản ghi âm giọng hát đa dạng trên bốn ngôn ngữ được ưu tiên: tiếng Trung, tiếng Ả Rập, tiếng Tây Ban Nha và tiếng Nga. Dự án nhằm mục đích cung cấp dữ liệu chất lượng cao để đào tạo EQ dựa trên AI và các thuật toán nén, vốn rất cần thiết để cải thiện quá trình xử lý âm thanh tự động.

Bộ sưu tập bao gồm 40 người tham gia (10 người mỗi ngôn ngữ) từ nhiều thể loại khác nhau, tập trung vào các bản ghi âm chất lượng phòng thu sử dụng nhiều loại micro và môi trường khác nhau.

Bộ sưu tập âm thanh ca hát

Số liệu thống kê chính

Ngôn ngữ 4: Tiếng Trung, tiếng Ả Rập, tiếng Tây Ban Nha, tiếng Nga

10 ca sĩ mỗi
ngôn ngữ (tổng cộng 40)

20 giờ of
âm thanh ca hát

Định dạng âm thanh: 48 kHz PCM, đơn âm, WAV

Phiên âm bằng ngôn ngữ bản địa

Thời lượng dự án:
18 tuần

Phạm vi dự án

Thu Thập Dữ Liệu

Phạm vi bao gồm bộ sưu tập âm thanh ca hát bằng bốn ngôn ngữ mục tiêu, được ghi lại bởi các nghệ sĩ thực sự trên nhiều thể loại âm nhạc. Môi trường phòng thu được sử dụng để đảm bảo các bản ghi chất lượng cao phù hợp để đào tạo các mô hình AI.

Yêu cầu chính

  • Tham gia: 10 ca sĩ cho mỗi ngôn ngữ, với sự phân bổ giới tính cân bằng (50% nam, 50% nữ).
  • Thể loại: Nhiều thể loại khác nhau, do chính nghệ sĩ tự xác định, được xác nhận về tính nhất quán.
  • Môi trường ghi âm: Chất lượng phòng thu, với nhiều cài đặt micro (động, tụ điện).
  • Định dạng âm thanh: Tệp PCM, mono, WAV 48 kHz, không xử lý (ví dụ: không nén, EQ, hồi âm).
  • bảng điểm: Bài hát phải được chuyển ngữ sang ngôn ngữ được hát, với các quy tắc đặc biệt dành cho bài hát song ngữ.
  • Ngôn ngữ: Tiếng Trung, tiếng Ả Rập, tiếng Tây Ban Nha, tiếng Nga
  • Phiên mã
    • Bản ghi chép phải được cung cấp bằng ngôn ngữ của bản ghi âm (ví dụ: dòng tiếng Hindi bằng tiếng Devanagari, tiếp theo là tiếng Anh).
    • Đảm bảo mỗi phân đoạn không dài quá 15 giây để rõ ràng và chính xác.
  • Yêu cầu ghi âm
    • Tối thiểu 3 cài đặt micrô cho mỗi buổi ghi âm.
    • 3 phút cho mỗi bài hát, với 3 lần thu cho mỗi bài hát, đảm bảo thu âm bằng micrô đa dạng cho mỗi người tham gia.
    • Môi trường âm thanh chất lượng phòng thu không có tiếng ồn xung quanh.

Những thách thức

Sự đa dạng của người tham gia

Đảm bảo sự phân bổ cân bằng giữa các ca sĩ theo giới tính, tông giọng/cao độ và thể loại âm nhạc là một thách thức phức tạp.

Dữ liệu nhất quán

Duy trì cài đặt micrô và môi trường nhất quán trong khi thu âm nhiều giọng hát khác nhau bằng nhiều ngôn ngữ.

Kiểm soát chất lượng âm thanh

Đảm bảo âm thanh chất lượng phòng thu mà không có tiếng ồn bên ngoài và phiên âm chính xác bằng nhiều ngôn ngữ.

Dung dịch

Shaip đã đưa ra giải pháp toàn diện để đáp ứng các yêu cầu của dự án bằng cách:

  • Tuyển dụng 40 ca sĩ nói bốn ngôn ngữ và đảm bảo sự đa dạng về giới tính, cao độ và phong cách âm nhạc.
  • Thực hiện các bản ghi âm chất lượng phòng thu bằng nhiều loại micro khác nhau (micro động, micro tụ điện) để thu được nhiều loại dữ liệu âm thanh.
  • Chuyển ngữ chính xác các bản ghi âm sang ngôn ngữ được sử dụng, tuân theo các quy tắc cụ thể dành cho các bài hát song ngữ.
  • Sự đồng ý: Mẫu đơn đồng ý sẽ được thu thập từ tất cả người tham gia trước khi ghi âm.

Kết quả

Dữ liệu âm thanh ca hát đa dạng được thu thập cho phép khách hàng phát triển một bộ đào tạo mạnh mẽ cho các thuật toán EQ và nén tự động, nâng cao chất lượng xử lý âm thanh. Các bản ghi chất lượng cao và siêu dữ liệu chi tiết đảm bảo rằng các mô hình AI có thể xử lý nhiều thể loại âm nhạc và sự phức tạp về ngôn ngữ. Kết quả chính:

  • Dữ liệu âm thanh đa dạng, chất lượng cao để đào tạo hệ thống AI.
  • Phiên âm chính xác và siêu dữ liệu để phân tích.
  • Nền tảng vững chắc hơn cho các công cụ xử lý âm thanh dựa trên AI.

Phân phôi

  • 20 giờ ghi âm chất lượng phòng thu (PCM 48 kHz, tệp WAV đơn âm).
  • Phiên âm theo ngôn ngữ của bản ghi âm.
  • Siêu dữ liệu: nhãn hiệu/mẫu micro, giao diện âm thanh/DAC, hồ sơ ca sĩ, thông tin thể loại.
  • Định dạng JSON để phiên âm với siêu dữ liệu.

Khả năng nắm bắt sự đa dạng của tài năng âm nhạc và sự phong phú về ngôn ngữ của Shaip vô cùng có giá trị đối với sự phát triển của thuật toán EQ và nén của chúng tôi. Nhóm của họ đảm bảo rằng mọi khía cạnh, từ tuyển dụng nghệ sĩ đến chất lượng ghi âm, đều được xử lý chính xác, khiến đây trở thành bước thiết yếu trong việc tinh chỉnh hệ thống xử lý âm thanh tự động của chúng tôi.

Chúng tôi thực sự biết ơn sự tin tưởng và hợp tác mà Shaip đã thể hiện trong suốt quá trình. Mặc dù chúng tôi có những yêu cầu kỹ thuật khắt khe và đầy thách thức, nhưng sự tận tâm, chăm chỉ và chú ý đến từng chi tiết của họ vẫn rất tuyệt vời. Thật là một niềm vui khi được làm việc với một nhóm luôn cam kết mang đến sự xuất sắc

Vàng-5 sao