Phân tích cảm xúc và tình cảm trong lời nói

Cho phép các trung tâm cuộc gọi thông minh hơn với thông tin chi tiết do AI thúc đẩy

Tận dụng chuyên môn của Shaip trong việc thu thập và chú thích dữ liệu âm thanh để nâng cao khả năng phát hiện cảm xúc và tình cảm theo thời gian thực nhằm cải thiện dịch vụ khách hàng.

Phân tích cảm xúc và tình cảm của lời nói

Phân tích cảm xúc và tình cảm giọng nói tự động

Khách hàng đã hợp tác với Shaip để phát triển một mô hình phân tích cảm xúc và tình cảm giọng nói tự động cho các tổng đài. Dự án bao gồm việc thu thập và chú thích 250 giờ dữ liệu âm thanh của tổng đài trên bốn phương ngữ tiếng Anh – Hoa Kỳ, Anh, Úc và Ấn Độ. Điều này cho phép khách hàng nâng cao các mô hình AI của họ để phát hiện các cảm xúc như Vui vẻ, Trung lập và Tức giận, và các cảm xúc như Không hài lòng và Hài lòng trong các tương tác với khách hàng theo thời gian thực.

Dự án đã vượt qua những thách thức như phát hiện lời mỉa mai, độ dài âm thanh khác nhau và những tín hiệu bằng lời tinh tế thể hiện sự không hài lòng, mang lại kết quả chính xác và có thể mở rộng quy mô.

Phân tích cảm xúc và tình cảm giọng nói tự động

Số liệu thống kê chính

Dữ liệu âm thanh của trung tâm cuộc gọi được thu thập và chú thích trên 4 phương ngữ tiếng Anh

250 giờ

Số lượng ngôn ngữ

Tiếng Anh Mỹ, tiếng Anh Anh, tiếng Anh Úc và tiếng Anh Ấn Độ

Trường hợp sử dụng

Phân tích cảm xúc và tình cảm giọng nói tự động

Phạm vi dự án

Thu thập và chú thích 250 giờ dữ liệu âm thanh của trung tâm cuộc gọi bằng bốn phương ngữ tiếng Anh:

  • Tiếng Anh Mỹ (30%)
  • Tiếng Anh Anh (30%)
  • Tiếng Anh Úc (20%)
  • Tiếng Anh Ấn Độ (20%)

Trong phạm vi

Dự án bao gồm ba phần:

  • Dữ liệu âm thanh có các thực thể cụ thể, bao gồm siêu dữ liệu.
  • Các tệp đã phiên âm tương ứng với thông tin chi tiết về phân đoạn và đóng dấu thời gian.
  • Chú thích cảm xúc và tình cảm:
    • Cảm xúc âm thanh: Vui vẻ, Trung lập, Giận dữ
    • Phiên âm tình cảm: Cực kỳ không hài lòng, Không hài lòng, Trung lập, Hài lòng, Cực kỳ hài lòng

Những thách thức

Sự đa dạng của phương ngữ

Đảm bảo dữ liệu âm thanh thể hiện chính xác các phương ngữ được chỉ định (Mỹ, Anh, Úc và Ấn Độ) có thể là một thách thức. Các khu vực khác nhau trong các danh mục này có thể sử dụng từ vựng, giọng và cách phát âm khác nhau.

Yêu cầu chuyên môn

Việc chú thích âm thanh và bản ghi chép cảm xúc đòi hỏi người chú thích được đào tạo, am hiểu các sắc thái văn hóa và sự tinh tế về ngôn ngữ của từng phương ngữ.

Sự phức tạp của cảm xúc và tình cảm

Cảm xúc âm thanh và tình cảm phiên âm không phải lúc nào cũng khớp nhau. Ví dụ, một người có thể nghe có vẻ tức giận nhưng thực sự lại thể hiện sự hài lòng. Ví dụ, xử lý các cuộc trò chuyện mỉa mai bằng các cụm từ mỉa mai như "Ồ, tuyệt quá, một người khác không thể giải quyết vấn đề của tôi" cần được chú thích chính xác về cảm xúc và tình cảm.

Chất lượng âm thanh

Chất lượng bản ghi âm có thể khác nhau, ảnh hưởng đến độ chính xác của bản ghi âm và khả năng phát hiện cảm xúc. Tiếng ồn xung quanh, các cuộc trò chuyện chồng chéo và thiết bị ghi âm khác nhau có thể gây ra những thách thức đáng kể.

Chụp chính xác

Sự không hài lòng thể hiện qua lời nói như thở ra mạnh hoặc các dấu hiệu thất vọng khác.

Dung dịch

Tận dụng các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) tiên tiến, các giải pháp sau đây đã được triển khai:

Thu Thập Dữ Liệu

  • 250 giờ dữ liệu âm thanh được chia thành các hạn ngạch cụ thể theo phương ngữ.
    • Tiếng Anh Mỹ (30% hoặc 75 giờ)
    • Tiếng Anh Anh (30% hoặc 75 giờ)
    • Tiếng Anh Úc (20% hoặc 50 giờ)
    • Tiếng Anh Ấn Độ (20% hoặc 50 giờ)
  • Người dùng giọng bản xứ từ Hoa Kỳ, Vương quốc Anh, Úc và Ấn Độ.
  • Các mẫu giọng nói có nhiều tông điệu khác nhau, đặc biệt tập trung vào các trường hợp cảm xúc giọng nói là Tức giận và cảm xúc văn bản là Không hài lòng hoặc Cực kỳ không hài lòng.

Phân loại/Chú thích văn bản

Phân loại văn bản

  • Chú thích cảm xúc và tình cảm dựa trên các danh mục cụ thể:
    • Cảm xúc âm thanh: Vui vẻ, Trung lập, Giận dữ.
    • Phiên âm tình cảm: Cực kỳ không hài lòng, Không hài lòng, Trung lập, Hài lòng, Cực kỳ hài lòng.
  • Mỗi đoạn âm thanh chỉ chứa một cảm xúc chính.
  • Các phân đoạn trễ khác nhau (từ 2 đến 30 giây) được áp dụng trong các cuộc hội thoại.
  • Định dạng phiên âm tuân theo đầu ra JSON, bao gồm thông tin người nói bên trái và bên phải, thẻ cảm xúc và cảm xúc của phân đoạn cuối cùng.

 

Đảm bảo chất lượng

Đảm bảo chất lượng
Độ chính xác của phiên âm:

  • Đảm bảo cung cấp 250 giờ âm thanh với thời lượng tối thiểu là:
    • Độ chính xác Tỷ lệ lỗi phiên mã (TER) 90%.
    • Tỷ lệ nhận dạng từ (WER) chính xác 95%.

Quy trình QA:

  • Kiểm toán thường xuyên các mẫu được chọn ngẫu nhiên từ tập dữ liệu đã được tiến hành.
    • Sử dụng các công cụ tự động để đo TER và WER trên toàn bộ tập dữ liệu.
    • Việc xem xét thủ công các phần được đánh dấu đảm bảo ngưỡng độ chính xác được đáp ứng.

Các kết quả

Dữ liệu đào tạo sẽ hỗ trợ phát triển mô hình phát hiện cảm xúc và tình cảm tự động, mang lại:

  • Phát hiện cảm xúc theo thời gian thực trong các tương tác tại trung tâm cuộc gọi.
  • Xử lý hiệu quả hơn các trường hợp phức tạp, chẳng hạn như mỉa mai hoặc không hài lòng.
  • Khả năng mở rộng cho các dự án trong tương lai, dễ dàng thích ứng với khối lượng dữ liệu tăng lên và nhiều ngôn ngữ hơn.

Phân phôi

  • 250 giờ tệp âm thanh (ở định dạng PCM WAV 8 kHz, đơn âm)
  • Tệp phiên âm (có phân đoạn, thẻ tình cảm và mã định danh người nói)
  • Siêu dữ liệu (thời lượng âm thanh, thông tin chi tiết về người nói, v.v.)

Việc hợp tác với Shaip cho dự án dữ liệu tổng đài của chúng tôi là một thời điểm then chốt trong việc thúc đẩy các giải pháp AI của chúng tôi. Nhóm của họ đã thu thập và chú thích chuyên nghiệp 250 giờ dữ liệu âm thanh trên bốn phương ngữ tiếng Anh chính – Hoa Kỳ, Vương quốc Anh, Úc và Ấn Độ – đảm bảo chất lượng và độ chính xác cao nhất. Sự chú ý đến các sắc thái ngôn ngữ trên các khu vực này đã cải thiện đáng kể độ chính xác của các mô hình nhận dạng giọng nói của chúng tôi. Ngoài ra, chuyên môn của Shaip trong việc xử lý các dự án chú thích dữ liệu phức tạp đã đóng vai trò quan trọng trong việc giúp chúng tôi xây dựng các mô hình đáng tin cậy, tuân thủ ở quy mô lớn.

Vàng-5 sao