Bạn đã bao giờ tự hỏi làm thế nào chatbot và trợ lý ảo thức dậy khi bạn nói, 'Hey Siri' hoặc 'Alexa'? Đó là do bộ sưu tập cách phát âm văn bản hoặc kích hoạt các từ được nhúng trong phần mềm sẽ kích hoạt hệ thống ngay khi nghe thấy từ đánh thức được lập trình.
Tuy nhiên, quá trình tổng thể để tạo ra dữ liệu âm thanh và lời nói không đơn giản như vậy. Đó là một quá trình phải được thực hiện đúng kỹ thuật thì mới có được kết quả như mong muốn. Do đó, blog này sẽ chia sẻ lộ trình để tạo ra những câu nói / từ kích hoạt hay hoạt động liền mạch với AI đàm thoại của bạn.
“Lời nói” trong AI là gì?
Trong AI đàm thoại (chatbot, trợ lý giọng nói), một câu nói là một đoạn ngắn đầu vào của người dùng—chính xác là những từ mà người dùng nói hoặc nhập. Các mô hình sử dụng câu nói để xác định ý định (mục tiêu) của người dùng và bất kỳ thực thể nào (chi tiết như ngày tháng, tên sản phẩm, số tiền).
Ví dụ đơn giản
Bot thương mại điện tử
Lời nói: “Theo dõi đơn hàng của tôi 123-456".
- Ý định: Theo dõi đơn hàng
- Thực thể: order_id = 123-456
Bot viễn thông
Lời nói: “Nâng cấp gói dữ liệu của tôi".
- Ý định: Thay đổi kế hoạch
- Thực thể: plan_type = dữ liệu
Trợ lý giọng nói ngân hàng
Lời nói (nói): “WSố dư tài khoản séc của tôi hôm nay là bao nhiêu?"
- Mục đích: Kiểm tra số dư
- Các thực thể: account_type = kiểm tra, date = hôm nay
Tại sao AI đàm thoại của bạn cần dữ liệu phát âm tốt
Nếu bạn muốn chatbot hoặc trợ lý giọng nói của mình hữu ích—chứ không phải dễ bị tổn thương—hãy bắt đầu với dữ liệu lời nói tốt hơn. Lời nói là những cụm từ thô mà mọi người nói hoặc nhập để hoàn thành công việc ("đặt phòng cho tôi vào ngày mai", "thay đổi kế hoạch của tôi", "tình hình thế nào?"). Chúng hỗ trợ phân loại ý định, trích xuất thực thể và cuối cùng là trải nghiệm của khách hàng. Khi lời nói đa dạng, mang tính đại diện và được gắn nhãn tốt, mô hình của bạn sẽ học được ranh giới phù hợp giữa các ý định và xử lý dữ liệu đầu vào thực tế hỗn loạn một cách cân bằng.
Xây dựng kho lưu trữ lời nói của bạn: một quy trình làm việc đơn giản

1. Bắt đầu từ ngôn ngữ người dùng thực tế
Mine nhật ký trò chuyện, truy vấn tìm kiếm, bản ghi IVR, ghi chú của đại lývà email của khách hàng. Phân nhóm chúng theo mục tiêu của người dùng để gieo mầm ý định. (Bạn sẽ nắm bắt được những thành ngữ và mô hình tư duy mà bạn sẽ không nghĩ đến trong một căn phòng.)
2. Tạo sự thay đổi có mục đích
Đối với mỗi mục đích, tác giả đưa ra nhiều ví dụ khác nhau:
- Viết lại động từ và danh từ (“hủy bỏ”, “dừng lại”, “kết thúc”; “kế hoạch”, “đăng ký”).
- Kết hợp độ dài câu và cấu trúc câu (câu hỏi, câu chỉ thị, câu không hoàn chỉnh).
- Bao gồm lỗi đánh máy, từ viết tắt, biểu tượng cảm xúc (để trò chuyện), chuyển đổi mã nếu có liên quan.
- Thêm các trường hợp tiêu cực trông giống nhau nhưng nên không ánh xạ tới ý định này.
3. Cân bằng các lớp học của bạn
Việc đào tạo quá mất cân bằng (ví dụ: 500 ví dụ cho một mục đích và 10 ví dụ cho các mục đích khác) sẽ gây hại cho chất lượng dự đoán. Giữ kích thước ý định tương đối đồng đều và cùng nhau phát triển như giao thông đã dạy bạn.
4. Xác nhận chất lượng trước khi đào tạo
Chặn dữ liệu tín hiệu thấp bằng người xác nhận trong quá trình biên soạn/thu thập:
- Phát hiện ngôn ngữ: đảm bảo các ví dụ nằm trong ngôn ngữ đích.
- Máy dò tiếng vô nghĩa: bắt những chuỗi vô nghĩa.
- Kiểm tra trùng lặp/gần trùng lặp: duy trì sự đa dạng cao.
- Biểu thức chính quy/chính tả & ngữ pháp: thực thi các quy tắc về phong cách khi cần thiết.
Trình xác thực thông minh (như Appen sử dụng) có thể tự động hóa phần lớn hoạt động kiểm soát này.
5. Gắn nhãn các thực thể một cách nhất quán
Xác định loại khe cắm (ngày, sản phẩm, địa chỉ) và hiển thị chú thích cách đánh dấu ranh giới. Các mẫu như Mẫu bất kỳ trong LUIS có thể phân biệt các khoảng thời gian dài, thay đổi (ví dụ: tên tài liệu) gây nhầm lẫn cho các mô hình.
6. Kiểm tra như thể nó đang được sản xuất
Đẩy vô hình các phát ngôn thực tế đến điểm cuối dự đoán hoặc bot dàn dựng, xem xét các phân loại sai và thúc đẩy Đưa các ví dụ mơ hồ vào quá trình đào tạo. Biến việc này thành một vòng lặp: thu thập → đào tạo → xem lại → mở rộng.
“Thực tế hỗn loạn” thực sự có nghĩa là gì (và cách xử lý nó)
Người dùng thực sự hiếm khi nói những câu hoàn chỉnh. Hãy lưu ý:
- Các mảnh vỡ: “hoàn tiền phí vận chuyển”
- Mục tiêu hợp chất: “hủy đơn hàng và đặt hàng lại màu xanh”
- Các thực thể ngầm định: “gửi đến văn phòng của tôi” (bạn phải biết văn phòng nào)
- Sự mơ hồ: “thay đổi kế hoạch của tôi” (kế hoạch nào? có hiệu lực khi nào?)
Sửa chữa thực tế
- Cho lời nhắc làm rõ chỉ khi cần thiết; tránh hỏi quá nhiều.
- Chụp chuyển tiếp ngữ cảnh (các đại từ như “thứ tự đó”, “thứ cuối cùng”).
- Sử dụng ý định dự phòng với mục tiêu phục hồi: “Tôi có thể giúp hủy hoặc thay đổi kế hoạch—bạn muốn gì?”
- Màn Hình ý định sức khỏe (sự nhầm lẫn, va chạm) và thêm dữ liệu vào nơi yếu
Trợ lý giọng nói và từ đánh thức: dữ liệu khác nhau, quy tắc tương tự

Khi nào (và cách) sử dụng dữ liệu có sẵn so với dữ liệu tùy chỉnh

- Có sẵn: tăng cường phạm vi phủ sóng ở những địa phương mới, sau đó đo lường những nơi còn nhiều nhầm lẫn.
- Tuỳ chỉnh: nắm bắt ngôn ngữ tên miền của bạn (điều khoản chính sách, tên sản phẩm) và “giọng nói thương hiệu”.
- Pha trộn: bắt đầu rộng, sau đó thêm dữ liệu có độ chính xác cao cho các mục đích có tác động lớn nhất đến sự chệch hướng hoặc doanh thu.
Nếu bạn cần một đường dốc lên nhanh, Shaip cung cấp bộ sưu tập lời nói và các tập dữ liệu trò chuyện/lời nói có sẵn trên nhiều ngôn ngữ; xem nghiên cứu điển hình về việc triển khai trợ lý đa ngôn ngữ.
danh sách kiểm tra thực hiện

- Xác định ý định và thực thể bằng các ví dụ và tiêu cực trường hợp
- Tác giả đa dạng, cân bằng các câu nói cho mỗi ý định (bắt đầu nhỏ, tăng dần hàng tuần)
- Thêm trình xác thực (ngôn ngữ, từ vô nghĩa, trùng lặp, biểu thức chính quy) trước khi đào tạo
- Thiết lập vòng lặp đánh giá từ lưu lượng truy cập thực tế; quảng bá các mục mơ hồ để đào tạo
- Theo dõi ý định sức khỏe và va chạm; sửa chữa bằng những phát ngôn mới
- Đánh giá lại theo kênh/địa phương để phát hiện sớm hiện tượng trôi dạt
Shaip có thể giúp gì
- Thu thập và dán nhãn lời nói tùy chỉnh (trò chuyện + giọng nói) với trình xác thực để duy trì chất lượng cao.
- Bộ dữ liệu sẵn sàng sử dụng trên 150+ ngôn ngữ/biến thể để khởi động nhanh chóng.
- Các chương trình đánh giá đang diễn ra chuyển đổi lưu lượng truy cập trực tiếp thành dữ liệu đào tạo tín hiệu cao một cách an toàn (kiểm soát PII).
Khám phá đa ngôn ngữ của chúng tôi Nghiên cứu trường hợp thu thập phát ngôn.