Định nghĩa
Chú thích dữ liệu là quá trình gắn nhãn dữ liệu thô bằng các thẻ giúp dữ liệu có ý nghĩa đối với các mô hình AI. Ví dụ bao gồm gắn nhãn hình ảnh theo danh mục đối tượng hoặc gắn thẻ cảm xúc cho văn bản.
Mục đích
Mục đích là tạo ra các tập dữ liệu đào tạo cho phép AI học các mẫu trong học có giám sát. Nếu không có chú thích, nhiều tác vụ AI sẽ không thể thực hiện được.
Tầm quan trọng
- Cung cấp “sự thật cơ bản” để đào tạo các mô hình ML.
- Chất lượng chú thích ảnh hưởng đến độ chính xác và tính công bằng của mô hình.
- Nhiệm vụ tốn thời gian và nguồn lực.
- Thường đòi hỏi chuyên môn sâu (ví dụ: chú thích y khoa).
Quy trình triển khai
- Xác định nhiệm vụ và dán nhãn các danh mục.
- Thu thập và xử lý sơ bộ dữ liệu thô.
- Sử dụng công cụ chú thích để dán nhãn.
- Xác thực thông qua kiểm tra chất lượng.
- Xuất dữ liệu có nhãn để đào tạo mô hình.
Ví dụ (Thực tế)
- Amazon Mechanical Turk: nền tảng chú thích được cộng đồng đóng góp.
- Shaip: dịch vụ chú thích dữ liệu cho bộ dữ liệu xe tự hành.
- Ghi nhãn hình ảnh X-quang: bệnh viện chú thích ảnh chụp để chẩn đoán bằng AI.
Tài liệu tham khảo / Đọc thêm
- Chú thích dữ liệu cho AI — NIST.
- Chú thích và gắn nhãn tập dữ liệu — Giao dịch IEEE về Kỹ thuật dữ liệu.
- ISO/IEC 24617: Khung chú thích ngữ nghĩa — ISO.
- Chú thích dữ liệu là gì – Shaip