Nâng cao khả năng hiểu truy vấn tìm kiếm bằng chú thích của con người
Tận dụng khả năng phán đoán của con người và phân loại có cấu trúc để xử lý nhất quán các trường hợp ngoại lệ mơ hồ và cải thiện mức độ liên quan của tìm kiếm cho một tập đoàn thương mại điện tử hàng đầu có trụ sở tại Ba Lan.
Tổng Quan Dự Án
Khách hàng, một công ty thương mại điện tử hàng đầu có trụ sở tại Ba Lan, nhận được hàng triệu truy vấn tìm kiếm mỗi ngày. Nhiều truy vấn trong số này là mơ hồ, bao gồm lỗi chính tả, hoặc tham khảo nhiều loại sản phẩm, tạo ra thách thức cho các công cụ tìm kiếm tự động.
Để cải thiện sđộ chính xác của tìm kiếm và trải nghiệm của khách hàngShaip đã phát triển một khuôn khổ chú thích có cấu trúc lấy cảm hứng từ nghiên cứu của Baymard. Các truy vấn được phân loại một cách có hệ thống thành loại 11 (ví dụ: Danh mục sản phẩm, Chủ đề, Thuộc tính cụ thể, Chính xác, Người bán, Triệu chứng, Không phải sản phẩm, v.v.) với quy tắc ưu tiên để đảm bảo phân loại thống nhất.
Số liệu thống kê chính
Hơn 50,000 truy vấn đã được chú thích
trên nhiều hạng mục
11 Lớp chú thích
với các định nghĩa rõ ràng và các quy tắc ưu tiên.
Quy trình làm việc 3 bước
Chú thích ➔ Kiểm định chất lượng ➔ Trọng tài chuyên gia
Phạm vi dự án
Dự án tập trung vào việc xây dựng một phân loại toàn diện để nắm bắt toàn bộ hành vi tìm kiếm của người dùng trên nền tảng thị trường quy mô lớn. Phạm vi bao gồm:
- Phát triển phân loại gồm 11 danh mục với định nghĩa rõ ràng và thứ bậc ưu tiên để giải quyết các trường hợp truy vấn có thể phù hợp với nhiều lớp.
- Chú thích hàng ngàn truy vấn thực tế trên cả lĩnh vực sản phẩm và phi sản phẩm để đào tạo và hiệu chỉnh hệ thống phân loại.
- Giải quyết các truy vấn mơ hồ bằng cách chuyển đến các Chuyên gia về chủ đề (SME), đảm bảo tính nhất quán trong cách xử lý các trường hợp đặc biệt.
- Cung cấp các ví dụ có chú thích và lý giải để hiệu chuẩn QA, tạo ra một bộ đào tạo mà những người chú thích trong tương lai có thể dựa vào để tham khảo.
Bao gồm các chú thích mẫu:
- De dietrich ELENSIO ➔ Exact
- E 91 ➔ Khó nói
- tezfiles ➔ Thương gia
- subaru brz toyota gt86 ➔ Non-Product
- okulary BHP ➔ Danh mục sản phẩm
- stawu skokowego ➔ Triệu chứng
Những thách thức
Dự án đã phải vượt qua một số các vấn đề về độ phức tạp của dữ liệu là những đặc điểm điển hình trong môi trường tìm kiếm thương mại điện tử:
Sự mơ hồ
Các truy vấn như “E 91” có thể tương ứng với các sản phẩm rất khác nhau (mẫu xe, hộp cầu chì, dấu in trên viên nang), khiến cho việc giải thích trở nên không chắc chắn.
Lỗi đánh máy & Biến thể
Các lỗi chính tả hoặc viết tắt, chẳng hạn như “lampa uf zestaw”, cần phải có sự diễn giải theo ngữ cảnh của con người để hiểu là “lampa UV zestaw”.
Các danh mục chồng chéo
Các truy vấn thường khớp với nhiều lớp (ví dụ: Thuộc tính chính xác so với Tương thích so với Thuộc tính cụ thể), yêu cầu các quy tắc ưu tiên để đảm bảo tính nhất quán.
Đầu vào không hợp lệ
Mã sê-ri hoặc mã định danh không khớp với bất kỳ sản phẩm nào cần được gắn thẻ là "Cụm từ không hợp lệ" thay vì bị phân loại sai.
khả năng mở rộng
Áp dụng nhất quán các quy tắc phân loại sắc thái trên hàng chục ngàn truy vấn yêu cầu quản lý chú thích và đảm bảo chất lượng mạnh mẽ.
Dung dịch
Để giải quyết những thách thức này, một khung chú thích có cấu trúc đã được giới thiệu, cân bằng giữa tự động hóa và giám sát của con người:
Nguyên tắc chú thích
Các định nghĩa, ví dụ và hướng dẫn chi tiết được tạo ra để giúp người chú thích phân loại một cách nhất quán, ngay cả trong các tình huống phức tạp.
Quy tắc ưu tiên
Một hệ thống phân cấp đã được thiết lập (ví dụ: Tương thích > Chính xác > Thuộc tính cụ thể) để các trường hợp chồng chéo được giải quyết một cách có hệ thống.
Quy trình QA đa cấp
- Chú thích ban đầu của người chú thích được đào tạo.
- Đánh giá thứ cấp bởi các chuyên gia QA.
- Nâng cấp lên các doanh nghiệp vừa và nhỏ để trọng tài về các trường hợp ngoại lệ hoặc bất đồng
Ứng dụng thực tế của các nguyên tắc với các truy vấn thực tế
- 4008146044786 ➔ Cụm từ không hợp lệ
- miraculum królika ➔ Thuộc tính chủ đề
- màu xám thiên hà zcd ➔ tương hợp
- owczarek belgijski ➔ chủ đề
Điều này đảm bảo sự liên kết, chất lượng và độ tin cậy trên toàn bộ đường ống chú thích.
Kết quả
Sáng kiến này mang lại những cải tiến đáng kể cho hệ sinh thái tìm kiếm của khách hàng:
- Hơn 50,000 truy vấn được phân loại với độ chính xác cao, hình thành tập dữ liệu đào tạo mạnh mẽ để cải thiện tìm kiếm.
- Cải thiện tính liên quan của kết quả tìm kiếm, trực tiếp nâng cao sự hài lòng của người dùng và giảm sự thất vọng từ những kết quả không liên quan.
- Giảm sự mơ hồ bằng cách giải quyết các trường hợp ngoại lệ một cách có hệ thống thông qua trọng tài do SME thúc đẩy và các quy tắc ưu tiên.
- Khả năng khám phá sản phẩm được nâng cao, đảm bảo người dùng có thể tìm thấy các mục chính xác hơn theo danh mục, thuộc tính và chủ đề.
Nhìn chung, dự án đã đặt nền móng cho một trải nghiệm tìm kiếm thông minh hơn, tập trung vào người dùng, giúp khách hàng duy trì lợi thế cạnh tranh trên thị trường thương mại điện tử.
Quy trình chú thích của con người đã mang lại sự rõ ràng cho các truy vấn tìm kiếm phức tạp. Phân loại có cấu trúc và các quy tắc ưu tiên đã cải thiện đáng kể độ chính xác của công cụ tìm kiếm và mang lại trải nghiệm người dùng liền mạch hơn.
– Trưởng phòng Tìm kiếm & Khám phá, Tập đoàn thương mại điện tử có trụ sở tại Ba Lan