Nghiên cứu tình huống: Cấp phép dữ liệu y tế
Chuyển đổi việc chăm sóc nhi khoa và sản phụ khoa thông qua đào tạo chú thích và quản lý dữ liệu chính xác
Mở khóa sức mạnh của dữ liệu y tế: Quản lý dữ liệu toàn diện, ẩn danh, ICD-10 CM và chú thích để đào tạo mô hình AI vượt trội.
Tổng Quan Dự Án
Shaip hợp tác với một công ty AI chăm sóc sức khỏe hàng đầu để tuyển chọn và chú thích các tập dữ liệu y tế chất lượng cao, ẩn danh để đào tạo các mô hình NLP tiên tiến. Dự án tập trung vào các chuyên khoa Nhi khoa và Sản phụ khoa, cung cấp hồ sơ bệnh án ngoại trú được chú thích bằng mã CM ICD-10 thông qua một khuôn khổ API mạnh mẽ.
Bộ dữ liệu được xây dựng nhằm hỗ trợ đào tạo AI về tài liệu chăm sóc sức khỏe thực tế, nâng cao khả năng của mô hình trong việc hiểu các câu chuyện lâm sàng.
Số liệu thống kê chính
750 trang / Khoảng 300 hồ sơ bệnh nhân ngoại trú
375 trang Nhi khoa
375 trang Sản phụ khoa
Chú thích mã y tế ICD-10 CM 2023
Phạm vi dự án
| Loại tập dữ liệu | Đặc biệt | Khối lượng | Siêu dữ liệu đã được thu thập | Ghi Chú |
|---|---|---|---|---|
| Ghi chú y tế | Nhi khoa | 375 trang (~150 bản ghi) |
Tên tập tin, Chuyên ngành, Loại tài liệu, Lớp bệnh nhân (Ngoại trú) |
Bao gồm các phần Đánh giá / Kế hoạch |
| Ob-gyn. | 375 trang (~150 bản ghi) | |||
| Chú thích | ICD-10 CM (2023) | Bộ dữ liệu đầy đủ | Ánh xạ mã thông qua API | Xác thực mã bởi các lập trình viên nằm ngoài phạm vi |
Những thách thức
Dự án đặt ra một số thách thức quan trọng đòi hỏi phải lập kế hoạch và thực hiện tỉ mỉ:
1. Thu thập dữ liệu chuyên ngành cụ thể
Việc tìm kiếm hồ sơ bệnh án ngoại trú chất lượng cao chỉ từ các chuyên khoa Nhi và Sản phụ khoa là một thách thức. Mỗi tài liệu cần bao gồm các phần lâm sàng chính như Đánh giá và Kế hoạch để hỗ trợ chú thích chính xác.
2. Xóa nhận dạng PHI toàn diện
Đảm bảo xóa hoàn toàn mọi thông tin nhận dạng cá nhân (PII) trong khi vẫn duy trì bối cảnh y tế là điều cần thiết để tuân thủ HIPAA. Điều này yêu cầu phải xem xét chi tiết để ngăn chặn mọi vi phạm quyền riêng tư.
3. Chú thích CM ICD-10 phức tạp
Việc áp dụng mã ICD-10 CM (2023) chính xác thông qua API rất phức tạp do các phong cách tường thuật và thuật ngữ y khoa khác nhau. Tính nhất quán và độ chính xác trong mã hóa rất quan trọng để đảm bảo đào tạo mô hình AI đáng tin cậy.
4. Độ chính xác và tính nhất quán của siêu dữ liệu
Việc thu thập và xác thực siêu dữ liệu như chuyên khoa, loại tài liệu và nhóm bệnh nhân mà không có sự khác biệt là rất quan trọng. Bất kỳ sự không khớp nào cũng có thể ảnh hưởng đến việc đào tạo mô hình và khả năng sử dụng dữ liệu.
5. Lọc bệnh nhân ngoại trú nghiêm ngặt
Đảm bảo tất cả hồ sơ đều là hồ sơ ngoại trú sẽ làm tăng thêm sự phức tạp vì nhiều tài liệu lâm sàng có thể chứa nhiều nhóm bệnh nhân khác nhau hoặc các mục không đầy đủ.
6. Tiêu chuẩn đảm bảo chất lượng và độ chính xác
Để đạt được ngưỡng độ chính xác 90%, cần phải tiến hành đánh giá nhiều cấp để loại bỏ thông tin trùng lặp, xác thực sự phù hợp với chuyên khoa và đảm bảo xóa nhận dạng — với các điều khoản cho phép làm lại khi cần.
Dung dịch
Cấp phép và chú thích dữ liệu toàn diện
- Hồ sơ bệnh án ngoại trú sản phụ khoa và nhi khoa được cấp phép
- Đảm bảo bao gồm các phần quan trọng: Khiếu nại chính, Lịch sử, ROS, Đánh giá, Kế hoạch
- Chú thích ICD-10 CM dựa trên API (phiên bản 2023)
Hủy nhận dạng & Tuân thủ
- Đã thay thế PHI bằng các chỗ giữ chỗ (PERSON_NAME, DATE, LOCATION, v.v.)
- Đảm bảo tuân thủ các tiêu chuẩn bảo mật dữ liệu chăm sóc sức khỏe
Đánh dấu siêu dữ liệu
- Siêu dữ liệu chi tiết được ghi lại theo từng tệp:
-
- File Name
- Chuyên khoa (Nhi khoa hoặc Sản phụ khoa)
- Loại tài liệu (Theo dõi, H&P, Tham vấn)
- Hạng bệnh nhân (Chỉ dành cho bệnh nhân ngoại trú)
Kiểm tra chất lượng
- Đánh giá chất lượng nghiêm ngặt với:
- Không có bản ghi trùng lặp
- Xác thực sự phù hợp với chuyên ngành
- Chỉ kiểm tra ngoại trú
- Kiểm tra tính nhất quán của siêu dữ liệu
- Thay thế hoặc sửa chữa các bản ghi có độ chính xác dưới ngưỡng 90%
Kết quả
Shaip đã cung cấp một tập dữ liệu ghi chú y tế có cấu trúc và chú thích cho phép khách hàng:
- Đào tạo các mô hình AI để dự đoán mã CM ICD-10 chính xác
- Nâng cao khả năng NLP trong các tình huống chăm sóc sức khỏe thực tế
- Duy trì sự tuân thủ các tiêu chuẩn về quyền riêng tư và quy định
- Mở rộng mô hình AI chăm sóc sức khỏe trên phạm vi nhi khoa và sản phụ khoa
Cách tiếp cận có cấu trúc của Shaip đối với việc quản lý và chú thích tập dữ liệu đã vượt quá mong đợi của chúng tôi. Độ chính xác, khả năng ẩn danh và độ chính xác của siêu dữ liệu đã tăng cường đáng kể quy trình đào tạo mô hình AI của chúng tôi.