Chú thích dữ liệu – NER

Chú thích Nhận dạng đối tượng được đặt tên (NER) cho NLP lâm sàng

Ner annotation

Dữ liệu văn bản lâm sàng được chú thích rõ ràng và Tiêu chuẩn vàng để đào tạo/phát triển NLP lâm sàng nhằm xây dựng phiên bản tiếp theo của API chăm sóc sức khỏe

Tầm quan trọng của Xử lý ngôn ngữ tự nhiên (NLP) lâm sàng ngày càng được công nhận trong những năm qua và dẫn đến những tiến bộ mang tính biến đổi. NLP lâm sàng cho phép máy tính hiểu được ý nghĩa phong phú ẩn sau bản phân tích bằng văn bản của bác sĩ về bệnh nhân. NLP lâm sàng có thể có nhiều trường hợp sử dụng, từ phân tích sức khỏe dân số đến cải thiện tài liệu lâm sàng, nhận dạng giọng nói cho đến kết hợp thử nghiệm lâm sàng, v.v.

Để phát triển và đào tạo bất kỳ mô hình NLP lâm sàng nào, bạn yêu cầu các bộ dữ liệu chính xác, không thiên vị và được chú thích tốt với số lượng lớn. Tiêu chuẩn Vàng và dữ liệu đa dạng giúp nâng cao độ chính xác và khả năng thu hồi của động cơ NLP.

Khối lượng

Số tài liệu được chú thích
10
Số trang được chú thích
10 +
Thời lượng dự án
< 1 tháng

Những thách thức

Khách hàng mong muốn được đào tạo và phát triển Nền tảng xử lý ngôn ngữ tự nhiên (NLP) của họ với các loại thực thể mới, đồng thời xác định mối quan hệ giữa các loại thực thể khác nhau. Hơn nữa, họ đang đánh giá các nhà cung cấp có độ chính xác cao, tuân thủ luật pháp địa phương và có kiến ​​thức y tế cần thiết để chú thích một tập hợp dữ liệu lớn.

Nhiệm vụ là dán nhãn và chú thích lên tới 20,000 Hồ sơ được dán nhãn bao gồm tối đa 15,000 Hồ sơ được dán nhãn từ dữ liệu hồ sơ sức khỏe điện tử (EHR) của bệnh nhân nội trú và ngoại trú và lên tới 5,000 Hồ sơ được dán nhãn từ các mệnh lệnh y tế được chép lại, phân bố đều trên (1) xuất xứ địa lý và ( 2) các chuyên khoa y tế có sẵn.

Vì vậy, để tóm tắt những thách thức:

  • Tổ chức dữ liệu lâm sàng không đồng nhất để đào tạo Nền tảng NLP
  • Xác định mối quan hệ giữa các thực thể khác nhau để thu được thông tin quan trọng
  • Khả năng và chuyên môn để dán nhãn/chú thích một bộ tài liệu lâm sàng phức tạp
  • Kiểm soát chi phí để gắn nhãn / chú thích một lượng lớn dữ liệu để đào tạo NLP lâm sàng trong khung thời gian quy định
  • Chú thích các thực thể trong tập dữ liệu lâm sàng bao gồm 75% EHR và 25% bản ghi Đọc chính tả.
  • Xóa nhận dạng dữ liệu tại thời điểm giao hàng

Những thách thức khác trong việc hiểu ngôn ngữ tự nhiên

Sự mơ hồ

Các từ là duy nhất nhưng có thể có ý nghĩa khác nhau tùy thuộc vào ngữ cảnh dẫn đến sự mơ hồ về cấp độ từ vựng, cú pháp và ngữ nghĩa.

Từ đồng nghĩa

Chúng ta có thể diễn đạt cùng một ý tưởng bằng những thuật ngữ khác nhau cũng là từ đồng nghĩa: lớn và lớn có nghĩa giống nhau khi mô tả một vật thể.

tham chiếu

Quá trình tìm kiếm tất cả các biểu thức tham chiếu đến cùng một thực thể trong văn bản được gọi là độ phân giải tham chiếu.

Tính cách, Ý định, Cảm xúc

Tùy thuộc vào tính cách của người nói, ý định và cảm xúc của họ, có thể được diễn đạt khác nhau đối với cùng một ý tưởng.

Dung dịch

Một khối lượng lớn dữ liệu và kiến ​​thức y tế có sẵn dưới dạng tài liệu y tế, nhưng chủ yếu ở dạng phi cấu trúc. Với Chú thích thực thể y tế / Chú thích nhận dạng thực thể được đặt tên (NER), Shaip có thể chuyển đổi dữ liệu phi cấu trúc thành định dạng có cấu trúc bằng cách chú thích thông tin hữu ích từ nhiều loại hồ sơ lâm sàng khác nhau. Sau khi xác định được các thực thể, mối quan hệ giữa chúng cũng được ánh xạ để xác định thông tin quan trọng.

Phạm vi công việc: Chú thích đề cập đến thực thể chăm sóc sức khỏe

9 loại thực thể

  • Điêu kiện y tê
  • Thủ tục y tế
  • Cấu trúc giải phẫu
  • Y học
  • Thiết bị y tế
  • Kích thước cơ thể
  • Lạm dụng ma túy
  • Dữ liệu phòng thí nghiệm
  • Chức năng cơ thể

17 bổ ngữ

  • Công cụ điều chỉnh thuốc: Cường độ, Đơn vị, Liều lượng, Từ, Tần suất, Đường dùng, Thời lượng, Trạng thái
  • Công cụ điều chỉnh số đo cơ thể: Giá trị, Đơn vị, Kết quả
  • Công cụ sửa đổi thủ tục: Phương thức
    • Công cụ sửa đổi dữ liệu phòng thí nghiệm: Giá trị phòng thí nghiệm, Đơn vị phòng thí nghiệm, Kết quả phòng thí nghiệm
  • Mức độ nghiêm trọng
  • Kết quả thủ tục

27 Mối quan hệ & Tình trạng bệnh nhân

Kết quả

Dữ liệu chú thích sẽ được sử dụng để phát triển và đào tạo Nền tảng NLP lâm sàng của Khách hàng, nền tảng này sẽ được tích hợp trong phiên bản tiếp theo của API Chăm sóc sức khỏe của họ. Lợi ích mà khách hàng nhận được là:

  • Dữ liệu được gắn nhãn/chú thích đáp ứng các nguyên tắc chú thích dữ liệu tiêu chuẩn của Khách hàng.
  • Các bộ dữ liệu không đồng nhất đã được sử dụng để đào tạo Nền tảng NLP để có độ chính xác cao hơn.
  • Mối quan hệ giữa các thực thể khác nhau, tức là Cấu trúc cơ thể giải phẫu <> Thiết bị y tế, Tình trạng y tế <> Thiết bị y tế, Tình trạng y tế <> Thuốc, Tình trạng y tế <> Quy trình được xác định để lấy thông tin y tế quan trọng.
  • Tập hợp dữ liệu rộng rãi được gắn nhãn/chú thích cũng được xác định lại tại thời điểm gửi.

Sự hợp tác của chúng tôi với Shaip đã nâng cao đáng kể dự án của chúng tôi về Công nghệ môi trường xung quanh và AI đàm thoại trong lĩnh vực chăm sóc sức khỏe. Chuyên môn của họ trong việc tạo và ghi lại các cuộc đối thoại về chăm sóc sức khỏe tổng hợp đã cung cấp nền tảng vững chắc, cho thấy tiềm năng của dữ liệu tổng hợp trong việc vượt qua các thách thức pháp lý. Với Shaip, chúng tôi đã vượt qua những trở ngại này và hiện tiến một bước gần hơn đến việc hiện thực hóa tầm nhìn của chúng tôi về các giải pháp chăm sóc sức khỏe trực quan.

Vàng-5 sao

Tăng tốc AI hội thoại của bạn
phát triển ứng dụng 100%