Nhận dạng đối tượng được đặt tên (NER)

Nhận dạng đối tượng được đặt tên (NER) - Khái niệm, các loại và ứng dụng

Mỗi khi chúng ta nghe một từ hoặc đọc một văn bản, chúng ta có khả năng tự nhiên để xác định và phân loại từ đó thành người, địa điểm, vị trí, giá trị và hơn thế nữa. Con người có thể nhanh chóng nhận ra một từ, phân loại nó và hiểu ngữ cảnh. Ví dụ: khi bạn nghe thấy từ 'Steve Jobs', bạn có thể nghĩ ngay đến ít nhất ba đến bốn thuộc tính và tách thực thể thành các danh mục,

  • Người: Steve Jobs
  • Công ty vi: Apple
  • Vị trí: California

Vì máy tính không có khả năng tự nhiên này, chúng cần sự trợ giúp của chúng tôi để xác định các từ hoặc văn bản và phân loại chúng. Nó ở đâu Nhận dạng đối tượng được đặt tên (NER) đến chơi.

Hãy cùng tìm hiểu sơ lược về NER và mối quan hệ của nó với NLP.

Nhận dạng đối tượng được đặt tên là gì?

Nhận dạng đối tượng được đặt tên là một phần của Xử lý ngôn ngữ tự nhiên. Mục tiêu chính của NER là xử lý dữ liệu có cấu trúc và phi cấu trúc và phân loại các thực thể được đặt tên này thành các danh mục được xác định trước. Một số danh mục phổ biến bao gồm tên, vị trí, công ty, thời gian, giá trị tiền tệ, sự kiện, v.v.

Tóm lại, NER giao dịch với:

  • Nhận dạng / phát hiện thực thể được đặt tên - Nhận dạng một từ hoặc một loạt từ trong tài liệu.
  • Phân loại thực thể được đặt tên - Phân loại mọi thực thể được phát hiện thành các danh mục được xác định trước.

Nhưng NER có liên quan như thế nào với NLP?

Xử lý ngôn ngữ tự nhiên giúp phát triển các máy thông minh có khả năng trích xuất ý nghĩa từ lời nói và văn bản. Học máy giúp các hệ thống thông minh này tiếp tục học bằng cách đào tạo một lượng lớn ngôn ngữ tự nhiên bộ dữ liệu.

Nói chung, NLP bao gồm ba loại chính:

  • Hiểu cấu trúc và quy tắc của ngôn ngữ - cú pháp
  • Tìm ra ý nghĩa của các từ, văn bản và lời nói và xác định các mối quan hệ của chúng - Ngữ nghĩa
  • Nhận dạng và nhận dạng các từ đã nói và chuyển chúng thành văn bản - Bài phát biểu

NER giúp trong phần ngữ nghĩa của NLP, trích xuất ý nghĩa của từ, xác định và định vị chúng dựa trên mối quan hệ của chúng.

Các ví dụ phổ biến về NER

Một số ví dụ phổ biến về một phân loại thực thể là:

Ví dụ về Ner
Các ví dụ của NER

Người: Michael Jackson, Oprah Winfrey, Barack Obama, Susan Sarandon

Vị trí: Canada, Honolulu, Bangkok, Brazil, Cambridge

Tổ chức: Samsung, Disney, Đại học Yale, Google

thời gian: 15.35, 12 giờ đêm,

Các danh mục khác bao gồm Giá trị số, Biểu thức, Địa chỉ Email và Cơ sở.

Sự mơ hồ trong nhận dạng đối tượng được đặt tên

Phạm trù mà một thuật ngữ thuộc về trực giác khá rõ ràng đối với con người. Tuy nhiên, đó không phải là trường hợp của máy tính - chúng gặp phải các vấn đề về phân loại. Ví dụ:

Thành phố Manchester (Cơ quan) đã giành được Cúp Ngoại hạng Anh trong khi trong câu sau, tổ chức được sử dụng theo cách khác. Thành phố Manchester (Địa Chỉ) là một cường quốc dệt may và công nghiệp.

Mô hình NER của bạn cần dữ liệu đào tạo để tiến hành chính xác khai thác thực thể và phân loại. Nếu bạn đang đào tạo người mẫu của mình bằng tiếng Anh Shakespearean, không cần phải nói, nó sẽ không thể giải mã được Instagram.

Các phương pháp tiếp cận NER khác nhau

Mục tiêu chính của một Mô hình NER là gắn nhãn các thực thể trong tài liệu văn bản và phân loại chúng. Ba cách tiếp cận sau đây thường được sử dụng cho mục đích này. Tuy nhiên, bạn có thể chọn kết hợp một hoặc nhiều phương pháp.

Hãy thảo luận về yêu cầu Dữ liệu đào tạo AI của bạn ngay hôm nay.

Các cách tiếp cận khác nhau để tạo hệ thống NER là:

  • Hệ thống dựa trên từ điển

    Hệ thống dựa trên từ điển có lẽ là cách tiếp cận NER đơn giản và cơ bản nhất. Nó sẽ sử dụng một từ điển với nhiều từ, từ đồng nghĩa và bộ sưu tập từ vựng. Hệ thống sẽ kiểm tra xem một thực thể cụ thể có trong văn bản cũng có sẵn trong từ vựng hay không. Bằng cách sử dụng thuật toán so khớp chuỗi, việc kiểm tra chéo các thực thể được thực hiện.

    Một hạn chế của việc sử dụng phương pháp này là cần phải liên tục nâng cấp bộ dữ liệu từ vựng để mô hình NER hoạt động hiệu quả.

  • Hệ thống dựa trên quy tắc

    Trong cách tiếp cận này, thông tin được trích xuất dựa trên một tập hợp các quy tắc được thiết lập trước. Có hai bộ quy tắc chính được sử dụng,

    Các quy tắc dựa trên mẫu - Như tên cho thấy, quy tắc dựa trên mẫu tuân theo một mẫu hình thái hoặc chuỗi từ được sử dụng trong tài liệu.

    Các quy tắc dựa trên ngữ cảnh - Các quy tắc dựa trên ngữ cảnh phụ thuộc vào ý nghĩa hoặc ngữ cảnh của từ trong tài liệu.

  • Hệ thống dựa trên máy học

    Trong các hệ thống dựa trên máy học, mô hình thống kê được sử dụng để phát hiện các thực thể. Cách trình bày dựa trên tính năng của tài liệu văn bản được sử dụng trong cách tiếp cận này. Bạn có thể khắc phục một số nhược điểm của hai cách tiếp cận đầu tiên vì mô hình có thể nhận ra các loại thực thể mặc dù có những thay đổi nhỏ trong cách viết của chúng.

Các trường hợp sử dụng và ví dụ về nhận dạng thực thể được đặt tên?

Tiết lộ tính linh hoạt của nhận dạng thực thể được đặt tên (NER):

  1. Chatbot: NER hỗ trợ các chatbot như ChatGPT của OpenAI trong việc hiểu các truy vấn của người dùng bằng cách xác định các thực thể chính.
  2. Hỗ trợ khách hàng: Nó sắp xếp phản hồi của khách hàng theo tên sản phẩm, tăng tốc thời gian phản hồi.
  3. Tài chính: NER trích xuất dữ liệu quan trọng từ báo cáo tài chính, hỗ trợ phân tích xu hướng và đánh giá rủi ro.
  4. Chăm sóc sức khỏe: Nó lấy thông tin cần thiết từ hồ sơ lâm sàng, thúc đẩy phân tích dữ liệu nhanh hơn.
  5. Nhân sự: Nó hợp lý hóa việc tuyển dụng bằng cách tóm tắt hồ sơ ứng viên và truyền tải phản hồi của nhân viên.
  6. Nhà cung cấp tin tức: NER phân loại nội dung thành các thông tin và xu hướng liên quan, đẩy nhanh tốc độ báo cáo.
  7. Công cụ khuyến nghị: Các công ty như Netflix sử dụng NER để cá nhân hóa các đề xuất dựa trên hành vi của người dùng.
  8. Công cụ Tìm kiếm: Bằng cách phân loại nội dung web, NER nâng cao độ chính xác của kết quả tìm kiếm.
  9. Phân tích cảm xúc: NER trích xuất những đề cập đến thương hiệu từ các bài đánh giá, thúc đẩy các công cụ phân tích cảm tính.

Các ứng dụng của NER

NER có một số trường hợp sử dụng trong nhiều lĩnh vực liên quan đến Xử lý ngôn ngữ tự nhiên và tạo tập dữ liệu đào tạo cho học máy học kĩ càng các giải pháp. Một số ứng dụng của NER là:

  • Hỗ trợ khách hàng được sắp xếp hợp lý

    Hệ thống NER có thể dễ dàng phát hiện các khiếu nại, truy vấn và phản hồi có liên quan của khách hàng dựa trên thông tin quan trọng như tên sản phẩm, thông số kỹ thuật, địa điểm chi nhánh, v.v. Khiếu nại hoặc phản hồi được phân loại hợp lý và chuyển đến đúng bộ phận bằng cách lọc từ khóa ưu tiên.

  • Nguồn nhân lực hiệu quả

    NER giúp nhóm Nhân sự cải thiện quy trình tuyển dụng và giảm thời gian bằng cách tóm tắt nhanh chóng hồ sơ của ứng viên. Các công cụ NER có thể quét sơ yếu lý lịch và trích xuất thông tin liên quan - tên, tuổi, địa chỉ, trình độ chuyên môn, trường đại học, v.v.

    Ngoài ra, bộ phận nhân sự cũng có thể sử dụng các công cụ NER để hợp lý hóa quy trình công việc nội bộ bằng cách lọc các phàn nàn của nhân viên và chuyển chúng đến các trưởng bộ phận liên quan.

  • Phân loại nội dung đơn giản hóa

    Phân loại nội dung là một nhiệm vụ khó khăn đối với các nhà cung cấp tin tức. Việc phân loại nội dung thành các danh mục khác nhau giúp dễ dàng khám phá, hiểu rõ hơn, xác định xu hướng và hiểu các chủ đề. A được đặt tên Nhận dạng thực thể công cụ có thể hữu ích cho các nhà cung cấp tin tức. Nó có thể quét nhiều bài báo, xác định các từ khóa ưu tiên và trích xuất thông tin dựa trên người, tổ chức, vị trí, v.v.

  • Tối ưu hóa Công cụ Tìm kiếm

    Search Engine Optimization NER giúp đơn giản hóa và cải thiện tốc độ cũng như mức độ liên quan của kết quả tìm kiếm. Thay vì chạy truy vấn tìm kiếm cho hàng nghìn bài báo, mô hình NER có thể chạy truy vấn một lần và lưu kết quả. Vì vậy, dựa trên các thẻ trong truy vấn tìm kiếm, các bài viết được liên kết với truy vấn có thể được chọn nhanh chóng.

     

  • Đề xuất nội dung chính xác

    Một số ứng dụng hiện đại phụ thuộc vào các công cụ NER để mang lại trải nghiệm khách hàng được tối ưu hóa và tùy chỉnh. Ví dụ: Netflix cung cấp các đề xuất được cá nhân hóa dựa trên lịch sử tìm kiếm và xem của người dùng bằng cách sử dụng nhận dạng thực thể được đặt tên.

Nhận dạng đối tượng được đặt tên làm cho học máy mô hình hiệu quả hơn và đáng tin cậy hơn. Tuy nhiên, bạn cần bộ dữ liệu đào tạo chất lượng để các mô hình của bạn hoạt động ở mức tối ưu và đạt được các mục tiêu đã định. Tất cả những gì bạn cần là một đối tác dịch vụ có kinh nghiệm, người có thể cung cấp cho bạn bộ dữ liệu chất lượng sẵn sàng sử dụng. Nếu đúng như vậy, Shaip là lựa chọn tốt nhất cho bạn. Liên hệ với chúng tôi để có bộ dữ liệu NER toàn diện nhằm giúp bạn phát triển các giải pháp ML nâng cao và hiệu quả cho các mô hình AI của bạn.

[Cũng đọc: Nghiên cứu điển hình: Nhận dạng thực thể được đặt tên (NER) cho NLP lâm sàng]

Nhận dạng thực thể được đặt tên hoạt động như thế nào?

Đi sâu vào lĩnh vực Nhận dạng thực thể được đặt tên (NER) sẽ tiết lộ một hành trình có hệ thống bao gồm một số giai đoạn:

  • Mã thông báo

    Ban đầu, dữ liệu văn bản được chia thành các đơn vị nhỏ hơn, được gọi là mã thông báo, có thể bao gồm từ từ đến câu. Ví dụ: tuyên bố “Barack Obama là tổng thống Hoa Kỳ” được phân thành các mã thông báo như “Barack”, “Obama”, “was”, “the”, “president”, “of”, “the” và “ HOA KỲ".

  • Phát hiện thực thể

    Bằng cách sử dụng sự kết hợp của các nguyên tắc ngôn ngữ và phương pháp thống kê, các thực thể được đặt tên tiềm năng sẽ được chú ý. Nhận biết các mẫu như viết hoa trong tên (“Barack Obama”) hoặc các định dạng riêng biệt (như ngày tháng) là rất quan trọng trong giai đoạn này.

  • Phân loại thực thể

    Sau khi phát hiện, các thực thể được sắp xếp thành các danh mục được xác định trước, chẳng hạn như “Người”, “Tổ chức” hoặc “Vị trí”. Các mô hình học máy, được nuôi dưỡng trên các tập dữ liệu được gắn nhãn, thường thúc đẩy sự phân loại này. Ở đây, “Barack Obama” được gắn thẻ là “Người” và “Hoa Kỳ” là “Địa điểm”.

  • Đánh giá theo bối cảnh

    Sức mạnh của hệ thống NER thường được khuếch đại bằng cách đánh giá bối cảnh xung quanh. Ví dụ: trong cụm từ “Washington chứng kiến ​​một sự kiện lịch sử”, ngữ cảnh giúp phân biệt “Washington” là một địa điểm chứ không phải là tên một người.

  • Tinh chỉnh sau đánh giá

    Sau khi xác định và phân loại ban đầu, quá trình sàng lọc sau đánh giá có thể diễn ra sau đó để cải thiện kết quả. Giai đoạn này có thể giải quyết những điểm mơ hồ, hợp nhất các thực thể có nhiều mã thông báo hoặc sử dụng cơ sở kiến ​​thức để tăng cường dữ liệu thực thể.

Cách tiếp cận được mô tả này không chỉ làm sáng tỏ cốt lõi của NER mà còn tối ưu hóa nội dung cho các công cụ tìm kiếm, nâng cao khả năng hiển thị của quy trình phức tạp mà NER thể hiện.

Lợi ích & thách thức của NER?

Lợi ích:

  1. Khai thác thông tin: NER xác định dữ liệu quan trọng, hỗ trợ truy xuất thông tin.
  2. Tổ chức nội dung: Nó giúp phân loại nội dung, hữu ích cho cơ sở dữ liệu và công cụ tìm kiếm.
  3. Trải nghiệm người dùng nâng cao: NER tinh chỉnh kết quả tìm kiếm và cá nhân hóa các đề xuất.
  4. Phân tích sâu sắc: Nó tạo điều kiện cho việc phân tích tình cảm và phát hiện xu hướng.
  5. Quy trình làm việc tự động: NER thúc đẩy tự động hóa, tiết kiệm thời gian và nguồn lực.

Hạn chế/Thách thức:

  1. Độ phân giải mơ hồ: Đấu tranh với việc phân biệt các thực thể tương tự.
  2. Thích ứng theo miền cụ thể: Sử dụng nhiều tài nguyên trên nhiều lĩnh vực khác nhau.
  3. Phụ thuộc ngôn ngữ: Hiệu quả thay đổi tùy theo ngôn ngữ.
  4. Sự khan hiếm của dữ liệu được dán nhãn: Cần tập dữ liệu có nhãn lớn để huấn luyện.
  5. Xử lý dữ liệu phi cấu trúc: Đòi hỏi kỹ thuật tiên tiến.
  6. Đo lường hiệu suất: Đánh giá chính xác là phức tạp.
  7. Xử lý thời gian thực: Cân bằng tốc độ với độ chính xác là một thách thức.

Xã hội Chia sẻ

Bạn cũng có thể thích