Nhận dạng đối tượng được đặt tên (NER)

Nhận dạng đối tượng được đặt tên (NER) - Khái niệm, các loại và ứng dụng

Mỗi khi chúng ta nghe một từ hoặc đọc một văn bản, chúng ta có khả năng tự nhiên để xác định và phân loại từ đó thành người, địa điểm, vị trí, giá trị và hơn thế nữa. Con người có thể nhanh chóng nhận ra một từ, phân loại nó và hiểu ngữ cảnh. Ví dụ: khi bạn nghe thấy từ 'Steve Jobs', bạn có thể nghĩ ngay đến ít nhất ba đến bốn thuộc tính và tách thực thể thành các danh mục,

  • Người: Steve Jobs
  • Công ty vi: Apple
  • Vị trí: California

Vì máy tính không có khả năng tự nhiên này, chúng cần sự trợ giúp của chúng tôi để xác định các từ hoặc văn bản và phân loại chúng. Nó ở đâu Nhận dạng đối tượng được đặt tên (NER) đến chơi.

Hãy cùng tìm hiểu sơ lược về NER và mối quan hệ của nó với NLP.

Nhận dạng đối tượng được đặt tên là gì?

Nhận dạng đối tượng được đặt tên là một phần của Xử lý ngôn ngữ tự nhiên. Mục tiêu chính của NER là xử lý dữ liệu có cấu trúc và phi cấu trúc và phân loại các thực thể được đặt tên này thành các danh mục được xác định trước. Một số danh mục phổ biến bao gồm tên, vị trí, công ty, thời gian, giá trị tiền tệ, sự kiện, v.v.

Tóm lại, NER giao dịch với:

  • Nhận dạng / phát hiện thực thể được đặt tên - Nhận dạng một từ hoặc một loạt từ trong tài liệu.
  • Phân loại thực thể được đặt tên - Phân loại mọi thực thể được phát hiện thành các danh mục được xác định trước.

Nhưng NER có liên quan như thế nào với NLP?

Xử lý ngôn ngữ tự nhiên giúp phát triển các máy thông minh có khả năng trích xuất ý nghĩa từ lời nói và văn bản. Học máy giúp các hệ thống thông minh này tiếp tục học bằng cách đào tạo một lượng lớn ngôn ngữ tự nhiên bộ dữ liệu.

Nói chung, NLP bao gồm ba loại chính:

  • Hiểu cấu trúc và quy tắc của ngôn ngữ - cú pháp
  • Tìm ra ý nghĩa của các từ, văn bản và lời nói và xác định các mối quan hệ của chúng - Ngữ nghĩa
  • Nhận dạng và nhận dạng các từ đã nói và chuyển chúng thành văn bản - Bài phát biểu

NER giúp trong phần ngữ nghĩa của NLP, chiết xuất nghĩa của từ, xác định và định vị chúng dựa trên mối quan hệ của chúng.

Các ví dụ phổ biến về NER

Một số ví dụ phổ biến về một phân loại thực thể là:

Các ví dụ phổ biến về Ner Người: Michael Jackson, Oprah Winfrey, Barack Obama, Susan Sarandon

Vị trí: Canada, Honolulu, Bangkok, Brazil, Cambridge

Tổ chức: Samsung, Disney, Đại học Yale, Google

thời gian: 15.35, 12 giờ đêm,

Các danh mục khác bao gồm Giá trị số, Biểu thức, Địa chỉ Email và Cơ sở.

Sự mơ hồ trong nhận dạng đối tượng được đặt tên

Phạm trù mà một thuật ngữ thuộc về trực giác khá rõ ràng đối với con người. Tuy nhiên, đó không phải là trường hợp của máy tính - chúng gặp phải các vấn đề về phân loại. Ví dụ:

Thành phố Manchester (Cơ quan) đã giành được Cúp Ngoại hạng Anh trong khi trong câu sau, tổ chức được sử dụng theo cách khác. Thành phố Manchester (Địa Chỉ) là một cường quốc dệt may và công nghiệp.

Mô hình NER của bạn cần dữ liệu đào tạo để tiến hành chính xác khai thác thực thể và phân loại. Nếu bạn đang đào tạo người mẫu của mình bằng tiếng Anh Shakespearean, không cần phải nói, nó sẽ không thể giải mã được Instagram.

Các phương pháp tiếp cận NER khác nhau

Mục tiêu chính của một Mô hình NER là gắn nhãn các thực thể trong tài liệu văn bản và phân loại chúng. Ba cách tiếp cận sau đây thường được sử dụng cho mục đích này. Tuy nhiên, bạn có thể chọn kết hợp một hoặc nhiều phương pháp.

Hãy thảo luận về yêu cầu Dữ liệu đào tạo AI của bạn ngay hôm nay.

Các cách tiếp cận khác nhau để tạo hệ thống NER là:

  • Hệ thống dựa trên từ điển

    Hệ thống dựa trên từ điển có lẽ là cách tiếp cận NER đơn giản và cơ bản nhất. Nó sẽ sử dụng một từ điển với nhiều từ, từ đồng nghĩa và bộ sưu tập từ vựng. Hệ thống sẽ kiểm tra xem một thực thể cụ thể có trong văn bản cũng có sẵn trong từ vựng hay không. Bằng cách sử dụng thuật toán so khớp chuỗi, việc kiểm tra chéo các thực thể được thực hiện.

    Một hạn chế của việc sử dụng phương pháp này là cần phải liên tục nâng cấp bộ dữ liệu từ vựng để mô hình NER hoạt động hiệu quả.

  • Hệ thống dựa trên quy tắc

    Trong cách tiếp cận này, thông tin được trích xuất dựa trên một tập hợp các quy tắc được thiết lập trước. Có hai bộ quy tắc chính được sử dụng,

    Các quy tắc dựa trên mẫu - Như tên cho thấy, quy tắc dựa trên mẫu tuân theo một mẫu hình thái hoặc chuỗi từ được sử dụng trong tài liệu.

    Các quy tắc dựa trên ngữ cảnh - Các quy tắc dựa trên ngữ cảnh phụ thuộc vào ý nghĩa hoặc ngữ cảnh của từ trong tài liệu.

  • Hệ thống dựa trên máy học

    Trong các hệ thống dựa trên máy học, mô hình thống kê được sử dụng để phát hiện các thực thể. Cách trình bày dựa trên tính năng của tài liệu văn bản được sử dụng trong cách tiếp cận này. Bạn có thể khắc phục một số nhược điểm của hai cách tiếp cận đầu tiên vì mô hình có thể nhận ra các loại thực thể mặc dù có những thay đổi nhỏ trong cách viết của chúng.

Các ứng dụng của NER

NER có một số trường hợp sử dụng trong nhiều lĩnh vực liên quan đến Xử lý ngôn ngữ tự nhiên và tạo tập dữ liệu đào tạo cho học máy học kĩ càng các giải pháp. Một số ứng dụng của NER là:

  • Hỗ trợ khách hàng được sắp xếp hợp lý

    Hệ thống NER có thể dễ dàng phát hiện các khiếu nại, thắc mắc và phản hồi của khách hàng có liên quan dựa trên các thông tin quan trọng như tên sản phẩm, thông số kỹ thuật, vị trí chi nhánh, v.v. Khiếu nại hoặc phản hồi được phân loại một cách khéo léo và chuyển hướng đến đúng bộ phận bằng cách lọc các từ khóa ưu tiên.

  • Nguồn nhân lực hiệu quả

    NER giúp các nhóm Nhân sự cải thiện quy trình tuyển dụng của họ và giảm bớt các mốc thời gian bằng cách nhanh chóng tóm tắt hồ sơ của các ứng viên. Các công cụ NER có thể quét sơ yếu lý lịch và trích xuất thông tin liên quan - tên, tuổi, địa chỉ, bằng cấp, đại học, v.v.

    Ngoài ra, bộ phận nhân sự cũng có thể sử dụng các công cụ NER để hợp lý hóa quy trình công việc nội bộ bằng cách lọc các phàn nàn của nhân viên và chuyển chúng đến các trưởng bộ phận liên quan.

  • Phân loại nội dung đơn giản hóa

    Phân loại nội dung là một nhiệm vụ khó khăn đối với các nhà cung cấp tin tức. Việc phân loại nội dung thành các danh mục khác nhau giúp dễ dàng khám phá, hiểu rõ hơn, xác định xu hướng và hiểu các chủ đề. A được đặt tên Nhận dạng thực thể công cụ có thể hữu ích cho các nhà cung cấp tin tức. Nó có thể quét nhiều bài báo, xác định các từ khóa ưu tiên và trích xuất thông tin dựa trên người, tổ chức, vị trí, v.v.

  • Tối ưu hóa Công cụ Tìm kiếm

    Search Engine Optimization NER giúp đơn giản hóa và cải thiện tốc độ cũng như mức độ liên quan của kết quả tìm kiếm. Thay vì chạy truy vấn tìm kiếm cho hàng nghìn bài báo, mô hình NER có thể chạy truy vấn một lần và lưu kết quả. Vì vậy, dựa trên các thẻ trong truy vấn tìm kiếm, các bài viết được liên kết với truy vấn có thể được chọn nhanh chóng.

  • Đề xuất nội dung chính xác

    Một số ứng dụng hiện đại phụ thuộc vào các công cụ NER để mang lại trải nghiệm khách hàng được tối ưu hóa và tùy chỉnh. Ví dụ: Netflix cung cấp các đề xuất được cá nhân hóa dựa trên lịch sử tìm kiếm và xem của người dùng bằng tính năng nhận dạng thực thể được đặt tên.

Nhận dạng đối tượng được đặt tên làm cho học máy mô hình hiệu quả hơn và đáng tin cậy hơn. Tuy nhiên, bạn cần bộ dữ liệu đào tạo chất lượng để các mô hình của bạn hoạt động ở mức tối ưu và đạt được các mục tiêu đã định. Tất cả những gì bạn cần là một đối tác dịch vụ có kinh nghiệm, người có thể cung cấp cho bạn bộ dữ liệu chất lượng sẵn sàng để sử dụng. Nếu đúng như vậy, Shaip là lựa chọn tốt nhất cho bạn. Liên hệ với chúng tôi để có bộ dữ liệu NER toàn diện nhằm giúp bạn phát triển các giải pháp ML nâng cao và hiệu quả cho các mô hình AI của bạn.

Xã hội Chia sẻ

Bạn cũng có thể thích