Bộ dữ liệu NLP cho ML

15 Bộ dữ liệu NLP tốt nhất để đào tạo bạn Mô hình xử lý ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên là một phần quan trọng trong bộ giáp học máy. Tuy nhiên, nó cần một lượng lớn dữ liệu và đào tạo để mô hình hoạt động tốt. Một trong những vấn đề quan trọng với NLP là thiếu bộ dữ liệu đào tạo có thể bao gồm các lĩnh vực quan tâm rộng lớn trong miền.

Nếu bạn đang bắt đầu trong lĩnh vực rộng lớn này, bạn có thể thấy khó khăn và thực tế là thừa để tạo bộ dữ liệu của mình. Đặc biệt là khi có chất lượng NLP bộ dữ liệu có sẵn để đào tạo các mô hình học máy của bạn dựa trên mục đích của chúng.

Thị trường NLP dự kiến ​​sẽ tăng trưởng với tốc độ CAGR là 11.7% trong năm 2018 và năm 2026 sẽ đạt $ 28.6 tỷ vào năm 2026. Nhờ nhu cầu ngày càng tăng về NLP và học máy, giờ đây bạn có thể có được bộ dữ liệu chất lượng phục vụ cho việc phân tích cảm xúc, đánh giá, phân tích câu hỏi và câu trả lời cũng như bộ dữ liệu phân tích giọng nói.

Bộ dữ liệu NLP cho máy học mà bạn có thể tin tưởng

Vì vô số bộ dữ liệu - tập trung vào các nhu cầu khác nhau - đang được phát hành hầu như mỗi ngày, nên việc truy cập vào bộ dữ liệu chất lượng, đáng tin cậy và tốt nhất có thể là một thách thức. Tại đây, chúng tôi đã giúp bạn thực hiện công việc dễ dàng hơn, vì chúng tôi đã giới thiệu cho bạn các tập dữ liệu đã được quản lý được phân tách dựa trên các danh mục mà chúng phục vụ.

Tổng Quát

Spambase, được tạo ra tại Hewlett-Packard Labs, có một bộ sưu tập các email spam của người dùng, nhằm mục đích phát triển một bộ lọc thư rác được cá nhân hóa. Nó có hơn 4600 quan sát từ các thư email, trong số đó gần 1820 là thư rác.

Bộ dữ liệu Enron có một bộ sưu tập khổng lồ các email 'thực' ẩn danh có sẵn cho công chúng để đào tạo các mô hình học máy của họ. Nó tự hào có hơn nửa triệu email từ hơn 150 người dùng, chủ yếu là quản lý cấp cao của Enron. Tập dữ liệu này có sẵn để sử dụng ở cả định dạng có cấu trúc và không có cấu trúc. Để khai thác dữ liệu phi cấu trúc, bạn phải áp dụng các kỹ thuật xử lý dữ liệu.

Bộ dữ liệu Hệ thống đề xuất là một bộ sưu tập khổng lồ gồm nhiều bộ dữ liệu khác nhau có chứa các tính năng khác nhau như,

  • Đánh giá sản phẩm
  • Xếp hạng sao
  • Theo dõi tập thể dục
  • Dữ liệu bài hát
  • Mạng xã hội
  • Dấu thời gian
  • Tương tác người dùng / mặt hàng
  • Dữ liệu GPS

Phân tích tình cảm

Phân tích tình cảm
Bộ dữ liệu Từ điển cho Phim và Tài chính cung cấp các từ điển dành riêng cho từng miền về phân cực tích cực hoặc tiêu cực trong phần điền Tài chính và các bài đánh giá phim. Các từ điển này được rút ra từ các mẫu điền IMDb và US Form-8.

Sentiment 140 có hơn 160,000 tweet với nhiều biểu tượng cảm xúc khác nhau được phân loại theo 6 trường khác nhau: ngày tweet, phân cực, văn bản, tên người dùng, ID và truy vấn. Bộ dữ liệu này giúp bạn có thể khám phá cảm xúc của một thương hiệu, một sản phẩm hoặc thậm chí một chủ đề dựa trên hoạt động trên Twitter. Vì tập dữ liệu này được tạo tự động, không giống như các tweet khác do con người chú thích, nó phân loại các tweet có cảm xúc tích cực và cảm xúc tiêu cực là không thuận lợi.

Tập dữ liệu tình cảm đa miền này là một kho lưu trữ các đánh giá của Amazon về các sản phẩm khác nhau. Một số danh mục sản phẩm, chẳng hạn như sách, có hàng nghìn bài đánh giá, trong khi những loại khác chỉ có vài trăm bài đánh giá. Bên cạnh đó, các bài đánh giá với xếp hạng sao có thể được chuyển đổi thành nhãn nhị phân.

Hãy thảo luận về yêu cầu Dữ liệu đào tạo AI của bạn ngay hôm nay.

bản văn

Được tạo ra để giúp nghiên cứu câu hỏi và câu trả lời trên miền mở, WiKi QA Corpus là một trong những tập dữ liệu công khai rộng rãi nhất. Được tổng hợp từ nhật ký truy vấn của công cụ tìm kiếm Bing, nó đi kèm với các cặp câu hỏi và câu trả lời. Nó có hơn 3000 câu hỏi và 1500 câu trả lời được dán nhãn.

Bộ dữ liệu Báo cáo vụ việc pháp lý có một bộ sưu tập 4000 vụ việc pháp lý và có thể được sử dụng để đào tạo cho việc phân tích trích dẫn và tóm tắt văn bản tự động. Mỗi tài liệu, cụm từ, lớp trích dẫn, cụm từ trích dẫn, v.v. đều được sử dụng.

Bộ dữ liệu Jeopardy là tập hợp hơn 200,000 câu hỏi có trong chương trình truyền hình đố vui nổi tiếng do một người dùng Reddit tập hợp lại. Mỗi điểm dữ liệu được phân loại theo ngày phát sóng, số tập, giá trị, vòng và câu hỏi / câu trả lời.

Giọng nói âm thanh

Lời nói âm thanh Bộ dữ liệu này hoàn hảo cho tất cả những ai muốn vượt ra ngoài ngôn ngữ tiếng Anh. Tập dữ liệu này có một bộ sưu tập các bài báo nói bằng tiếng Hà Lan, tiếng Đức và tiếng Anh. Nó có một loạt các chủ đề và bộ loa kéo dài hàng trăm giờ.

Bộ dữ liệu tiếng Anh HUB2000 5 có 40 bản ghi cuộc trò chuyện qua điện thoại bằng tiếng Anh. Dữ liệu được cung cấp bởi Viện Tiêu chuẩn và Công nghệ Quốc gia và trọng tâm chính của nó là nhận dạng giọng nói hội thoại và chuyển lời nói thành văn bản.

Bộ dữ liệu LibriSpeech là tập hợp gần 1000 giờ nói tiếng Anh được thực hiện và phân đoạn phù hợp theo các chủ đề thành các chương từ sách nói, làm cho nó trở thành một công cụ hoàn hảo để Xử lý Ngôn ngữ Tự nhiên.

Đánh giá

Tập dữ liệu Yelp có một bộ sưu tập khổng lồ với khoảng 8.5 triệu bài đánh giá của 160,000 cộng với các doanh nghiệp, bài đánh giá của họ và dữ liệu người dùng. Các bài đánh giá có thể được sử dụng để đào tạo các mô hình của bạn về phân tích tình cảm. Bên cạnh đó, bộ dữ liệu này còn có hơn 200,000 bức ảnh bao gồm tám địa điểm đô thị.

Đánh giá của IMDB là một trong những tập dữ liệu phổ biến nhất chứa thông tin về dàn diễn viên, xếp hạng, mô tả và thể loại của hơn 50 nghìn bộ phim. Tập dữ liệu này có thể được sử dụng để kiểm tra và đào tạo các mô hình học máy của bạn.

  • Tập dữ liệu đánh giá và xếp hạng của Amazon (Liên kết)

Tập dữ liệu đánh giá và xếp hạng của Amazon chứa một bộ sưu tập siêu dữ liệu và đánh giá có giá trị về các sản phẩm khác nhau của Amazon được thu thập từ năm 1996 đến năm 2014 - khoảng 142.8 triệu bản ghi. Siêu dữ liệu bao gồm giá cả, mô tả sản phẩm, thương hiệu, danh mục, v.v., trong khi các bài đánh giá có chất lượng văn bản, tính hữu ích của văn bản, xếp hạng, v.v.

Vậy, bạn đã chọn tập dữ liệu nào để đào tạo mô hình học máy của mình?

Khi chúng tôi đi, chúng tôi sẽ để lại cho bạn một tiền boa. 

Đảm bảo xem kỹ tệp README trước khi chọn bộ dữ liệu NLP cho nhu cầu của bạn. Tập dữ liệu sẽ chứa tất cả thông tin cần thiết mà bạn có thể yêu cầu, chẳng hạn như nội dung của tập dữ liệu, các tham số khác nhau mà dữ liệu đã được phân loại và các trường hợp sử dụng có thể xảy ra của tập dữ liệu.

Bất kể mô hình bạn xây dựng là gì, có một triển vọng thú vị là tích hợp máy móc của chúng ta chặt chẽ và thực chất hơn với cuộc sống của chúng ta. Với NLP, khả năng kinh doanh, phim ảnh, nhận dạng giọng nói, tài chính, v.v. được tăng lên đa dạng. Nếu bạn đang tìm kiếm thêm các bộ dữ liệu như vậy Click vào đây.

Xã hội Chia sẻ

Bạn cũng có thể thích