Bộ dữ liệu NLP cho ML

33 bộ dữ liệu NLP tốt nhất để đào tạo các mô hình xử lý ngôn ngữ tự nhiên của bạn

Xử lý ngôn ngữ tự nhiên là một phần quan trọng trong bộ giáp học máy. Tuy nhiên, nó cần một lượng lớn dữ liệu và đào tạo để mô hình hoạt động tốt. Một trong những vấn đề quan trọng với NLP là thiếu bộ dữ liệu đào tạo có thể bao gồm các lĩnh vực quan tâm rộng lớn trong miền.

Nếu mới bắt đầu trong lĩnh vực rộng lớn này, bạn có thể thấy việc tạo tập dữ liệu của mình là một thách thức và thực tế là dư thừa. Đặc biệt là khi có sẵn bộ dữ liệu NLP chất lượng để đào tạo các mô hình học máy của bạn dựa trên mục đích của chúng.

Thị trường NLP dự kiến ​​sẽ tăng trưởng với tốc độ CAGR là 11.7% trong năm 2018 và năm 2026 sẽ đạt $ 28.6 tỷ vào năm 2026. Nhờ nhu cầu ngày càng tăng về NLP và học máy, giờ đây bạn có thể có được bộ dữ liệu chất lượng phục vụ cho việc phân tích cảm xúc, đánh giá, phân tích câu hỏi và câu trả lời cũng như bộ dữ liệu phân tích giọng nói.

Bộ dữ liệu NLP cho máy học mà bạn có thể tin tưởng

Vì vô số bộ dữ liệu – tập trung vào các nhu cầu khác nhau – được phát hành gần như mỗi ngày nên việc truy cập các bộ dữ liệu chất lượng, đáng tin cậy và tốt nhất có thể là một thách thức. Ở đây, chúng tôi đã làm cho công việc của bạn trở nên dễ dàng hơn vì chúng tôi đã cung cấp cho bạn các tập dữ liệu được tuyển chọn được phân tách dựa trên các danh mục mà chúng phục vụ.

Tổng Quát

  • Thư rác của UCI (Liên kết)

    Spambase, được tạo ra tại Hewlett-Packard Labs, có một bộ sưu tập các email spam của người dùng, nhằm mục đích phát triển một bộ lọc thư rác được cá nhân hóa. Nó có hơn 4600 quan sát từ các thư email, trong số đó gần 1820 là thư rác.

  • Tập dữ liệu Enron (Liên kết)

    Bộ dữ liệu Enron có một bộ sưu tập khổng lồ các email 'thực' ẩn danh có sẵn cho công chúng để đào tạo các mô hình học máy của họ. Nó tự hào có hơn nửa triệu email từ hơn 150 người dùng, chủ yếu là quản lý cấp cao của Enron. Tập dữ liệu này có sẵn để sử dụng ở cả định dạng có cấu trúc và không có cấu trúc. Để khai thác dữ liệu phi cấu trúc, bạn phải áp dụng các kỹ thuật xử lý dữ liệu.

  • Bộ dữ liệu Hệ thống đề xuất (Liên kết)

    Bộ dữ liệu Hệ thống đề xuất là một bộ sưu tập khổng lồ gồm nhiều bộ dữ liệu khác nhau có chứa các tính năng khác nhau như,

    • Đánh giá sản phẩm
    • Xếp hạng sao
    • Theo dõi tập thể dục
    • Dữ liệu bài hát
    • Mạng xã hội
    • Dấu thời gian
    • Tương tác người dùng / mặt hàng
    • Dữ liệu GPS
  • Penn Treebank (Liên kết)

    Kho tài liệu này, từ Wall Street Journal, rất phổ biến để thử nghiệm các mô hình ghi nhãn theo trình tự.

  • NLTK (Liên kết)

    Thư viện Python này cung cấp quyền truy cập vào hơn 100 tài nguyên từ vựng và ngữ liệu cho NLP. Nó cũng bao gồm sách NLTK, một khóa đào tạo cách sử dụng thư viện.

  • Sự phụ thuộc chung (Liên kết)

    UD cung cấp một cách nhất quán để chú thích ngữ pháp, với tài nguyên ở hơn 100 ngôn ngữ, 200 treebank và sự hỗ trợ từ hơn 300 thành viên cộng đồng.

Phân tích tình cảm

  • Từ điển cho phim và tài chính (Liên kết)

    Phân tích tình cảm
    Bộ dữ liệu Từ điển cho Phim và Tài chính cung cấp các từ điển dành riêng cho từng miền về phân cực tích cực hoặc tiêu cực trong phần điền Tài chính và các bài đánh giá phim. Các từ điển này được rút ra từ các mẫu điền IMDb và US Form-8.

  • Tình cảm 140 (Liên kết)

    Sentiment 140 có hơn 160,000 tweet với nhiều biểu tượng cảm xúc khác nhau được phân loại theo 6 trường khác nhau: ngày tweet, phân cực, văn bản, tên người dùng, ID và truy vấn. Bộ dữ liệu này giúp bạn có thể khám phá cảm xúc của một thương hiệu, một sản phẩm hoặc thậm chí một chủ đề dựa trên hoạt động trên Twitter. Vì tập dữ liệu này được tạo tự động, không giống như các tweet khác do con người chú thích, nó phân loại các tweet có cảm xúc tích cực và cảm xúc tiêu cực là không thuận lợi.

  • Tập dữ liệu Tình cảm đa miền (Liên kết)

    Tập dữ liệu tình cảm đa miền này là một kho lưu trữ các đánh giá của Amazon về các sản phẩm khác nhau. Một số danh mục sản phẩm, chẳng hạn như sách, có hàng nghìn bài đánh giá, trong khi những loại khác chỉ có vài trăm bài đánh giá. Bên cạnh đó, các bài đánh giá với xếp hạng sao có thể được chuyển đổi thành nhãn nhị phân.

  • Ngân hàng cây tình cảm Standford (Liên kết)

    Tập dữ liệu NLP này từ Rotten Tomatoes bao gồm các cụm từ dài hơn và các ví dụ văn bản chi tiết hơn.

  • Tập hợp quyền tác giả blog (Liên kết)

    Bộ sưu tập này có các bài đăng trên blog với gần 1.4 triệu từ, mỗi blog là một tập dữ liệu riêng biệt.

  • Bộ dữ liệu OpinRank (Liên kết)

    300,000 đánh giá từ Edmunds và TripAdvisor, được sắp xếp theo mẫu xe hoặc điểm đến du lịch và khách sạn.

bản văn

  • Wiki QA Corpus (Liên kết)

    Được tạo ra để giúp nghiên cứu câu hỏi và câu trả lời trên miền mở, WiKi QA Corpus là một trong những tập dữ liệu công khai rộng rãi nhất. Được tổng hợp từ nhật ký truy vấn của công cụ tìm kiếm Bing, nó đi kèm với các cặp câu hỏi và câu trả lời. Nó có hơn 3000 câu hỏi và 1500 câu trả lời được dán nhãn.

  • Tập dữ liệu báo cáo vụ việc pháp lý (Liên kết)

    Bộ dữ liệu Báo cáo vụ việc pháp lý có một bộ sưu tập 4000 vụ việc pháp lý và có thể được sử dụng để đào tạo cho việc phân tích trích dẫn và tóm tắt văn bản tự động. Mỗi tài liệu, cụm từ, lớp trích dẫn, cụm từ trích dẫn, v.v. đều được sử dụng.

  • Nguy cơ (Liên kết)

    Bộ dữ liệu Jeopardy là tập hợp hơn 200,000 câu hỏi có trong chương trình truyền hình đố vui nổi tiếng do một người dùng Reddit tập hợp lại. Mỗi điểm dữ liệu được phân loại theo ngày phát sóng, số tập, giá trị, vòng và câu hỏi / câu trả lời.

  • 20 nhóm tin (Liên kết)

    Một bộ sưu tập gồm 20,000 tài liệu bao gồm 20 nhóm tin và chủ đề, trình bày chi tiết các chủ đề từ tôn giáo đến các môn thể thao phổ biến.

  • Bộ dữ liệu tin tức của Reuters (Liên kết)

    Xuất hiện lần đầu tiên vào năm 1987, tập dữ liệu này đã được gắn nhãn, lập chỉ mục và biên dịch cho mục đích học máy.

  • arXiv (Liên kết)

    Bộ dữ liệu 270 GB đáng kể này bao gồm văn bản đầy đủ của tất cả các tài liệu nghiên cứu arXiv.

  • Thủ tục tố tụng của Nghị viện Châu Âu (Liên kết)

    Các cặp câu từ thủ tục tố tụng của Nghị viện bao gồm các mục từ 21 ngôn ngữ Châu Âu, bao gồm một số ngôn ngữ ít phổ biến hơn cho ngữ liệu học máy.

  • Điểm chuẩn tỷ từ (Liên kết)

    Bắt nguồn từ chương trình Thu thập tin tức WMT 2011, bộ dữ liệu mô hình hóa ngôn ngữ này bao gồm gần một tỷ từ để thử nghiệm các kỹ thuật mô hình hóa ngôn ngữ đổi mới.

Giọng nói âm thanh

  • Wikipedia Corpora đã nói (Liên kết)

    Lời nói âm thanh Bộ dữ liệu này hoàn hảo cho tất cả những ai muốn vượt ra ngoài ngôn ngữ tiếng Anh. Tập dữ liệu này có một bộ sưu tập các bài báo nói bằng tiếng Hà Lan, tiếng Đức và tiếng Anh. Nó có một loạt các chủ đề và bộ loa kéo dài hàng trăm giờ.

  • 2000 HUB5 tiếng Anh (Liên kết)

    Bộ dữ liệu tiếng Anh HUB2000 5 có 40 bản ghi cuộc trò chuyện qua điện thoại bằng tiếng Anh. Dữ liệu được cung cấp bởi Viện Tiêu chuẩn và Công nghệ Quốc gia và trọng tâm chính của nó là nhận dạng giọng nói hội thoại và chuyển lời nói thành văn bản.

  • Thư việnBài phát biểu (Liên kết)

    Bộ dữ liệu LibriSpeech là tập hợp gần 1000 giờ nói tiếng Anh được thực hiện và phân đoạn phù hợp theo các chủ đề thành các chương từ sách nói, làm cho nó trở thành một công cụ hoàn hảo để Xử lý Ngôn ngữ Tự nhiên.

  • Bộ dữ liệu chữ số nói miễn phí (Liên kết)

    Bộ dữ liệu NLP này bao gồm hơn 1,500 bản ghi chữ số nói bằng tiếng Anh.

  • Bộ dữ liệu giọng nói của phòng thí nghiệm M-AI (Liên kết)

    Bộ dữ liệu này cung cấp gần 1,000 giờ âm thanh có phiên âm, bao gồm nhiều ngôn ngữ và được phân loại theo giọng nam, giọng nữ và giọng hỗn hợp.

  • Cơ sở dữ liệu giọng nói ồn ào (liên kết)

    Tập dữ liệu này bao gồm các bản ghi giọng nói rõ ràng và ồn ào song song, nhằm mục đích phát triển phần mềm nâng cao giọng nói nhưng cũng có lợi cho việc đào tạo lời nói trong những điều kiện khó khăn.

Đánh Giá

  • Bài đánh giá trên Yelp (Liên kết)

    Tập dữ liệu Yelp có một bộ sưu tập khổng lồ với khoảng 8.5 triệu bài đánh giá của 160,000 cộng với các doanh nghiệp, bài đánh giá của họ và dữ liệu người dùng. Các bài đánh giá có thể được sử dụng để đào tạo các mô hình của bạn về phân tích tình cảm. Bên cạnh đó, bộ dữ liệu này còn có hơn 200,000 bức ảnh bao gồm tám địa điểm đô thị.

  • Đánh giá IMDB (Liên kết)

    Đánh giá của IMDB là một trong những tập dữ liệu phổ biến nhất chứa thông tin về dàn diễn viên, xếp hạng, mô tả và thể loại của hơn 50 nghìn bộ phim. Tập dữ liệu này có thể được sử dụng để kiểm tra và đào tạo các mô hình học máy của bạn.

  • Tập dữ liệu đánh giá và xếp hạng của Amazon (Liên kết)

    Tập dữ liệu đánh giá và xếp hạng của Amazon chứa một bộ sưu tập siêu dữ liệu và đánh giá có giá trị về các sản phẩm khác nhau của Amazon được thu thập từ năm 1996 đến năm 2014 - khoảng 142.8 triệu bản ghi. Siêu dữ liệu bao gồm giá cả, mô tả sản phẩm, thương hiệu, danh mục, v.v., trong khi các bài đánh giá có chất lượng văn bản, tính hữu ích của văn bản, xếp hạng, v.v.

Câu hỏi và trả lời

  • Bộ dữ liệu câu hỏi và trả lời Stanford (SQuAD) (Liên kết)

    Bộ dữ liệu đọc hiểu này có 100,000 câu hỏi có thể trả lời và 50,000 câu hỏi không thể trả lời, tất cả đều do nhân viên cộng đồng Wikipedia tạo ra.

  • Câu hỏi tự nhiên (Liên kết)

    Bộ đào tạo này có hơn 300,000 ví dụ đào tạo, 7,800 ví dụ phát triển và 7,800 ví dụ kiểm tra, mỗi ví dụ có một truy vấn Google và một trang Wikipedia phù hợp.

  • câu đốQA (Liên kết)

    Bộ câu hỏi đầy thách thức này có 950,000 cặp QA, bao gồm cả tập hợp con do con người xác minh và do máy tạo ra.

  • CLEVR (Ngôn ngữ sáng tác và lý luận trực quan cơ bản) (Liên kết)

    Tập dữ liệu trả lời câu hỏi trực quan này có các đối tượng được hiển thị 3D và hàng nghìn câu hỏi kèm theo thông tin chi tiết về cảnh trực quan.

Vậy, bạn đã chọn tập dữ liệu nào để đào tạo mô hình học máy của mình?

Khi chúng tôi đi, chúng tôi sẽ để lại cho bạn một tiền boa.

Đảm bảo xem kỹ tệp README trước khi chọn bộ dữ liệu NLP cho nhu cầu của bạn. Tập dữ liệu sẽ chứa tất cả thông tin cần thiết mà bạn có thể yêu cầu, chẳng hạn như nội dung của tập dữ liệu, các tham số khác nhau mà dữ liệu đã được phân loại và các trường hợp sử dụng có thể xảy ra của tập dữ liệu.

Bất kể bạn xây dựng mô hình nào, đều có triển vọng thú vị về việc tích hợp máy móc chặt chẽ hơn và thực chất hơn với cuộc sống của chúng ta. Với NLP, khả năng kinh doanh, phim ảnh, nhận dạng giọng nói, tài chính, v.v. sẽ tăng lên rất nhiều.

Xã hội Chia sẻ