Mở tập dữ liệu
Khám phá các tập dữ liệu nguồn mở giúp bạn đào tạo các mô hình ML
Tập dữ liệu nguồn mở để giúp bạn bắt đầu với mô hình AI / ML
Đầu ra của các mô hình AI & ML của bạn chỉ tốt như dữ liệu bạn sử dụng để đào tạo nó - vì vậy độ chính xác mà bạn áp dụng để tổng hợp dữ liệu cũng như gắn thẻ và xác định dữ liệu đó là rất quan trọng!
Vì vậy, nếu bạn muốn bắt đầu một sáng kiến AI / ML mới và bây giờ bạn nhanh chóng nhận ra rằng việc tìm kiếm dữ liệu đào tạo chất lượng cao sẽ là một trong những khía cạnh thách thức hơn trong dự án của bạn vì bộ dữ liệu chất lượng cao là nguồn cung cấp cho AI / Động cơ ML đang chạy. Chúng tôi đã tích lũy một danh sách các bộ dữ liệu mở được sử dụng miễn phí và đào tạo các mô hình AI / ML của bạn trong tương lai.
| Chuyên môn | Loại dữ liệu | Tên tập dữ liệu | Ngành / Phòng | Chú thích / Trường hợp Sử dụng | liên kết |
|---|---|---|---|---|---|
| +NLP | bản văn | Amazon Nhận xét | Thương mại điện tử | Phân tích tình cảm | liên kết |
| Mô tả Chi tiết | Một tập hợp 35 đánh giá và xếp hạng Mn từ hơn 18 năm qua ở dạng văn bản thuần túy với thông tin chi tiết về người dùng và sản phẩm. | ||||
| +NLP | bản văn | Dữ liệu liên kết Wikipedia | Tổng quan | liên kết | |
| Mô tả Chi tiết | Hơn 4 triệu bài viết chứa 1.9 tỷ từ khóa từ Wikipedia. Mỗi bài viết đều chứa siêu liên kết đến thực thể liên quan. | ||||
| +NLP | bản văn | Ngân hàng cây tình cảm Standford | Giải Trí | Phân tích tình cảm | liên kết |
| Mô tả Chi tiết | Bộ dữ liệu chú thích cảm xúc cho hơn 10,000 câu đánh giá phim trên Rotten Tomatoes. Có sẵn ở cấp độ cụm từ - mỗi câu được phân tích thành các cụm từ phụ bằng cách nhị phân hóa cây phân tích cú pháp theo định dạng Penn Treebank. | ||||
| +NLP | bản văn | Twitter Tình cảm của Hãng hàng không Hoa Kỳ | máy bay | Phân tích tình cảm | liên kết |
| Mô tả Chi tiết | Các dòng tweet năm 2015 về US Airlines chia thành cảm xúc tích cực, trung lập và tiêu cực. | ||||
| +CV | Hình ảnh | Mạng hình ảnh | Tổng quan | liên kết | |
| Mô tả Chi tiết | Bộ dữ liệu với hơn 14 triệu hình ảnh ở nhiều định dạng tệp khác nhau được ánh xạ thành khoảng 21,000 tập đồng nghĩa. Tập đồng nghĩa là các từ đồng nghĩa với các thực thể liên quan được hiển thị dưới dạng hình ảnh. 1 triệu hình ảnh có hộp giới hạn và hơn 1 triệu hình ảnh có các đặc trưng SIFT. | ||||
| +CV | Hình ảnh | Hình ảnh mở của Google | Tổng quan | liên kết | |
| Mô tả Chi tiết | Một tập dữ liệu tương tự ImageNet với 600 danh mục. Có sẵn trong các phiên bản phát triển, xác thực và đào tạo. Một số hình ảnh cũng bao gồm các hộp giới hạn và mối quan hệ trực quan. | ||||
| +NLP | bản văn | Hội thoại phim Cornell | Giải Trí | Hộp thoại | liên kết |
| Mô tả Chi tiết | Một tập hợp các cuộc trò chuyện hư cấu, kèm siêu dữ liệu về nhân vật và phim ảnh. Mỗi hàng là một cuộc đối thoại giữa hai người, dưới dạng hỏi đáp. | ||||
| Mô tả Chi tiết | Một tập dữ liệu hỏi-đáp với các câu hỏi và câu trả lời từ cổng thông tin Yahoo Answers từ tháng 4 năm 2007 đến tháng 10 năm 2007. | ||||
| +NLP | bản văn | CÔ MARCO | Tổng quan | Trả lời câu hỏi | liên kết |
| Mô tả Chi tiết | Một tập dữ liệu câu hỏi-trả lời với chú thích từ nhật ký tìm kiếm web của Bing. Mỗi câu hỏi chứa câu trả lời do người dùng cung cấp, cũng như các đoạn văn bản web chứa câu trả lời đó. | ||||
| +NLP | bản văn | Bộ dữ liệu câu hỏi tự nhiên | Tổng quan | Trả lời câu hỏi | liên kết |
| Mô tả Chi tiết | Được Google phát hành, tập dữ liệu này chứa các truy vấn và câu trả lời thực tế của người dùng từ các bài viết trên Wikipedia. | ||||
| +NLP | bản văn | DBPedia | Tổng quan | Sơ đồ tri thức | liên kết |
| Mô tả Chi tiết | Bản kết xuất có cấu trúc của Wikipedia, với các thực thể và mối quan hệ được trích xuất dưới dạng Biểu đồ kiến thức. | ||||
| +NLP | bản văn | YAGO | Tổng quan | Sơ đồ tri thức | liên kết |
| Mô tả Chi tiết | Biểu đồ kiến thức chứa các thực thể và mối quan hệ từ Wikipedia, WordNet và GeoNames. | ||||
| +NLP | bản văn | FreeBase | Tổng quan | Sơ đồ tri thức | liên kết |
| Mô tả Chi tiết | Cơ sở kiến thức cộng đồng bao gồm các thực thể và mối quan hệ, hiện được tích hợp vào biểu đồ kiến thức của Google. | ||||
| +NLP | bản văn | Ononotes | Tổng quan | Nhãn vai trò ngữ nghĩa | liên kết |
| Mô tả Chi tiết | Một kho dữ liệu có chú thích về cú pháp, ngữ nghĩa và cấp độ diễn ngôn được sử dụng trong các nhiệm vụ chia sẻ của CoNLL. | ||||
| Mô tả Chi tiết | Một tập dữ liệu tiếng Anh được chú thích cho các thực thể được đặt tên như cá nhân, tổ chức và địa điểm. | ||||
| +CV | Hình ảnh | COCO | Tổng quan | Phát hiện đối tượng | liên kết |
| Mô tả Chi tiết | Đối tượng chung trong ngữ cảnh: một tập dữ liệu có chú thích phong phú để phát hiện, phân đoạn và chú thích đối tượng. | ||||
| +CV | Hình ảnh | PASCAL VOC | Tổng quan | Phát hiện đối tượng | liên kết |
| Mô tả Chi tiết | Một tập dữ liệu chuẩn cho các thách thức về phát hiện và phân đoạn đối tượng. | ||||
| +CV | Hình ảnh | Cảnh quan thành phố | Lái xe tự động | Phân đoạn ngữ nghĩa | liên kết |
| Mô tả Chi tiết | Bộ dữ liệu để hiểu bối cảnh đô thị với chú thích cấp độ pixel cho 30 lớp. | ||||
| +CV | Hình ảnh | DANH SÁCH | Tổng quan | Phân loại chữ số | liên kết |
| Mô tả Chi tiết | Bộ dữ liệu chữ số viết tay với 60,000 hình ảnh đào tạo và 10,000 hình ảnh thử nghiệm có kích thước 28x28 pixel. | ||||
| +CV | Hình ảnh | Thời trang-MNIST | Bán lẻ | Phân loại hình ảnh | liên kết |
| Mô tả Chi tiết | Bộ dữ liệu hình ảnh bài viết của Zalando có cùng định dạng với MNIST, được sử dụng để thay thế cho việc đánh giá chuẩn. | ||||
| +NLP | Bài nghe | Thư việnBài phát biểu | Tổng quan | ASR | liên kết |
| Mô tả Chi tiết | Một kho bài phát biểu tiếng Anh được trích từ sách nói, với 1000 giờ bài phát biểu và văn bản liên quan. | ||||
| +NLP | Bài nghe | TED-LIUM | Tổng quan | ASR | liên kết |
| Mô tả Chi tiết | Các bài phát biểu TED được ghi âm và phiên âm phù hợp cho nghiên cứu nhận dạng giọng nói. | ||||
| +NLP | Bài nghe | TIMIT | Tổng quan | Nhận dạng âm vị | liên kết |
| Mô tả Chi tiết | Lời nói được phiên âm theo ngữ âm của người nói tiếng Anh Mỹ, được sử dụng rộng rãi cho các nhiệm vụ nhận dạng âm vị. | ||||
| +NLP | Bài nghe | Tiếng nói chung | Tổng quan | ASR | liên kết |
| Mô tả Chi tiết | Một kho tài liệu đa ngôn ngữ về bài phát biểu được đóng góp bởi các tình nguyện viên trên khắp thế giới. | ||||
| +NLP | Bài nghe | VoxCeleb | Tổng quan | Nhận dạng loa | liên kết |
| Mô tả Chi tiết | Một bộ dữ liệu nhận dạng người nói quy mô lớn được thu thập từ các video trên YouTube. | ||||
| +NLP | bản văn | Wikipedia Dump | Tổng quan | Mô hình ngôn ngữ | liên kết |
| Mô tả Chi tiết | Toàn văn các bài viết trên Wikipedia, được cập nhật thường xuyên, được sử dụng để đào tạo trước các mô hình ngôn ngữ. | ||||
| +NLP | bản văn | Gigaword | Tin tức | Mô hình ngôn ngữ | liên kết |
| Mô tả Chi tiết | Kho lưu trữ toàn diện dữ liệu văn bản tin tức từ nhiều hãng thông tấn. | ||||
| +NLP | bản văn | Đánh giá IMDB | Giải Trí | Phân tích tình cảm | liên kết |
| Mô tả Chi tiết | Bộ dữ liệu đánh giá phim lớn để phân loại tình cảm nhị phân. | ||||
| +CV | Video | Động học-700 | Tổng quan | Nhận dạng hành động | liên kết |
| Mô tả Chi tiết | Một bộ dữ liệu video clip YouTube chất lượng cao, quy mô lớn bao gồm 700 lớp hành động của con người. | ||||
| +CV | Video | UCF101 | Tổng quan | Nhận dạng hành động | liên kết |
| Mô tả Chi tiết | Một tập dữ liệu video hành động thực tế, với 101 danh mục hành động. | ||||
| +CV | Video | HMDB51 | Tổng quan | Nhận dạng hành động | liên kết |
| Mô tả Chi tiết | Cơ sở dữ liệu video chuyển động của con người lớn với 51 danh mục hành động. | ||||
| Mô tả Chi tiết | Cơ sở dữ liệu ảnh khuôn mặt được thiết kế để nghiên cứu khả năng nhận dạng khuôn mặt không bị hạn chế. | ||||
| +CV | Hình ảnh | CASIA-WebFace | Tổng quan | Nhận diện khuôn mặt | liên kết |
| Mô tả Chi tiết | Một tập dữ liệu với hàng triệu hình ảnh khuôn mặt để đào tạo các mô hình nhận dạng khuôn mặt sâu. | ||||
| +NLP | bản văn | tiểu đội | Tổng quan | Đọc hiểu | liên kết |
| Mô tả Chi tiết | Bộ dữ liệu trả lời câu hỏi của Stanford: các câu hỏi do cộng đồng đưa ra về một tập hợp các bài viết trên Wikipedia. | ||||
| Mô tả Chi tiết | Một tập dữ liệu hiểu máy có các câu hỏi và câu trả lời dựa trên các bài báo của CNN. | ||||
| +NLP | bản văn | MultiNLI | Tổng quan | Suy luận ngôn ngữ tự nhiên | liên kết |
| Mô tả Chi tiết | Một tập dữ liệu để suy luận ngôn ngữ tự nhiên theo cặp câu trên nhiều thể loại. | ||||
| +NLP | bản văn | SNLI | Tổng quan | Suy luận ngôn ngữ tự nhiên | liên kết |
| Mô tả Chi tiết | Ngữ liệu suy luận ngôn ngữ tự nhiên của Stanford với các cặp câu được gắn nhãn là hàm ý, mâu thuẫn hoặc trung tính. | ||||
| Mô tả Chi tiết | Bộ sưu tập hơn 100 triệu mã thông báo được trích xuất từ tập hợp các bài viết Tốt và Nổi bật đã được xác minh trên Wikipedia. | ||||
| Mô tả Chi tiết | Bộ dữ liệu gồm 16,185 hình ảnh của 196 loại xe. | ||||
| +CV | Hình ảnh | Hoa Oxford 102 | thực vật học | Phân loại chi tiết | liên kết |
| Mô tả Chi tiết | 102 loại hoa thường thấy ở Vương quốc Anh. | ||||
| +CV | Hình ảnh | CIFAR-10 | Tổng quan | Phân loại hình ảnh | liên kết |
| Mô tả Chi tiết | Hình ảnh của 10 loại: máy bay, ô tô, chim, mèo, hươu, chó, ếch, ngựa, tàu thủy và xe tải. | ||||
| +CV | Hình ảnh | CIFAR-100 | Tổng quan | Phân loại hình ảnh | liên kết |
| Mô tả Chi tiết | Một tập dữ liệu tương tự như CIFAR-10, nhưng có 100 lớp chi tiết. | ||||
| +CV | Hình ảnh | Bố cục người VOC | Tổng quan | Ước tính tư thế | liên kết |
| Mô tả Chi tiết | Một phần của PASCAL VOC tập trung vào chú thích bố cục của người như đầu, tay và chân. | ||||
| +CV | Hình ảnh | Tư thế con người MPII | Tổng quan | Ước tính tư thế | liên kết |
| Mô tả Chi tiết | Khoảng 25,000 hình ảnh chứa hơn 40,000 người có chú thích về các khớp cơ thể. | ||||
| Mô tả Chi tiết | Bộ sưu tập các bài báo của hãng tin Reuters phục vụ nghiên cứu phân loại văn bản. | ||||
| +NLP | bản văn | 20 nhóm tin | Tổng quan | Phân loại văn bản | liên kết |
| Mô tả Chi tiết | Bộ sưu tập 20,000 tài liệu nhóm tin được phân chia thành 20 nhóm tin khác nhau. | ||||