Mở tập dữ liệu
Khám phá các tập dữ liệu nguồn mở giúp bạn đào tạo các mô hình ML
Tập dữ liệu nguồn mở để giúp bạn bắt đầu với mô hình AI / ML
Đầu ra của các mô hình AI & ML của bạn chỉ tốt như dữ liệu bạn sử dụng để đào tạo nó - vì vậy độ chính xác mà bạn áp dụng để tổng hợp dữ liệu cũng như gắn thẻ và xác định dữ liệu đó là rất quan trọng!
Vì vậy, nếu bạn muốn bắt đầu một sáng kiến AI / ML mới và bây giờ bạn nhanh chóng nhận ra rằng việc tìm kiếm dữ liệu đào tạo chất lượng cao sẽ là một trong những khía cạnh thách thức hơn trong dự án của bạn vì bộ dữ liệu chất lượng cao là nguồn cung cấp cho AI / Động cơ ML đang chạy. Chúng tôi đã tích lũy một danh sách các bộ dữ liệu mở được sử dụng miễn phí và đào tạo các mô hình AI / ML của bạn trong tương lai.
Chuyên môn | Loại dữ liệu | Tên tập dữ liệu | Ngành / Phòng | Chú thích / Trường hợp Sử dụng | Mô tả | liên kết |
---|---|---|---|---|---|---|
NLP | bản văn | Amazon Nhận xét | Thương mại điện tử | Phân tích tình cảm | Một tập hợp 35 đánh giá và xếp hạng Mn từ hơn 18 năm qua ở dạng văn bản thuần túy với thông tin chi tiết về người dùng và sản phẩm. | liên kết |
NLP | bản văn | Dữ liệu liên kết Wikipedia | Tổng Quát | Hơn 4 Mn. các bài chứa 1.9 Bn. từ bao gồm các từ và cụm từ cũng như các đoạn văn. | liên kết | |
NLP | bản văn | Ngân hàng cây tình cảm Standford | Giải trí | Phân tích tình cảm | Tập dữ liệu chú thích cảm xúc cho hơn 10,000 bài đánh giá từ Rotten Tomatoes ở định dạng tệp HTML | liên kết |
NLP | bản văn | Twitter Tình cảm của Hãng hàng không Hoa Kỳ | máy bay | Phân tích tình cảm | Các Tweet năm 2015 trên US Airlines được chia thành các tông màu tích cực, tiêu cực và trung tính | liên kết |
CV | Hình ảnh | Những khuôn mặt được gắn nhãn trong tự nhiên | Tổng Quát | Nhận diện khuôn mặt | Tập dữ liệu chứa hơn 13,000 khuôn mặt được cắt xén với hai hình ảnh khác nhau để đào tạo nhận dạng khuôn mặt. | liên kết |
CV | Video, Hình ảnh | Tập dữ liệu UMDFaces | Tổng Quát | Nhận diện khuôn mặt | Tập dữ liệu có chú thích chứa hơn 367,000 khuôn mặt từ hơn 8,000 đối tượng Bao gồm hình ảnh tĩnh và video. | liên kết |
CV | Hình ảnh | Mạng hình ảnh | Tổng Quát | Tập dữ liệu với hơn 14 Mn. hình ảnh ở nhiều định dạng tệp khác nhau, được tổ chức theo cấu trúc phân cấp Mạng từ. | liên kết | |
CV | Hình ảnh | Hình ảnh mở của Google | Tổng Quát | 9 triệu URL để phân loại hình ảnh công khai từ hơn 6,000 danh mục. | liên kết | |
NLP | bản văn | Cơ sở dữ liệu chăm sóc quan trọng của MIMIC | Chăm sóc sức khỏe | Bộ dữ liệu sinh lý học tính toán với dữ liệu chưa được xác định từ 40,000 bệnh nhân chăm sóc quan trọng. Tập dữ liệu chứa thông tin như nhân khẩu học, dấu hiệu quan trọng, thuốc, v.v. | liên kết | |
CV | Hình ảnh | Văn phòng Du lịch và Lữ hành Quốc gia Hoa Kỳ | Du lịch | Cung cấp những bức ảnh rộng về ngành du lịch với cơ sở dữ liệu đáng tin cậy, bao gồm các chủ đề như du lịch trong và ngoài nước và thông tin du lịch quốc tế. | liên kết | |
NLP | bản văn | Sở Giao thông vận tải | Du lịch | Bộ dữ liệu du lịch bao gồm Vườn quốc gia, sổ đăng ký lái xe, thông tin về cầu & đường sắt, v.v. | liên kết | |
NLP | Bài nghe | Tập tin chú thích âm thanh Flickr | Tổng Quát | Hơn 40 nghìn chú thích bằng giọng nói từ 8,000 bức ảnh được thiết kế cho các mẫu giọng nói không có người giám sát | liên kết | |
NLP | Bài nghe | Tập dữ liệu lệnh thoại | Tổng Quát | Nhận dạng giọng nói, chú thích âm thanh | Các câu nói dài 1 giây từ hàng nghìn cá nhân, để xây dựng giao diện giọng nói cơ bản. | liên kết |
NLP | Bài nghe | Bộ dữ liệu âm thanh môi trường | Tổng Quát | Bộ dữ liệu âm thanh môi trường có chứa âm thanh của bảng sự kiện và bảng cảnh âm thanh. | liên kết | |
NLP | bản văn | Bộ dữ liệu nghiên cứu mở COVID-19 | Chăm sóc sức khỏe | AI y tế | Một tập dữ liệu nghiên cứu bao gồm 45,000 bài báo học thuật về COVID-19 và họ virus coronavirus. | liên kết |
CV | Hình ảnh | Bộ dữ liệu mở Waymo | Ô tô | Bộ dữ liệu lái xe tự hành đa dạng nhất do Waymo phát hành | liên kết | |
CV | Hình ảnh | nhãn hiệu | Chính phủ công cộng. | Tập hợp lớn các hình ảnh có chú thích có thể truy cập thông qua Labelme Matlab | liên kết | |
CV | Hình ảnh | CUỘN DÂY100 | Tổng Quát | Hơn 100 đối tượng khác nhau được chụp từ nhiều góc độ (tức là 360 độ) | liên kết | |
CV | Hình ảnh | Tập dữ liệu về chó Stanford | Tổng Quát | Hơn 20,500+ hình ảnh được phân loại thành bộ hình ảnh của 120 giống chó khác nhau | liên kết | |
CV | Hình ảnh | Nhận dạng cảnh trong nhà | Tổng Quát | Nhận dạng cảnh | Một tập dữ liệu cụ thể bao gồm 15620 hình ảnh từ 67 danh mục trong nhà để xây dựng các mô hình nhận dạng cảnh | liên kết |
CV | Hình ảnh | VisualQA | Tổng Quát | Một tập dữ liệu bao gồm các câu hỏi mở liên quan đến 265,016 bức ảnh yêu cầu sự hiểu biết về thị giác và khả năng hiểu ngôn ngữ để trả lời. | liên kết | |
NLP | bản văn | Tập dữ liệu phân tích tình cảm đa miền | Thương mại điện tử | Phân tích tình cảm | Tập dữ liệu chứa các bài đánh giá sản phẩm từ Amazon | liên kết |
NLP | bản văn | Đánh giá IMDB | Giải trí | Phân tích tình cảm | Tập dữ liệu chứa 25000 bài đánh giá phim để phân tích tình cảm | liên kết |
NLP | bản văn | Kho dữ liệu Blogger | Tổng Quát | Phân tích cụm từ khóa | Tập dữ liệu chứa 681,288 bài đăng trên blog từ blogger.com bao gồm tối thiểu 200 lần xuất hiện của các từ tiếng Anh được sử dụng rộng rãi. | liên kết |
NLP | bản văn | Nguy cơ | Tổng Quát | Đào tạo Chatbot | Tập dữ liệu với hơn 200,000 câu hỏi có thể được sử dụng để đào tạo các mô hình học máy để tự động trả lời một cách thông minh | liên kết |
NLP | bản văn | Bộ sưu tập SMS Spam bằng tiếng Anh | Viễn thông | Nhận dạng thư rác | Một tập dữ liệu tin nhắn rác bao gồm 5,574 SMS tiếng Anh | liên kết |
NLP | bản văn | Bài đánh giá trên Yelp | Tổng Quát | Phân tích tình cảm | Tập dữ liệu với hơn 5 triệu bài đánh giá được xuất bản bởi Yelp | liên kết |
NLP | bản văn | Thư rác của UCI | Doanh nghiệp | Nhận dạng thư rác | Một tập dữ liệu lớn về các email spam, hữu ích cho việc lọc thư rác. | liên kết |
CV | Video, Hình ảnh | Berkeley DeepDrive BDD100k | Ô tô | Xe tự hành | Một trong những tập dữ liệu lớn nhất về AI tự lái chứa 1,100 giờ trải nghiệm lái xe trong hơn 100,000 video từ các thời điểm khác nhau trong ngày từ khu vực New York và San Francisco. | liên kết |
CV | Video | Dấu phẩy.ai | Ô tô | Xe tự hành | Tập dữ liệu lái xe trên đường cao tốc trong 7 giờ bao gồm thông tin về tốc độ, gia tốc, góc lái và tọa độ GPS của ô tô | liên kết |
CV | Video, Hình ảnh | Bộ dữ liệu cảnh quan thành phố | Ô tô | Nhãn ngữ nghĩa cho xe tự hành | Tập dữ liệu gồm 5,000 chú thích cấp pixel cộng với một tập hợp lớn hơn gồm 20,000 khung hình được chú thích yếu trong chuỗi video âm thanh nổi, được ghi lại từ 50 thành phố khác nhau | liên kết |
CV | Hình ảnh | Bộ dữ liệu biển báo giao thông KUL Bỉ | Ô tô | Xe tự hành | Hơn 10000 chú thích biển báo giao thông từ vùng Flanders dựa trên các biển báo giao thông thực tế khác biệt trên khắp nước Bỉ. | liên kết |
CV | Hình ảnh | LISA: Phòng thí nghiệm dành cho ô tô thông minh & an toàn, Bộ dữ liệu UC San Diego | Ô tô | Xe tự hành | Một tập dữ liệu phong phú chứa các biển báo giao thông, phát hiện phương tiện, đèn giao thông và các mẫu quỹ đạo. | liên kết |
CV | Hình ảnh | CIFAR-10 | Tổng Quát | Nhận dạng đối tượng | Một tập dữ liệu bao gồm 50,000 hình ảnh và 10,000 hình ảnh thử nghiệm (tức là 60,000 hình ảnh màu 32 × 32 trong 10 lớp) để nhận dạng đối tượng. | liên kết |
CV | Hình ảnh | Thời trang MNIST | Thời trang | Một tập dữ liệu hình ảnh bao gồm 60,000 ví dụ và một tập kiểm tra 10,000 ví dụ ở các hình ảnh thang độ xám 28 × 28, được liên kết với một nhãn từ 10 lớp. | liên kết | |
CV | Hình ảnh | Tập dữ liệu IMDB-Wiki | Giải trí | Nhận diện khuôn mặt | Một tập dữ liệu lớn về hình ảnh khuôn mặt với các nhãn như giới tính và tuổi tác. Trong tổng số 523,051 hình ảnh khuôn mặt, 460,723 hình ảnh được lấy từ 20,284 người nổi tiếng từ IMDB & 62,328 từ Wikipedia. | liên kết |
CV | Video | Động học-700 | Tổng Quát | Đối với mỗi lớp hành động, tập dữ liệu chất lượng cao bao gồm 650,000 video clip và bao gồm 700 lớp hành động của con người với ít nhất 600 video clip. Ở đây, mỗi clip kéo dài 10 giây hoặc lâu hơn. | liên kết | |
CV | Hình ảnh | MS dừa | Tổng Quát | Phát hiện đối tượng, Phân đoạn | Tập dữ liệu chứa 328k hình ảnh và có tổng cộng 2.5 phiên bản Mn và 91 hình ảnh đối tượng để đào tạo các mô hình ML liên quan đến phát hiện đối tượng quy mô lớn, phân đoạn và chú thích dữ liệu. | liên kết |
CV | Hình ảnh | Bộ dữ liệu tư thế người MPII | Tổng Quát | Khoảng 25 nghìn bức ảnh chứa hơn 40 nghìn cá thể với các khớp cơ thể được chú thích được đưa vào bộ dữ liệu, được sử dụng để mô tả ước tính tư thế của con người. Nhìn chung, bộ dữ liệu bao gồm 410 hoạt động của con người và mỗi hình ảnh được cung cấp một nhãn hoạt động. | liên kết | |
CV | Hình ảnh | Mở hình ảnh | Tổng Quát | Chú thích vị trí đối tượng | Tập dữ liệu hình ảnh với khoảng 9 hình ảnh Mn được chú thích bằng nhãn cấp hình ảnh, hộp giới hạn đối tượng, phân đoạn đối tượng, v.v. Tập dữ liệu cũng bao gồm 16 Mn. các hộp giới hạn cho 600 lớp đối tượng trên ảnh 1.9 Mn. | liên kết |
CV | Video, Hình ảnh | Argo, bởi Argo, USA | Ô tô | Hộp ranh giới, Luồng quang học, Nhãn hành vi, Nhãn ngữ nghĩa, Đánh dấu làn đường | Tập dữ liệu về xe tự lái bao gồm bản đồ HD với siêu dữ liệu hình học & ngữ nghĩa, tức là đường tâm làn đường, hướng làn đường và khu vực có thể lái xe. Bộ dữ liệu được sử dụng để đào tạo các mô hình ML, để đưa ra các thuật toán nhận thức chính xác hơn, giúp các phương tiện tự lái điều hướng an toàn. | liên kết |
CV | Video | Đèn giao thông nhỏ của Bosch, của Bosch North America Research | Ô tô | Hộp giới hạn | Tập dữ liệu thu thập 13427 hình ảnh camera với độ phân giải 1280 * 720 để xây dựng hệ thống phát hiện đèn giao thông dựa trên tầm nhìn. Tập dữ liệu có hơn 24000 đèn giao thông được chú thích. | liên kết |
CV | Video | Brain4Cars, của Cornell Univ., United States | Ô tô | Nhãn hành vi | Tập dữ liệu bao gồm một loạt các cảm biến cabin (camera, cảm biến xúc giác, thiết bị thông minh, v.v.) để trích xuất các số liệu thống kê hữu ích về mức độ cảnh giác của người lái xe. Các thuật toán của chúng tôi có thể phát hiện những người lái xe buồn ngủ hoặc mất tập trung và tăng cường các cảnh báo cần thiết để cải thiện khả năng bảo vệ. | liên kết |
CV | Hình ảnh | CULane, của Đại học Trung Quốc. của Hồng Kông, Bắc Kinh, Trung Quốc | Ô tô | Đánh dấu làn đường | Tập dữ liệu Computer Vision về phát hiện làn đường giao thông, xem 55 giờ video, trong đó 133,235 (bộ đào tạo 88880, bộ xác thực 9675 và bộ kiểm tra 34680) đã được trích xuất. Nó được thu thập bởi các camera gắn trên sáu phương tiện khác nhau do các tài xế khác nhau ở Bắc Kinh điều khiển. | liên kết |
CV | Video | DAVIS, bởi Univ. của Zurich, ETH ¨ Zurich, Đức, Thụy Sĩ | Ô tô | Tập dữ liệu đào tạo lái xe ô tô đầu cuối sử dụng máy ảnh khung hình + sự kiện DAVIS. Dữ liệu ô tô như hệ thống lái, ga, GPS, v.v. được sử dụng để đánh giá sự kết hợp giữa dữ liệu khung và dữ liệu sự kiện cho các ứng dụng ô tô. | liên kết | |
CV | Video | DBNet, của Shanghai Jiao Tong Univ., Xiamen Univ., China | Ô tô | Đám mây điểm, LiDAR | Dữ liệu lái xe 1000 KM trong thế giới thực, bao gồm video được căn chỉnh, đám mây điểm, GPS và hành vi của người lái xe để nghiên cứu chuyên sâu về hành vi lái xe. | liên kết |
CV | Video | Dr (eye) ve, bởi Univ. của Modena và Reggio Emilia, Modena, Ý | Ô tô | Nhãn hành vi | Tập dữ liệu chứa 74 chuỗi video, mỗi chuỗi dài 5 phút, được chú thích trong hơn 500,000 khung hình. Tập dữ liệu bao gồm các vị trí được tham chiếu theo địa lý, tốc độ lái xe, đường đi và cũng gắn nhãn các điểm cố định hướng nhìn của người lái xe và tích hợp tạm thời của chúng để cung cấp bản đồ cụ thể cho nhiệm vụ. | liên kết |
CV | Video | ETH Pedestrian (2009), bởi ETH Zurich, Zurich, Thụy Sĩ | Tổng Quát | Hộp giới hạn | Tập dữ liệu gồm 74 chuỗi video, mỗi chuỗi dài 5 phút, được chú thích trong hơn 500,000 khung hình. Tập dữ liệu cung cấp các vị trí được tham chiếu theo địa lý, tốc độ lái xe, hướng và cũng gắn nhãn các điểm cố định hướng nhìn cho người lái xe và tích hợp theo thời gian của chúng, bao gồm bản đồ cụ thể cho nhiệm vụ. | liên kết |
CV | Video | Ford (2009), bởi Univ. của Michigan, Michigan, Hoa Kỳ | Ô tô | Hộp giới hạn,, LiDAR | Một tập dữ liệu được biên soạn bởi một phương tiện trên bộ tự động được trang bị máy quét 3D Velodyne, hai nắp đậy Rieg có chổi đẩy về phía trước, Đơn vị đo lường quán tính (IMU) kỹ thuật và tiêu dùng và hệ thống camera đa hướng Point Grey Ladybug3. | liên kết |
CV | Video | HCI Challe challenge Stereo, Bosch Corporation Research, Hildesheim, Đức | Tổng Quát | Một tập dữ liệu gồm vài triệu khung hình từ các cảnh video đã chụp bao gồm một loạt các điều kiện thời tiết khác nhau, nhiều lớp chuyển động và độ sâu; tình huống ở thành phố và nông thôn, v.v. | liên kết | |
CV | Video | JAAD, của Đại học York, Ukraine, Canada | Ô tô | Hộp giới hạn, Nhãn hành vi | "JAAD là một tập dữ liệu để nghiên cứu sự chú ý chung trong bối cảnh lái xe tự động. Trọng tâm là hành vi của người đi bộ và người lái xe tại điểm giao nhau và các yếu tố ảnh hưởng đến họ. Để đạt được mục tiêu này, tập dữ liệu JAAD cung cấp một bộ sưu tập gồm 346 video ngắn được chú thích phong phú clip (dài 5-10 giây) được trích xuất từ hơn 240 giờ quay cảnh lái xe từ một số địa điểm ở Bắc Mỹ và Đông Âu. Các hộp giới hạn có thẻ tắc được sử dụng cho tất cả người đi bộ, làm cho tập dữ liệu này phù hợp để phát hiện người đi bộ. Chú thích hành vi chỉ định hành vi cho người đi bộ tương tác với hoặc yêu cầu sự chú ý của người lái xe. Đối với mỗi video có một số thẻ (thời tiết, vị trí, v.v.) và nhãn hành vi được đánh dấu thời gian (ví dụ: dừng lại, đi bộ, nhìn, v.v.). Ngoài ra, danh sách các thuộc tính nhân khẩu học là được cung cấp cho từng người đi bộ (ví dụ: tuổi, giới tính, hướng chuyển động, v.v.) cũng như danh sách các yếu tố hiện trường giao thông có thể nhìn thấy (ví dụ: biển báo dừng, tín hiệu giao thông, v.v.) trong mỗi khung hình. " | liên kết |
CV | Hình ảnh | LISA Traffic Sign, bởi Đại học. của California, San Diego, Hoa Kỳ | Ô tô | Hộp giới hạn | Bộ tập dữ liệu chứa các video và khung chú thích chứa các biển báo giao thông của Hoa Kỳ. Nó được phát hành trong hai giai đoạn, một chỉ có hình ảnh và một có cả hình ảnh và video. | liên kết |
CV | Hình ảnh | Mapcular Vistas, của Map Mao AB, Global | Ô tô | Nhãn ngữ nghĩa | Bộ dữ liệu nhiếp ảnh cấp độ đường phố để diễn giải các cảnh đường phố trên khắp thế giới với các chú thích về người cụ thể và chính xác từng pixel. | liên kết |
CV | Video, Hình ảnh | Semantic KITTI, của Đại học Bonn, Karlsruhe, Đức | Ô tô | Hộp giới hạn, Nhãn ngữ nghĩa, Đánh dấu làn đường | Tập dữ liệu bao gồm chú thích ngữ nghĩa cho tất cả các chuỗi Điểm chuẩn Odometry. Tập dữ liệu chú thích các loại giao thông di chuyển và không di chuyển khác nhau: bao gồm ô tô, xe đạp máy, xe đạp, người đi bộ và người đi xe đạp, cho phép các đối tượng trong cảnh được nghiên cứu. | liên kết |
CV | Video | Stanford Track, bởi Stanford Univ., United States | Ô tô | Phát hiện / phân loại đối tượng LiDAR, GPS, Mã | Tập dữ liệu bao gồm 14,000 đường đối tượng được gắn nhãn do Velodyne HDL-64E S2 LIDAR quan sát được trong các cảnh đường phố tự nhiên, có thể được sử dụng để đào tạo mô hình máy học cho Nhận dạng đối tượng 3D. | liên kết |
CV | Video, Hình ảnh | Bộ dữ liệu hình hộp, của Bosch, Hoa Kỳ | Ô tô | Hộp giới hạn / Phát hiện phương tiện | Bộ dữ liệu phát hiện phương tiện chứa 2 triệu phương tiện được chú thích để đào tạo và phân tích các chiến lược nhận dạng đối tượng cho ô tô tự lái trên đường cao tốc. | liên kết |
CV | Video | TME Motorway, bởi Đại học Kỹ thuật Séc, Bắc Ý | Ô tô | Hộp giới hạn | Tập dữ liệu gồm 28 clip với tổng thời lượng 27 phút được chia thành hơn 30,000 khung chú thích về phương tiện. Chú thích được tạo bán tự động bằng cách sử dụng dữ liệu từ máy quét laser. Việc thu thập dữ liệu này liên quan đến các tình huống giao thông thay đổi, số làn đường, độ cong và độ chiếu sáng của đường, bao gồm nhiều điều kiện của việc thu thập đầy đủ. | liên kết |
CV | Video | Llamas không giám sát, của Bosch, Hoa Kỳ | Ô tô | Đánh dấu làn đường, LiDAR | Tập dữ liệu Llamas không giám sát được chú thích bằng cách tạo bản đồ lái xe tự động độ nét cao, bao gồm cả các điểm đánh dấu làn đường dựa trên Lidar. Xe tự hành có thể được căn chỉnh dựa trên các bản đồ này và vạch kẻ làn đường được chiếu vào khung máy ảnh. Phép chiếu 3D được tối ưu hóa bằng cách giảm thiểu sự khác biệt giữa các điểm đánh dấu hình ảnh đã được quan sát và dự đoán. | liên kết |
NLP | Bài nghe | Facebook AI Đa ngôn ngữ LibriSpeech (MLS) | Tổng Quát | Chú thích âm thanh / Nhận dạng giọng nói | Facebook AI Multilingual LibriSpeech (MLS), là một bộ dữ liệu mã nguồn mở, quy mô lớn được thiết kế để giúp nghiên cứu trước về nhận dạng giọng nói tự động (ASR). MLS cung cấp hơn 50,000 giờ âm thanh trên 8 ngôn ngữ: Anh, Đức, Hà Lan, Pháp, Tây Ban Nha, Ý, Bồ Đào Nha và Ba Lan. | liên kết |