Mở tập dữ liệu

Khám phá các tập dữ liệu nguồn mở giúp bạn đào tạo các mô hình ML

Mở tập dữ liệu

Tập dữ liệu nguồn mở để giúp bạn bắt đầu với mô hình AI / ML

Đầu ra của các mô hình AI & ML của bạn chỉ tốt như dữ liệu bạn sử dụng để đào tạo nó - vì vậy độ chính xác mà bạn áp dụng để tổng hợp dữ liệu cũng như gắn thẻ và xác định dữ liệu đó là rất quan trọng!

Vì vậy, nếu bạn muốn bắt đầu một sáng kiến ​​AI / ML mới và bây giờ bạn nhanh chóng nhận ra rằng việc tìm kiếm dữ liệu đào tạo chất lượng cao sẽ là một trong những khía cạnh thách thức hơn trong dự án của bạn vì bộ dữ liệu chất lượng cao là nguồn cung cấp cho AI / Động cơ ML đang chạy. Chúng tôi đã tích lũy một danh sách các bộ dữ liệu mở được sử dụng miễn phí và đào tạo các mô hình AI / ML của bạn trong tương lai.

Chuyên mônLoại dữ liệuTên tập dữ liệuNgành / PhòngChú thích / Trường hợp Sử dụngMô tảliên kết
NLPbản vănAmazon Nhận xétThương mại điện tửPhân tích tình cảmMột tập hợp 35 đánh giá và xếp hạng Mn từ hơn 18 năm qua ở dạng văn bản thuần túy với thông tin chi tiết về người dùng và sản phẩm.liên kết
NLPbản vănDữ liệu liên kết WikipediaTổng QuátHơn 4 Mn. các bài chứa 1.9 Bn. từ bao gồm các từ và cụm từ cũng như các đoạn văn.liên kết
NLPbản vănNgân hàng cây tình cảm StandfordGiải tríPhân tích tình cảmTập dữ liệu chú thích cảm xúc cho hơn 10,000 bài đánh giá từ Rotten Tomatoes ở định dạng tệp HTMLliên kết
NLPbản vănTwitter Tình cảm của Hãng hàng không Hoa Kỳmáy bayPhân tích tình cảmCác Tweet năm 2015 trên US Airlines được chia thành các tông màu tích cực, tiêu cực và trung tínhliên kết
CVHình ảnh Những khuôn mặt được gắn nhãn trong tự nhiênTổng QuátNhận diện khuôn mặtTập dữ liệu chứa hơn 13,000 khuôn mặt được cắt xén với hai hình ảnh khác nhau để đào tạo nhận dạng khuôn mặt.liên kết
CVVideo, Hình ảnhTập dữ liệu UMDFacesTổng QuátNhận diện khuôn mặtTập dữ liệu có chú thích chứa hơn 367,000 khuôn mặt từ hơn 8,000 đối tượng Bao gồm hình ảnh tĩnh và video.liên kết
CVHình ảnh Mạng hình ảnhTổng QuátTập dữ liệu với hơn 14 Mn. hình ảnh ở nhiều định dạng tệp khác nhau, được tổ chức theo cấu trúc phân cấp Mạng từ.liên kết
CVHình ảnh Hình ảnh mở của GoogleTổng Quát9 triệu URL để phân loại hình ảnh công khai từ hơn 6,000 danh mục.liên kết
NLPbản vănCơ sở dữ liệu chăm sóc quan trọng của MIMICChăm sóc sức khỏeBộ dữ liệu sinh lý học tính toán với dữ liệu chưa được xác định từ 40,000 bệnh nhân chăm sóc quan trọng. Tập dữ liệu chứa thông tin như nhân khẩu học, dấu hiệu quan trọng, thuốc, v.v.liên kết
CVHình ảnhVăn phòng Du lịch và Lữ hành Quốc gia Hoa KỳDu lịchCung cấp những bức ảnh rộng về ngành du lịch với cơ sở dữ liệu đáng tin cậy, bao gồm các chủ đề như du lịch trong và ngoài nước và thông tin du lịch quốc tế.liên kết
NLPbản vănSở Giao thông vận tảiDu lịchBộ dữ liệu du lịch bao gồm Vườn quốc gia, sổ đăng ký lái xe, thông tin về cầu & đường sắt, v.v.liên kết
NLPBài ngheTập tin chú thích âm thanh FlickrTổng QuátHơn 40 nghìn chú thích bằng giọng nói từ 8,000 bức ảnh được thiết kế cho các mẫu giọng nói không có người giám sátliên kết
NLPBài ngheTập dữ liệu lệnh thoạiTổng QuátNhận dạng giọng nói, chú thích âm thanhCác câu nói dài 1 giây từ hàng nghìn cá nhân, để xây dựng giao diện giọng nói cơ bản.liên kết
NLPBài ngheBộ dữ liệu âm thanh môi trườngTổng QuátBộ dữ liệu âm thanh môi trường có chứa âm thanh của bảng sự kiện và bảng cảnh âm thanh.liên kết
NLPbản vănBộ dữ liệu nghiên cứu mở COVID-19 Chăm sóc sức khỏeAI y tếMột tập dữ liệu nghiên cứu bao gồm 45,000 bài báo học thuật về COVID-19 và họ virus coronavirus.liên kết
CVHình ảnhBộ dữ liệu mở Waymo Ô tôBộ dữ liệu lái xe tự hành đa dạng nhất do Waymo phát hànhliên kết
CVHình ảnhBộ gen thị giác Tổng QuátChú thích hình ảnhCơ sở kiến ​​thức trực quan với phụ đề chi tiết của hơn 100K hình ảnhliên kết
CVHình ảnhnhãn hiệu Chính phủ công cộng.Tập hợp lớn các hình ảnh có chú thích có thể truy cập thông qua Labelme Matlabliên kết
CVHình ảnhCUỘN DÂY100Tổng QuátHơn 100 đối tượng khác nhau được chụp từ nhiều góc độ (tức là 360 độ)liên kết
CVHình ảnhTập dữ liệu về chó StanfordTổng QuátHơn 20,500+ hình ảnh được phân loại thành bộ hình ảnh của 120 giống chó khác nhauliên kết
CVHình ảnhNhận dạng cảnh trong nhàTổng QuátNhận dạng cảnhMột tập dữ liệu cụ thể bao gồm 15620 hình ảnh từ 67 danh mục trong nhà để xây dựng các mô hình nhận dạng cảnhliên kết
CVHình ảnhVisualQATổng QuátMột tập dữ liệu bao gồm các câu hỏi mở liên quan đến 265,016 bức ảnh yêu cầu sự hiểu biết về thị giác và khả năng hiểu ngôn ngữ để trả lời.liên kết
NLPbản vănTập dữ liệu phân tích tình cảm đa miềnThương mại điện tửPhân tích tình cảmTập dữ liệu chứa các bài đánh giá sản phẩm từ Amazonliên kết
NLPbản vănĐánh giá IMDBGiải tríPhân tích tình cảmTập dữ liệu chứa 25000 bài đánh giá phim để phân tích tình cảmliên kết
NLPbản vănCảm xúc 140Tổng QuátPhân tích tình cảmTập dữ liệu chứa 160,000 tweet với các biểu tượng cảm xúc được xóa trước để có độ chính xác cao hơnliên kết
NLPbản vănKho dữ liệu BloggerTổng QuátPhân tích cụm từ khóaTập dữ liệu chứa 681,288 bài đăng trên blog từ blogger.com bao gồm tối thiểu 200 lần xuất hiện của các từ tiếng Anh được sử dụng rộng rãi.liên kết
NLPbản vănNguy cơTổng QuátĐào tạo ChatbotTập dữ liệu với hơn 200,000 câu hỏi có thể được sử dụng để đào tạo các mô hình học máy để tự động trả lời một cách thông minhliên kết
NLPbản vănBộ sưu tập SMS Spam bằng tiếng AnhViễn thôngNhận dạng thư rácMột tập dữ liệu tin nhắn rác bao gồm 5,574 SMS tiếng Anhliên kết
NLPbản vănBài đánh giá trên YelpTổng QuátPhân tích tình cảmTập dữ liệu với hơn 5 triệu bài đánh giá được xuất bản bởi Yelpliên kết
NLPbản vănThư rác của UCIDoanh nghiệpNhận dạng thư rácMột tập dữ liệu lớn về các email spam, hữu ích cho việc lọc thư rác.liên kết
CVVideo, Hình ảnhBerkeley DeepDrive BDD100kÔ tôXe tự hànhMột trong những tập dữ liệu lớn nhất về AI tự lái chứa 1,100 giờ trải nghiệm lái xe trong hơn 100,000 video từ các thời điểm khác nhau trong ngày từ khu vực New York và San Francisco.liên kết
CVVideoDấu phẩy.aiÔ tôXe tự hành Tập dữ liệu lái xe trên đường cao tốc trong 7 giờ bao gồm thông tin về tốc độ, gia tốc, góc lái và tọa độ GPS của ô tôliên kết
CVVideo, Hình ảnhBộ dữ liệu cảnh quan thành phốÔ tôNhãn ngữ nghĩa cho xe tự hànhTập dữ liệu gồm 5,000 chú thích cấp pixel cộng với một tập hợp lớn hơn gồm 20,000 khung hình được chú thích yếu trong chuỗi video âm thanh nổi, được ghi lại từ 50 thành phố khác nhauliên kết
CVHình ảnhBộ dữ liệu biển báo giao thông KUL BỉÔ tôXe tự hànhHơn 10000 chú thích biển báo giao thông từ vùng Flanders dựa trên các biển báo giao thông thực tế khác biệt trên khắp nước Bỉ.liên kết
CVHình ảnhLISA: Phòng thí nghiệm dành cho ô tô thông minh & an toàn, Bộ dữ liệu UC San DiegoÔ tôXe tự hànhMột tập dữ liệu phong phú chứa các biển báo giao thông, phát hiện phương tiện, đèn giao thông và các mẫu quỹ đạo.liên kết
CVHình ảnhCIFAR-10Tổng QuátNhận dạng đối tượngMột tập dữ liệu bao gồm 50,000 hình ảnh và 10,000 hình ảnh thử nghiệm (tức là 60,000 hình ảnh màu 32 × 32 trong 10 lớp) để nhận dạng đối tượng.liên kết
CVHình ảnhThời trang MNISTThời trangMột tập dữ liệu hình ảnh bao gồm 60,000 ví dụ và một tập kiểm tra 10,000 ví dụ ở các hình ảnh thang độ xám 28 × 28, được liên kết với một nhãn từ 10 lớp.liên kết
CVHình ảnhTập dữ liệu IMDB-WikiGiải tríNhận diện khuôn mặtMột tập dữ liệu lớn về hình ảnh khuôn mặt với các nhãn như giới tính và tuổi tác. Trong tổng số 523,051 hình ảnh khuôn mặt, 460,723 hình ảnh được lấy từ 20,284 người nổi tiếng từ IMDB & 62,328 từ Wikipedia.liên kết
CVVideoĐộng học-700Tổng QuátĐối với mỗi lớp hành động, tập dữ liệu chất lượng cao bao gồm 650,000 video clip và bao gồm 700 lớp hành động của con người với ít nhất 600 video clip. Ở đây, mỗi clip kéo dài 10 giây hoặc lâu hơn.liên kết
CVHình ảnhMS dừaTổng QuátPhát hiện đối tượng, Phân đoạnTập dữ liệu chứa 328k hình ảnh và có tổng cộng 2.5 phiên bản Mn và 91 hình ảnh đối tượng để đào tạo các mô hình ML liên quan đến phát hiện đối tượng quy mô lớn, phân đoạn và chú thích dữ liệu.liên kết
CVHình ảnhBộ dữ liệu tư thế người MPIITổng QuátKhoảng 25 nghìn bức ảnh chứa hơn 40 nghìn cá thể với các khớp cơ thể được chú thích được đưa vào bộ dữ liệu, được sử dụng để mô tả ước tính tư thế của con người. Nhìn chung, bộ dữ liệu bao gồm 410 hoạt động của con người và mỗi hình ảnh được cung cấp một nhãn hoạt động.liên kết
CVHình ảnhMở hình ảnhTổng QuátChú thích vị trí đối tượngTập dữ liệu hình ảnh với khoảng 9 hình ảnh Mn được chú thích bằng nhãn cấp hình ảnh, hộp giới hạn đối tượng, phân đoạn đối tượng, v.v. Tập dữ liệu cũng bao gồm 16 Mn. các hộp giới hạn cho 600 lớp đối tượng trên ảnh 1.9 Mn.liên kết
CVVideoApollo Open Platform, của Baidu Inc, Trung QuốcÔ tôHộp giới hạn, LiDARMột tập dữ liệu lái xe tự hành phong phú, cung cấp cho các nhà phát triển dữ liệu cần thiết trong việc lái xe tự động để tăng tốc hiệu quả của quá trình lặp lại sáng tạo.liên kết
CVVideo, Hình ảnhArgo, bởi Argo, USAÔ tôHộp ranh giới, Luồng quang học, Nhãn hành vi, Nhãn ngữ nghĩa, Đánh dấu làn đườngTập dữ liệu về xe tự lái bao gồm bản đồ HD với siêu dữ liệu hình học & ngữ nghĩa, tức là đường tâm làn đường, hướng làn đường và khu vực có thể lái xe. Bộ dữ liệu được sử dụng để đào tạo các mô hình ML, để đưa ra các thuật toán nhận thức chính xác hơn, giúp các phương tiện tự lái điều hướng an toàn.liên kết
CVVideoĐèn giao thông nhỏ của Bosch, của Bosch North America ResearchÔ tôHộp giới hạnTập dữ liệu thu thập 13427 hình ảnh camera với độ phân giải 1280 * 720 để xây dựng hệ thống phát hiện đèn giao thông dựa trên tầm nhìn. Tập dữ liệu có hơn 24000 đèn giao thông được chú thích.liên kết
CVVideoBrain4Cars, của Cornell Univ., United StatesÔ tôNhãn hành viTập dữ liệu bao gồm một loạt các cảm biến cabin (camera, cảm biến xúc giác, thiết bị thông minh, v.v.) để trích xuất các số liệu thống kê hữu ích về mức độ cảnh giác của người lái xe. Các thuật toán của chúng tôi có thể phát hiện những người lái xe buồn ngủ hoặc mất tập trung và tăng cường các cảnh báo cần thiết để cải thiện khả năng bảo vệ.liên kết
CVHình ảnhCULane, của Đại học Trung Quốc. của Hồng Kông, Bắc Kinh, Trung QuốcÔ tôĐánh dấu làn đườngTập dữ liệu Computer Vision về phát hiện làn đường giao thông, xem 55 giờ video, trong đó 133,235 (bộ đào tạo 88880, bộ xác thực 9675 và bộ kiểm tra 34680) đã được trích xuất. Nó được thu thập bởi các camera gắn trên sáu phương tiện khác nhau do các tài xế khác nhau ở Bắc Kinh điều khiển.liên kết
CVVideoDAVIS, bởi Univ. của Zurich, ETH ¨ Zurich, Đức, Thụy SĩÔ tôTập dữ liệu đào tạo lái xe ô tô đầu cuối sử dụng máy ảnh khung hình + sự kiện DAVIS. Dữ liệu ô tô như hệ thống lái, ga, GPS, v.v. được sử dụng để đánh giá sự kết hợp giữa dữ liệu khung và dữ liệu sự kiện cho các ứng dụng ô tô.liên kết
CVVideoDBNet, của Shanghai Jiao Tong Univ., Xiamen Univ., ChinaÔ tôĐám mây điểm, LiDARDữ liệu lái xe 1000 KM trong thế giới thực, bao gồm video được căn chỉnh, đám mây điểm, GPS và hành vi của người lái xe để nghiên cứu chuyên sâu về hành vi lái xe.liên kết
CVVideoDr (eye) ve, bởi Univ. của Modena và Reggio Emilia, Modena, ÝÔ tôNhãn hành viTập dữ liệu chứa 74 chuỗi video, mỗi chuỗi dài 5 phút, được chú thích trong hơn 500,000 khung hình. Tập dữ liệu bao gồm các vị trí được tham chiếu theo địa lý, tốc độ lái xe, đường đi và cũng gắn nhãn các điểm cố định hướng nhìn của người lái xe và tích hợp tạm thời của chúng để cung cấp bản đồ cụ thể cho nhiệm vụ.liên kết
CVVideoETH Pedestrian (2009), bởi ETH Zurich, Zurich, Thụy SĩTổng QuátHộp giới hạnTập dữ liệu gồm 74 chuỗi video, mỗi chuỗi dài 5 phút, được chú thích trong hơn 500,000 khung hình. Tập dữ liệu cung cấp các vị trí được tham chiếu theo địa lý, tốc độ lái xe, hướng và cũng gắn nhãn các điểm cố định hướng nhìn cho người lái xe và tích hợp theo thời gian của chúng, bao gồm bản đồ cụ thể cho nhiệm vụ.liên kết
CVVideoFord (2009), bởi Univ. của Michigan, Michigan, Hoa KỳÔ tôHộp giới hạn,, LiDARMột tập dữ liệu được biên soạn bởi một phương tiện trên bộ tự động được trang bị máy quét 3D Velodyne, hai nắp đậy Rieg có chổi đẩy về phía trước, Đơn vị đo lường quán tính (IMU) kỹ thuật và tiêu dùng và hệ thống camera đa hướng Point Grey Ladybug3.liên kết
CVVideoHCI Challe challenge Stereo, Bosch Corporation Research, Hildesheim, ĐứcTổng QuátMột tập dữ liệu gồm vài triệu khung hình từ các cảnh video đã chụp bao gồm một loạt các điều kiện thời tiết khác nhau, nhiều lớp chuyển động và độ sâu; tình huống ở thành phố và nông thôn, v.v.liên kết
CVVideoJAAD, của Đại học York, Ukraine, CanadaÔ tôHộp giới hạn, Nhãn hành vi"JAAD là một tập dữ liệu để nghiên cứu sự chú ý chung trong bối cảnh lái xe tự động. Trọng tâm là hành vi của người đi bộ và người lái xe tại điểm giao nhau và các yếu tố ảnh hưởng đến họ. Để đạt được mục tiêu này, tập dữ liệu JAAD cung cấp một bộ sưu tập gồm 346 video ngắn được chú thích phong phú clip (dài 5-10 giây) được trích xuất từ ​​hơn 240 giờ quay cảnh lái xe từ một số địa điểm ở Bắc Mỹ và Đông Âu. Các hộp giới hạn có thẻ tắc được sử dụng cho tất cả người đi bộ, làm cho tập dữ liệu này phù hợp để phát hiện người đi bộ. Chú thích hành vi chỉ định hành vi cho người đi bộ tương tác với hoặc yêu cầu sự chú ý của người lái xe. Đối với mỗi video có một số thẻ (thời tiết, vị trí, v.v.) và nhãn hành vi được đánh dấu thời gian (ví dụ: dừng lại, đi bộ, nhìn, v.v.). Ngoài ra, danh sách các thuộc tính nhân khẩu học là được cung cấp cho từng người đi bộ (ví dụ: tuổi, giới tính, hướng chuyển động, v.v.) cũng như danh sách các yếu tố hiện trường giao thông có thể nhìn thấy (ví dụ: biển báo dừng, tín hiệu giao thông, v.v.) trong mỗi khung hình. "liên kết
CVVideoKAIST Urban, của KAIST, Hàn QuốcTổng QuátLiDARViệc thu thập dữ liệu bao gồm nhiều cảm biến vị trí cho dữ liệu LiDAR và hình ảnh âm thanh nổi nhắm mục tiêu đến một khu vực đô thị rất phức tạp (ví dụ: các khu đô thị, các tòa nhà phức hợp và khu dân cư).liên kết
CVHình ảnhLISA Traffic Sign, bởi Đại học. của California, San Diego, Hoa KỳÔ tôHộp giới hạnBộ tập dữ liệu chứa các video và khung chú thích chứa các biển báo giao thông của Hoa Kỳ. Nó được phát hành trong hai giai đoạn, một chỉ có hình ảnh và một có cả hình ảnh và video.liên kết
CVHình ảnhMapcular Vistas, của Map Mao AB, GlobalÔ tôNhãn ngữ nghĩaBộ dữ liệu nhiếp ảnh cấp độ đường phố để diễn giải các cảnh đường phố trên khắp thế giới với các chú thích về người cụ thể và chính xác từng pixel.liên kết
CVVideo, Hình ảnhSemantic KITTI, của Đại học Bonn, Karlsruhe, ĐứcÔ tôHộp giới hạn, Nhãn ngữ nghĩa, Đánh dấu làn đườngTập dữ liệu bao gồm chú thích ngữ nghĩa cho tất cả các chuỗi Điểm chuẩn Odometry. Tập dữ liệu chú thích các loại giao thông di chuyển và không di chuyển khác nhau: bao gồm ô tô, xe đạp máy, xe đạp, người đi bộ và người đi xe đạp, cho phép các đối tượng trong cảnh được nghiên cứu.liên kết
CVVideoStanford Track, bởi Stanford Univ., United StatesÔ tôPhát hiện / phân loại đối tượng LiDAR, GPS, MãTập dữ liệu bao gồm 14,000 đường đối tượng được gắn nhãn do Velodyne HDL-64E S2 LIDAR quan sát được trong các cảnh đường phố tự nhiên, có thể được sử dụng để đào tạo mô hình máy học cho Nhận dạng đối tượng 3D.liên kết
CVVideo, Hình ảnhBộ dữ liệu hình hộp, của Bosch, Hoa KỳÔ tôHộp giới hạn / Phát hiện phương tiệnBộ dữ liệu phát hiện phương tiện chứa 2 triệu phương tiện được chú thích để đào tạo và phân tích các chiến lược nhận dạng đối tượng cho ô tô tự lái trên đường cao tốc.liên kết
CVVideoTME Motorway, bởi Đại học Kỹ thuật Séc, Bắc ÝÔ tôHộp giới hạnTập dữ liệu gồm 28 clip với tổng thời lượng 27 phút được chia thành hơn 30,000 khung chú thích về phương tiện. Chú thích được tạo bán tự động bằng cách sử dụng dữ liệu từ máy quét laser. Việc thu thập dữ liệu này liên quan đến các tình huống giao thông thay đổi, số làn đường, độ cong và độ chiếu sáng của đường, bao gồm nhiều điều kiện của việc thu thập đầy đủ.liên kết
CVVideoLlamas không giám sát, của Bosch, Hoa KỳÔ tôĐánh dấu làn đường, LiDARTập dữ liệu Llamas không giám sát được chú thích bằng cách tạo bản đồ lái xe tự động độ nét cao, bao gồm cả các điểm đánh dấu làn đường dựa trên Lidar. Xe tự hành có thể được căn chỉnh dựa trên các bản đồ này và vạch kẻ làn đường được chiếu vào khung máy ảnh. Phép chiếu 3D được tối ưu hóa bằng cách giảm thiểu sự khác biệt giữa các điểm đánh dấu hình ảnh đã được quan sát và dự đoán.liên kết
NLPBài ngheFacebook AI Đa ngôn ngữ LibriSpeech (MLS)Tổng QuátChú thích âm thanh / Nhận dạng giọng nóiFacebook AI Multilingual LibriSpeech (MLS), là một bộ dữ liệu mã nguồn mở, quy mô lớn được thiết kế để giúp nghiên cứu trước về nhận dạng giọng nói tự động (ASR). MLS cung cấp hơn 50,000 giờ âm thanh trên 8 ngôn ngữ: Anh, Đức, Hà Lan, Pháp, Tây Ban Nha, Ý, Bồ Đào Nha và Ba Lan. liên kết