- data.gov : esta es la sede de los datos abiertos del gobierno de EE. UU. El sitio contiene más de 190,000 puntos de datos al momento de la publicación. Estos conjuntos de datos varían de datos sobre clima, educación, energía, finanzas y muchas más áreas.
- data.gov.in – Este es el hogar de los datos abiertos del gobierno indio. Encuentre datos de varias industrias, clima, atención médica, etc. Puede consultar algunas visualizaciones para inspirarse aquí. Dependiendo de su país de residencia, también puede seguir sitios web similares de algunos otros sitios web.
- Banco Mundial : los datos abiertos del Banco Mundial. La plataforma proporciona varias herramientas como Open Data Catalog, índices de desarrollo mundial, índices de educación, etc.
- RBI – Datos disponibles del Banco de la Reserva de India. Esto incluye varias métricas sobre las operaciones del mercado monetario, la balanza de pagos, el uso de la banca y varios productos. Una visita obligada al sitio, si vienes del dominio BFSI en India.
- Cinco treinta y ocho conjuntos de datos : aquí hay un enlace a los conjuntos de datos utilizados por Cinco treinta y ocho en sus historias. Cada conjunto de datos incluye los datos, un diccionario que explica los datos y el enlace a la historia realizada por Five Thirty Eight. Si desea aprender cómo crear historias de datos, no puede ser mejor que esto.
- Conjuntos de datos de Amazon Web Services (AWS) : Amazon proporciona algunos conjuntos de datos grandes, que se pueden usar en su plataforma o en sus computadoras locales. También puede analizar los datos en la nube utilizando EC2 y Hadoop a través de EMR. Los conjuntos de datos populares en Amazon incluyen el conjunto completo de datos de correo electrónico de Enron, los n-gramos de Google Books, los conjuntos de datos NEX de la NASA, el conjunto de datos Million Songs y muchos más. Más información se puede encontrar aquí.
- Conjuntos de datos de Google : Google proporciona algunos conjuntos de datos como parte de su herramienta Big Query. Esto incluye nombres de bebés, datos de repositorios públicos de GitHub, todas las historias y comentarios de Hacker News, etc.
- Youtube etiquetado Video Dataset
Hace unos meses, Google Research Group lanzó el conjunto de datos etiquetados de YouTube, que consta de 8 millones de ID de videos de YouTube y etiquetas asociadas de 4800 entidades visuales. Viene con funciones de visión precalculadas y de última generación de miles de millones de fotogramas. - Repositorio de aprendizaje automático de UCI: el repositorio de aprendizaje automático de UCI es claramente el repositorio de datos más famoso. Por lo general, es el primer lugar para ir, si está buscando conjuntos de datos relacionados con repositorios de aprendizaje automático. Los conjuntos de datos incluyen una amplia gama de conjuntos de datos, desde conjuntos de datos populares como Iris y Titanic Survival hasta contribuciones recientes como la calidad del aire y las trayectorias GPS. El repositorio contiene más de 350 conjuntos de datos con etiquetas como dominio, propósito del problema (Clasificación / Regresión). Puede usar estos filtros para identificar buenos conjuntos de datos para sus necesidades.
- Kaggle Kaggle ha creado una plataforma, donde las personas pueden donar conjuntos de datos y otros miembros de la comunidad pueden votar y ejecutar Kernel / scripts en ellos. Tienen más de 350 conjuntos de datos en total, con más de 200 como conjuntos de datos destacados. Si bien algunos de los conjuntos de datos iniciales generalmente estaban presentes en otros lugares, he visto algunos conjuntos de datos interesantes en la plataforma, que no están presentes en otros lugares. Junto con los nuevos conjuntos de datos, otro beneficio de la interfaz es que puede ver los scripts y las preguntas de los miembros de la comunidad en la misma interfaz.
- Analytics Vidhya Puede participar y descargar conjuntos de datos de nuestros problemas de práctica y problemas de hackathon. Los conjuntos de datos problemáticos se basan en problemas de la industria de la vida real y son relativamente más pequeños, ya que están diseñados para hackatones de 2 a 7 días. Si bien los problemas de práctica están siempre disponibles para las personas, los problemas de los hackathon no están disponibles después de los hackathons. Por lo tanto, debe participar en el hackathon para obtener acceso a los conjuntos de datos.
- Quandl Quandl proporciona datos financieros, económicos y alternativos de varias fuentes a través de su sitio web / API o integración directa con algunas herramientas. Sus conjuntos de datos se clasifican como abiertos o premium. Puede acceder a todos los conjuntos de datos abiertos de forma gratuita, pero debe pagar los conjuntos de datos premium. Si busca, aún obtiene buenos conjuntos de datos en la plataforma. P.ej. Los datos de la Bolsa de India están disponibles de forma gratuita.
- Copas KDD pasadas KDD Cup es la competencia anual de Data Mining y Knowledge Discovery organizada por el Grupo de Interés Especial de ACM sobre Knowledge Discovery y Data Mining. Los archivos incluyen conjuntos de datos e instrucciones. Los ganadores están disponibles para la mayoría de los años.
- Driven Data Driven Data encuentra desafíos del mundo real en los que la ciencia de datos se puede utilizar para crear un impacto social positivo. Luego organizan concursos de modelado en línea para que los científicos de datos desarrollen los mejores modelos para resolverlos. Si está interesado en el uso de la ciencia de datos para el bien social, este es el lugar para estar.
- La base de datos MNIST : el conjunto de datos más popular para el reconocimiento de imágenes con dígitos escritos a mano. Incluye 60,000 ejemplos de trenes y un conjunto de prueba de 10,000 ejemplos. Esto sirve típicamente como el primer conjunto de datos para practicar el reconocimiento de imágenes.
- Chars74K – Aquí está el siguiente nivel de evolución, si ha pasado dígitos escritos a mano. Este conjunto de datos incluye reconocimiento de caracteres en imágenes naturales. El conjunto de datos contiene 74,000 imágenes y, por lo tanto, el nombre del conjunto de datos.
- Imágenes de caras frontales Si ha trabajado en 2 proyectos anteriores y puede identificar dígitos y caracteres, este es el siguiente nivel de desafío en el reconocimiento de imágenes: imágenes de caras frontales. Las imágenes fueron recopiladas por CMU y MIT y están organizadas en cuatro carpetas.
- ImageNet Hora de construir algo genérico ahora. Base de datos de imágenes organizada según la jerarquía de WordNet (actualmente solo los sustantivos). Cada nodo de la jerarquía está representado por cientos de imágenes. Actualmente, la colección tiene un promedio de más de quinientas imágenes por nodo (y en aumento).
- Spam – No Spam Un problema interesante con 1324 SMS (Span y no spam). Debe crear un clasificador que clasifique el SMS como span o no spam.
- Análisis de sentimientos de Twitter El conjunto de datos de análisis de sentimientos de Twitter contiene 1,578,627 tweets clasificados, cada fila está marcada como 1 para sentimientos positivos y 0 para sentimientos negativos. Los datos se basan a su vez en una competencia y análisis de Kaggle por Nick Sanders.
- Datos de revisión de películas Este sitio proporciona colecciones de documentos de revisión de películas etiquetados en su polaridad de sentimiento general (positiva o negativa) o calificación subjetiva (por ejemplo, “dos estrellas y media”) y oraciones etiquetadas con respecto a su estado de subjetividad (subjetiva u objetiva ) o polaridad .
Fuente: Comunidad de análisis | Discusiones analíticas | Discusión de Big Data