¿En qué sitios web puedo hacer web scraping legalmente?

Con respecto a la legalidad, veo dos preocupaciones principales:

Es ilegal, en cualquier país en el que uno acceda a Internet, extraer datos de un sitio web

Si algún usuario infringe la política del sitio web y viola los TOS, puede causar bloqueo de IP, prohibición de cuentas, demanda civil, etc.

Aquí hay algunas cosas a tener en cuenta al extraer datos públicos de sitios web:

Mientras no se arrastran a un ritmo disruptivo, los raspadores no violan ningún contrato ni cometen un delito.

El acuerdo de usuario del sitio web no es exigible como un acuerdo de navegación porque las compañías no brindan suficiente aviso de los términos a los visitantes del sitio.

Los raspadores acceden a los datos del sitio web como visitante y siguiendo rutas similares a las de un motor de búsqueda. Esto se puede hacer sin registrarse como usuario.

Si el propietario del sitio web se opone a la forma en que está utilizando los datos, tiene una forma razonablemente buena de obligarlo a detenerse.

Con respecto a las colecciones de hechos, Justice O’Connor afirma que los derechos de autor solo pueden aplicarse a los aspectos creativos de la colección: la elección creativa de qué datos incluir o excluir, el orden y el estilo en que se presenta la información, etc., pero no en la información en sí.

Related Content

¿Cuáles son los mejores sitios web para registrarse, como las redes sociales, etc. para enterrar búsquedas negativas o revisar resultados?

¿Cuál es el mejor sitio web para reservar un taxi en India?

¿Cuáles son buenos sitios para encontrar paquetes de vacaciones?

¿Cuáles son algunos blogs de economía que yo, como no economista, debería seguir?

¿Cuáles son algunos recursos gratuitos en línea para aprender sobre fotografía digital?

¿Hay algún sitio que ayude a escribir LOR?

¿Antilia es una belleza arquitectónica o un horror?

La respuesta es, como siempre, depende.

Con eso, quiero decir, el sitio web es el que restringe eso o no (hasta cierto punto), por lo que no hay forma de saberlo por adelantado sin echar un vistazo a la página web específica. Para su información, puede buscarlo en la sección de términos y condiciones , que generalmente se encuentra en la sección de pie de página del sitio web.

También depende del país en el que esté registrado el sitio web . Hay algunas restricciones a nivel federal, o a nivel de la industria, que suspenderán sus extracciones. Así que presta mucha atención a eso también.

Para obtener más información, aquí hay un enlace del blog de una agencia de desguace web , que tiene un artículo similar, échale un vistazo: Aspectos legales y éticos del desguace de datos

Kelly Brown

Es un área gris. El problema es que para la mayoría de los sitios web casi no hay nada que perder con el raspado de sus datos.
El problema es TOS que no estoy seguro de cuán legalmente vinculantes r.

A la gente le gusta poner pasta que evita los robots incluso cuando no la usan.

El raspado siempre continuará, depende de cada caso y de lo que considere ético.

Para mí, sigo el Islam, así que tengo un punto de referencia sobre cómo evaluar qué es ético y qué no.

Debes decidir qué es ético para ti y qué desguace real quieres hacer y su legalidad individual.

La mayoría de los sitios web que permiten el raspado proporcionarán API o mencionarán en TOS que las partes que no les importará que se eliminen y esa es la forma más pura de raspado de sombrero blanco.

Personalmente, no considero que muchos raspados sean malos.

Tony Paul

Aunque los datos son públicos, debe asegurarse de no violar las reglas de los sitios web. Por lo tanto, lea las políticas de contenido antes de usar la información de la página web. Además, ¿depende de cómo uses los datos seleccionados, solo para uso personal o para revelarlos al público? Son totalmente diferentes en el área de la ley.

Sin embargo, podría raspar técnicamente todos los sitios web con herramientas de raspado web, especialmente aquellos con servicios proxy o soporte de inicio de sesión, como Octoparse y dexi.io. Si está interesado, puede hacer clic en Usar servidores proxy para el raspado web anónimo o raspar sitios web que requieren inicio de sesión para obtener más información.

Espero que esto pueda ayudarte.

Tony Paul

Puede raspar datos de cualquier sitio web en la web, a menos y hasta que bloqueen los rastreadores en su robots.txt.

Si está recopilando identificaciones de correo electrónico de un sitio web de los EE. UU., Asegúrese de conocer la política de CAN SPAM.

Es mejor asegurarse de las políticas que existen en la web y las políticas individuales del sitio web que está a punto de eliminar.

Está aceptado globalmente en la web, que cualquier rastreador o bot puede rastrear cualquier sitio web en la web, a menos que el sitio haya bloqueado los rastreadores explícitamente para rastrear ciertas URL y datos.

Echa un vistazo – Rastreadores web – Políticas de rastreo

¡Espero eso ayude!.

Tony Paul

Puede desechar contenido de cualquier sitio web, pero ningún sitio web admite legalmente el desecho de contenido de sus sitios web, lea la política de contenido de esos sitios web.

¿Por qué desechar WikiPedia cuando WikiPedia proporciona volcados directos de bases de datos y archivos para lectura fuera de línea? Si no está familiarizado, consulte esta herramienta Kiwix para lectura fuera de línea.

Tony Paul

Gracias por la A2A
Es “legal” en el sentido de que no irá a la cárcel por ello según las leyes cibernéticas actuales. Sin embargo, la mayoría de las veces, va en contra de los Términos y Condiciones del sitio que está raspando. Definitivamente puede raspar datos de IMDB y wikipedia.

Kelly Brown

More Interesting

¿Cuáles son los mejores sitios web para obtener consejos sobre las principales decisiones y dilemas de la vida?

¿Cuáles son todas las empresas que ofrecen ropa, ropa y artículos para el hogar personalizados?

¿Cuál es el mejor sitio gratuito de citas en línea?

¿Qué podría mejorarse en mi sitio web?

¿Cuáles son algunos buenos sitios para preguntas de la entrevista de Java para alguien que tiene más de 2 años de experiencia?

¿Cómo puedo descargar cualquier video de cualquier sitio web?

¿Conoces algún sitio similar a Brandbucket.com?

¿Cuáles son los 10 mejores sitios web que visitas todos los días y por qué?

¿Cuáles son los sitios geniales para copiar?

¿Cuál es el mejor sitio para comprar muebles en India?

Web Analytics Made Easy -
StatCounter