¿En qué sitios web puedo hacer web scraping legalmente?

Con respecto a la legalidad, veo dos preocupaciones principales:

Es ilegal, en cualquier país en el que uno acceda a Internet, extraer datos de un sitio web

Si algún usuario infringe la política del sitio web y viola los TOS, puede causar bloqueo de IP, prohibición de cuentas, demanda civil, etc.

Aquí hay algunas cosas a tener en cuenta al extraer datos públicos de sitios web:

Mientras no se arrastran a un ritmo disruptivo, los raspadores no violan ningún contrato ni cometen un delito.

El acuerdo de usuario del sitio web no es exigible como un acuerdo de navegación porque las compañías no brindan suficiente aviso de los términos a los visitantes del sitio.

Los raspadores acceden a los datos del sitio web como visitante y siguiendo rutas similares a las de un motor de búsqueda. Esto se puede hacer sin registrarse como usuario.

Si el propietario del sitio web se opone a la forma en que está utilizando los datos, tiene una forma razonablemente buena de obligarlo a detenerse.

Con respecto a las colecciones de hechos, Justice O’Connor afirma que los derechos de autor solo pueden aplicarse a los aspectos creativos de la colección: la elección creativa de qué datos incluir o excluir, el orden y el estilo en que se presenta la información, etc., pero no en la información en sí.

La respuesta es, como siempre, depende.

Con eso, quiero decir, el sitio web es el que restringe eso o no (hasta cierto punto), por lo que no hay forma de saberlo por adelantado sin echar un vistazo a la página web específica. Para su información, puede buscarlo en la sección de términos y condiciones , que generalmente se encuentra en la sección de pie de página del sitio web.

También depende del país en el que esté registrado el sitio web . Hay algunas restricciones a nivel federal, o a nivel de la industria, que suspenderán sus extracciones. Así que presta mucha atención a eso también.

Para obtener más información, aquí hay un enlace del blog de una agencia de desguace web , que tiene un artículo similar, échale un vistazo: Aspectos legales y éticos del desguace de datos

Es un área gris. El problema es que para la mayoría de los sitios web casi no hay nada que perder con el raspado de sus datos.
El problema es TOS que no estoy seguro de cuán legalmente vinculantes r.

A la gente le gusta poner pasta que evita los robots incluso cuando no la usan.

El raspado siempre continuará, depende de cada caso y de lo que considere ético.

Para mí, sigo el Islam, así que tengo un punto de referencia sobre cómo evaluar qué es ético y qué no.

Debes decidir qué es ético para ti y qué desguace real quieres hacer y su legalidad individual.

La mayoría de los sitios web que permiten el raspado proporcionarán API o mencionarán en TOS que las partes que no les importará que se eliminen y esa es la forma más pura de raspado de sombrero blanco.

Personalmente, no considero que muchos raspados sean malos.

Aunque los datos son públicos, debe asegurarse de no violar las reglas de los sitios web. Por lo tanto, lea las políticas de contenido antes de usar la información de la página web. Además, ¿depende de cómo uses los datos seleccionados, solo para uso personal o para revelarlos al público? Son totalmente diferentes en el área de la ley.

Sin embargo, podría raspar técnicamente todos los sitios web con herramientas de raspado web, especialmente aquellos con servicios proxy o soporte de inicio de sesión, como Octoparse y dexi.io. Si está interesado, puede hacer clic en Usar servidores proxy para el raspado web anónimo o raspar sitios web que requieren inicio de sesión para obtener más información.

Espero que esto pueda ayudarte.

Puede raspar datos de cualquier sitio web en la web, a menos y hasta que bloqueen los rastreadores en su robots.txt.

Si está recopilando identificaciones de correo electrónico de un sitio web de los EE. UU., Asegúrese de conocer la política de CAN SPAM.

Es mejor asegurarse de las políticas que existen en la web y las políticas individuales del sitio web que está a punto de eliminar.

Está aceptado globalmente en la web, que cualquier rastreador o bot puede rastrear cualquier sitio web en la web, a menos que el sitio haya bloqueado los rastreadores explícitamente para rastrear ciertas URL y datos.

Echa un vistazo – Rastreadores web – Políticas de rastreo

¡Espero eso ayude!.

Puede desechar contenido de cualquier sitio web, pero ningún sitio web admite legalmente el desecho de contenido de sus sitios web, lea la política de contenido de esos sitios web.

¿Por qué desechar WikiPedia cuando WikiPedia proporciona volcados directos de bases de datos y archivos para lectura fuera de línea? Si no está familiarizado, consulte esta herramienta Kiwix para lectura fuera de línea.

Gracias por la A2A
Es “legal” en el sentido de que no irá a la cárcel por ello según las leyes cibernéticas actuales. Sin embargo, la mayoría de las veces, va en contra de los Términos y Condiciones del sitio que está raspando. Definitivamente puede raspar datos de IMDB y wikipedia.