¿Cómo puede el diseño de un sitio web evitar que otros copien la base de datos de un sitio web?

Casi toda la protección es inútil. Esto proviene de un webmaster profesional de los últimos 16 años y una persona que construyó y vendió una compañía de contenido en 2010.

La razón por la que la protección no sirve es porque … Si su contenido es de alta calidad, habrá personas que quieran copiarlo. Y sí, puedes engañar a un novato deshabilitando el clic derecho o usando casi todos los trucos del libro. Pero si alguien que tiene un poco de cerebro y quiere copiarlo … entonces él o ella lo copiará. No importa qué. (Después de todo, todos los navegadores solo comprenden HTML y HTML seguramente tendrá su contenido. Si estuviera en formato de imagen, los OCR son mucho más sofisticados hoy en día)

Permítanme no entrar en OCR y otros temas, pero con un simple script PHP, uno puede raspar el HTML de su página a través del comando cURL.

Una vez que el script de raspado tiene el HTML, solo puede eliminar las etiquetas HTML a través de la función strip_tags ().

Además, incluso puede codificar su script para reunir todos los hipervínculos del mismo nombre de dominio y ponerlos en una matriz y seguir raspando otras páginas.

La protección no sirve de nada.

Agradecidamente. Si publica un artículo único y un artículo de calidad que ha sido indexado por los motores de búsqueda, entonces no tiene que preocuparse por los raspadores y los copiadores.

No me preocuparía la copia manual, sino el raspado de datos automatizado. Para evitar eso, puede usar ajax para limitar los datos que se envían, y no coloque todos sus datos en algún archivo XML o JSON que sea más fácil de capturar. Intente estructurar su HTML para que sea inconstante y potencialmente tenga un código aleatorio que haga lo mismo, de modo que no haya dos consultas que produzcan exactamente los mismos datos estructurados, de la manera exacta. Cuanto más similar se marque cada elemento de datos por separado, más doloroso será para los raspadores. Si aleatoriza el HTML, también puede arreglarlo con CSS. Y, por supuesto, nunca marque sus datos con un identificador único. Luego puede bloquear las direcciones IP de los sitios que emiten consultas sistemáticas y, por supuesto, tener una política porque a veces no puede detener esto, pero puede emitir amenazas legales.

Me resulta más difícil cuando los sitios web usan clases de CSS menos predecibles, y si tiene un nombre de clase siempre cambiante. Luego, el scrapper tiene que actualizar el código que explota o delimita los datos en secciones. Google hace esto de vez en cuando.