Raspado de WordPress - 4300 fallos judiciales en demandas por tipo de cambio sin una línea de código
No es común que la ejecución de un servicio tome más tiempo que su precio, pero con el scraping, esto puede suceder. Vea lo fácil que puede ser recuperar datos, especialmente de WordPress.
Daniel Gustaw
• 2 min read
Lo que necesitaba el cliente:
Gracias al plugin Wappalyzer, podemos leer que es WordPress - una tecnología antigua que suele ser amigable con el scraping, ya que su elección indica una falta de fondos para cualquier acción anti-scraping.
La tabla se recarga en tiempo real. La paginación no cambia las URL. Esta es una solución típica para el paquete datatable
que es un plugin de jquery
.
En la página de este plugin, encontraremos la misma tabla, solo con estilos ligeramente modificados:
Estas son pistas suficientes para sugerir que los datos de la tabla se cargan desde un solo endpoint. Un análisis rápido del tráfico de red no muestra nada interesante, pero mostrar el código fuente de la página sí:
El resto del servicio consistía simplemente en seleccionar esas pocas miles de líneas de texto y guardarlas en un archivo json
. Potencialmente para la comodidad del usuario final, conversión a csv
o xlsx
, por ejemplo en la página
Enlaces a los datos descargados:
https://preciselab.fra1.digitaloceanspaces.com/blog/scraping/pc.json
https://preciselab.fra1.digitaloceanspaces.com/blog/scraping/pc.json.xlsx
Al final, me gustaría enfatizar que aunque el acceso a estos datos es gratuito, las personas que trabajan en su estructuración lo hacen de forma voluntaria para lograr el objetivo establecido por la asociación:
B) recolectar información sobre prácticas injustas de emprendedores y otros casos de violaciones legales por estas entidades, y desarrollar y compartir públicamente información, artículos, informes y opiniones al respecto.
https://rejestr.io/krs/573742/stowarzyszenie-stop-bankowemu-bezprawiu
Si deseas beneficiarte de su trabajo, te animo a apoyarlos en su sitio web
Other articles
You can find interesting also.
Fetch, Promise y Template String en el ejemplo de Lista de Tareas en JavaScript
Este proyecto simple es excelente como introducción a la programación en JavaScript. El énfasis está en los elementos de ES6 y el frontend.
Daniel Gustaw
• 14 min read
CodinGame: Tiempo de Derivadas - Parte 1, Recursión (Typescript)
Solución del ejercicio de CodinGame. Ejemplo simple de recursión con typescript. Representación de fórmulas inspirada en lisp.
Daniel Gustaw
• 17 min read
Control de Procesos en Node JS
Aprende a crear y eliminar procesos hijos en Node JS, gestionar dinámicamente su cantidad y realizar comunicación bidireccional con ellos.
Daniel Gustaw
• 17 min read