Raspado de WordPress - 4300 fallos judiciales en demandas por tipo de cambio sin una línea de código
No es común que la ejecución de un servicio tome más tiempo que su precio, pero con el scraping, esto puede suceder. Vea lo fácil que puede ser recuperar datos, especialmente de WordPress.
Daniel Gustaw
• 2 min read
Lo que necesitaba el cliente:
Gracias al plugin Wappalyzer, podemos leer que es WordPress - una tecnología antigua que suele ser amigable con el scraping, ya que su elección indica una falta de fondos para cualquier acción anti-scraping.
La tabla se recarga en tiempo real. La paginación no cambia las URL. Esta es una solución típica para el paquete datatable
que es un plugin de jquery
.
En la página de este plugin, encontraremos la misma tabla, solo con estilos ligeramente modificados:
Estas son pistas suficientes para sugerir que los datos de la tabla se cargan desde un solo endpoint. Un análisis rápido del tráfico de red no muestra nada interesante, pero mostrar el código fuente de la página sí:
El resto del servicio consistía simplemente en seleccionar esas pocas miles de líneas de texto y guardarlas en un archivo json
. Potencialmente para la comodidad del usuario final, conversión a csv
o xlsx
, por ejemplo en la página
Enlaces a los datos descargados:
https://preciselab.fra1.digitaloceanspaces.com/blog/scraping/pc.json
https://preciselab.fra1.digitaloceanspaces.com/blog/scraping/pc.json.xlsx
Al final, me gustaría enfatizar que aunque el acceso a estos datos es gratuito, las personas que trabajan en su estructuración lo hacen de forma voluntaria para lograr el objetivo establecido por la asociación:
B) recolectar información sobre prácticas injustas de emprendedores y otros casos de violaciones legales por estas entidades, y desarrollar y compartir públicamente información, artículos, informes y opiniones al respecto.
https://rejestr.io/krs/573742/stowarzyszenie-stop-bankowemu-bezprawiu
Si deseas beneficiarte de su trabajo, te animo a apoyarlos en su sitio web
Other articles
You can find interesting also.
Raspado de money.pl en 30 líneas de código.
Vea un caso de estudio simple sobre la descarga y el procesamiento de datos de una tabla paginada.
Daniel Gustaw
• 9 min read
Última Ocurrencia [Búsqueda Lineal] fácil
Encuentra e imprime el índice de la última ocurrencia del elemento en el array.
Daniel Gustaw
• 2 min read
Calculando la diferencia entre archivos JSON
Aprende a encontrar traducciones faltantes en archivos JSON con diccionarios.
Daniel Gustaw
• 3 min read