Data scraping workshop

Facendo seguito alla puntata sullo shell scripting non mi (atrent) dispiacerebbe proporre una giornata (mezza?) dedicata allo scraping dei dati da siti vari.

Premetto subito che NON sono un esperto, ho fatto alcune cose (scraping dati ARPA, BikeMI, Car2go) che posso raccontare, l'idea sarebbe quella di:

  • dedicare un'ora circa alla descrizione del problema (come ottenere dati da siti “recalcitranti”)
  • presentare alcuni strumenti che ho usato (wget e filtri vari shell)
  • segnalare alcuni strumenti che sarebbe interessante usare (Scrapy, HtmlUnit)
  • lanciare una sfida da risolvere collaborativamente con i presenti (e un'idea ce l'avrei…)

Ho creato questa pagina per raccogliere (prima, durante e dopo) note e risultati sull'argomento.

Cose da avere per partecipare attivamente alla sessione:

  • un portatile
  • un sistema operativo (i.e. GNU/Linux)
  • collegamento rete
  • wget/curl
  • xml2/xmlto
  • coreutils
  • vilistextum
  • html2…
  • (opzionale) Scrapy
  • (opzionale) HtmlUnit
You could leave a comment if you were logged in.
pub/tgif/datascrapingws.txt · Last modified: 2014/06/30 11:47 by atrent
CC Attribution-Share Alike 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0