Crawler et convertir les revues de presse
Lancer
# avec juste les avertissements et erreurs
scrapy crawl geotribu_rdp -L WARNING
# avec le détail des opérations
scrapy crawl geotribu_rdp -L INFO
Les fichiers générés sont stockés dans un dossier
_output
(créé s’il n’existe pas).
Pas à pas
scrapy shell "https://web.archive.org/web/20170606110634/http://geotribu.net/revues-de-presse"
# titre de la page
response.css('title::text').getall()[0]
# première rdp de la liste
t = response.css('div.title-and-meta')[0]
t = response.css('article')[0]
# date
rdp_date = t.css("div.date")
rdp_date_day = rdp_date.css("span.day::text").get()
rdp_date_month = rdp_date.css("span.month::text").get()
rdp_date_year = rdp_date.css("span.year::text").get()
# title
rdp_title_section = t.css("div.title-and-meta")
rdp_title = rdp_title_section.css("h2.node__title a::text").get()
# url
rdp_url_rel = rdp_title_section.css("h2.node__title a::attr(href)").get()
# -- Parcourir la revue de presse
fetch("http://localhost" + rdp_url_rel)
# contenu de la rdp
rdp = response.css('article')[0]
# title
rdp_title_section = t.css("div.title-and-meta")
rdp_title = rdp_title_section.css("h2.node__title a::text").get()
# sections
rdp_sections = rdp.css("p.typeNews::text").getall()