Terminé

Web scraping / scrapping

Dans le cadre du développement d'un logiciel, nous sommes amenés à récupérer de manière automatisée (scraping) l'ensemble des pdf disponibles sur des sites Internet institutionnels fournissant des données publiques. Cependant, la diversité des sites visités fait que, dans certains cas, nous manquons une partie des documents. Un diagnostic nous a permis d'identifier ces ratés et nous souhaitons les corriger.

A ce stade, nous ne disposons pas d'une typologie précise de la cause de ces échecs. Nous savons que sur certains sites, les pdf ne sont accessibles que via un moteur de recherche. Dans d'autres cas, il est possible que le site concerné soit une "Single Page application", que notre scraper ne prend pas bien en compte.

L'objectif de la mission est double. D'une part, il s'agit de récupérer l'ensemble des pdf disponibles sur les sites qu'on vous aura spécifiés et, d'autre part, nous fournir le code que vous avez utilisé pour effectuer cette récupération. Nous l'intègrerons alors à notre base de code pour pouvoir effectuer une veille sur les sites concernés.

D'un point de vue pratique, les choses se dérouleront de la manière suivante :

- Lorsque nous avons votre email, nous vous ajoutons comme contributeurs au dépôt de code qui contient le code de notre scraper ([login to view URL]).

- Vous pouvez alors cloner le dépôt. Il est exécutable en local, et vous pouvez ainsi tester le scrapper directement sur votre machine. Le [login to view URL] fourni une explication détaillée de comment faire. Vous pourrez ainsi tester, sur le site sur lequel vous devez effectuer des corrections, comment se comporte la version actuelle du scraper et observer l'output dans les fichiers ([login to view URL], et [login to view URL]).

- Vous pouvez alors créer une branche, avec le nom scrapper_NOM_COLLECTIVITE, sur laquelle vous allez pouvoir effectuer votre contribution. En pratique, ces contributions doivent être limitées à deux fichiers :

o api/helpers/spiders/custom/nom_collectivité.py => fichier que vous devez créer qui contiendra la custom_spider permettant de scrapper la collectivité concernées.

o api/helpers/spiders/custom/[login to view URL] => dans lequel il faut ajouter votre custom_spider.

- Vous pouvez refaire tourner le scrapper sur la collectivité concernée, et extraire d’[login to view URL] les documents trouvés. Cela vous permettra de voir si vous en avez plus.

- Quand vous pensez avoir fini :

o Ouvrez une Pull Request de votre branche sur develop

o Envoyez par email la liste de document que le scrapper récupère désormais sur la collectivité concernée, suite à vos modifications.

Il faut maîtriser Python, le package Scrapy et également Git.

Comme nous ignorons les causes exactes des problèmes, nous ne savons pas combien de temps cela vous prendra pour les régler. C'est pour cela que nous souhaitons vous engager pour une journée de travail. Nous vous soumettrons suffisamment d'URL problématiques pour remplir votre journée. Le nombre de cas que vous aurez traités nous servira de référence pour renouveler la mission selon des modalités restant à préciser.

En effet, nous estimons le nombre total de sites à corriger à plusieurs centaines. S'il s'avère que cette mission est un succès, elle pourra donc déboucher sur de nombreuses autres. Cela doit vous conduire à envisager cette journée de travail pour nous (et le coût d'entrée qu'elle représente) comme un investissement pour la suite (sous réserve bien entendu que vous souhaitiez renouveler ce type de missions).

Nous espérons que cette mission marquera le début d'une longue et fructueuse collaboration avec nous !

Compétences : Web Scraping, Data Scraping, Scrapy, Python, Git

En voir plus : web scraping visual basic, web scraping flash sites, web scraping jobs, google base web scraping, data mining web scraping, web scraping projects, web scraping practice projects, web scraping experience, web scraping password protected, conception et développement d une application web mobile pour le travail freelance, cours de développement web pdf, Développement web, développement web freelance, emploi développement web madagascar, emploi freelance développement web, job développement web, les meilleurs cours et tutoriels développement web, prestataire développement web, logiciel développement site web, développement web cours

Concernant l'employeur :
( 6 commentaires ) Paris, France

Nº du projet : #30681450

Décerné à:

andreyvanishevf

Hi I'm a Python software developer with 7+ years of experience. My expertise is covering full ETL pipeline, exactly web scraping, crawling and data processing, data loading to any databases. Strong background in creati Plus

%selectedBids___i_sum_sub_7% %project_currencyDetails_sign_sub_8% EUR en 7 jours
(2 Commentaires)
2.8
surekananth

Bonjour, J'ai quatre ans d'expérience en Web scraping, je maîtrise Scrapy et BeautifulSoup pour la manipulation de DOM. Je peux finaliser votre tâche en 4 jours. Merci.

%selectedBids___i_sum_sub_7% %project_currencyDetails_sign_sub_8% EUR en 4 jours
(3 Commentaires)
3.7

11 freelances font une offre moyenne de 192 € pour ce travail

saubhagyamweb

Hello Client, I am professional expert having 6+ years of experience in Python, CNN algorithm,deep learning,data science. I have done projects of deep learning in which i have used CNN algorithm. I had well known p Plus

%bids___i_sum_sub_35% %project_currencyDetails_sign_sub_36% EUR en 7 jours
(20 Commentaires)
6.4
imtyzooel71n

Hi, I am Python script developer with 10 years of experience. I can scrape required website by python script/bot with your instructions very short time. Can we discuss please? Thanks.

%bids___i_sum_sub_35% %project_currencyDetails_sign_sub_36% EUR en 3 jours
(82 Commentaires)
6.3
PoojaRautela417

Hi there, Lets have a quick chat on this project to clear further details. I am expert in Python, Automation, JavaScript, Chrome Extension, Web Scraping using(selenium,beautifulsoup,lxml), MYSQL. You can check my portf Plus

%bids___i_sum_sub_35% %project_currencyDetails_sign_sub_36% EUR en 7 jours
(53 Commentaires)
5.7
ernestpapyan

Bonjour comment vas-tu? Je suis très intéressé par votre projet. Vous pouvez consulter mon profil et voir les critiques de mise au rebut. Je suis familier avec Scrapping en utilisant Selenium, Beautify et ainsi de suit Plus

%bids___i_sum_sub_32% %project_currencyDetails_sign_sub_33% EUR en 1 jour
(6 Commentaires)
4.8
pavelfree23

Web Scraping using Python language is my top skill and I really love it. I will do my best for you as I have extremely excited my previous clients with my perfect results. As you can see in my profile, I have enough e Plus

%bids___i_sum_sub_35% %project_currencyDetails_sign_sub_36% EUR en 2 jours
(5 Commentaires)
4.6
srdeveloper8988

Hello I can complete this task in one day. payment will be after completion of work only. rest we can discuss on chat. thanks for your time

%bids___i_sum_sub_32% %project_currencyDetails_sign_sub_33% EUR en 1 jour
(3 Commentaires)
3.5
normanburtonfree

Hello client, I've just checked your job description carefully. I'm senior developer with 7+ years of Python. By using Python, I used to make AI engine, BOT, Web Scraping Tools and so on. Python is my major so you wil Plus

%bids___i_sum_sub_35% %project_currencyDetails_sign_sub_36% EUR en 7 jours
(8 Commentaires)
3.8
TaranenkoKirill

⭐⭐⭐ Bonjour, voici un expert en webscraping python pour vous ⭐⭐⭐ J'ai maîtrisé le pilote Web au sélénium et BS4 pour l'exploitation des DOM. Surtout, pour économiser tout le possible en scraping, j'ai une autre compéte Plus

%bids___i_sum_sub_35% %project_currencyDetails_sign_sub_36% EUR en 3 jours
(1 Évaluation)
1.0
napitconsulting

Bonjour, Je suis disponible pour vous faire un devis détaillé pour votre projet. Vous pouvez voir mes expériences sur [login to view URL] Fasciné par le monde digitale depuis mon jeune âge, j’a Plus

%bids___i_sum_sub_35% %project_currencyDetails_sign_sub_36% EUR en 7 jours
(0 Commentaires)
0.0