Bonjour,
Notre société est à la recherche d'un développeur de premier plan pour créer un logiciel pour scraper le site de Tripadvisor.
Points importants :
- Le logiciel devra être en mesure de récupérer de nombreux champs, mais avant tout les champs e-mail et site web !
- Les patterns utilisées pour récupérer tous les champs devront être facilement accessibles pour leur modification, dans le cas où Tripadvisor changerait la structure des pages du site.
- Le logiciel devra être capable de travailler sur la version française de Tripadvisor.
- Le logiciel doit être capable de gérer de grandes quantités de données, le traitement de milliers de pages en 1 fois, le multitâche devrait être envisagé, la rapidité de traitement sera considérée.
- Si nécessaire, le logiciel doit être capable de gérer la rotation de proxy.
- Le logiciel doit permettre à l'utilisateur de spécifier le lieu (ville) et le service recherché (hôtel, restaurant, camping, etc ...)
- Le logiciel devra pouvoir fonctionner sur linux PC (Manjaro Linux)
- l'export se fera au format CSV
- Le logiciel sera livré avec son code source editable
Ce logiciel devrait être basé sur PC en utilisant des outils de script gratuits comme php, node.js, x-ray, scrapy, Xidel, Harvester (lua) ... ou à base de d'outils graphiques gratuits comme WebHarvest ... ou toute autre solution appropriée aux besoins.
==> l'utilisation des outils Scrapy et Scrapoxy devrait être intéressante mais n'est pas obligatoire
ATTENTION ! Pour être admissible à ce projet, vous devez avoir =
- 2 ans + expérience scraping en web
- De bonnes connaissances et un portefolio sont nécessaires
- Etre réactif et facilement accessible
- Etre attentif aux détails
Toute proposition qui ne correspondra pas à un ou plusieurs des critères ci-dessus, sera ignorée.
Notez que, nous cherchons quelqu'un avec qui travailler sur une base régulière/long terme, alors nous comptons sur une proposition raisonnable.
IMPORTANT: En quelques mots, merci de nous en dire plus sur votre parcours/expérience et donnez-nous un lien vers votre portfolio :)
Merci pour votre attention et votre intérêt
En annexe des copies d'écrans sont jointes, indiquant les champs qui doivent être scrapés et leurs noms.
Note 1 : Les champs Excellence et Revendication pourront être des booléens (oui/non - 0/1)
Note 2 : Le champ Revendication pourra être inversé (oui/1 si non affiché, non/0 si affiché)
Note 3 : L'URL de la page devra aussi être sauvegardée, ce qui fait donc un total de 12 champs à scraper.
Bonjour,
Je fais du scraping depuis plusieurs annees, avec PHP exclusivement. Votre projet m'interesse.
- la rotation de proxy
Il faudra un abonnement a un service de proxy (de qualite).
- la rapidite
Cela dependra non-pas du logiciel mais de la plateforme sur laquelle vous allez l'heberger (si elle a suffisemment de resources-memoire pour traiter "des milliers de pages").
Tout le reste est routine.
Mon "portfolio" est en Anglais ici sur Freelancer:
https://www.freelancer.com/u/kilobytes.html#/reviews
Ou ici, plus facile d'acces: (tres longue page)
[login to view URL]
N'hesitez pas avec les questions.
Merci de considerer mes services,
Stan
€263 EUR en 7 jours
5,0 (318 commentaires)
7,1
7,1
3 freelances proposent en moyenne €207 EUR pour ce travail