Η Semalt προτείνει 5 βήματα για την απόξεση ιστοσελίδων

Το Scrapy είναι ένας ανοιχτός κώδικας και ένα πλαίσιο για την εξαγωγή πληροφοριών από τον διαφορετικό ιστότοπο. Χρησιμοποιεί API και είναι γραμμένο σε Python. Το Scrapy διατηρείται επί του παρόντος από μια εταιρεία ξύσιμο ιστού που ονομάζεται Scrapinghub Ltd.

Είναι ένα απλό σεμινάριο για το πώς να γράψετε το πρόγραμμα ανίχνευσης ιστού χρησιμοποιώντας Scrapy, ανάλυση του Craigslist και αποθήκευση πληροφοριών σε μορφή CSV. Τα πέντε κύρια βήματα αυτού του σεμιναρίου αναφέρονται παρακάτω:

1. Δημιουργήστε ένα νέο έργο Scrapy

2. Γράψτε μια αράχνη για ανίχνευση ιστότοπου και εξαγωγή δεδομένων

3. Εξαγάγετε τα αποκομμένα δεδομένα χρησιμοποιώντας τη γραμμή εντολών

4. Αλλάξτε την αράχνη για να ακολουθήσετε συνδέσμους

5. Χρησιμοποιήστε ορίσματα αράχνης

1. Δημιουργήστε ένα έργο

Το πρώτο βήμα είναι να δημιουργήσετε ένα έργο. Θα πρέπει να κατεβάσετε και να εγκαταστήσετε το Scrapy. Στη γραμμή αναζήτησης, θα πρέπει να εισαγάγετε το όνομα καταλόγου όπου θέλετε να αποθηκεύσετε τα δεδομένα. Το Scrapy χρησιμοποιεί διαφορετικές αράχνες για να εξαγάγει πληροφορίες και αυτές οι αράχνες κάνουν αρχικά αιτήματα για τη δημιουργία καταλόγων. Για να λειτουργήσει μια αράχνη, πρέπει να επισκεφθείτε τη λίστα καταλόγων και να εισαγάγετε έναν συγκεκριμένο κωδικό εκεί. Παρακολουθήστε τα αρχεία στον τρέχοντα κατάλογό σας και παρατηρήστε δύο νέα αρχεία: quotes-a.html και quotes-b.html.

2. Γράψτε μια αράχνη για ανίχνευση ιστότοπου και εξαγωγή δεδομένων:

Ο καλύτερος τρόπος για να γράψετε μια αράχνη και να εξαγάγετε δεδομένα είναι να δημιουργήσετε διαφορετικούς επιλογείς στο κέλυφος της Scrapy. Πρέπει πάντα να περικλείετε τις διευθύνσεις URL σε εισαγωγικά. Διαφορετικά, το Scrapy θα αλλάξει αμέσως τη φύση ή τα ονόματα αυτών των διευθύνσεων URL. Θα πρέπει να χρησιμοποιήσετε διπλά εισαγωγικά γύρω από μια διεύθυνση URL για να γράψετε κατάλληλα μια αράχνη. Θα πρέπει να χρησιμοποιήσετε το.extract_first () και να αποφύγετε ένα σφάλμα ευρετηρίου.

3. Εξαγάγετε τα αποκομμένα δεδομένα χρησιμοποιώντας τη γραμμή εντολών:

Είναι σημαντικό να εξαγάγετε τα αποκομμένα δεδομένα χρησιμοποιώντας τη γραμμή εντολών. Εάν δεν το εξαγάγετε, δεν θα λάβετε ακριβή αποτελέσματα. Η αράχνη θα δημιουργήσει διαφορετικούς καταλόγους που περιέχουν χρήσιμες πληροφορίες. Θα πρέπει να χρησιμοποιήσετε τις λέξεις-κλειδιά απόδοσης Python για να εξαγάγετε αυτές τις πληροφορίες με καλύτερο τρόπο. Είναι δυνατή η εισαγωγή δεδομένων σε αρχεία JSON. Τα αρχεία JSON είναι χρήσιμα για προγραμματιστές. Εργαλεία όπως το JQ βοηθούν στην εξαγωγή αποκομμένων δεδομένων χωρίς κανένα πρόβλημα.

4. Αλλάξτε την αράχνη για να ακολουθήσετε συνδέσμους:

Σε μικρά έργα, μπορείτε να αλλάξετε αράχνες για να ακολουθείτε κατάλληλα τους συνδέσμους. Αλλά δεν είναι απαραίτητο με έργα διαλογής μεγάλου μεγέθους. Όταν αλλάζετε αράχνη, θα δημιουργηθεί ένα αρχείο κράτησης θέσης για αγωγούς στοιχείων. Αυτό το αρχείο μπορεί να βρεθεί στην ενότητα tutorial / pipelines.py. Με το Scrapy, μπορείτε να δημιουργήσετε εξελιγμένες αράχνες και να αλλάξετε τη θέση τους ανά πάσα στιγμή. Μπορείτε να εξαγάγετε πολλούς ιστότοπους κάθε φορά και να εκτελέσετε διάφορα έργα εξαγωγής δεδομένων.

5. Χρησιμοποιήστε ορίσματα αράχνης:

Η επανάκληση parse_author είναι ένα επιχείρημα αράχνης που μπορεί να χρησιμοποιηθεί για την εξαγωγή δεδομένων από δυναμικούς ιστότοπους. Μπορείτε επίσης να παρέχετε ορίσματα γραμμής εντολών στις αράχνες με έναν συγκεκριμένο κωδικό. Τα επιχειρήματα της αράχνης γίνονται χαρακτηριστικά αράχνης σε σύντομο χρονικό διάστημα και αλλάζουν τη συνολική εμφάνιση των δεδομένων σας.

Σε αυτό το σεμινάριο, καλύψαμε μόνο τα βασικά του Scrapy. Υπάρχουν πολλές δυνατότητες και επιλογές για αυτό το εργαλείο. Απλώς πρέπει να κατεβάσετε και να ενεργοποιήσετε το Scrapy για να μάθετε περισσότερα σχετικά με τις προδιαγραφές του.