Semalt Guide skreeperlaiendi jaoks Chrome'i jaoks

Ükskõik millise ettevõtte ellujäämiseks ja lõppkokkuvõttes kasvamiseks on vaja püsida konkurentidest ja mitmesugustest riskidest ees. Analüütiliste andmete põhjal otsuste tegemine on kindel viis nende probleemide unustamiseks. Selliseid andmeid saab hankida andmete lammutamise teel. Sealt tuleb Chrome'i jaoks lihtne skreeperlaiendus : see mitte ainult ei hõlbusta andmete kogumise protsessi, vaid võimaldab ka keerulisi seadistusi kasutades kraapida liikvel olles.

Kuidas kasutada skreeperit

    1. Esimene asi, mida peate tegema, on laienduse installimine, nii et minge üle Chrome'i veebipoodi, otsige "skreeperit" ja klõpsake nuppu Lisa Chrome'i.

    2. Minge veebisaidile, millelt soovite andmeid kraapida , märkige huvipakkuv kirje, tõstes selle esile. Paremklõpsake sellel ja valige hüpikmenüüst "kraapida sarnast".

    3. See avab eraldi skreeperkonsooli akna. Siin näete kraapitud andmete loendit.

    4. Sisu salvestamiseks klõpsake nuppu "Salvesta Google'i dokumentidesse", see eksportib andmed automaatselt Google'i arvutustabelisse.

Laiendatud kraapimine

Juhul, kui plaanite kraapida rohkem andmeid, võite kasutada täpsemat lähenemisviisi. Pange tähele, et tööriistaga on palju lihtsam töötada, kui teil on HTML-i teadmine. Oletame, et soovisite kraapida andmeid allikast, mille arhiiv põhineb aegridade andmetel. Sel juhul saadaks ülaltoodud meetodi proovimisel hävinud andmed.

Selle probleemi lahendamiseks võite kasutada HTMLathi ja XML-i päringkeelt, mida nimetatakse XPathiks. Mida see teeb? XPath tuvastab andmed igas valikus sisalduvate erinevate elementide kohta. Järgnev on juhis selle saavutamiseks:

1. Minge skreeperi konsooli juurde, vasakus ülanurgas peaksite märkima nuppu "XPath", klõpsake seda ja jätkake esialgse tabeli kokkupanekut.

2. Peate kirjutama XPath õige elemendi jaoks. Praegune XPath, mis sisaldab kogu teavet, kuvatakse järgmises vormingus: "// div [3] / div [3] / div [2] / div". Elemendid <div> tunneb arvuti ära HTML-dokumendis.

3. Tuvastatud andmete eraldamiseks peate kasutama veerge Scraper. Selleks peate otsima saadaolevat tüüpi teavet. Sõltuvalt kraabitavatest andmetest võivad teil olla pealkirjad. Need pealkirjad esinevad iga andmekomplekti kõrval. Neile on lisatud silt, antud juhul <b> silt.

4. Kontrollige elemendi abil üles ja lisage oma XPathi silt <b>. Nüüd saate selle esimese veeru märgistada pealkirja veeruks, kuna see loetleb pealkirjad allapoole. Jätkake iga vajaliku veeru jaoks erinevate XPathide loomisega.

5. Klõpsake kraapimist ja laiend kogub andmed automaatselt ja korraldab need teie valitud erinevates veergudes.