Back to Question Center
0

Semalt: Hur använder du Python för att skrapa en webbplats?

1 answers:

Data spelar en viktig roll vid utredningar, eller hur? Det kan leda till ett nytt sätt att titta på saker och utveckla andra insikter. Det mest olyckliga är att de uppgifter du letar efter inte alltid är tillgängliga. Du kan hitta den på Internet, men den kanske inte finns i ett format som kan hämtas. I så fall kan du använda webbskrapningstekniken för att programmera och samla in de data du behöver.

Det finns flera skrapningsåtgärder och programmeringsspråk som kan vara till hjälp genom denna process. Denna artikel kommer att vägleda dig om hur du använder pythonspråket för att skrapa en webbplats. Du kommer att få mycket insikt om hur webbsidor fungerar. Du kommer också att förstå hur utvecklare strukturerar data på vilken webbplats som helst.

Den bästa utgångspunkten är att ladda ner och installera Anaconda Python Distribution på din dator. Du kan också ta några handledningar om grunderna i detta programmeringsspråk. Det bästa stället att starta kan vara Codecademy, speciellt om du inte har någon aning om detta.

Den här guiden kommer att utnyttja Polklands nuvarande anmälningssida för inmates. Vi kommer att vägleda dig om hur du använder ett Python-skript för att extrahera en lista över fångar och få vissa data som bostadsort och tävling för varje inmate. Hela skriptet som vi kommer att ta dig igenom är lagrat och öppet på GitHub..Detta är en av de populära online-plattformarna som tillåter delning av datorkoder. Koderna har en lång lista med kommentarer som kan vara till stor hjälp för dig.

När du skrapar någon webbplats är det första verktyget att leta efter en webbläsare. De flesta av webbläsarna kommer att ge användarna HTML-inspektionsverktyg som hjälper till att lyfta motorluckluckan och förstå sidstrukturen. Sättet du får åtkomst till varje verktyg varierar från en webbläsare till en annan. Stödet är dock "sidan med källkod, och du kan hämta det genom att högerklicka på sidan direkt.

När du tittar på HTML-källan till sidan är det lämpligt att noggrant lista detaljerna för länkarna till den inmatade i tabellrader. Nästa steg är att skriva ett skript som vi ska använda för att extrahera denna information. De två Python-paketen som vi ska använda i den tunga lyftprocessen är Beautiful Soup and Requests. Se till att du installerar dem innan du börjar köra koden.

Skriptet för webbskrapning kommer att göra tre saker. Dessa inkluderar att ladda upp listor och extrahera länkar till detaljer sidor, ladda varje detalj sida och extrahera data och skriva ut den extraherade data beroende på hur det filtreras som bostad och ras. När du förstår detta är nästa steg att börja kodningsprocessen genom att använda den vackra soppan och begäran.

För det första laddar inloggningssidan logiskt med hjälp av requests.get-URL och använder sedan den vackra soppen för att handla den. Därefter extraherar vi länken till detaljerna genom att slingra igenom varje rad. Efter att ha analyserat de inmatade detaljerna, är nästa steg att extrahera kön, ålder, ras, bokningstid och namnvärden till ordlistan. Varje inmate kommer att få sin ordbok, och alla ordböcker kommer att bifogas den inmates lista. Slutligen släng över tävlingen och stadens värden innan du äntligen skriver ut din lista.

December 7, 2017
Semalt: Hur använder du Python för att skrapa en webbplats?
Reply