Back to Question Center
0

Nybörjarhandbok från Semalt på webbsidan Skrapning

1 answers:

Data och information på webben växer dag för dag. Numera använder de flesta Google som den första kunskapskällan, om de söker efter recensioner om ett företag eller försöker förstå en ny term.

Med den mängd data som finns tillgänglig på webben öppnar det många möjligheter för datavetenskapare. Tyvärr är de flesta av data på webben inte tillgängliga. Den presenteras i ett ostrukturerat format som kallas HTML-format som inte kan hämtas. Således krävs det att en datavetenskaplig kunskap och expertis använder sig av det.

Webbskrapning är processen att konvertera data som finns i HTML-format till ett strukturerat format som enkelt kan nås och användas. Nästan alla programmeringsspråk kan användas för en korrekt webbskrotning. Men i den här artikeln kommer vi att använda R-språket.

Det finns flera sätt på vilka data kan skrapas från webben. Några av de mest populära inkluderar:

1. Mänsklig kopi-pasta

Detta är en långsam men mycket effektiv teknik för att skrapa data från webben. I den här tekniken analyserar en person dataen själv och kopierar den sedan till lokal lagring. 19) 2. Text Pattern Matching

Detta är ett annat enkelt men kraftfullt sätt att extrahera information från en web. Det kräver att man använder ordinarie uttryckssamtal för programmeringsspråk.

3. API-gränssnitt (20 )

Massor av webbplatser som Twitter, Facebook, LinkedIn etc. ger dig offentliga eller privata API som kan kallas med standardkoder för att hämta data i ett föreskrivet format.

4. DOM-analysering 20)

Observera att vissa program kan hämta dynamiskt innehåll som skapats av klientsidans skript. Det är möjligt att analysera sidor i ett DOM-träd som baseras på de program du kan använda för att hämta vissa delar av dessa sidor. )

Innan du går in på webbskrapning i R behöver du ha grundläggande kunskaper om R. Om du är nybörjare finns det många bra källor som kan hjälpa till. Du måste också ha kunskap om HTML och CSS. Men eftersom de flesta datavetenskapsmän inte är särskilt ljuvliga med den tekniska kunskapen om HTML och CSS kan du använda en öppen programvara, till exempel Selector Gadget.

Om du t.ex. skrapar data på IMDB-webbplatsen för de 100 mest populära filmerna som släppts under en viss period måste du skrapa följande data från en webbplats: beskrivning, körning, genre, betyg, röster , brutto intjäning, regissör och cast. När du har skrotat data kan du analysera det på olika sätt. Du kan till exempel skapa ett antal intressanta visualiseringar. Nu när du har en allmän uppfattning om vad dataåtertagning är, kan du ta dig om det!

December 7, 2017
Nybörjarhandbok från Semalt på webbsidan Skrapning
Reply