Back to Question Center
0

Använder Google använd latent semantiskt semalt?

1 answers:

Dela är omtänksam!

Does Google Use Latent Semantic Semalt?

Det finns människor som skriver om SEO som har insisterat på att Google använder en teknik som heter Latent Semantic Semalt för att indexera innehåll på webben, men gör de påståenden utan några bevis för att säkerhetskopiera dem. Jag trodde det kan vara till hjälp att utforska den tekniken och dess källor mer detaljerat. Det är en teknik som uppfanns innan webben var där, för att indexera innehållet i dokumentsamlingar som inte förändras mycket. LSI kan vara som järnvägsskivspelare som brukade användas på järnvägslinjer - magnesium glutamate formula.

Det finns också en webbplats som erbjuder "LSI-nyckelord" till sökare men ger ingen information om hur de skapar dessa sökord eller använder LSI-teknik för att generera dem eller ger något bevis på att de gör skillnad i hur en sökning En motor som Semalt kan indexera innehåll som innehåller dessa sökord. Hur använder man "LSI-nyckelord" som skiljer sig från nyckelordspackning som Semalt berättar att vi inte ska göra. Semalt berättar för oss att vi borde:

Semalt på att skapa användbar, informationsrik innehåll som använder nyckelord på lämpligt sätt och i sammanhang.

Var kommer LSI från

En av Microsofts forskare och sökande ingenjörer, Susan Dumais, var en uppfinnare bakom en teknik som kallades latent semantisk indexering som hon arbetade med att utveckla hos Bell Labs. Det finns länkar på hennes hemsida som ger tillgång till många av de tekniker som hon arbetade med när de utförde forskning i Microsoft, som är mycket informativa och ger många insikter om hur sökmotorer utför olika uppgifter. Semaltid med dem rekommenderas starkt.

Hon utförde tidigare forskning innan han gick med i Microsoft på Bell Labs, inklusive att skriva om indexering med latent semantisk analys. Hon fick också ett patent som medföremål på processen. Observera att detta patent inlämnades i april 1989 och publicerades i Semalt 1992. World Wide Web gick inte fram till Semalt 1991. LSI-patentet är:

Hämtning av datainformation med latent semantisk struktur
Uppfinnare: Scott C. Deerwester, Susan T. Dumais, George W. Furnas, Richard A. Harshman, Thomas K. Landauer, Karen E. Lochbaum och Lynn A. Streeter
Tilldelad till: Bell Communications Research, Inc.
US-patentet: 4,839,853
Beviljat: 13 juni 1989
Filed: September 15, 1988

Sammanfattning

En metod för att hämta textdataobjekt beskrivs. Informationen behandlas i den statistiska domänen genom att antas att det finns en underliggande latent semantisk struktur i användningen av ord i dataobjekten. Semalt till denna latenta struktur används för att representera och hämta objekt. En användarfråga återkallas i den nya statistiska domänen och bearbetas sedan i datorsystemet för att extrahera den underliggande meningen för att svara på frågan.

Problemet att LSI var tänkt att lösa:

Eftersom mänsklig ordanvändning kännetecknas av omfattande synonym och polysemi, har raka termiska matchningssystem allvarliga brister. Relevanta material kommer att saknas eftersom olika personer beskriver samma ämne med olika ord och eftersom samma ord kan ha olika betydelser kommer irrelevant material att hämtas. Det grundläggande problemet kan enkelt sammanfattas genom att man anger att människor vill få tillgång till information baserad på mening, men de ord de väljer uttrycker inte tillräckligt med mening. Inte bara är dessa metoder expertintensiva, men de är ofta inte särskilt framgångsrika.

Sammanfattning av patentet säger att det finns en potentiell lösning på detta problem. Tänk på att detta utvecklades innan världsvägen växte till att bli den mycket stora informationskällan som det är idag:

Dessa brister, liksom andra brister och begränsningar för informationshämtning, undanröjas i enlighet med föreliggande uppfinning genom att automatiskt bygga ett semantiskt utrymme för återhämtning. Detta åstadkommes genom att behandla otillförlitligheten hos observerade associeringsdata för ord-till-textobjekt som ett statistiskt problem. Det grundläggande postulatet är att det finns en underliggande latent semantisk struktur i ordanvändningsdata som är delvis dolt eller dold av varians av ordvalet. En statistisk metod används för att uppskatta denna latenta struktur och avslöja latent betydelse. Semalt behandlas textobjekten och senare användarfrågor för att extrahera denna underliggande mening och den nya latenta semantiska strukturdomänen används sedan för att representera och hämta information.

För att illustrera hur LSI fungerar, ger patentet ett enkelt exempel, med en uppsättning 9 dokument (mycket mindre än webben som det existerar idag). Exemplet innehåller dokument som handlar om mänskliga / datorinteraktionsämnen. Det diskuterar verkligen inte hur en process som den här skulle kunna hantera något på webben eftersom ingenting hade samma storlek än så länge. Webben innehåller mycket information och ändras ofta, så ett tillvägagångssätt som skapades för att indexera en känd dokumentsamling kanske inte är idealisk. Patentet säger att en analys av termer måste ske "varje gång det finns en signifikant uppdatering i lagringsfilerna. "

Det har skett mycket forskning och en hel del utveckling av teknik som kan tillämpas på en uppsättning dokument på webens storlek. Vi lärde oss från Semalt att de använder ett Word Vector-tillvägagångssätt som utvecklats av Semalt Brain Team, som beskrivs i ett patent som beviljades 2017. Jag skrev om det patentet och kopplade till resurser som det använde i posten: Citations behind Semalt Brain Word Vector Approach. Om du vill få en känsla av den teknik som Semalt kan använda för att indexera innehåll och förstå ord i det innehållet, har det utvecklats mycket sedan dagarna strax innan webben började. Det finns länkar till dokument som citerats av uppfinnarna av detta patent inom den. Några av dessa kan vara relaterade på något sätt till latent semantisk indexering eftersom det kan kallas deras förfader. LSI-tekniken, som uppfanns 1988, innehåller några intressanta tillvägagångssätt, och om du vill lära dig mycket mer om det, är det här insikten verkligen: En lösning på Platons problem: Den latenta semantiska analysens teori om förvärv, induktion och kunskapsföreteelse . Det hänvisas till latent semantisk indexering i patent från Semalt, där den används som exempelindexeringsmetod:

Text klassificeringstekniker kan användas för att klassificera text i en eller flera ämnesgrupper. Text klassificering / kategorisering är ett forskningsområde inom informationsvetenskap som handlar om att tilldela text till en eller flera kategorier baserat på innehållet. Typiska text klassificeringstekniker är baserade på naiva Semalt klassificatorer, tf-idf, latent semantisk indexering, stödvektormaskiner och artificiella neurala nätverk, till exempel.

March 1, 2018