Domeniul sau de aplicare si originea sunt sistemele de regasire a informatiilor si de extragere a textului care, de exemplu, sunt utilizate de majoritatea bibliotecilor digitale si care, in scopurile noastre, sunt direct legate de motoarele de cautare care utilizeaza o variatie a acestui algoritm in procesul lor de indexare, pozitionand si aratand utilizatorului un anumit continut.

Este o masura care pondereaza utilizarea unui anumit cuvant intr-un set de documente si, prin urmare, este un element important si relevant pentru clasificarea documentelor in functie de interogarea unui utilizator.

TF: Frecventa termenului

Frecventa unui anumit termen dat intr-un document este pur si simplu numarul de ori cand acel termen apare in acel document.

Pentru a intelege mai bine cum functioneaza TD-IDF, imaginati-va ca aveti o multime de documente in fata dvs. si doriti sa aflati care document este cel mai relevant pentru o anumita interogare, de exemplu „plaje mediteraneene”. Posibil, pentru inceput, ati omite toate acele documente care nu contin sirul de cautare mentionat, totusi ati avea inca multe documente.

Astfel, ai putea stabili ca documentul in care sirul de cautare se repeta de cele mai multe ori este cel mai relevant, dar nu toate documentele au aceeasi extensie, iar acest lucru este important.

TF poate fi calculat „pur si simplu” pe masura ce se repeta un termen intr-un document, sau in moduri mult mai complexe cu expresii matematice precum operatori booleeni sau logaritmi.

TF = Numarul total de KW din document / Numarul total de cuvinte din document

IDF: Frecventa inversa a documentelor

Continuand cu aventura noastra de a stabili care document este cel mai relevant pentru sirul nostru de cautare „plaje mediteraneene” ne-am gasi cu problema ca „del” se gaseste cu o frecventa mult mai mare in documente decat „plajele” sau „mediteraneeana”. In consecinta, „din” nu este un cuvant bun pentru a determina relevanta unui anumit document in raport cu interogarea, spre deosebire de cuvintele mai putin frecvente precum „plaje” sau „Mediteranee”. Si tocmai aici, confruntat cu aceasta problema, este incorporat IDF, al carui efect este de a reduce ponderea acelor termeni care se repeta mult in numarul total de documente si da o valoare mai mare acelor cuvinte mai putin frecvente.

Tot in acest caz se poate exprima matematic cu expresii care includ logaritmi sau intr-un mod simplificat:

IDF = Numarul total de documente / Numarul de documente cu KW

Exemplu de calcul TF*IDF:

Sa presupunem ca cititi un document de 100 de cuvinte in care cuvantul „plaja” apare de 3 ori.

TF ar fi calculat:

TF = 3/100 = 0,03

Se gasesc 10 milioane de documente si cuvantul „plaja” apare in 1.000.

IDF ar fi calculat:

log(10.000.000/1.000) = 4

In cele din urma aplicam expresia completa a TF*IDF si avem:

TF x IDF = 0,03 x 4 = 0,12

Algoritmi, SEO si TF*IDF

Aceia dintre noi care suntem dedicati SEO sunt constienti de faptul ca Google se schimba continuu prin introducerea unor modificari algoritmului sau. Modificari minore, ca sa spunem asa, de la 2 la 5 zilnic si modificari majore ale algoritmului care sunt comunicate de la Google si care se raspandesc ca focul de napras prin blogosfera.

Aceste modificari sunt in mare masura directionate, sau asa se crede, sa arate cele mai relevante rezultate pentru interogarea utilizatorului in motorul de cautare. Ei bine, as dori sa evidentiez cateva dintre aceste modificari care dau nastere la relationarea importantei, tocmai, a TF*IDF in strategia SEO, mai ales in ceea ce priveste generarea de continut.

Pasare colibri 

Aceasta modificare a algoritmului (Google Hummingbird) incearca sa descifreze cautarile complexe ale utilizatorului, care pana in momentul introducerii respectivei modificari nu au oferit cele mai bune rezultate cautarilor in cauza.

Faptul schimbarilor in comportamentul utilizatorului cu privire la cautare ar fi in spatele acestui lucru. Cautarile intr-un limbaj mai informal derivat din contexte in care smartphone-ul este protagonist si situatii spontane, familiaritatea cu motorul de cautare in sine, efectuarea de cautari intr-un limbaj mai descriptiv si mai colocvial, cautari mai sofisticate si cautari vocale imping pe Google sa-si perfectioneze Motorul de cautare.

Anterior, inainte de o cautare, Google a cautat cuvinte si sinonime si pe baza celor peste 200 de factori care influenteaza pozitionarea, a aratat rezultatul utilizatorului. Acum Google incearca sa inteleaga sensul cuvintelor, in schimb acum se ia in considerare mult mai mult interactiunea utilizatorului cu rezultatele si activitatea lor in cadrul site-urilor mentionate.