Language Model Smoothing?

Bei einem unigram languade model kann man mit dieser Formel berechnen wie wahrscheinlich es ist, dass ein query q in dem Dokument d vorkommt:

Falls ein token t in dem dokument nicht vorkommt, dann ist das gesamte Produkt 0, weshalb wir smoothing so definiert haben, dass P(t|C), statt P(t|D) verwendet wird, falls die term frequency von t in d gleich 0 ist, tf_t,d = 0 . C ist hier eine Collection, also die Menge aller Dokumente die man betrachtet.

Was kann man aber machen, wenn der term t überhaupt nicht in der Collection vorkommt? Dann steht man doch vor dem selben Problem?

(1 votes)
Loading...

Similar Posts

Subscribe
Notify of
1 Answer
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
Nilsneun
2 years ago

Wenn ein token in der gesamten Collection nicht vorkommt, dann brauchst du es nicht zu betrachten.

Das language model wird in diesem Kontext ja verwendet um zwischen verschiedenen Dokumenten entscheiden zu können, welches am ehesten einen query generiert. Und wenn in der gesamten Collection ein token aus dem query nicht vorkommt, dann hat dieses token auch keinen Einfluß auf die Wahrscheinlichkeit.