Language Model Smoothing?
Bei einem unigram languade model kann man mit dieser Formel berechnen wie wahrscheinlich es ist, dass ein query q in dem Dokument d vorkommt:
Falls ein token t in dem dokument nicht vorkommt, dann ist das gesamte Produkt 0, weshalb wir smoothing so definiert haben, dass P(t|C), statt P(t|D) verwendet wird, falls die term frequency von t in d gleich 0 ist, tf_t,d = 0 . C ist hier eine Collection, also die Menge aller Dokumente die man betrachtet.
Was kann man aber machen, wenn der term t überhaupt nicht in der Collection vorkommt? Dann steht man doch vor dem selben Problem?
Wenn ein token in der gesamten Collection nicht vorkommt, dann brauchst du es nicht zu betrachten.
Das language model wird in diesem Kontext ja verwendet um zwischen verschiedenen Dokumenten entscheiden zu können, welches am ehesten einen query generiert. Und wenn in der gesamten Collection ein token aus dem query nicht vorkommt, dann hat dieses token auch keinen Einfluß auf die Wahrscheinlichkeit.