Processing math: 100%

log-likelihood-gradients

Ableitung der Log-Likelihood

L(θθ)=kln(2π)1+ln(|ΣΣ(θθ)|)2+(xxμμ(θθ))TΣΣ(θθ)1(xxμμ(θθ))3

Wir wollen nach θθ ableiten.

Element 1

Es gilt θjkln(2π)=0

Element 2

Es gilt:

θjln(|ΣΣ(θθ)|)=1|ΣΣ(θθ)|θj|ΣΣ(θθ)|

Jacobis Formel:

θj|ΣΣ(θθ)|=|ΣΣ(θθ)|tr(ΣΣ(θθ)1θjΣΣ(θθ)) und somit:

θjln(|ΣΣ(θθ)|)=1|ΣΣ(θθ)||ΣΣ(θθ)|tr(ΣΣ(θθ)1θjΣΣ(θθ))=tr(ΣΣ(θθ)1θjΣΣ(θθ))

Wir brauchen also die Ableitung der modell-implizierten Kovarianzmatrix nach den Parametern: θjΣΣ(θθ). Dabei gilt: ΣΣ(θθ)=FF(IIAA)1SS((IIAA)1)TFFT.

Fall 1: Der Parameter θj ist in SS.

Dann gilt: Außer SS kann alles andere als Konstante behandelt werden. Es folgt:

θjΣΣ(θθ)=FF(IIAA)1θjSS((IIAA)1)TFFT wobei θjSS eine sparse Matrix mit einsen an den Stellen ist, an denen θj vorkommt.

Zusammenfassung:

θjln(|ΣΣ(θθ)|)=tr(ΣΣ(θθ)1FF(IIAA)1θjSS((IIAA)1)TFFT)

Achtung: Wenn die Person Missings hat, kann man die Matrix FF so anpassen, dass die entsprechenden Zeilen und Spalten herausfallen.

Fall 2: Der Parameter θj ist in AA.

Dann gilt: Außer AA kann alles andere als Konstante behandelt werden. Zudem gilt: aiAA1=AA1AAaiAA1 (https://math.stackexchange.com/questions/4074265/derivative-involving-inverse-matrix?noredirect=1&lq=1). Es folgt:

θjΣΣ(θθ)=FF[(IIAA)1AAθj(IIAA)1][SS((IIAA)1)TFFT]+FF(IIAA)1SS[(IIAA)1AAθj(IIAA)1]TFFT

Zusammenfassung:

θjln(|ΣΣ(θθ)|)=tr(ΣΣ(θθ)1[FF[(IIAA)1AAθj(IIAA)1][SS((IIAA)1)TFFT]+FF(IIAA)1SS[(IIAA)1AAθj(IIAA)1]TFFT])

Fall 3: Der Parameter θj ist in mm, wobei mm die Mittelwertstruktur des SEM ist.

Dann gilt: Die Ableitung ist 0.

Hinweis: Element 2 ist unabhängig vom Datensatz!

Element 3

θj(xxμμ(θθ))TΣΣ(θθ)1(xxμμ(θθ))

Es gilt:

θj(xxμμ(θθ))TΣΣ(θθ)1(xxμμ(θθ))=[θj(xxμμ(θθ))T]ΣΣ(θθ)1(xxμμ(θθ))+(xxμμ(θθ))Tθj[ΣΣ(θθ)1(xxμμ(θθ))]=[θj(xxμμ(θθ))T]ΣΣ(θθ)1(xxμμ(θθ))+(xxμμ(θθ))T[θjΣΣ(θθ)1](xxμμ(θθ))+(xxμμ(θθ))TΣΣ(θθ)1θj[(xxμμ(θθ))]

mit μμ(θθ)=FF(IIAA)1mm wobei mm die Mittelwertstruktur des SEMs ist.

Fall 1: Der Parameter θj ist in SS.

Dann gilt: Außer SS kann alles andere als Konstante behandelt werden. Es folgt: [θj(xxμμ(θθ))T]=0 und somit

[θj(xxμμ(θθ))T]ΣΣ(θθ)1(xxμμ(θθ))+(xxμμ(θθ))T[θjΣΣ(θθ)1](xxμμ(θθ))+(xxμμ(θθ))TΣΣ(θθ)1θj[(xxμμ(θθ))]=(xxμμ(θθ))T[θjΣΣ(θθ)1](xxμμ(θθ))

Es gilt (https://math.stackexchange.com/questions/4074265/derivative-involving-inverse-matrix?noredirect=1&lq=1): θjΣΣ(θθ)1=ΣΣ(θθ)1θjΣΣ(θθ)Σ(θθ)1 und somit:

θj(xxμμ(θθ))TΣΣ(θθ)1(xxμμ(θθ))=(xxμμ(θθ))T[θjΣΣ(θθ)1](xxμμ(θθ))=(xxμμ(θθ))T[ΣΣ(θθ)1θjΣΣ(θθ)Σ(θθ)1](xxμμ(θθ))=(xxμμ(θθ))T[ΣΣ(θθ)1FF(IIAA)1θjSS((IIAA)1)TFFTΣΣ(θθ)1](xxμμ(θθ))

Hinweis: Der letzte Schritt wurde bei Element 2 besprochen.

Fall 2: Der Parameter θj ist in AA.

AA findet sich auch in der Mittelwertstruktur wieder. Hier gilt

θj(xxμμ(θθ))TΣΣ(θθ)1(xxμμ(θθ))=[θj(xxμμ(θθ))T]ΣΣ(θθ)1(xxμμ(θθ))+(xxμμ(θθ))T[θjΣΣ(θθ)1](xxμμ(θθ))+(xxμμ(θθ))TΣΣ(θθ)1θj[(xxμμ(θθ))]

mit [θj(xxμμ(θθ))]=[θjμμ(θθ))]=θjFF(IIAA)1mm=FF(IIAA)1(IIAA)θj(IIAA)1mm

Es folgt: θj(xxμμ(θθ))TΣΣ(θθ)1(xxμμ(θθ))=2[FF(IIAA)1(IIAA)θj(IIAA)1mm]TΣΣ(θθ)1(xxμμ(θθ))+(xxμμ(θθ))T[θjΣΣ(θθ)1](xxμμ(θθ))=2[FF(IIAA)1(IIAA)θj(IIAA)1mm]TΣΣ(θθ)1(xxμμ(θθ))+(xxμμ(θθ))T[ΣΣ(θθ)1[FF[(IIAA)1AAθj(IIAA)1][SS((IIAA)1)TFFT]+FF(IIAA)1SS[(IIAA)1AAθj(IIAA)1]TFFT]ΣΣ(θθ)1](xxμμ(θθ))

Hinweis: Der letzte Schritt wurde bei Element 3 besprochen.

Fall 3: Der Parameter θj ist in mm.

Dann gilt: Außer μμ(θθ)=FF(IIAA)1mm kann alles andere als Konstante behandelt werden.

θj(xxμμ(θθ))TΣΣ(θθ)1(xxμμ(θθ))=[θj(xxμμ(θθ))T]ΣΣ(θθ)1(xxμμ(θθ))+(xxμμ(θθ))Tθj[ΣΣ(θθ)1(xxμμ(θθ))]=[θj(xxμμ(θθ))T]ΣΣ(θθ)1(xxμμ(θθ))+(xxμμ(θθ))TΣΣ(θθ)1θj[(xxμμ(θθ))]=(FF(IIAA)1ee)TΣΣ(θθ)1(xxμμ(θθ))+(xxμμ(θθ))TΣΣ(θθ)1(FF(IIAA)1ee)=2(FF(IIAA)1ee)TΣΣ(θθ)1(xxμμ(θθ)) wobei ee=[00...1...0]T ein Vektor ist, der eine eins an der Stelle hat, an der θj in mm sitzt.