Hvordan virker attention i sprogmodeller
Jeg læser Sebastian Raschkas vidunderlige bog Build a Large Language Model (From Scratch) og er i gang med kapitlet om Attention.
For at forstå attention skal du som minimum have en basal viden om sprogmodeller og mere specifikt bør du kende til begreberne tokenizer og embeddings.
Attention er det der gør moderne sprogmodeller som ChatGPT og Claude så kraftfulde. Det er mekanismen der tillader modellen at forstå sammenhænge mellem ord - uanset hvor langt fra hinanden de står i teksten. Forstår du attention, forstår du kernen i hvordan disse modeller virker.
Dette bliver ikke “endnu en blog-post” om attention, da der allerede findes mange gode derude. Til gengæld giver jeg dig en kurateret liste over resourcer, som jeg fandt nyttige i forsøg på at forstå attention mekanismen.
Den oprindelige artikel Attention Is All You Need er faktisk til at læse, men måske ikke stedet at starte med mindre du er vant til at læse videnskabelige artikler. Der findes også en annoterede udgave, som har den fordel, at der også er kode med. Så hvis du lære ved at læse kode, så kunne det være et godt sted at starte.
Er du mere til video så har fantastiske 3Blue1Brown denne her video som har mere fokus på ideer og intuition end på kode.
Har du brug for et lidt mere overordnet perspektiv så kig her. Denne blog post er siden blevet et kapitel i bogen Hands-On Large Language Models.
For at forstå Q, K, og V matricerne kan du læse videre her og her. De sidste to referencer er også et godt sted at starte, hvis du vil være klogere på prompt caching.
Edit page on GitHub. Please help me to improve the blog by fixing mistakes on GitHub. This link will take you directly to this page in our GitHub repository.
There are more posts on the front page.

Content of this blog by Carsten Jørgensen is licensed under a Creative Commons Attribution 4.0 International License.