Aldrig hört talas om Serge, men det ser ut som att projektet fortfarande lever och uppdateras iaf. Det är baserat på llama.cpp, så jag tror det ska fungera med ROCm (dvs. AMD gpu). Och eftersom det bygger på llama.cpp så behöver du en modell i GGUF-format. Sen har llama.cpp en unik funktion att den klarar av att dela upp arbetet mellan CPU och GPU, vilket gör att du kan köra större modeller ifall du är villig att offra en del hastighet, men jag tror det är en bra start att köra någon sorts standardmodell som får plats helt i VRAM, så kan du experimentera med finetune:ade modeller och annat när du vet att saker fungerar som det ska.
Det som avgör hur mkt VRAM som behövs är en kombination av antalet parametrar i modellen (e.g. 7B, 12B, osv), hur stor kontext du använder (typ. hur pass långt korttidsminne AI:n får. Mer kontext -> längre konversation innan den glömmer bort de äldsta meddelandena) och vilken kvantiseringsnivå av modellen du laddat hem (typ motsvarande komprimering av film/bilder). Sen tappar du även lite VRAM till operativsystemet ifall du bara har ett grafikkort i datorn. Jag tror Mistral Nemo Instruct med Q4_K_M kvantisering, och kanske 8000 kontext, skulle gå in i VRAM för dig, den går att ladda ner här: https://huggingface.co/bartowski/Mistral-Nemo-Instruct-2407-GGUF/tree/main
De flesta modellerna som tränas är censurerade till någon grad, men det är många privatpersoner som gör sitt bästa för att ta bort det av olika anledningar. Vill du ha en sån modell så har de ofta OAS eller "abliterated" i namnet.
Vill du testa att köra lite större modeller med partial offloading (CPU+GPU) så kolla in CmdR och Mixtral 8x7b. Mixtral börjar bli lite gammal, men den är snabb att köra på CPU tack vare MoE arkitekturen. Du kan även testa 70B modeller som Miqu etc. men då får du nog räkna med max 0.5 ord/sekunden.
Kan även rekommendera TheBloke's discord server ifall du behöver hjälp med något, eller tips om de senaste modellerna.