Groq - Inférences de LLM à 500tokens/secondes

Open link in next tab

Groq

https://groq.com/

A GroqLabs AI Language Interface

Démo assez impressionnante qui montre la vitesse d'inférence de leur puces de calculs dedié.
La démo est surchargé donc les messages sont dans une file d'attente, mais la vitesse est réelle.