FastVLM
.
Qu'est-ce que FastVLM ?
Fast Vision-Language Model
- FastVLM (Fast Vision-Language Model) est un modèle de vision-langage développé par Apple, présenté à la conférence CVPR 2025.
- Il utilise un encodeur visuel hybride nommé FastViTHD, optimisé pour traiter des images haute résolution tout en réduisant les latences et la taille des modèles.
- Cela en fait un excellent candidat pour des applications en temps réel et sur appareil (i.e. on-device)
- voir Instagram+12Apple Machine Learning Research+12Share Google+12.
85 fois plus rapide
- Concrètement, FastVLM serait jusqu’à 85 fois plus rapide que des modèles comparables (comme LLaVA-OneVision 0.5B),
- tout en étant 3,4 fois plus petit
- Il atteint ce gain de performance grâce à son architecture simplifiée et efficace.
- Voir The Indian Express+7Apple Machine Learning Research+7GitHub+7.
Disponibilité et démonstration
- Le modèle FastVLM-0.5B est disponible dès maintenant sur Hugging Face, avec une version demo jouable directement dans le navigateur — sans installation nécessaire Instagram+12Share Google+12aibase.com+12.
- Une démo iOS/macOS est également disponible, fonctionnant via le framework interne d’Apple (MLX), démontrant sur un iPhone 16 Pro les capacités du modèle en quasi‑temps réel
- Voir Apple Machine Learning Research+1.
.
Fonctionnalités et usages prévus
Générer instantanément...
FastVLM peut générer instantanément (ou presque) des descriptions d’image, capturer ce que voit la caméra, et fournir des textes comme :
- “Décris ce que tu vois en une phrase”
- Lire du texte visible
-
Identifier des objets, émotions, couleurs…
Ces prompts sont disponibles par défaut dans l’interface de démonstration - Voir GitHub+11Share Google+11Tech Times+11Medium+8The Indian Express+8aibase.com+8.
intégration dans des lunettes intelligentes,
- Apple semble préparer ce type de technologie pour une intégration dans des lunettes intelligentes, prévues pour 2026 ou 2027.
- Ces lunettes pourraient utiliser FastVLM pour assister les utilisateurs (traduction de panneaux, description d’objets, aide pour les malvoyants…)
- Voir Share Google+1.
.
.
Résumé en tableau
Élément | Détail |
---|---|
Modèle | FastVLM (0.5B, 1.5B, 7B paramètres) |
Nom de l’encodeur | FastViTHD (hybride, optimisé haute résolution) |
Avantages clés | Jusqu’à 85× plus rapide, 3,4× plus petit, fonctionne on-device |
Démonstration | Navigateurs via Hugging Face, démo iOS/macOS avec MLX |
Cas d’usage attendu | Lunettes intelligentes, assistance pour malvoyants, traduction, etc. |
Sortie prévue des lunettes | Entre 2026 et 2027 |
Action ? testons !
Voici comment vous pouvez tester FastVLM dès maintenant :
🔹 Option 1 : Tester directement dans le navigateur (sans installation)
-
Rendez-vous sur la page officielle Hugging Face du modèle :
👉 FastVLM Demo sur Hugging Face - Chargez une image ou activez la caméra de votre ordinateur.
- Cliquez sur un des prompts proposés (par ex. "Décris cette image") → FastVLM génère une description en temps réel.
🔹 Option 2 : L’essayer en local (Mac ou iPhone)
- Apple a publié le modèle via son framework MLX.
-
Si vous avez un Mac M1/M2/M3 ou un iPhone récent (iPhone 15/16 Pro), vous pouvez :
-
Installer MLX :
pip install mlx
-
Télécharger le modèle depuis Hugging Face :
git clone https://huggingface.co/apple/FastVLM
- Lancer la démo iOS/macOS incluse dans le repo.
-
Installer MLX :
🔹 Option 3 : Intégrer dans vos projets
- FastVLM existe en plusieurs tailles : 0.5B, 1.5B et 7B paramètres.
-
Exemple rapide en Python avec Hugging Face :
from transformers import AutoProcessor, AutoModelForVision2Seq from PIL import Image model = AutoModelForVision2Seq.from_pretrained("apple/FastVLM-0.5B") processor = AutoProcessor.from_pretrained("apple/FastVLM-0.5B") image = Image.open("photo.jpg") inputs = processor(images=image, text="Décris cette image", return_tensors="pt") outputs = model.generate(**inputs) print(processor.decode(outputs[0], skip_special_tokens=True))