FastVLM

.

Qu'est-ce que FastVLM ?

Fast Vision-Language Model


  • FastVLM (Fast Vision-Language Model) est un modèle de vision-langage développé par Apple, présenté à la conférence CVPR 2025
  • Il utilise un encodeur visuel hybride nommé FastViTHD, optimisé pour traiter des images haute résolution tout en réduisant les latences et la taille des modèles. 
  • Cela en fait un excellent candidat pour des applications en temps réel et sur appareil (i.e. on-device)
  • voir  Instagram+12Apple Machine Learning Research+12Share Google+12.

85 fois plus rapide


  • Concrètement, FastVLM serait  jusqu’à 85 fois plus rapide que des modèles comparables (comme LLaVA-OneVision 0.5B), 
  • tout en étant 3,4 fois plus petit
  • Il atteint ce gain de performance grâce à son architecture simplifiée et efficace.
  • Voir The Indian Express+7Apple Machine Learning Research+7GitHub+7

Disponibilité et démonstration

  • Le modèle FastVLM-0.5B est disponible dès maintenant sur Hugging Face, avec une version demo jouable directement dans le navigateur — sans installation nécessaire Instagram+12Share Google+12aibase.com+12.
  • Une démo iOS/macOS est également disponible, fonctionnant via le framework interne d’Apple (MLX), démontrant sur un iPhone 16 Pro les capacités du modèle en quasi‑temps réel
  • Voir  Apple Machine Learning Research+1.

.

Fonctionnalités et usages prévus

Générer instantanément...

FastVLM peut générer instantanément (ou presque) des descriptions d’image, capturer ce que voit la caméra, et fournir des textes comme :

intégration dans des lunettes intelligentes,


  • Apple semble préparer ce type de technologie pour une intégration dans des lunettes intelligentes, prévues pour 2026 ou 2027.
  • Ces lunettes pourraient utiliser FastVLM pour assister les utilisateurs (traduction de panneaux, description d’objets, aide pour les malvoyants…)
  • Voir  Share Google+1.

.

.

Résumé en tableau

ÉlémentDétail
ModèleFastVLM (0.5B, 1.5B, 7B paramètres)
Nom de l’encodeurFastViTHD (hybride, optimisé haute résolution)
Avantages clésJusqu’à 85× plus rapide, 3,4× plus petit, fonctionne on-device
DémonstrationNavigateurs via Hugging Face, démo iOS/macOS avec MLX
Cas d’usage attenduLunettes intelligentes, assistance pour malvoyants, traduction, etc.
Sortie prévue des lunettesEntre 2026 et 2027

Action ? testons !

Voici comment vous pouvez tester FastVLM dès maintenant :

🔹 Option 1 : Tester directement dans le navigateur (sans installation)

  1. Rendez-vous sur la page officielle Hugging Face du modèle :
    👉 FastVLM Demo sur Hugging Face
  2. Chargez une image ou activez la caméra de votre ordinateur.
  3. Cliquez sur un des prompts proposés (par ex. "Décris cette image") → FastVLM génère une description en temps réel.

🔹 Option 2 : L’essayer en local (Mac ou iPhone)

  • Apple a publié le modèle via son framework MLX.
  • Si vous avez un Mac M1/M2/M3 ou un iPhone récent (iPhone 15/16 Pro), vous pouvez :
    • Installer MLX :

      pip install mlx

    • Télécharger le modèle depuis Hugging Face :

      git clone https://huggingface.co/apple/FastVLM

    • Lancer la démo iOS/macOS incluse dans le repo.

🔹 Option 3 : Intégrer dans vos projets

  • FastVLM existe en plusieurs tailles : 0.5B, 1.5B et 7B paramètres.
  • Exemple rapide en Python avec Hugging Face :

    from transformers import AutoProcessor, AutoModelForVision2Seq from PIL import Image model = AutoModelForVision2Seq.from_pretrained("apple/FastVLM-0.5B") processor = AutoProcessor.from_pretrained("apple/FastVLM-0.5B") image = Image.open("photo.jpg") inputs = processor(images=image, text="Décris cette image", return_tensors="pt") outputs = model.generate(**inputs) print(processor.decode(outputs[0], skip_special_tokens=True))