Apple a entraîné des modèles d’IA compacts à décrire les images mieux que leurs concurrents plus grands.

Apple a entraîné des modèles d’IA compacts à décrire les images mieux que leurs concurrents plus grands.

22 software

Apple dévoile une nouvelle technologie « RubiCap » pour la description d’images

Les chercheurs d'Apple ont créé une méthode nommée *RubiCap*, qui permet aux petits modèles d’IA de générer des descriptions plus précises et détaillées des images que leurs homologues à grande échelle.

Comment fonctionne RubiCap
1. Analyse de l’image

Pour produire un texte détaillé, le modèle commence par reconnaître de nombreux objets et zones dans la scène. Cela donne une compréhension profonde de la composition plutôt qu’une description superficielle.

2. Valeur pratique

Ces compétences sont utiles pour entraîner des modèles d’IA enfants, des générateurs d’images à partir de texte et des fonctions spécialisées (par exemple, l’amélioration du contenu visuel).

3. Problème de ressources

Les approches traditionnelles d’entraînement de systèmes de description détaillée nécessitent d’importantes ressources informatiques tant en phase initiale qu’en apprentissage par renforcement ultérieur.

Méthodologie expérimentale
- Sélection des images – 50 000 images ont été aléatoirement choisies parmi les ensembles *PixMoCap* et *DenseFusion‑4V‑100K*.

- Génération de descriptions – Des modèles existants de vision par ordinateur ont été utilisés : Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT et Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, ainsi que les modèles Apple en cours d’entraînement.

- Évaluation de la qualité – Gemini 2.5 Pro a agi comme expert : il analysait les descriptions, identifiait les correspondances et les erreurs, et formulait des critères d’évaluation clairs.

- Évaluation par un jury – Le modèle Qwen 2.5‑7B‑Instruct attribuait des points pour chaque critère et générait un signal de récompense pour le modèle en apprentissage.

Résultats
- Le modèle entraîné recevait un retour d’information concret, ce qui permettait d’améliorer rapidement la précision des descriptions sans devoir compter sur une seule réponse « correcte ».

- En fin de compte, Apple a créé trois modèles propriétaires : RubiCap‑2B, RubiCap‑3B et RubiCap‑7B (respectivement 2, 3 et 7 milliards de paramètres).

- Lors des tests de description d’images, RubiCap a surpassé les concurrents avec 32 milliards et même 72 milliards de paramètres. Dans certains cas, RubiCap‑3B affichait de meilleurs résultats que RubiCap‑7B, confirmant que la taille du modèle ne garantit pas toujours une meilleure performance.

Ainsi, la technologie RubiCap démontre comment atteindre une haute qualité de description d’images avec moins de ressources et un apprentissage plus efficace.

Commentaires (0)

Partagez votre avis — merci de rester courtois et dans le sujet.

Pas encore de commentaires. Laissez un commentaire et partagez votre avis !

Pour laisser un commentaire, connectez-vous.

Connectez-vous pour commenter