Apple développe son propre assistant IA pour l’iPhone, capable de lancer des applications à la place de l’utilisateur

Apple développe son propre assistant IA pour l’iPhone, capable de lancer des applications à la place de l’utilisateur

10 hardware

Apple développe un agent IA local compact pour interagir avec les interfaces utilisateur

Apple travaille sur un nouvel algorithme – Ferret‑UI Lite, capable de « comprendre » les interfaces d’applications et d’interagir avec elles au nom de l’utilisateur, mais tout cela se passe directement sur l’appareil. Le modèle compte 3 milliards de paramètres et dans les tests obtient des résultats comparables ou même supérieurs aux grands modèles jusqu’à 24 fois plus gros.

Origines du projet
En décembre 2023, une équipe de neuf chercheurs a publié le travail FERRET : Refer and Ground Anything Anywhere at Any Granularity. Il présentait un modèle linguistique multimodal entraîné sur différents types de données et capable d’associer des descriptions textuelles à des parties spécifiques d’une image.

Depuis, Apple a étendu la famille Ferret‑models :

ModèleUtilisation
Ferretv2Modèle de base amélioré
Ferret‑UIMLLM spécialisé pour les interfaces mobiles
Ferret‑UI 2Support multi‑plateforme et résolution plus élevée

Ferret‑UI, en particulier, résout un problème des grands modèles linguistiques multimodaux (MLLM) actuels : ils reconnaissent mal les éléments UI. Le modèle ajoute une « résolution arbitraire » sur Ferret, augmentant la précision des images et utilisant des caractéristiques visuelles améliorées.

Nouveaux accomplissements
Récemment Apple a présenté deux versions supplémentaires :

1. Ferret‑UI Lite – un modèle léger de 3 milliards de paramètres, optimisé pour l’exécution locale sur les appareils mobiles.
2. Ferret‑UI 2 – une version étendue prenant en charge plusieurs plateformes et des captures d’écran à haute résolution.

La principale différence entre Ferret‑UI Lite et les gros modèles serveur est qu’il reste compétitif tout en exigeant beaucoup moins de ressources informatiques.

Pourquoi c’est important
La plupart des agents GUI existants reposent sur d’immenses modèles fondamentaux, car leurs puissantes capacités de raisonnement et de planification permettent d’obtenir d’excellents résultats dans la navigation des interfaces graphiques. Cependant, ces modèles sont trop lourds pour être exécutés directement sur l’appareil.

Ferret‑UI Lite résout ce problème en combinant :

- Plusieurs composants clés et idées issues de l’entraînement de petits LLM ;
- Des données réelles et synthétiques provenant de divers domaines GUI ;
- Des techniques de cadrage dynamique et d’optimisation de la qualité de segmentation de l’interface ;
- Un réglage fin contrôlé et un apprentissage par renforcement.

Le résultat est un modèle qui est pratiquement égal ou même supérieur aux agents GUI concurrents plus grands dans les tâches de liaison bas niveau avec les éléments UI, la compréhension du contenu à l’écran, le plan multi‑étapes et l’auto‑analyse.

Commentaires (0)

Partagez votre avis — merci de rester courtois et dans le sujet.

Pas encore de commentaires. Laissez un commentaire et partagez votre avis !

Pour laisser un commentaire, connectez-vous.

Connectez-vous pour commenter