Apple mise sur Ferret, son modèle d’intelligence artificielle multimodal

Apple n’a pas dit son dernier mot en matière d’intelligence artificielle (IA). La firme à la pomme travaille en secret sur un modèle de langage multimodal nommé Ferret, qui pourrait révolutionner ses applications et services. Ce modèle, qui combine la compréhension du texte et de l’image, devrait être dévoilé lors de la prochaine conférence des développeurs d’Apple (WWDC) en juin 2024.

Ferret, un modèle comparable à celui de Google

L’IA est un domaine en pleine effervescence, qui a connu de nombreuses avancées en 2023. Parmi les acteurs majeurs du secteur, Google a récemment présenté Gemini, son modèle de langage multimodal, capable de générer des images à partir de descriptions textuelles, ou inversement. Ce modèle repose sur une architecture Transformer, qui permet d’apprendre les relations entre les mots et les pixels.

Apple n’est pas en reste, et développe son propre modèle de langage multimodal, baptisé Ferret (« furet » en français). Ce modèle, qui utilise également une architecture Transformer, a été conçu en collaboration avec l’Université de Cornell, dans l’État de New York. Une version open source de Ferret a été publiée sur GitHub à l’automne 2023, mais Apple n’a pas encore communiqué officiellement sur le sujet.

Ferret, un modèle aux multiples applications potentielles

Ferret a pour objectif de pouvoir analyser et répondre à des requêtes impliquant du texte et de l’image. Par exemple, il pourrait permettre à Siri, l’assistant intelligent d’Apple, de fournir des réponses plus pertinentes et personnalisées aux utilisateurs. Il pourrait aussi améliorer la reconnaissance et le classement des photos dans l’application Photos, ou encore créer des images ou des textes originaux à partir de données multimodales.

Ferret pourrait également avoir un impact social, en aidant les personnes malvoyantes à accéder à des informations visuelles. Par exemple, il pourrait décrire des images ou des paysages à partir de la caméra de l’iPhone, ou générer des images à partir de descriptions vocales.

Ferret est encore en cours de développement, et Apple pourrait apporter des améliorations à son modèle avant de le présenter au grand public. La firme de Cupertino devrait profiter de sa conférence annuelle pour développeurs (WWDC), qui aura lieu en juin 2024, pour révéler les détails et les applications de son modèle d’IA multimodal. Apple espère ainsi se positionner comme un leader dans le domaine de l’IA, et offrir à ses utilisateurs des expériences innovantes et enrichissantes.

Partager
error: Content is protected !!