Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et du contenu exclusif sur la couverture de l’IA de pointe. Apprendre encore plus
La sortie de Google de Gemini 2.0 Flash cette semaineoffrant aux utilisateurs un moyen d’interagir en direct avec des vidéos de leur environnement, a ouvert la voie à ce qui pourrait être un changement essential dans la manière dont les entreprises et les consommateurs interagissent avec la technologie.
Cette model – aux côtés des annonces d’OpenAI, de Microsoft et d’autres – fait partie d’un bond en avant transformateur dans le domaine technologique appelé « IA multimodale ». La technologie vous permet de prendre des vidéos – ou des fichiers audio ou des photos – provenant de votre ordinateur ou de votre téléphone et de poser des questions à ce sujet.
Cela signale également une intensification de la course à la domination entre Google et ses principaux rivaux – OpenAI et Microsoft – pour la domination des capacités d’IA. Mais plus essential encore, il semble que cela définisse la prochaine ère de l’informatique interactive et agentique.
Ce second dans l’IA me semble comme un « second iPhone », et par là je fais référence à 2007-2008, lorsque Apple a sorti un iPhone qui, by way of une connexion avec Web et une interface utilisateur élégante, a transformé la vie quotidienne en offrant aux gens un ordinateur puissant dans leur poche.
Alors que ChatGPT d’OpenAI a peut-être lancé ce dernier second d’IA avec son puissant chatbot de sort humain en novembre 2022, la sortie de Google ici fin 2024 semble être une continuation majeure de ce second – à une époque où de nombreux observateurs étaient inquiets. sur un éventuel ralentissement des améliorations de la technologie de l’IA.
Gemini 2.0 Flash : le catalyseur de la révolution multimodale de l’IA
Gemini 2.0 Flash de Google offre des fonctionnalités révolutionnaires, permettant une interplay en temps réel avec la vidéo capturée by way of un smartphone. Contrairement aux démonstrations précédentes (par exemple le projet Astra de Google en mai), cette technologie est désormais accessible aux utilisateurs quotidiens by way of Le studio d’IA de Google.
Je vous encourage à l’essayer vous-même. Je l’ai utilisé pour voir et interagir avec mon environnement – qui pour moi ce matin était ma delicacies et ma salle à manger. Vous pouvez voir instantanément remark cela offre des avancées dans le domaine de l’éducation et dans d’autres cas d’utilisation. Vous pouvez comprendre pourquoi le créateur de contenu Jerrod Lew a réagi sur X hier avec étonnement lorsqu’il a utilisé l’IA en temps réel Gemini 2.0 pour éditer une vidéo dans Adobe Premiere Professional. “C’est absolument insensé”, a-t-il déclaré après que Google l’ait guidé en quelques secondes sur la façon d’ajouter un effet de flou de base, même s’il était un utilisateur novice.

Sam Witteveen, un éminent développeur d’IA et cofondateur de Crimson Dragon AI, a eu un accès anticipé pour tester Gemini 2.0 Flash, et il a souligné que la vitesse de Gemini Flash – il est deux fois plus rapide que le produit phare de Google jusqu’à présent, Gemini 1.5 Professional – et “incroyablement Les prix bon marché en font non seulement une vitrine permettant aux développeurs de tester de nouveaux produits, mais aussi un outil pratique pour les entreprises qui gèrent les budgets d’IA. (Pour être clair, Google n’a pas encore annoncé le prix de Gemini 2.0 Flash. Il s’agit d’un aperçu gratuit. Mais Witteveen fonde ses hypothèses sur le précédent établi par la série Gemini 1.5 de Google.)
Pour les développeurs, l’API stay de ces fonctionnalités stay multimodales offre un potentiel essential, automotive elles permettent une intégration transparente dans les purposes. Cette API est également disponible ; un l’application de démonstration est disponible. Voici le Article de blog Google pour les développeurs.
Programmeur Simon Willison appelé l’API de streaming niveau supérieur: “Ce truc est tout droit sorti de la science-fiction : pouvoir avoir une dialog audio avec un LLM compétent sur des choses qu’il peut “voir” à travers votre caméra est l’un de ces moments “nous vivons dans le futur”.” Il a noté la façon dont vous demandez à l’API d’activer un mode d’exécution de code, qui permet aux modèles d’écrire du code Python, de l’exécuter et de considérer le résultat comme faisant partie de leur réponse – tout cela fait partie d’un avenir agentique.
La technologie est clairement annonciatrice de nouveaux écosystèmes applicatifs et des attentes des utilisateurs. Imaginez pouvoir analyser une vidéo en direct lors d’une présentation, suggérer des modifications ou dépanner en temps réel.
Oui, la technologie est intéressante pour les consommateurs, mais il est également essential que les utilisateurs et les dirigeants des entreprises la comprennent. Les nouvelles fonctionnalités constituent le fondement d’une toute nouvelle façon de travailler et d’interagir avec la technologie, suggérant des features de productivité et des flux de travail créatifs à venir.
Le paysage concurrentiel : une course pour définir l’avenir
La sortie mercredi du Gemini 2.0 Flash de Google intervient au milieu d’une obscure de variations de Google et de ses principaux concurrents, qui se précipitent pour livrer leurs dernières applied sciences d’ici la fin de l’année. Ils promettent tous d’offrir des fonctionnalités multimodales prêtes au consommateur (interplay vidéo en direct, génération d’photos et synthèse vocale), mais certains d’entre eux ne sont pas entièrement intégrés ni même entièrement disponibles.
L’une des raisons de cette ruée est que certaines de ces entreprises offrent à leurs employés des primes pour livrer des produits clés avant la fin de l’année. Un autre est le droit de se vanter lorsqu’ils lancent de nouvelles fonctionnalités en premier. Ils peuvent obtenir une traction importante auprès des utilisateurs en étant les premiers, comme OpenAI l’a montré en 2022, lorsque son ChatGPT est devenu le produit de consommation à la croissance la plus rapide de l’histoire. Même si Google disposait d’une technologie similaire, il n’était pas préparé pour une diffusion publique et a été laissé au dépourvu. Depuis, les observateurs ont vivement critiqué Google pour sa lenteur.
Voici ce que les autres sociétés ont annoncé ces derniers jours, contribuant toutes à introduire cette nouvelle ère de l’IA multimodale.
- Mode vocal avancé d’OpenAI avec Imaginative and prescient: Lancé hier mais toujours en déploiement, il offre des fonctionnalités telles que l’analyse vidéo en temps réel et le partage d’écran. Bien que prometteurs, les problèmes d’accès anticipé ont limité son influence immédiat. Par exemple, je n’ai pas encore pu y accéder même si je suis abonné Plus.
- La imaginative and prescient copilote de Microsoft: La semaine dernière, Microsoft a lancé une technologie similaire en avant-première – uniquement pour un groupe sélectionné de ses utilisateurs Professional. Sa conception intégrée au navigateur fait allusion aux purposes d’entreprise, mais n’a pas la finition et l’accessibilité de Gemini 2.0. Microsoft a également publié un modèle Phi-4 rapide et puissant pour démarrer.
- Claude 3.5 Haïku d’Anthropic: Anthropic, jusqu’à présent dans une course acharnée pour le management des grands modèles de langage (LLM) avec OpenAI, n’a rien livré d’aussi avant-gardiste du côté multimodal. C’est juste version 3.5 Haiku, remarquable par son efficacité et sa rapidité. Mais l’accent mis sur la réduction des coûts et les modèles plus petits contraste avec les fonctionnalités repoussant les limites de la dernière model de Google et celles du mode vocal avec imaginative and prescient d’OpenAI.
Relever les défis et saisir les opportunités
Même si ces applied sciences sont révolutionnaires, des défis demeurent :
- Accessibilité et évolutivité: OpenAI et Microsoft ont été confrontés à des goulots d’étranglement lors du déploiement, et Google doit s’assurer d’éviter des pièges similaires. Google a indiqué que sa fonctionnalité de diffusion en direct (Projet Astra) a une limite de mémoire contextuelle de jusqu’à 10 minutes de mémoire en sessionmême si ce chiffre est inclined d’augmenter avec le temps.
- Confidentialité et sécurité: Les systèmes d’IA qui analysent des vidéos ou des données personnelles en temps réel ont besoin de protections robustes pour maintenir la confiance. Le modèle Gemini 2.0 Flash de Google intègre la génération d’photos natives, l’accès à des API tierces et la possibilité d’exploiter la recherche Google et d’exécuter du code. Tout cela est puissant, mais peut rendre dangereusement facile pour quelqu’un de divulguer accidentellement des informations privées tout en jouant avec ce style de choses.
- Intégration de l’écosystème: Alors que Microsoft exploite sa suite entreprise et que Google s’ancre dans Chrome, la query demeure : quelle plate-forme offre l’expérience la plus transparente pour les entreprises ?
Cependant, tous ces obstacles sont compensés par les avantages potentiels de la technologie, et il ne fait aucun doute que les développeurs et les entreprises se précipiteront pour les adopter au cours de l’année prochaine.
Conclusion : une nouvelle aube, menée pour l’prompt par Google
En tant que développeur Sam Witteveen et moi discuter dans notre podcast enregistré mercredi soir après l’annonce de Google, Gemini 2.0 Flash est une model vraiment impressionnante, marquant le second où l’IA multimodale est devenue réelle. Les progrès de Google ont établi une nouvelle référence, même s’il est vrai que cet avantage pourrait être extrêmement éphémère. OpenAI et Microsoft sont à ses trousses. Nous sommes encore au tout début de cette révolution, tout comme en 2008 où, malgré la sortie de l’iPhone, la réaction de Google, Nokia et RIM n’était pas claire. L’histoire a montré que Nokia et RIM ne l’ont pas fait, et ils sont morts. Google a très bien répondu et a donné un coup de pouce à l’iPhone.
De même, il est clair que Microsoft et OpenAI sont très engagés dans la course avec Google. Apple, quant à lui, a décidé de s’associer sur la technologie et a annoncé cette semaine une nouvelle intégration avec ChatGPT – mais il n’essaie certainement pas de gagner directement dans cette nouvelle ère d’offres multimodales.
Dans notre podcast, Sam et moi abordons également l’avantage stratégique particulier de Google dans le domaine du navigateur. Par exemple, sa model Undertaking Mariner, une extension Chrome, vous permet d’effectuer des tâches de navigation Internet réelles avec encore plus de fonctionnalités que les applied sciences concurrentes proposées par Anthropic (appelées Utilisation de l’ordinateur) et celui de Microsoft OmniParser (toujours en recherche). (Il est vrai que la fonctionnalité d’Anthropic vous donne plus d’accès aux ressources locales de votre ordinateur.) Tout cela donne à Google une longueur d’avance dans la course pour faire progresser les applied sciences d’IA agentique en 2005 également, même si Microsoft semble être en retard. en avance sur le plan de l’exécution réelle de la fourniture de solutions agentiques aux entreprises. Les brokers IA effectuent des tâches complexes de manière autonome, avec une intervention humaine minimale. Par exemple, ils effectueront bientôt des tâches de recherche avancées et des vérifications de bases de données avant de réaliser du commerce électronique, des transactions boursières ou même un achat immobilier.
La volonté de Google de rendre ces fonctionnalités Gemini 2.0 accessibles aux développeurs et aux consommateurs est judicieuse, automotive elle garantit qu’elle s’adresse au secteur avec un plan complet. Jusqu’à présent, Google avait la réputation de ne pas se concentrer aussi agressivement sur les développeurs que Microsoft.
La query pour les décideurs n’est pas de savoir s’il faut adopter ces outils, mais à quelle vitesse vous pourrez les intégrer dans les flux de travail. Cela va être fascinant de voir où nous mènera l’année prochaine. Assurez-vous d’écouter nos factors à retenir pour les utilisateurs professionnels dans la vidéo ci-dessous :
#Gemini #Flash #inaugure #une #nouvelle #ère #dIA #multimodale #temps #réel, #gossip247.on-line , #Gossip247
AI,Enterprise,Knowledge Infrastructure,Enterprise Analytics,Programming & Growth,Agentic AI,AI, ML and Deep Studying,category-/Computer systems & Electronics/Software program,category-/Science,Conversational AI,Gemin 2.0 Flash,Gemini 2.0,Google AI Studio,Microsoft,Mulimodal,OpenAI,Undertaking Astra,Undertaking Mariner , chatgpt ai copilot ai ai generator meta ai microsoft ai