Un marché compagnon IA a été créé dans la boîte de discussion. Un type d’utilisateur, un modèle de réponse et une relation se dévoilent à travers des mots à l’écran. Pour les entreprises d’IA, le chat est un point de départ évident. Le texte est peu coûteux à produire, facile à personnaliser, plus facile à modérer que les médias plus grands et familier à quiconque a déjà envoyé un message. Cela coïncide également avec le premier grand pas en avant dans l’IA générative : un modèle capable de générer un langage fluide et réactif à grande échelle.
Mais pour simuler une véritable amitié, il ne suffit pas de dire les bons mots. Le compagnon IA essaie de faire plus que générer la bonne phrase au bon moment. Ils essaient de communiquer soin, affection, réconfort, attention, intimité et présence.
L’architecture émotionnelle des produits compagnons commence par le langage, mais le lien émotionnel dépend également du ton, du timing, de la respiration, de l’hésitation et du sentiment que l’attention vient de quelque part au-delà de l’écran.
Pour que le compagnon IA atteigne son plein potentiel, la catégorie doit construire un canal capable de véritablement transmettre des sentiments.
La communication émotionnelle nécessite plus que des mots
Les compagnons IA sont conçus pour communiquer des sentiments et des gestes. Contrairement à l’assistance traditionnelle par l’IA, ils n’expliquent pas principalement les faits, ne résument pas les documents ou n’effectuent pas de tâches administratives. Ils essaient de donner à l’utilisateur un sentiment d’espoir, de compréhension, de réconfort ou de prise en charge.
La différence est cruciale. Le psychologue Albert Mehrabian a découvert que lorsque les gens communiquent des sentiments et des gestes, les mots ne véhiculent parfois que 7 % de la signification perçue, tandis que les tons vocaux et les expressions faciales véhiculent davantage de signaux émotionnels. Lorsqu’une personne donne des directions, explique un diagnostic ou prévient qu’un bâtiment est en feu, ses paroles ont une signification importante. Mais lorsqu’il s’agit d’essayer de transmettre de l’émotion, la livraison change tout.
Les amis IA sont des produits émotionnels. Un ami qui dit à l’utilisateur « Je suis là pour vous » ne fait que fournir des informations. Le produit demande à l’utilisateur de croire que la déclaration a de l’attention, du soin et de la présence. Les textes peuvent exprimer ces conditions, mais ne peuvent pas les transmettre. Je ne peux pas naturellement transmettre une pause avant une phrase difficile, la douceur de la prestation, le souffle avant le nom d’utilisateur ou la retenue qui rend le cœur sincère.
C’est la principale limitation de l’amitié basée sur le chat. L’industrie a construit un produit profondément émotionnel dans le canal émotionnel le plus étroit.
Le texte oblige les utilisateurs à faire trop de travail émotionnel
Lorsque l’utilisateur lit « Je suis là pour toi » sur l’écran, la phrase est traitée par sa propre voix interne. Ils fournissent leur propre rythme, leur ton, leur emphase et leur couleur émotionnelle. Le produit fournit les mots, mais l’utilisateur réalise une partie de l’expérience émotionnelle.
Cette projection peut être puissante. Les gens construisent toujours de l’attachement à travers le langage écrit. Les lettres, les SMS et les relations en ligne peuvent nécessiter une réelle intimité. Un message soigneusement écrit peut rester avec quelqu’un pendant des années. Mais l’hospitalité IA demande au texte de faire quelque chose de plus exigeant : créer le sentiment que les soins arrivent au-delà soi
C’est là que le texte échoue souvent. Les utilisateurs peuvent comprendre l’émotion recherchée tout en ressentant l’écart entre la phrase et l’expérience que le produit tente de réaliser. La ligne se lit bien, mais le sentiment ne boucle pas la boucle.
C’est pourquoi les compagnons textuels peuvent sembler presque réels, mais pas tout à fait. Le langage est arrivé, mais la présence semblait toujours artificielle.
L’écart est particulièrement visible lors des moments chargés d’émotion. Les utilisateurs qui se sentent seuls la nuit veulent plus qu’une peine de soutien. Ils veulent entendre quelqu’un ralentir avant de répondre. Ils voudront peut-être que leur nom soit prononcé avec précaution. Ils voudront peut-être un signal subtil indiquant que le compagnon ne se précipite pas, ne récite pas, ne choisit pas simplement la prochaine phrase sensée. Le texte peut expliquer l’attention. Le son peut le faire.
La voix du changement émotionnel
La phrase prononcée porte en elle le temps, le souffle, la hauteur, la vitesse, la chaleur et la retenue. Ces signaux font souvent partie de la communication qui rend les soins réels. Les mêmes mots peuvent sembler superficiels, intimes, protecteurs ou creux, selon la façon dont ils sont prononcés.
Considérez un compagnon qui prononce le nom d’utilisateur avant la phrase vulnérable. Dans le texte, le nom apparaît comme un autre mot sur la ligne. Dans la voix, cela peut changer toute l’interaction. Une pause d’une demi-seconde avant le nom peut créer une anticipation. Une prononciation plus douce peut rendre une phrase personnelle. Un léger changement de rythme peut signaler que le moment est important.
Le son apporte également de l’involontaire. Une légère aspérité, une respiration avant les mots difficiles, un registre grave quand les choses paraissent privées, une cadence lente quand il en faut beaucoup pour se calmer. Ce sont ces types de signaux qui rendent la communication moins structurée et plus vivante. Le texte est toujours rendu proprement. Le son peut apporter de la texture.
Les utilisateurs peuvent pardonner les petites imperfections du logiciel utilitaire. L’assistant de calendrier peut être brutal et l’outil de recherche peut être sec. Un compagnon a un fardeau différent. Si la transmission émotionnelle semble générique, la relation s’affaiblit. Si la voix semble trop polie, trop plate ou impatiente, l’utilisateur le remarque.
Le son place également la barre plus haut pour l’écriture de base. Les phrases creuses qui peuvent être transmises à l’écran deviennent plus évidentes lorsqu’elles sont prononcées à voix haute. Intimation écrasée par une voix artificielle. Des sons génériques de réconfort en conserve. Le scénario doit être précis car le son amplifie ce qui est déjà là. Cela peut approfondir une ligne bien écrite, mais cela peut aussi en révéler une faible.
Pour un produit compagnon, le son n’est pas une amélioration mineure de l’UX. Cela change le registre émotionnel de la relation.
L’audio demande à l’utilisateur d’assister
L’audio change également la façon dont les utilisateurs reçoivent les interactions. Un message texte peut être survolé, relu, ignoré ou absorbé dans le désordre. L’utilisateur contrôle le tempo. Cependant, le son se déroule dans le temps. Il demande à l’utilisateur d’écouter.
Cette qualité temporelle fait partie de ce qui rend le son intime. Un message parlé a lieu à un moment précis. La pause, la respiration, la vitesse et l’emphase ne peuvent être séparées de la phrase. L’utilisateur reçoit la ligne comme un événement, pas seulement comme un contenu.
Ceci est particulièrement important pour les moments les plus importants de l’amitié : le réconfort, la vulnérabilité, l’affection, l’intimité et la réparation. Un compagnon s’excusant après un échange difficile, réconfortant un utilisateur après une mauvaise journée ou exprimant son affection ne peut pas se fier uniquement à l’exactitude sémantique. L’utilisateur écoute pourquoi le moment semble présent. Ils écoutent le traitement avant d’analyser la phrase.
L’audio émotionnel doit être conçu en tenant compte du rythme, de l’architecture des pauses, de la prononciation, du registre vocal et du contexte. Une livraison joyeuse peut endommager les lignes vulnérables. Une livraison urgente peut donner l’impression que la tranquillité d’esprit est procédurale. Le nom d’utilisateur, inséré maladroitement, peut sembler mécanique plutôt qu’intime.
Les petits détails définissent l’expérience.
Atteindre la fidélité émotionnelle
Nous avons vu que les gens sont prêts à nouer des relations avec des personnages synthétiques et des agents conversationnels. Des millions d’utilisateurs ont démontré que l’amitié ne nécessite pas la présence d’un humain de l’autre côté de l’interaction. La question la plus difficile est de savoir si leur relation peut sembler émotionnellement crédible au fil du temps.
La crédibilité dépendra de la capacité du produit compagnon à aller au-delà du langage courant et à atteindre une fidélité émotionnelle. Cela signifie comprendre que les bons mots ne sont que le fondement. Le produit doit également prendre en compte la manière dont les mots arrivent, comment ils sonnent, combien de temps ils durent, ce qui est caché et ce qui est révélé.
Le texte comptera toujours. Il est flexible, accessible et utile pour de nombreuses interactions. Mais les formes d’amitié les plus profondes nécessitent des signaux qui ne peuvent être fournis naturellement. Il faut du ton, du souffle, du temps et le sentiment que la réponse est adressée à l’utilisateur plutôt que complétée tranquillement par sa propre imagination.
La prochaine étape du partenariat avec l’IA ne sera pas définie uniquement par des modèles d’historique de discussion plus vastes ou plus sophistiqués. Cela sera déterminé par la capacité de ce produit à rendre la communication émotionnelle suffisamment agréable pour être crue.
Carylyne Chan est l’associée directrice de BlockSpaceForce, la société derrière Murmur, une plateforme vocale à la première personne pour la fiction audio intime.