인간과 대화를 나누는데 약간 불안정한 내레이터이자 담백한 성격을 가진 봇이라면 무슨 의미가 있을까요?
저는 지난 주 구글의 Advanced Voice Mode에 대응한 젬 마이니 라이브를 테스트하기 시작한 이후 여기저기 곰곰이 생각해 보았습니다. 젬 마이니 라이브는 더 매력적인 채팅 봇 경험을 제공하려는 시도로, 현실적인 목소리와 언제든 중단할 수 있는 자유를 갖추고 있습니다.
젬 마이니 라이브는 '직관적이고 대화식으로 실제 대화를 하는 것'으로 맞추어져 있으며, Google의 Gemini 경험 GM 인 Sissie Hsiao는 지난 5월 TechCrunch에 말했습니다. '[이것]은 정확성을 높이고 예전 텍스트로 상호 작용하는 것보다 더 대화식으로 대답을 해주게 설계되었습니다. 우리는 AI 조수가 복잡한 문제를 해결할 수 있는 능력을 가져야 하며... 당신이 상호 작용할 때 매우 자연스럽고 순조롭게 느껴져야 한다고 생각합니다.'
젬 마이니 라이브와 상당한 시간을 보낸 후, 구글의 이전 AI 기반 음성 상호 작용(참조: Google 어시스턴트)보다 더 자유로운 느낌이고 자연스럽게 느껴졌다는 것을 확인할 수 있습니다. 그러나 환청 및 일관성과 같은 기술의 기본적인 문제는 해결되지 않았으며 몇 가지 새로운 문제가 발생되었습니다.
비과학적인 계곡
젬 마이니 라이브는 본질적으로 구글의 최신 생성 AI 모델인 Gemini 1.5 Pro 및 1.5 Flash 위에 올려 놓은 고급 텍스트 음성 변환 엔진입니다. 모델은 엔진이 소리를 내는 텍스트를 생성하며, 채팅 기록은 Android의 Gemini 앱(Gemini Live UI로 피해 나갈 수 있습니다.
내 픽셀 8a에서의 젬 마이니 라이브 음성으로는 Google이 '중간' 및 '관심을 끈'로 설명한 Ursa를 선택했습니다. (나에게는 어린 여성처럼 들렸습니다.) 회사는 전문 배우들과 협업하여 젬 마이니 라이브의 열 개 소리를 설계했다고 말합니다. Ursa는 구글의 다른 합성 음성들, 특히 기본 구글 어시스턴트 음성과 비교하여 표현력 면에서 한 단계 진보했습니다.
그러나 Ursa와 다른 젬 마이니 라이브 음성들은 냉소적인 톤을 유지하며 불안정한 계곡 주변을 피해 멀리 떨어져 있습니다. 이것이 의도적인지 모르겠으나 사용자는 또한 각 소리의 음조, 음색 또는 철조, 심지어 음성이 말하는 속도도 조절할 수 없습니다. 이는 Advanced Voice Mode에 뒤지는 젬 마이니 라이브를 뚜렷한 불리로 두는 요인 중 하나입니다.