O Google Gemini ainda está se recuperando, mas promete um futuro brilhante

Falando nisso, eu ia falar sobre como estava animado e esperançoso de que o Google finalmente estivesse pronto para desafiar a OpenAI e, por extensão, a Microsoft. Foi difícil não ficar animado, especialmente depois de assistir a todos os diferentes vídeos promocionais, como Mark Rober usando Bard com Gemini para encontrar o melhor design de avião de papel. Temos também um vídeo “Conhecendo um Gêmeos Prático” (abaixo) que nos dá uma ideia do que poderia será possível em futuras iterações.

Então o outro sapato caiu e o Google ficou com as mãos presas no pote de biscoitos.

Embora o vídeo consista em várias pistas que demonstram do que o Gemini é capaz, não é tão claro quanto o Google fez parecer. Pouco depois da publicação do anúncio inicial, Bloomberg publicou um artigo insinuando que algo está errado.

Acontece que a voz que você ouve ao responder às perguntas não pertence realmente a Gêmeos. Em comunicado à Bloomberg, o Google disse que o vídeo foi feito “usando fotos da filmagem e pistas de texto”. Além disso, a descrição do vídeo do YouTube foi atualizada para ler: “Para os fins desta demonstração, a latência foi reduzida e a saída do Gemini foi encurtada por questões de brevidade.”

Outra coisa que o Google não esclareceu é se este vídeo é uma demonstração do Gemini Ultra ou se há algo mais acontecendo. A postagem correspondente foi publicada no site Blog do desenvolvedor do Google, fornecendo mais informações sobre “como é feito”. Mas, novamente, a única descrição de qual versão do Gemini está sendo usada é “modelo multimodal Gemini”, sem declarar explicitamente se é Ultra ou algo criado para demonstração.

Isso ocorre depois que a OpenAI introduziu recentemente a capacidade de ter uma conversa por voz com ChatGPT e receber respostas de voz. Não posso deixar de sentir que isso é o que mais me decepciona. Não tenho dúvidas de que o Google é capaz de oferecer algo semelhante, mas por algum motivo a empresa simplesmente escolheu o “caminho mais fácil” para evitar o que acontece com outras empresas durante demonstrações tecnológicas.

Para referência, a Amazon revelou recentemente uma versão de próxima geração do Alexa alimentada por inteligência artificial generativa. Durante o anúncio, Alexa teve problemas com a velocidade de algumas respostas e algumas vezes tive que fazer a pergunta original novamente.

Isto confirmou mais uma vez que o desenvolvimento da IA ​​generativa é suave e está em constante evolução. Mas tenho que dar crédito à Amazon porque ela não apenas se abaixou e mostrou um vídeo promocional editado.

O Google precisa provar que pode implementar o Gemini

Se pareço um pouco repetitivo, há uma razão para isso. O Google pode ter anunciado algo que afetará a todos (afinal, o Gemini está chegando à Pesquisa), e a empresa não tem sido transparente sobre tudo. Em vez disso, o Google optou pelo valor de choque e teve sucesso, mas há um problema maior.

E se Gêmeos Ultra será lançado “no início do próximo ano”, mas não consegue fazer o que é mostrado no vídeo prático? Quantas vezes uma empresa demonstrou algo apenas para não cumprir suas reivindicações e depois “mover as traves” para evitar muita reação negativa?

Ou pior, e se este modelo multimodal Gemini nunca vir a luz do dia? Lembra quando o Google surpreendeu a todos no I/O 2017 ao remover uma cerca de arame que impedia uma criança de jogar beisebol? Esse recurso específico nunca foi implementado e, embora você possa argumentar que é para isso que o Magic Eraser foi projetado, encorajo você a tentar fotografar algo com tal obstrução. Você ficará frustrado e desistirá ou verá uma foto com um monte de “manchas” do Magic Eraser.

Voltando ao impacto potencial de Gémeos na nossa vida quotidiana, fico com mais perguntas do que respostas. Espera-se que o Assistant with Bard chegue no próximo ano e, embora o Bard esteja equipado com o Gemini Pro, não está claro se a mesma experiência chegará aos nossos telefones. Um cenário mais provável é que outra versão do Bard seja equipada com um Gemini Nano, que será então integrado ao Google Assistant.

Além disso, há o problema de compatibilidade do dispositivo, já que o Gemini Nano está atualmente limitado apenas ao Pixel 8 Pro. Apesar de usar o mesmo chip Tensor G3, os proprietários do Pixel 8 normal ficaram de fora. Surge a questão de quais limitações de hardware existem no Gemini.

Usando Gemini no Google Recorder no Pixel 8 Pro

(Crédito da imagem: Google)

Pelo que podemos dizer, a única diferença relativa entre o Pixel 8 e o Pixel 8 Pro é a quantidade de RAM (8 GB vs 12 GB). Não é como se o Tensor G3 no telefone menor funcionasse em velocidades de clock mais baixas e todo o resto fosse igual. Então, por que o Google não poderia simplesmente implementar esses recursos em ambos os dispositivos?

Quando se trata de trazer o Gemini para os principais telefones Android, parece que o Google está deixando isso para os desenvolvedores de aplicativos com AICore. No entanto, este é um serviço de sistema apenas para Android 14, então você precisará de um telefone que possa ser atualizado para Android 14 e espera que os desenvolvedores de aplicativos embarquem e usem o AICore.

Por outro lado, Mensagem de anúncio do AICore mostra Gemini Nano e AICore rodando em “processadores principais Qualcomm Technologies, Samsung S.LSI e MediaTek”.

Postagem do blog Herói do Samsung Galaxy AI

(Crédito da imagem: Samsung)

Ainda estou animado com Gêmeos

Deixando de lado o vídeo de demonstração editado, o Google merece algum reconhecimento aqui. A empresa não ficou parada e deixou a OpenAI e a Microsoft colherem todos os benefícios. Sim, são, mas espero que com o anúncio do Gêmeos traga mais diversão para todos.

Desde que o Google Bard foi lançado em fevereiro, sempre ficou muito claro que não é um concorrente real do ChatGPT da OpenAI. Sem mencionar as alucinações regulares, mas mesmo como um chatbot de uso geral, Bard não atingiu seu objetivo.

Desde o seu lançamento inicial, o Bard Extensions foi introduzido e tem como objetivo fornecer a você a capacidade de receber resumos por e-mail, acessar documentos e reservar viagens. No entanto, as extensões são limitadas ao que o Google pode fornecer e estão vinculadas apenas aos serviços do Google, um recurso que é insignificante em comparação com a plataforma ChatGPT.

Mas com este novo modelo de grande linguagem, o Google pretende trazer o Gemini para vários aspectos das nossas vidas, começando com Gemini Pro e Bard, além da integração limitada com Gêmeos Nano trabalhando no Gboard e no próprio aplicativo Recorder do Google, começando com o Pixel 8 Pro.

Análise multimodal do Google Gemini Ultra, Pro e Nano

(Crédito da imagem: Google)

A empresa também adotou a abordagem correta ao colocar (a maior parte) as cartas na mesa e admitir que cometeu um erro. Na verdade, estou desapontado porque teremos que esperar ainda mais pelo concorrente GPT-4 do Google, já que o Gemini Ultra só chegará no próximo ano.

Agora continuarei esperando por uma atualização inesperada que adicione Bard e Gemini ao Assistente. Ou talvez, apenas talvez, traga o Gemini Copilot para o ChromeOS da mesma forma que a Microsoft fez com o Windows.

Nota do editor: Entramos em contato com o Google para comentar, mas não recebemos resposta até o momento da publicação. Atualizaremos esta peça com mais informações assim que estiverem disponíveis.