Voice Generator AI di Gemini 2.5 Hadirkan Percakapan Alami Penuh Ekspresi
Gemini dirancang dari awal untuk menjadi multimodal, yang secara native memahami dan menghasilkan konten di seluruh teks, gambar, audio, video, dan kode. Di Google I/O yang berlangsung pada Mei lalu, Google menunjukkan bagaimana Gemini 2.5 menandai langkah maju yang signifikan dengan kemampuan baru dalam dialog voice generator AI.
Google telah menggunakan model-model ini untuk menghadirkan audio kepada pengguna di seluruh dunia, di berbagai produk, prototipe, dan bahasa.
Simak artikel ini untuk lebih memahami tentang apa yang dapat Anda lakukan dengan kemampuan voice generator AI Gemini 2.5!
Real-time audio dialog
Percakapan manusia kaya dan penuh nuansa, dengan makna yang disampaikan bukan hanya melalui apa yang dikatakan, namun juga cara penyampaiannya (melalui nada, aksen, dan bahkan vokalisasi non-ucapan, seperti tawa).
Percakapan akan menjadi cara utama kita berinteraksi dengan AI. Itulah sebabnya Gemini bernalar dan menghasilkan ucapan secara asli dalam bentuk audio, yang memungkinkan komunikasi efektif dan real-time.
Berikut adalah dialog audio asli dengan fitur pratinjau Gemini 2.5 Flash:
- Percakapan natural: Gemini 2.5 bisa bicara dengan lancar dan ekspresif, seperti mengobrol dengan manusia.
- Kontrol gaya bicara: Anda bisa mengubah cara bicara Gemini, misalnya dengan aksen, nada, atau bahkan berbisik.
- Integrasi alat lainnya: Gemini 2.5 dapat memakai Google Search atau alat lainnya untuk memberikan informasi terkini saat Anda bicara.
- Peka akan konteks: Voice generator AI ini dapat mengenali dan mengabaikan background sound, sehingga hanya akan merespon saat diperlukan.
- Pemahaman audio-video: Gemini 2.5 dapat memahami apa yang ada di video atau layar yang Anda bagikan, lalu membicarakan konteksnya dengan Anda.
- Multibahasa: Anda bisa berbicara dengan Gemini 2.5 dalam lebih dari 24 bahasa, bahkan mencampur bahasa dalam satu kalimat.
- Dialog efektif: Gemini 2.5 bisa merespons nada bicara Anda, memahami bahwa cara Anda mengatakan sesuatu bisa mengubah makna percakapan.
- Dialog berpikir canggih: Kemampuan berpikir Gemini 2.5 membuatnya bisa berinteraksi lebih cerdas dan lancar, terutama untuk tugas yang kompleks.
Tect-to-speech yang terkendali
Evolusi teknologi text-to-speech berkembang pesat. Dengan kemampuan terbaru Google ini, Anda dapat memberikan kendali yang belum pernah ada sebelumnya atas audio yang dihasilkan dari voice generator AI.
Kini Anda dapat menghasilkan apa pun, mulai dari cuplikan pendek hingga narasi panjang, dengan gaya, nada, ekspresi emosi, dan performa yang tepat. Semuanya dapat dikendalikan melalui natural language prompt.
Kontrol dan kemampuan tambahan meliputi:
- Performa dinamis: Gemini 2.5 bisa menghidupkan teks, mulai dari puisi hingga berita, dengan ekspresi yang tepat, bahkan dengan emosi dan aksen sesuai permintaan.
- Kontrol kecepatan dan pelafalan lebih baik: Anda bisa mengatur kecepatan bicara dan memastikan pelafalan lebih akurat, bahkan untuk kata-kata tertentu.
- Pembuatan dialog multi-speaker: Gemini 2.5 dapat dengan mudah membuat konten audio seperti percakapan dua orang dari teks, sehingga membuat konten lebih menarik.
- Dukungan multibahasa: Gemini 2.5 dapat dengan mudah membuat konten audio dalam lebih dari 24 bahasa.
Untuk voice generator AI yang dapat dikontrol (text-to-speech), pilih Gemini 2.5 Pro Preview untuk kualitas terbaik pada prompt yang rumit, atau Gemini 2.5 Flash Preview untuk aplikasi sehari-hari yang hemat biaya. Teknologi ini memungkinkan pengguna untuk membuat audio secara dinamis untuk pengumuman, cerita, podcast, permainan video, dan banyak lagi.
Keamanan dan tanggung jawab
Google telah menilai potensi risiko secara proaktif di setiap tahap proses pengembangan untuk fitur voice generator AI ini, menggunakan apa yang telah Google pelajari untuk menginformasikan strategi mitigasi.
Google memvalidasi langkah-langkah ini melalui evaluasi keamanan internal dan eksternal yang ketat, termasuk kerja sama tim yang komprehensif untuk penerapan yang bertanggung jawab.
Selain itu, semua keluaran audio dari model AI Google disematkan dengan SynthID, teknologi watermarking Google, untuk memastikan transparansi dengan membuat audio yang dihasilkan AI dapat diidentifikasi.
Kemampuan audio native untuk developer
Google menghadirkan output audio native ke model Gemini 2.5, memberikan developer kemampuan baru untuk membangun aplikasi yang lebih kaya dan interaktif melalui Gemini API di Google AI Studio atau Vertex AI.
Untuk memulai, developer dapat mencoba dialog audio native dengan pratinjau Gemini 2.5 Flash di tab streaming Google AI Studio. Pembuatan suara terkendali (text-to-speech) tersedia dalam pratinjau untuk Gemini 2.5 Pro dan Flash dengan memilih pembuatan suara di tab “generate media” di Google AI Studio.
Baca juga: Voice Generator AI: 3 Aplikasi yang Bisa Anda Gunakan untuk Bisnis
Ingin tahu update terbaru di dunia teknologi atau seputar AI? Jelajahi blog PointStar Indonesia untuk baca pembaruan atau tren AI terbaru di dunia teknologi!