Indeks
Dibuat untuk bersaing dengan ChatGPT oleh X.AI, perusahaan Elon Musk, itu Groko adalah chatbot yang selalu menonjol karena selera humornya yang sarkastik dan salah secara politis. Tersedia untuk pelanggan paket Premium+ X (sebelumnya Twitter), itu Groko itu juga diperbarui secara real-time berdasarkan data dari platform, menawarkan konteks pada topik yang sedang tren dan postingan populer, selain menawarkan fitur tambahan, seperti pembuatan gambar, navigasi melalui Bing, dan analisis data tingkat lanjut.
Sekarang X.AI, perusahaan kecerdasan buatan Elon Musk, mengumumkan Pratinjau Visi Grok-1.5, versi baru AI Elon Musk yang akan memperluas kemampuannya untuk menganalisis gambar, spreadsheet, dan dokumen, memungkinkan tidak hanya pemrosesan teks, tetapi juga interpretasi dan ekstraksi informasi dari gambar.
Berita versi
Menggabungkan kemampuan pengolah kata dengan kemampuan menganalisis berbagai informasi visual seperti dokumen, diagram, grafik, tangkapan layar, dan foto, Grok-1.5V berjanji untuk mengesankan. Versi baru ini akan segera tersedia untuk penguji awal dan pengguna lama Groko, namun, dalam pengujian sebelumnya, itu Grok-1.5V Hal ini telah terbukti sangat kompetitif dengan model multimoda di beberapa domain.
Namun, yang paling mengesankan adalah kemampuannya Grok-1.5V dalam memahami dunia fisik, termasuk menafsirkan gambar dari tangkapan layar dan foto. Kemampuan ini membuka kemungkinan-kemungkinan baru dalam hal interaksi antara manusia dan mesin, serta aplikasi di berbagai bidang seperti visi komputer dan bantuan virtual.
A X.AI menunjukkan kemampuan mengesankan dari versi baru Groko dalam menafsirkan gambar, seperti yang ditunjukkan oleh kemampuannya menulis kode dari diagram tertentu. Seperti yang kita lihat di bawah, diagram menggambarkan permainan menebak berdasarkan diagram alur logis dan interaksi pengguna. Ketika ditanya apakah dia bisa menerjemahkan diagram ke dalam kode Ular sanca, atau Grok-1.5V merespons secara akurat, memberikan kode yang mewakili logika permainan yang dijelaskan dalam diagram alur.
Dalam contoh berikut, Grok-1.5V menunjukkan kemampuannya menghitung kalori dari informasi nutrisi yang diberikan dalam gambar. Gambar tersebut menunjukkan label nutrisi pada kemasan makanan dari dekat, yang mencantumkan berbagai detail nutrisi, seperti ukuran porsi dan jumlah kalori per porsi. Ketika ditanya berapa banyak kalori dalam 5 potong produk, the Groko menjawab secara akurat, menjelaskan bahwa jika satu porsi adalah 3 potong dan mengandung 60 kalori, maka 5 potong kira-kira 100 kalori.
Mengenai demonstrasi lainnya (foto di bawah), the Groko menggunakan kemampuannya membuat cerita pengantar tidur dari gambar yang dibuat oleh seorang anak. Gambar itu menunjukkan seorang anak laki-laki di samping perahu. Ketika ditanya apakah dia bisa menceritakan sebuah cerita berdasarkan gambar tersebut, itu Groko menanggapi dengan narasi menarik tentang seorang anak pemberani bernama Timmy. Kemampuan ini Grok-1.5V mentransformasikan gambar sederhana menjadi cerita menawan menunjukkan kemampuannya dalam menafsirkan dan menciptakan narasi.
Kemampuan menafsirkan dan membuat narasi diulangi pada contoh berikut, dengan Groko menjelaskan meme yang menyindir perbedaan antara startup dan perusahaan besar. Pada gambar, terdapat dua panel: di sebelah kiri, berjudul “Startup”, sekelompok pekerja konstruksi sedang aktif menggali lubang; di sebelah kanan, berjudul “Bisnis Besar”, sekelompok orang menyaksikan seorang pria melakukan penggalian. Penjelasan dari Groko menyoroti perbedaan antara kolaborasi yang intens dan efisiensi yang dilakukan oleh perusahaan rintisan, dibandingkan dengan kemungkinan adanya birokrasi dan kurangnya ketangkasan di perusahaan-perusahaan besar.
Pada gambar berikut, Grok-1.5V mampu mengonversi tabel ke format CSV menggunakan keterampilan pemrosesan bahasa alami dan menafsirkan informasi visual. Saat menganalisis tabel yang menunjukkan peraih medali Olimpiade Maroko di Paralimpiade Musim Panas 2016, Groko mengidentifikasi kolom yang relevan, seperti “medali”, “nama”, “olahraga”, “acara” dan “tanggal”. Kemudian, dia mengatur informasi ini ke dalam baris yang dipisahkan koma, sesuai standar format CSV. Kemampuan ini Groko menunjukkan kemampuan Anda untuk mengekstrak dan mengatur ulang data dengan cara yang tepat, berguna untuk mengubah informasi tabel menjadi format yang lebih mudah dimanipulasi.

A X.AI sudah merencanakan peningkatan signifikan terhadap kemampuan multimodalnya dalam beberapa bulan mendatang. Berfokus pada berbagai modalitas, seperti gambar, audio, dan video, tujuannya adalah untuk terus maju menuju kecerdasan umum buatan (AGI) yang bermanfaat, yang mampu memahami dan berinteraksi dengan alam semesta dengan cara yang semakin canggih.
Memahami dunia nyata
O Grok-1.5V juga bersiap untuk memperoleh “pemahaman spasial dari dunia nyata”, yang memungkinkan interpretasi yang lebih baik tentang dunia fisik yang direpresentasikan dalam gambar yang diunggah oleh penggunanya. Peningkatan ini sangat penting untuk mengembangkan asisten AI yang lebih berguna di dunia nyata. Untuk mencapai tujuan ini, tolok ukur baru sedang diperkenalkan, yaitu Dunia NyataQA, dirancang khusus untuk mengevaluasi kemampuan pemahaman spasial model multimodal seperti Grok-1.5V.
Meskipun sebagian besar contoh dalam tolok ukur ini mungkin tampak sederhana bagi manusia, namun hal ini memberikan tantangan yang signifikan terhadap model AI saat ini, sehingga menyoroti perlunya kemajuan di bidang ini untuk meningkatkan kemampuan AI dalam memahami dan berinteraksi dengan dunia fisik dengan cara yang lebih komprehensif. .efektif.

Pada gambar di atas misalnya, kecerdasan buatan mampu menganalisis dan menjawab pertanyaan “Benda mana yang lebih besar: pemotong pizza atau gunting?”. Kemampuan untuk membandingkan ukuran memerlukan pemahaman spasial dunia fisik. AI mampu mengidentifikasi objek dalam gambar, mengenali bentuk dan ukuran relatifnya. Berdasarkan analisisnya, AI menentukan bahwa pemotong pizza lebih besar dari gunting. Kemampuan ini menunjukkan bagaimana AI dapat dilatih untuk memahami dan menjawab pertanyaan tentang objek fisik dalam gambar, yang mana hal ini sangat penting untuk pengembangannya sebagai asisten yang berguna di dunia nyata.
Dalam contoh lain ini (gambar di atas), file Grok-1.5V menentukan arah mata angin yang dihadapi dinosaurus. Gambar tersebut tidak memberikan referensi visual yang jelas, seperti kompas atau landmark di lingkungan sekitar dinosaurus, melainkan Groko menjawab pertanyaan dengan benar, menunjukkan bahwa dinosaurus menghadap ke Timur.
Perbandingan dengan AI lainnya
O Pratinjau Visi Grok-1.5 menunjukkan kinerja luar biasa dibandingkan dengan kecerdasan buatan lainnya dalam tolok ukur baru yang disebut Dunia NyataQA, yang menilai pemahaman spasial dunia nyata. Tolok ukur ini dilakukan dalam konfigurasi zero-shot, tanpa memerlukan permintaan rantai pemikiran tertentu.
Saat menganalisis kumpulan data yang berbeda, Grok-1.5V mengungguli rekan-rekannya di beberapa bidang utama. Dalam patokan Multi-disiplin (MMMU), yang melibatkan berbagai disiplin ilmu, yaitu Grok-1.5V mencapai skor 53.6%, sedikit mengungguli AI lain seperti GPT-4V dan Claude 3 Soneta.
Tidak matematika, yang berfokus pada pertanyaan matematika, itu Grok-1.5V mencapai skor 52.8%, sekali lagi mengungguli pesaingnya. Di dalam AI2D, yang menilai pemahaman diagram, itu Grok-1.5V mencapai skor mengesankan sebesar 88.3%, secara signifikan mengungguli AI lain sejenisnya GPT-4V dan Gemini Pro 1.5.
Em DokumenVQA, yang melibatkan pemahaman dokumen, Grok-1.5V tampil dengan skor 85.6%, tertinggal GPT-4V, Claude 3 Soneta e Karya Claude 3. Dalam tolok ukur RealWorldQA, yang menilai pemahaman tentang dunia nyata, Grok-1.5V memperoleh skor 68.7%, sekali lagi menunjukkan keunggulannya dibandingkan AI lain yang dievaluasi.
Hasil ini menyoroti kemampuan Pratinjau Visi Grok-1.5 pemahaman berbagai tugas yang kompleks dan relevan secara kontekstual, menjadikannya pilihan yang menjanjikan untuk berbagai aplikasi AI di dunia nyata. Namun, penting untuk digarisbawahi bahwa meskipun Grok-1.5V menunjukkan kinerja yang mengesankan dibandingkan dengan kecerdasan buatan lainnya dalam benchmark RealWorldQA, hasil dari benchmark tersebut belum tentu 100% dapat diandalkan.
Angka-angka tersebut merupakan indikasi kinerja relatif AI yang berbeda dalam kumpulan data dan skenario yang berbeda, namun tidak boleh dianggap sebagai ukuran pasti dari keseluruhan kemampuan AI. Interpretasi hasil yang akurat bergantung pada sejumlah faktor, termasuk sifat kumpulan data, metodologi evaluasi, dan kompleksitas tugas yang ada.
Lihat videonya
Lihat juga:
Fontes: Groko, Teknik Menarik e Mashable
Diperiksa oleh Glaucon Vital pada 15/4/24.
Temukan lebih lanjut tentang Showmetech
Daftar untuk menerima berita terbaru kami melalui email.