Microsoft Luncurkan Phi-3 Mini yang Digadang Lebih Canggih dari ChatGPT

Microsoft meluncurkan versi terbaru dari model AI ringan mereka, Phi-3 Mini. Ini adalah yang pertama dari tiga model kecil yang rencananya akan dirilis perusahaan.

Phi-3 Mini memiliki ukuran 3,8 miliar parameter dan dilatih pada kumpulan data yang lebih kecil dibandingkan dengan model bahasa besar seperti GPT-4.

Phi-3 Mini sekarang tersedia di Azure, Hugging Face, dan Ollama. Microsoft berencana untuk merilis Phi-3 Small (7 miliar parameter) dan Phi-3 Medium (14 miliar parameter).

Parameter mengacu pada berapa banyak instruksi kompleks yang dapat dipahami oleh suatu model.

Perusahaan ini merilis Phi-2 pada bulan Desember, yang performanya sama baiknya dengan model yang lebih besar seperti Llama 2.

Microsoft mengatakan Phi-3 bekerja lebih baik daripada versi sebelumnya dan dapat memberikan respons yang mendekati kemampuan model yang 10 kali lebih besar darinya.

Eric Boyd, wakil presiden perusahaan dari Microsoft Azure AI Platform, mengatakan kepada The Verge bahwa Phi-3 Mini sama mampunya dengan LLM seperti GPT-3.5 “hanya dalam bentuk yang lebih kecil.”

Dibandingkan dengan model yang lebih besar, model AI kecil seringkali lebih murah untuk dijalankan dan bekerja lebih baik pada perangkat pribadi seperti ponsel dan laptop.

The Information melaporkan awal tahun ini bahwa Microsoft sedang membangun tim yang berfokus khusus pada model AI yang lebih ringan.

Bersama dengan Phi, perusahaan juga telah membangun Orca-Math, model yang berfokus pada pemecahan masalah matematika.

Kompetitor Microsoft juga memiliki model AI kecil mereka sendiri, yang sebagian besar menargetkan tugas-tugas sederhana seperti ringkasan dokumen atau bantuan coding.

Gemma 2B dan 7B dari Google bagus untuk chatbot sederhana dan pekerjaan terkait bahasa.

Claude 3 Haiku dari Anthropic dapat membaca makalah penelitian yang padat dengan grafik dan meringkasnya dengan cepat, sementara Llama 3 8B yang baru dirilis dari Meta dapat digunakan untuk beberapa chatbot dan untuk bantuan coding.

Boyd mengatakan para developer melatih Phi-3 dengan “kurikulum.”

Mereka terinspirasi oleh bagaimana anak-anak belajar dari cerita pengantar tidur, buku dengan kata-kata yang lebih sederhana, dan struktur kalimat yang membicarakan topik yang lebih besar.

“Tidak ada cukup buku anak-anak di luar sana, jadi kami mengambil daftar lebih dari 3.000 kata dan meminta LLM untuk membuat ‘buku anak-anak’ untuk mengajari Phi,” kata Boyd.

Dia menambahkan bahwa Phi-3 hanya dibangun di atas apa yang dipelajari iterasi sebelumnya.

Sementara Phi-1 berfokus pada coding dan Phi-2 mulai belajar bernalar, Phi-3 lebih baik dalam coding dan bernalar.

Sementara keluarga model Phi-3 memiliki beberapa pengetahuan umum, ia tidak dapat mengalahkan GPT-4 atau LLM lain dalam keluasan – ada perbedaan besar dalam jenis jawaban yang bisa Anda dapatkan dari LLM yang dilatih di seluruh internet versus model yang lebih kecil seperti Phi-3.

Boyd mengatakan bahwa perusahaan sering menemukan bahwa model yang lebih kecil seperti Phi-3 bekerja lebih baik untuk aplikasi khusus mereka karena, bagi banyak perusahaan, kumpulan data internal mereka akan tetap berukuran kecil.

Dan karena model ini menggunakan lebih sedikit daya komputasi, harganya pun jauh lebih terjangkau.

Sumber: The Verge

Previous Post Next Post