TOKYO, 10 Mei 2024 – (JCN Newswire) – Sebuah tim peneliti di Jepang merilis Fugaku-LLM, model bahasa besar (1) dengan kemampuan bahasa Jepang yang ditingkatkan, menggunakan superkomputer RIKEN Fugaku. Tim ini dipimpin oleh Profesor Rio Yokota dari Tokyo Institute of Technology, Associate Professor Keisuke Sakaguchi dari Tohoku University, Koichi Shirahata dari Fujitsu Limited, Team Leader Mohamed Wahib dari RIKEN, Associate Professor Koji Nishiguchi dari Nagoya University, Shota Sasaki dari CyberAgent, Inc, dan Noriyuki Kojima dari Kotoba Technologies Inc.
Untuk melatih model bahasa besar di Fugaku, para peneliti mengembangkan metode pelatihan terdistribusi, termasuk porting kerangka pembelajaran mendalam Megatron-DeepSpeed ke Fugaku untuk mengoptimalkan kinerja Transformers di Fugaku. Mereka mempercepat perpustakaan perkalian matriks padat untuk Transformers, dan mengoptimalkan kinerja komunikasi untuk Fugaku dengan menggabungkan tiga jenis teknik paralelisasi dan mempercepat perpustakaan komunikasi kolektif pada interkoneksi tahu D.
Fugaku-LLM memiliki 13 miliar parameter (2) dan lebih besar dari model 7 miliar parameter yang telah dikembangkan secara luas di Jepang. Fugaku-LLM telah meningkatkan kemampuan Jepang, dengan skor rata-rata 5,5 pada MT-Bench Jepang (3), kinerja tertinggi di antara model terbuka yang dilatih menggunakan data asli yang diproduksi di Jepang. Secara khusus, kinerja tolok ukur untuk tugas humaniora dan ilmu sosial mencapai skor yang sangat tinggi yaitu 9,18.
Fugaku-LLM dilatih tentang data milik Jepang yang dikumpulkan oleh CyberAgent, bersama dengan data bahasa Inggris, dan data lainnya. Kode sumber Fugaku-LLM tersedia di GitHub (4) dan modelnya tersedia di Hugging Face (5). Fugaku-LLM dapat digunakan untuk tujuan penelitian dan komersial selama pengguna mematuhi lisensi.
Di masa depan, karena semakin banyak peneliti dan insinyur berpartisipasi dalam meningkatkan model dan aplikasinya, efisiensi pelatihan akan ditingkatkan, yang mengarah ke penelitian inovatif dan aplikasi bisnis generasi berikutnya, seperti keterkaitan simulasi ilmiah dan AI generatif, dan simulasi sosial komunitas virtual dengan ribuan AI.
latar
Dalam beberapa tahun terakhir, pengembangan model bahasa besar (LLM) telah aktif, terutama di Amerika Serikat. Secara khusus, penyebaran ChatGPT (6) yang cepat, yang dikembangkan oleh OpenAI, telah sangat memengaruhi penelitian dan pengembangan, sistem ekonomi, dan keamanan nasional. Negara-negara selain AS juga menginvestasikan sumber daya manusia dan komputasi yang sangat besar untuk mengembangkan LLM di negara mereka sendiri. Jepang juga perlu mengamankan sumber daya komputasi untuk penelitian AI agar tidak ketinggalan dalam perlombaan global ini. Ada harapan tinggi untuk Fugaku, sistem superkomputer unggulan di Jepang, dan perlu untuk meningkatkan lingkungan komputasi untuk pelatihan terdistribusi skala besar di Fugaku untuk memenuhi harapan ini.
Oleh karena itu, Tokyo Institute of Technology, Tohoku University, Fujitsu, RIKEN, Nagoya University, CyberAgent, dan Kotoba Technologies telah memulai proyek penelitian bersama tentang pengembangan model bahasa besar.
Peran masing-masing institusi/perusahaan
Institut Teknologi Tokyo: Pengawasan umum, paralelisasi dan percepatan komunikasi model bahasa besar (optimalisasi kinerja komunikasi dengan menggabungkan tiga jenis paralelisasi, percepatan komunikasi kolektif pada interkoneksi Tahu D)
Tohoku University: Pengumpulan data pelatihan dan pemilihan model
Fujitsu: Percepatan komputasi dan komunikasi (percepatan komunikasi kolektif pada tauhu interkoneksi D, optimalisasi kinerja paralelisasi pipa) dan implementasi pra-pelatihan dan fine-tuning setelah pelatihan
RIKEN: Paralelisasi terdistribusi dan percepatan komunikasi model bahasa skala besar (percepatan komunikasi kolektif pada interkoneksi tahu D)
Universitas Nagoya: Studi tentang metode aplikasi Fugaku-LLM ke AI generatif 3D
CyberAgent: Penyediaan data pelatihan
Kotoba Technologies: Porting kerangka kerja pembelajaran mendalam ke Fugaku
Gambar 1. Superkomputer RIKEN Fugaku ©RIKENResearch hasil1. Secara signifikan meningkatkan kinerja komputasi pelatihan model bahasa besar pada superkomputer Fugaku
GPU (7) adalah pilihan umum perangkat keras untuk melatih model bahasa besar. Namun, ada kekurangan GPU global karena investasi besar dari banyak negara untuk melatih LLM. Dalam keadaan seperti itu, penting untuk menunjukkan bahwa model bahasa besar dapat dilatih menggunakan Fugaku, yang menggunakan CPU alih-alih GPU. CPU yang digunakan di Fugaku adalah CPU Jepang yang diproduksi oleh Fujitsu, dan memainkan peran penting dalam hal merevitalisasi teknologi semikonduktor Jepang.
Dengan mengekstraksi potensi penuh Fugaku, penelitian ini berhasil meningkatkan kecepatan komputasi perkalian matriks dengan faktor 6, dan kecepatan komunikasi dengan faktor 3. Untuk memaksimalkan kinerja pelatihan terdistribusi di Fugaku, kerangka kerja pembelajaran mendalam Megatron-DeepSpeed diporting ke Fugaku, dan pustaka perkalian matriks padat dipercepat untuk Transformer. Untuk percepatan komunikasi, para peneliti mengoptimalkan kinerja komunikasi untuk Fugaku dengan menggabungkan tiga jenis teknik paralelisasi dan mempercepat komunikasi kolektif pada interkoneksi tahu D. Pengetahuan yang diperoleh dari upaya ini dapat dimanfaatkan dalam desain infrastruktur komputasi generasi berikutnya setelah Fugaku dan akan sangat meningkatkan keunggulan masa depan Jepang di bidang AI.
2. Model bahasa besar yang mudah digunakan, terbuka, dan aman dengan 13 miliar parameter
Pada tahun 2023, banyak model bahasa besar dikembangkan oleh perusahaan Jepang, tetapi kebanyakan dari mereka memiliki kurang dari 7 miliar parameter. Karena kinerja model bahasa skala besar umumnya meningkat seiring dengan meningkatnya jumlah parameter, model 13 miliar parameter yang dikembangkan tim peneliti cenderung lebih kuat daripada model Jepang lainnya. Meskipun model yang lebih besar telah dikembangkan di luar Jepang, model bahasa besar juga membutuhkan sumber daya komputasi yang besar, sehingga sulit untuk menggunakan model dengan terlalu banyak parameter. Fugaku-LLM adalah kinerja tinggi dan seimbang.
Selain itu, sebagian besar model yang dikembangkan oleh perusahaan Jepang menggunakan pembelajaran berkelanjutan (8), di mana model terbuka yang dikembangkan di luar Jepang terus dilatih berdasarkan data Jepang. Sebaliknya, Fugaku-LLM dilatih dari awal menggunakan data tim sendiri, sehingga seluruh proses pembelajaran dapat dipahami, yang lebih unggul dalam hal transparansi dan keamanan.
Fugaku-LLM dilatih pada 380 miliar token menggunakan 13.824 node Fugaku, dengan sekitar 60% dari data pelatihan adalah bahasa Jepang, dikombinasikan dengan bahasa Inggris, matematika, dan kode. Dibandingkan dengan model yang terus berlatih bahasa Jepang, Fugaku-LLM belajar banyak informasi dalam bahasa Jepang. Fugaku-LLM adalah model terbaik di antara model terbuka yang diproduksi di Jepang dan dilatih dengan data asli. Secara khusus, dikonfirmasi bahwa model tersebut menunjukkan skor tolok ukur tinggi 9,18 dalam tugas humaniora dan ilmu sosial. Diharapkan model ini akan dapat melakukan dialog alami berdasarkan keigo (pidato kehormatan) dan fitur lain dari bahasa Jepang.
Pengembangan Masa Depan
Hasil dari penelitian ini dipublikasikan melalui GitHub dan Hugging Face sehingga peneliti dan insinyur lain dapat menggunakannya untuk mengembangkan model bahasa besar lebih lanjut. Fugaku-LLM dapat digunakan untuk tujuan penelitian dan komersial selama pengguna mematuhi lisensi. Fugaku-LLM juga akan ditawarkan kepada pengguna melalui Fujitsu Research Portal mulai 10 Mei 2024.
Di masa depan, karena semakin banyak peneliti dan insinyur berpartisipasi dalam meningkatkan model dan aplikasinya, efisiensi pelatihan akan ditingkatkan, yang mengarah ke penelitian inovatif dan aplikasi bisnis generasi berikutnya, seperti keterkaitan simulasi ilmiah dan AI generatif, dan simulasi sosial komunitas virtual dengan ribuan AI.
Pengakuan
Penelitian ini didukung oleh proposal pendukung kebijakan Fugaku “Pengembangan Pelatihan Paralel Terdistribusi untuk Model Bahasa Besar Menggunakan Fugaku” (nomor proposal: hp230254).
[1] Model bahasa besar: Memodelkan probabilitas teks yang muncul dan dapat memprediksi teks (respons) yang mengikuti konteks tertentu (kueri). [2] Parameter :Ukuran ukuran jaringan saraf. Semakin banyak parameter, semakin tinggi kinerja model, tetapi semakin banyak data yang diperlukan untuk pelatihan. [3] MT-Bench Jepang :Tes benchmark disediakan oleh Stability AI[4] GitHub :Platform digunakan untuk menerbitkan perangkat lunak sumber terbuka[5] Hugging Face :Platform yang digunakan untuk mempublikasikan kumpulan data AI[6] ChatGPT :Model bahasa besar yang dikembangkan oleh OpenAI, yang telah membawa perubahan sosial besar, melampaui 100 juta pengguna dalam waktu sekitar dua bulan setelah dirilis. [7 ]GPU :Awalnya diproduksi sebagai akselerator untuk grafis, tetapi baru-baru ini digunakan untuk mempercepat pembelajaran mendalam[8] Pembelajaran berkelanjutan :Metode untuk melakukan pelatihan tambahan pada model bahasa besar yang telah dilatih. Digunakan untuk melatih model bahasa dalam berbagai bahasa atau domain. Tentang Fujitsu
Tujuan Fujitsu adalah untuk membuat dunia lebih berkelanjutan dengan membangun kepercayaan di masyarakat melalui inovasi. Sebagai mitra transformasi digital pilihan bagi pelanggan di lebih dari 100 negara, 124.000 karyawan kami bekerja untuk menyelesaikan beberapa tantangan terbesar yang dihadapi umat manusia. Berbagai layanan dan solusi kami memanfaatkan lima teknologi utama: Komputasi, Jaringan, AI, Data & Keamanan, dan Teknologi Konvergen, yang kami satukan untuk memberikan transformasi keberlanjutan. Fujitsu Limited (TSE:6702) melaporkan pendapatan konsolidasi sebesar 3,7 triliun yen (US$26 miliar) untuk tahun fiskal yang berakhir pada 31 Maret 2024 dan tetap menjadi perusahaan layanan digital teratas di Jepang berdasarkan pangsa pasar. Cari tahu lebih lanjut: www.fujitsu.com.
Tekan Kontak
Fujitsu Terbatas
Divisi
Hubungan Masyarakat dan Investor
Pertanyaan
Hak Cipta 2024 JCN Newswire. Seluruh hak cipta. www.jcnnewswire.com
+ There are no comments
Add yours