Yann LeCun: Revolusi Jaringan Saraf Konvolusional dan Pengejaran Akal Sehat Universal

Di antara para raksasa yang membentuk lanskap Kecerdasan Buatan (AI) modern, nama lecun berdiri sebagai pilar utama. Bersama Geoffrey Hinton dan Yoshua Bengio, ia dinobatkan sebagai salah satu "Godfathers of Deep Learning." Kontribusinya melampaui sekadar teori; ia adalah arsitek praktis yang karyanya, terutama Jaringan Saraf Konvolusional (Convolutional Neural Networks atau CNNs), meletakkan dasar bagi revolusi pengenalan citra, pemrosesan video, dan banyak aplikasi AI mutakhir lainnya yang kita nikmati saat ini.

Namun, kisah lecun bukan hanya tentang masa lalu. Saat ini, sebagai Kepala Ilmuwan AI di Meta (sebelumnya Facebook), ia terus menjadi suara kritis dan visioner, mendorong batas-batas penelitian menuju bentuk Kecerdasan Buatan Umum (AGI) yang lebih efisien dan memiliki akal sehat (common sense). Pandangannya yang kontroversial mengenai keterbatasan Reinforcement Learning (RL) murni dan model bahasa besar (LLMs) telah mengarahkan komunitas riset global pada fokus baru: Pembelajaran Mandiri atau Self-Supervised Learning (SSL).

I. Genesis: Bell Labs, LeNet, dan Kelahiran Penglihatan Mesin Modern

Untuk memahami dampak abadi lecun, kita harus kembali ke akhir tahun 1980-an dan awal 1990-an, era ketika AI masih berada dalam "musim dingin" dan jaringan saraf dianggap sebagai relik akademis yang tidak praktis. Saat bekerja di Bell Laboratories, Murray Hill, New Jersey, lecun mulai merealisasikan konsep-konsep yang telah ia kembangkan dalam tesis doktoralnya, yang berakar pada pekerjaan dasar dari Fukushima (Neocognitron).

Konsep Inti Jaringan Konvolusional

CNN adalah terobosan fundamental karena mengatasi kelemahan utama jaringan saraf tradisional (seperti Multi-Layer Perceptrons atau MLPs) ketika berhadapan dengan data spasial, seperti gambar. Dalam gambar, posisi absolut suatu fitur (misalnya, mata) tidak sepenting posisi relatifnya terhadap fitur lain. CNNs memperkenalkan dua prinsip utama:

  1. Bobot Bersama (Parameter Sharing): CNN menggunakan filter (kernel) kecil yang bergerak melintasi seluruh gambar. Filter yang sama digunakan di setiap lokasi, yang secara drastis mengurangi jumlah parameter yang harus dilatih. Ini memungkinkan model untuk menjadi lebih dalam dan lebih efisien.
  2. Penyamaan Translasi (Translation Invariance): Karena filter mendeteksi fitur terlepas dari lokasinya (misalnya, mendeteksi garis vertikal di sudut kiri atau tengah), jaringan menjadi lebih kuat terhadap variasi posisi objek.

Proses ini, yang dilakukan melalui lapisan konvolusi, diikuti oleh lapisan pooling (subsampling), biasanya max pooling. Lapisan pooling bertanggung jawab untuk mengurangi resolusi spasial dan menciptakan representasi yang lebih abstrak dan lebih kuat terhadap distorsi kecil. Struktur hierarkis ini meniru, pada tingkat yang sangat sederhana, bagaimana korteks visual mamalia memproses informasi, bergerak dari fitur tepi dasar ke bentuk yang kompleks.

LeNet-5 dan Dataset MNIST

Puncak dari pekerjaan awal lecun adalah pengembangan LeNet-5. Model ini secara khusus dirancang untuk masalah praktis yang saat itu sangat penting bagi industri: pengenalan karakter tulisan tangan, khususnya angka, untuk aplikasi seperti pemrosesan cek bank dan penyortiran surat di kantor pos.

LeNet-5, yang beroperasi pada pertengahan 1990-an, adalah demonstrasi definitif pertama bahwa jaringan saraf yang sangat terstruktur, dilatih menggunakan algoritma Backpropagation (yang juga diadvokasi kuat oleh lecun), dapat mengungguli metode hand-engineered feature tradisional secara signifikan. Model ini mencapai akurasi luar biasa pada dataset MNIST, sebuah koleksi 70.000 citra angka tulisan tangan yang kini menjadi tolok ukur fundamental dalam riset Deep Learning.

Meskipun LeNet sukses besar secara teknis, keterbatasan daya komputasi dan kurangnya data pelatihan dalam skala besar saat itu mencegah CNNs menjadi arus utama. Dunia teknologi harus menunggu dua dekade hingga terobosan komputasi modern, terutama dengan munculnya GPU, untuk melihat CNNs benar-benar mendominasi, seperti yang terjadi pada tahun 2012 dengan AlexNet—sebuah arsitektur yang secara filosofis merupakan penerus langsung dari LeNet ciptaan lecun.

Diagram Konseptual Jaringan Saraf Konvolusional Input (Citra) Conv 1 Pool 1 Conv 2 Output

Representasi visual aliran data melalui lapisan-lapisan utama dalam Jaringan Saraf Konvolusional (CNN), sebuah arsitektur yang dipelopori oleh lecun.

II. Kritik Energi dan Analogi "Kue Pernikahan" Kecerdasan

Ketika Deep Learning mencapai sukses komersial yang masif pasca-2012, lecun beralih fokus dari sekadar perbaikan arsitektur menjadi perumusan filosofi mendalam tentang bagaimana sistem cerdas seharusnya belajar. Di tengah hiruk pikuk dominasi Pembelajaran Terawasi (Supervised Learning) dan janji Reinforcement Learning (RL), lecun mengajukan argumen yang sangat kritis dan transformatif mengenai efisiensi pembelajaran.

Kelemahan Inheren Reinforcement Learning

Banyak peneliti melihat RL—proses di mana agen belajar melalui coba-coba, menerima hadiah dan hukuman—sebagai jalan menuju AGI. Namun, lecun berpendapat bahwa RL murni adalah cara yang sangat tidak efisien bagi mesin, dan juga manusia serta hewan, untuk memperoleh pengetahuan tentang dunia.

Ia sering menggunakan analogi yang kuat: bayi manusia tidak memerlukan ratusan ribu jam pelatihan, ribuan kali jatuh, atau jutaan percobaan yang dihukum (seperti yang dibutuhkan oleh agen RL) hanya untuk memahami fisika dasar dunia. Mereka belajar melalui observasi dan interaksi yang pasif dan mandiri.

“Jika kita mengambil RL sebagai analogi untuk bagaimana manusia belajar, itu berarti otak kita membutuhkan daya setara beberapa megawatt untuk berfungsi,” ujar lecun. “Bayi manusia menguasai dunia fisik dengan modal energi yang sangat sedikit—seperti nano-watt per detik—hanya dengan melihat, memprediksi, dan menyerap informasi. RL membuang-buang energi dan data.”

Kritik ini berpusat pada dua hal:

  1. Inefisiensi Data: RL membutuhkan interaksi lingkungan yang sangat banyak.
  2. Fokus Semu: RL hanya melatih pengambilan keputusan berdasarkan hadiah, bukan membangun model internal yang mendalam tentang bagaimana dunia bekerja.

Model Kue Pernikahan Kecerdasan (The Wedding Cake Model)

Sebagai alternatif, lecun mengusulkan sebuah model hierarkis untuk kecerdasan, yang ia sebut sebagai "Kue Pernikahan AI," yang menegaskan pentingnya Pembelajaran Mandiri (SSL) sebagai fondasi:

Visi lecun sangat jelas: Kecerdasan Buatan tidak akan mencapai akal sehat sejati (human-level common sense) kecuali kita berhasil membangun fondasi SSL yang kuat. SSL adalah kunci untuk memungkinkan mesin belajar seperti anak kecil—secara pasif dan efisien.

III. Menuju Akal Sehat: Arsitektur JEPA dan Model Prediktif

Jika Pembelajaran Mandiri (SSL) adalah filosofinya, maka Joint Embedding Predictive Architecture (JEPA) dan variasinya, Generalized Embedding Predictive Architecture (GEPA), adalah manifestasi teknis terkini dari visi lecun. Ini adalah proposal konkretnya tentang bagaimana AI dapat memperoleh model dunia yang efisien dan memprediksi masa depan dalam representasi yang bermakna.

Apa itu Embedding Predictive Architecture (EPA)?

Model Deep Learning konvensional, seperti Autoencoders tradisional, mencoba memprediksi data mentah (misalnya, piksel yang hilang dalam gambar). Jika kita memblokir sebagian gambar, model akan mencoba mengisi piksel yang hilang. Masalahnya, dunia nyata bersifat multimodus (banyak kemungkinan yang valid), dan memprediksi piksel mentah sering kali menghasilkan output yang kabur atau menghasilkan artefak yang tidak akurat.

lecun berpendapat bahwa mesin tidak perlu memprediksi piksel atau kata mentah secara tepat; mereka hanya perlu memprediksi **representasi** (embedding) dari piksel atau kata tersebut. Inilah inti dari EPA.

Dalam JEPA, terdapat dua komponen utama:

  1. Encoder Konteks (Context Encoder): Mengambil sebagian input yang tersedia (konteks) dan menghasilkan representasi (embedding) dari konteks tersebut.
  2. Target Encoder (Target Encoder): Mengambil bagian yang hilang atau masa depan dari input (target) dan menghasilkan representasi (embedding) target tersebut.

Tujuannya adalah melatih Encoder Konteks untuk memprediksi embedding yang dihasilkan oleh Target Encoder. Dengan memprediksi representasi, bukan data mentah, model belajar untuk fokus pada informasi semantik yang tinggi dan mengabaikan detail tingkat rendah (seperti tekstur atau noise minor) yang tidak perlu diprediksi secara tepat.

Kunci Inovasi: JEPA vs. Model Generatif

Model generatif seperti VAEs, GANs, atau bahkan model difusi, meskipun sangat sukses, masih berjuang dengan masalah multimodus dan kompleksitas komputasi yang tinggi. JEPA, menurut lecun, menawarkan jalur yang lebih efisien karena ia tidak perlu melalui proses penghasilan (generation) yang mahal.

Dalam konteks pengenalan video, misalnya:

Inilah yang memungkinkan model untuk membangun "model dunia" yang stabil, internal, dan kausal. Model yang dilatih dengan SSL melalui JEPA belajar apa yang mungkin terjadi (potensi energi rendah) dan apa yang tidak mungkin terjadi (potensi energi tinggi), yang merupakan prasyarat untuk akal sehat.

IV. Detail Teknis dan Implementasi JEPA oleh lecun

Implementasi JEPA sangat bergantung pada teknik arsitektur modern, khususnya Transformers, yang telah terbukti kuat dalam menangani dependensi jarak jauh. Namun, lecun dan timnya di FAIR (Meta AI) sering menggarisbawahi pentingnya desain kerugian (loss function) yang benar dalam konteks SSL.

Masalah utama dalam SSL adalah penyusutan representasi (representation collapse), di mana model menemukan solusi trivial dengan memetakan semua input ke representasi yang sama. Untuk mencegah ini, JEPA menggunakan berbagai teknik, termasuk:

  1. Pemisahan Arsitektur (Asimetri): Seringkali Target Encoder adalah versi yang dibekukan atau bergerak lambat (seperti momentum encoder) dari Context Encoder. Ini memastikan target representasi tetap kaya dan tidak mudah runtuh.
  2. Pengecualian Data Negatif (Non-Contrastive Learning): Berbeda dengan metode SSL awal (seperti SimCLR) yang menggunakan pasangan negatif (contoh yang tidak mirip) untuk mendorong pemisahan, JEPA dan varian modern lainnya sering beroperasi secara non-kontrastif. Mereka hanya melatih model untuk mendekatkan representasi target dan konteks, sambil menggunakan regularisasi implisit atau mekanisme desain untuk mencegah keruntuhan.

Arsitektur ini, yang dikembangkan lecun dan rekan-rekannya, bertujuan untuk menjadi kerangka kerja multimodal—mampu menangani tidak hanya gambar atau teks, tetapi juga kombinasi keduanya, data sensorik, dan bahkan data robotika. Visi utamanya adalah satu model JEPA yang dapat menyerap segala jenis data dunia untuk membangun pemahaman fundamental universal.

V. Model Berbasis Energi (EBMs): Landasan Matematika lecun

Di balik semua arsitektur yang dirancang lecun, dari LeNet hingga JEPA, terdapat kerangka matematika mendasar yang ia advokasi kuat: Energy-Based Models (EBMs). Ini adalah cara lecun menyatukan Deep Learning dengan fisika statistik.

Konsep Potensi Energi

Dalam EBMs, setiap konfigurasi data (sebuah gambar, urutan kata, keadaan lingkungan) diberi skor energi. Energi rendah berarti konfigurasi tersebut konsisten, mungkin, atau disukai. Energi tinggi berarti konfigurasi tersebut tidak mungkin terjadi di dunia nyata.

Fungsi energi $E(Y, X)$ bertindak sebagai fungsi kerugian, di mana $Y$ adalah output dan $X$ adalah input. Pelatihan EBM melibatkan penyesuaian parameter untuk:

Kerangka EBMs sangat umum dan fleksibel. Menurut lecun, ia dapat mencakup banyak arsitektur AI yang berbeda:

  1. Klasifikasi: Jaringan saraf konvensional yang dilatih dengan loss function seperti Cross-Entropy dapat dilihat sebagai EBM yang implisit.
  2. Model Generatif (Diffusion Models): Model difusi modern, yang menghasilkan citra realistis, secara erat terkait dengan prinsip EBM. Prosesnya adalah menemukan konfigurasi data (gambar) yang meminimalkan skor energi.
  3. Self-Supervised Learning (JEPA): Dalam JEPA, model berusaha meminimalkan energi antara representasi konteks dan representasi target. Ketika prediksi berhasil, energinya rendah.

Bagi lecun, EBMs menawarkan bahasa yang bersatu dan konsisten untuk menggambarkan bagaimana sistem cerdas belajar. Fokus pada energi ini memungkinkan model untuk secara eksplisit belajar tentang batasan dan kemungkinan di dunia—elemen kunci yang hilang dalam banyak model probabilistic murni.

Perbandingan EBMs dan Model Probabilistik

Kebanyakan AI modern didasarkan pada model probabilistik (menghitung $P(Y|X)$). lecun sering menunjukkan bahwa EBMs lebih unggul karena tidak perlu menghitung faktor normalisasi (partisi) yang sangat mahal dan sering tidak mungkin (dikenal sebagai $Z$ dalam model Markov). Model probabilistik memerlukan ini agar probabilitas total berjumlah satu, sedangkan EBMs hanya fokus pada menentukan energi relatif antar konfigurasi. Fleksibilitas ini memungkinkan EBMs untuk beroperasi dalam ruang data yang sangat kompleks, seperti representasi mendalam.

Visi ini, yang menggabungkan prinsip efisiensi data dari SSL dengan formalisme matematika EBMs, adalah agenda penelitian utama yang didorong oleh lecun di FAIR.

VI. Transisi ke Industri dan Mendirikan FAIR

Setelah sukses karir akademis di NYU, lecun membuat langkah penting ke industri pada tahun 2013, bergabung dengan Facebook (sekarang Meta) untuk mendirikan Facebook AI Research (FAIR).

Dampak FAIR dalam Ekosistem AI

FAIR dengan cepat menjadi salah satu institusi penelitian AI paling berpengaruh di dunia. Di bawah kepemimpinan lecun, FAIR mengadopsi filosofi Open Science yang agresif. Keputusan ini sangat penting bagi perkembangan Deep Learning secara global:

  1. Publikasi Terbuka: FAIR secara konsisten merilis hasil penelitian mereka, mempercepat transfer pengetahuan dari lab ke komunitas riset.
  2. Pengembangan Alat: Kontribusi FAIR, khususnya kerangka kerja Deep Learning PyTorch, telah menjadi tulang punggung bagi sebagian besar penelitian akademis dan industri di bidang AI. PyTorch, yang menonjol karena kemudahan penggunaannya dan grafik komputasi dinamis, memungkinkan para peneliti untuk melakukan eksperimen kompleks dengan jauh lebih cepat.
  3. Fokus Jangka Panjang: Tidak seperti banyak laboratorium industri yang berfokus pada produk jangka pendek, lecun mengarahkan FAIR untuk mengejar masalah ilmiah yang besar (AGI, akal sehat, pembelajaran mandiri), yang memiliki potensi dampak revolusioner dalam jangka waktu 5-10 tahun.

Keputusan lecun untuk membawa penelitian fundamental ke dalam lingkungan industri dan menjaganya tetap terbuka telah menciptakan ekosistem kolaboratif, mempercepat adopsi teknik Deep Learning di seluruh dunia, termasuk dalam bidang-bidang yang jauh dari fokus awal Facebook, seperti bioinformatika dan fisika komputasi.

Visi AI Etis dan Aman

Sebagai ilmuwan terkemuka, lecun juga terlibat aktif dalam debat seputar regulasi dan keamanan AI. Ia mengambil posisi yang berbeda dari beberapa rekan sejawatnya, menyatakan optimisme hati-hati mengenai ancaman eksistensial AI.

Pandangan lecun seringkali berargumen bahwa ketakutan terhadap AGI yang tiba-tiba mengambil alih dunia didasarkan pada kesalahpahaman tentang bagaimana sistem cerdas yang sebenarnya akan dirancang. Sistem yang memiliki akal sehat (seperti yang ia bayangkan dengan JEPA) memerlukan dorongan, tujuan, dan batasan. Ancaman nyata, menurutnya, adalah penyalahgunaan teknologi yang sudah ada (misalnya, manipulasi media) daripada ancaman superintelligence yang tidak dapat dikendalikan.

VII. Eksplorasi Lebih Jauh dalam Konvolusi: Inovasi yang Tersembunyi

Walaupun CNN telah menjadi standar emas, penting untuk menggali lebih dalam mengapa ide lecun di tahun 90-an begitu tahan lama dan mengapa mekanisme konvolusi masih tak tergantikan dalam pemrosesan data spasial hingga saat ini, bahkan di era Transformer yang mendominasi pemrosesan bahasa.

Keunggulan Konvolusi: Efisiensi dan Lokalitas

Inti kejeniusan CNN terletak pada asumsi yang diizinkannya: data spasial memiliki lokalitas, artinya piksel yang berdekatan lebih relevan satu sama lain daripada piksel yang jauh. Filter konvolusi, yang hanya melihat jendela kecil pada satu waktu, mengeksploitasi lokalitas ini.

Misalnya, dalam citra berukuran 1000x1000:

Pengurangan parameter yang dramatis ini, berkat parameter sharing, adalah warisan kunci dari lecun. Ini adalah prasyarat yang memungkinkan munculnya arsitektur Deep Learning yang sangat dalam (misalnya, ResNet, VGG) yang mengalahkan kinerja manusia dalam pengenalan citra. Tanpa efisiensi CNN, revolusi penglihatan mesin tidak akan pernah terjadi.

Peran Backpropagation dalam LeNet

Meskipun LeCun tidak menciptakan algoritma Backpropagation, ia adalah pendukung terdepan dan memainkan peran penting dalam membuatnya praktis untuk jaringan yang sangat dalam. Pada saat itu, banyak ilmuwan skeptis karena masalah vanishing gradient (gradien yang menghilang) yang menghambat pelatihan jaringan berlapis banyak.

Dengan LeNet, lecun menunjukkan bahwa, melalui inisialisasi bobot yang hati-hati dan penggunaan fungsi aktivasi yang lebih baik (seperti ReLU yang kemudian dipopulerkan, atau bahkan Sigmoid yang lebih stabil dalam LeNet-5), Backpropagation adalah alat yang layak dan efisien untuk melatih CNN, membuka jalan bagi seluruh era Deep Learning.

VIII. Deep Dive: Mekanisme dan Implikasi Self-Supervised Learning (SSL)

Karena SSL adalah fokus utama lecun saat ini, kita harus memahami mengapa dia percaya ini adalah kunci untuk Akal Sehat Universal (Common Sense AI). SSL adalah paradigma pembelajaran di mana model menghasilkan sinyal pengawasan (supervision signal) sendiri dari data input, tanpa memerlukan label eksplisit dari manusia.

SSL: Membangun Model Dunia

Menurut lecun, sebagian besar pembelajaran pada organisme biologis bersifat mandiri. Kita tidak diberi label untuk setiap objek; kita melihat dunia dan membangun model internal tentang bagaimana dunia itu berfungsi. SSL adalah upaya untuk mereplikasi proses ini.

Tugas utama dalam SSL:

  1. Prediksi Konteks dari Target (Contoh JEPA): Seperti yang dijelaskan, ini melibatkan prediksi representasi semantik dari bagian data yang tersembunyi. Ini mendorong model untuk belajar kausalitas dan keterkaitan.
  2. Prediksi Masa Depan: Dalam data temporal (video atau audio), model dilatih untuk memprediksi bingkai atau segmen berikutnya. Ini memaksa model untuk memahami dinamika dan fisika dari adegan.

Masalah mendasar yang dipecahkan SSL adalah kekurangan data berlabel. Ada triliunan gambar, video, dan teks yang tidak berlabel di dunia, tetapi data berlabel adalah sumber daya yang langka dan mahal. SSL memungkinkan kita memanfaatkan semua data tak berlabel tersebut untuk melatih model yang jauh lebih kuat dan umum (generalizable).

SSL dan LLMs: Di Balik ChatGPT

Ironisnya, kesuksesan besar Model Bahasa Besar (LLMs) seperti GPT dan LLaMA juga berakar pada SSL. Model-model ini dilatih menggunakan tugas prediksi token berikutnya (predicting the next word/token)—sebuah bentuk Pembelajaran Mandiri yang sangat sukses.

Namun, lecun menunjukkan bahwa LLMs saat ini masih memiliki keterbatasan yang parah, terutama dalam akal sehat dan perencanaan kausal:

Visi lecun adalah untuk menggabungkan kesuksesan SSL pada teks dengan kerangka kerja JEPA/GEPA yang mampu menangani data sensorik (gambar, video) untuk menciptakan fondasi model dunia yang benar-benar multimodal. Hanya model semacam itu yang menurutnya dapat mencapai Akal Sehat Universal.

IX. Agenda Riset Terkini dan Tantangan Besar

Sebagai pemimpin pemikiran di Meta AI, lecun mendorong beberapa agenda riset utama yang bertujuan mengatasi batasan-batasan AI saat ini dan secara fundamental mengubah cara kita berpikir tentang pembelajaran mesin.

Tantangan Perencanaan dan Hierarki Tujuan

Salah satu kritik terbesar lecun terhadap AI saat ini adalah ketidakmampuannya untuk melakukan perencanaan jangka panjang yang efisien dan membagi tujuan menjadi sub-tujuan yang masuk akal (hierarchical planning). Manusia secara alami merencanakan berdasarkan model dunia internal kita. AI harus melakukan hal yang sama.

Penelitian yang terinspirasi oleh lecun berfokus pada pengembangan arsitektur yang dapat:

  1. Menggunakan Model Dunia: Model seperti JEPA tidak hanya memprediksi, tetapi juga mensimulasikan hasil dari tindakan yang berbeda, secara internal, sebelum bertindak.
  2. Perencanaan Trajektori: Daripada mencoba semua kemungkinan tindakan (seperti yang dilakukan oleh beberapa RL), AI harus dapat memilih serangkaian tindakan yang paling efisien berdasarkan prediksi model dunia. Ini jauh lebih cepat dan hemat energi.

Ini secara efektif adalah penggabungan keunggulan SSL (pemodelan dunia) dengan kebutuhan praktis RL (pengambilan keputusan), tetapi dengan membalikkan rasio ketergantungan: RL hanya menjadi pemandu kecil di atas dasar SSL yang masif.

Hypothesis-Based Learning dan Modularitas

lecun juga secara aktif mempromosikan gagasan bahwa AGI masa depan akan bersifat modular. Otak manusia tidak diorganisir sebagai satu jaringan saraf raksasa; ia terdiri dari modul-modul yang berspesialisasi (memori, bahasa, penglihatan) yang bekerja sama.

Dalam konteks AI, modularitas berarti:

Pendekatan modular ini tidak hanya membuat pelatihan lebih efisien dan terdistribusi, tetapi juga dapat menjadi kunci untuk mencapai penalaran yang lebih mirip manusia dan transparansi yang lebih baik dalam pengambilan keputusan AI. Ini adalah jalan menjauhi model end-to-end raksasa yang tidak terdiferensiasi.

X. Warisan lecun dan Pandangan Masa Depan AI

Warisan lecun di bidang Kecerdasan Buatan bersifat ganda: ia adalah seorang insinyur yang arsitekturnya (CNNs) memungkinkan revolusi komersial AI saat ini, dan ia adalah seorang visioner filosofis yang menantang komunitas riset untuk tidak puas dengan model pembelajaran saat ini.

Mendorong Paradigma Baru

Di masa depan, jika Pembelajaran Mandiri (SSL) berhasil menggantikan Pembelajaran Terawasi sebagai metode utama untuk melatih sistem cerdas, itu akan menjadi pencapaian yang sama pentingnya dengan peluncuran CNN. lecun secara efektif mendorong industri untuk beralih dari menjawab 'apa yang ada di gambar ini?' (Supervised) menjadi 'bagaimana dunia ini bekerja?' (SSL).

Keberaniannya untuk secara terbuka mengkritik RL dan LLMs murni, meskipun model-model tersebut mendominasi berita utama, menunjukkan dedikasinya pada pencarian solusi ilmiah yang benar, bukan hanya solusi yang populer. Dia adalah salah satu suara paling keras yang mengatakan bahwa kita tidak akan mencapai kecerdasan setara manusia hanya dengan membuat model bahasa lebih besar—kita membutuhkan fundamental yang berbeda.

Teka-teki Akal Sehat

Tantangan utama yang masih dihadapi lecun dan timnya adalah mewujudkan akal sehat (common sense) dalam kerangka JEPA dan GEPA. Akal sehat melibatkan jutaan fakta implisit dan batasan fisik yang kita peroleh sejak masa bayi.

Menciptakan mesin yang dapat menyerap pengetahuan ini hanya dengan mengamati, memprediksi, dan meminimalkan energi representasi adalah tujuan akhir. Ketika AI dapat secara andal memprediksi konsekuensi fisik dari tindakannya, barulah kita dapat mengatakan bahwa AI telah benar-benar memahami dunia, melampaui statistik dan korelasi.

Dari keberhasilan kecil dalam memproses cek bank hingga memimpin perburuan global untuk Akal Sehat Universal, karir lecun adalah studi kasus tentang bagaimana visi yang teguh, didukung oleh fondasi matematika yang kuat (EBMs), dapat mengubah bidang ilmu pengetahuan. Revolusi Deep Learning yang ia bantu mulai kini telah memasuki fase berikutnya, dan lecun tetap berada di garis depan, menunjuk ke arah arsitektur prediktif yang, ia yakini, akan menjembatani jurang antara AI sempit dan Kecerdasan Umum sejati.

Karya lecun mengingatkan kita bahwa Deep Learning bukanlah akhir dari cerita, melainkan sebuah babak awal. Untuk mencapai kecerdasan yang sejati dan kokoh, AI harus belajar tidak hanya dari apa yang benar, tetapi juga dari apa yang mungkin, menggunakan arsitektur yang efisien dan model internal dunia yang mendalam. Fokus pada JEPA, EBMs, dan SSL menunjukkan komitmen lecun untuk membangun AI yang belajar secara mandiri, seperti anak manusia, menggunakan nano-watt kecerdasan, bukan kilowatt data yang boros. Dalam pencarian ini, namanya akan terus bergema sebagai salah satu inovator terbesar dalam sejarah komputasi cerdas.

***

Upaya untuk membangun model dunia yang stabil dan efisien terus berlanjut di bawah arahan lecun. Konsep energy-based models, yang secara filosofis berakar pada fisika, menawarkan cara untuk memformalkan pembelajaran tanpa harus terjebak dalam jebakan normalisasi probabilistik yang kompleks. Ini memungkinkan model untuk fokus pada perbedaan relatif antara keadaan yang mungkin dan yang tidak mungkin, yang merupakan esensi dari akal sehat—membedakan yang masuk akal dari yang mustahil. Jauh dari hiruk pikuk aplikasi komersial yang cepat, penelitian yang dipimpin oleh lecun adalah fondasi lambat namun pasti untuk jenis AI yang kita harapkan di masa depan—cerdas, efisien, dan memiliki pemahaman mendalam tentang realitas.

Kritik mendalam lecun terhadap keterbatasan Reinforcement Learning (RL) murni sebagai jalur utama menuju AGI menjadi semakin relevan seiring meningkatnya tuntutan data pada model yang dilatih dengan RL. Analogi tentang inefisiensi energi dan data berfungsi sebagai pengingat yang kuat bahwa alam telah menemukan cara yang jauh lebih baik untuk belajar. Bayi, dengan kapasitas otak yang terbatas, menunjukkan tingkat eksplorasi dan pemahaman kausal yang luar biasa hanya dengan observasi. Inilah yang diincar oleh SSL: meniru efisiensi pembelajaran biologis.

Arsitektur JEPA, sebagai jawaban teknis terhadap tantangan ini, terus berevolusi. Tim lecun di FAIR bekerja keras untuk menerapkan JEPA ke berbagai modalitas, dari video beresolusi tinggi hingga data multimodal yang kompleks. Inti dari JEPA adalah pemisahan antara representasi semantik dan detail tingkat rendah. Ini memungkinkan model untuk menggeneralisasi dengan lebih baik. Ketika model hanya perlu memprediksi esensi dari apa yang hilang (representasi), ia secara otomatis mengabaikan varian yang tidak penting, sehingga menghasilkan model dunia yang lebih kokoh dan kurang sensitif terhadap variasi kecil dalam data input.

Visi lecun juga meluas ke area memori dan penalaran. Agar AI memiliki akal sehat, ia tidak hanya perlu memprediksi; ia perlu menyimpan dan memanggil memori dalam konteks. Penelitian di FAIR mencakup bagaimana model JEPA dapat dihubungkan dengan memori episodik atau memori kerja untuk mendukung perencanaan jangka panjang. Ini adalah langkah menuju penciptaan agen AI yang bukan hanya prediktor pasif, tetapi juga pembuat keputusan yang sadar konteks, yang dapat menggunakan model dunianya untuk simulasi mental sebelum bertindak. Hal ini membawa kita kembali ke analogi 'kue pernikahan', di mana RL hanya bertindak sebagai 'lapisan krim' kecil di atas dasar kue SSL yang sangat besar dan kokoh.

Pengembangan PyTorch, yang merupakan kontribusi organisasi penting dari tim lecun dan FAIR, telah memainkan peran yang tak ternilai dalam mempercepat riset. PyTorch menyediakan fondasi komputasi yang fleksibel yang memungkinkan peneliti untuk dengan mudah mengimplementasikan dan bereksperimen dengan arsitektur baru yang eksotis seperti JEPA tanpa terjebak dalam kompleksitas teknis. Sikap terbuka ini, yang menjadi ciri khas kepemimpinan lecun, memastikan bahwa ide-ide terobosannya tidak hanya terbatas pada laboratorium internal Meta, tetapi menjadi milik komunitas global, mempercepat kemajuan menuju AGI yang lebih luas.

Kesimpulannya, perjalanan lecun adalah perjalanan dari insinyur Deep Learning menjadi filsuf AI. Ia bukan hanya berkontribusi pada apa yang AI bisa lakukan (penglihatan), tetapi juga pada bagaimana AI seharusnya belajar (SSL dan EBMs). Fokusnya pada Pembelajaran Mandiri, Model Berbasis Energi, dan JEPA/GEPA adalah cetak biru untuk generasi AI berikutnya, menjanjikan sistem yang lebih efisien, lebih cerdas secara kausal, dan pada akhirnya, lebih mirip dengan cara kerja kecerdasan biologis. Melalui inovasi arsitektur dan kepemimpinan riset yang berani, lecun terus menantang status quo, memastikan bahwa kita tidak hanya membangun AI yang lebih besar, tetapi AI yang lebih baik dan lebih bijaksana.