Peneliti Microsoft ungkap masalah besar AI untuk tugas jangka panjang

Penelitian terbaru dari Microsoft menunjukkan kemampuan AI ternyata masih jauh dari sempurna, terutama untuk pekerjaan yang panjang dan kompleks.

Beberapa perusahaan besar seperti Anthropic dan Microsoft sebelumnya mengklaim agen AI mampu menangani pekerjaan secara mandiri.

Misalnya AI dikatakan bisa melakukan riset, mengolah dokumen, hingga bekerja dengan berbagai aplikasi layaknya seorang karyawan digital. Namun, para peneliti Microsoft menemukan kenyataan yang berbeda.

Tim peneliti Microsoft Research yang terdiri dari Philippe Laban, Tobias Schnabel, dan Jennifer Neville melakukan penelitian untuk melihat bagaimana model bahasa besar atau LLM (Large Language Model) bekerja dalam tugas yang memiliki banyak tahapan.

Mereka membuat sebuah sistem pengujian bernama DELEGATE-52. Tes ini dirancang untuk mensimulasikan pekerjaan profesional di 52 bidang berbeda, mulai dari pemrograman, akuntansi, kristalografi, hingga notasi musik.

Salah satu contoh tugasnya adalah pekerjaan akuntansi. AI diminta memisahkan data keuangan ke dalam beberapa file berdasarkan kategori, lalu menggabungkannya kembali menjadi satu dokumen yang tersusun rapi secara kronologis.

Hasil penelitian menunjukkan model AI terbaik sekalipun masih sering membuat kesalahan serius ketika harus mengerjakan tugas dalam jangka panjang.

“Temuan kami menunjukkan LLM masih sering membuat kesalahan saat mengedit dokumen kerja. Model perbatasan seperti Gemini 3.1 Pro, Claude 4.6 Opus, dan GPT 5.4 kehilangan rata-rata 25% konten dokumen selama 20 interaksi yang didelegasikan, sementara degradasi rata-rata di seluruh model mencapai 50%,” lapor penulis, dikutip dari The Register, Rabu (13/5/2026).

Laporan tersebut menyebut semakin panjang proses kerja yang diberikan kepada AI, semakin besar kemungkinan isi dokumen berubah, hilang, atau rusak.

Para peneliti juga menemukan AI lebih baik dalam tugas pemrograman dibandingkan pekerjaan berbasis bahasa alami seperti pengolahan dokumen atau penulisan.

Microsoft menetapkan standar tinggi untuk menentukan apakah AI sudah layak digunakan secara mandiri dalam dunia kerja. Model harus mampu mempertahankan akurasi minimal 98% setelah 20 interaksi.

Dari 52 bidang yang diuji, hanya satu yang memenuhi standar tersebut, yaitu pemrograman Python.

Di luar itu, sebagian besar model dianggap belum siap digunakan tanpa pengawasan manusia. Bahkan, dalam lebih dari 80% pengujian terjadi apa yang disebut sebagai kerusakan katastrofik, yaitu kondisi ketika kualitas hasil kerja AI turun sangat drastis.

Menariknya, model AI yang lebih kuat ternyata tidak benar-benar lebih aman. Mereka hanya menunda kesalahan besar ke tahap yang lebih akhir.

Dengan kata lain, AI tidak selalu gagal secara perlahan. Kadang hasilnya terlihat baik hingga akhirnya tiba-tiba berantakan. (Nur Amalina)

Pasang Iklan Gratis

Peneliti Microsoft ungkap masalah besar AI untuk tugas jangka panjang

0 Response to "Peneliti Microsoft ungkap masalah besar AI untuk tugas jangka panjang"

Posting Komentar