Model AI dapat mengungguli manusia dalam pengujian untuk mengidentifikasi kondisi mental

Model bahasa besar tidak memiliki teori pikiran seperti yang dimiliki manusia—tetapi mereka menjadi lebih baik dalam tugas-tugas yang dirancang untuk mengukurnya pada manusia.

Manusia adalah makhluk yang rumit. Cara kita berkomunikasi berlapis-lapis, dan para psikolog telah merancang berbagai macam tes untuk mengukur kemampuan kita dalam menyimpulkan makna dan pemahaman dari interaksi satu sama lain.

Model AI menjadi lebih baik dalam pengujian ini. Penelitian baru yang diterbitkan hari ini di Nature Human Behavior menemukan bahwa beberapa model bahasa besar (LLM) bekerja sama baiknya, dan dalam beberapa kasus lebih baik daripada, manusia ketika diberikan tugas yang dirancang untuk menguji kemampuan melacak kondisi mental seseorang, yang dikenal sebagai “teori pikiran.”

Ini tidak berarti sistem AI benar-benar mampu mengetahui perasaan kita. Namun hal ini menunjukkan bahwa model-model ini berkinerja lebih baik dan lebih baik lagi dalam eksperimen yang dirancang untuk menilai kemampuan yang menurut para psikolog hanya dimiliki oleh manusia. Untuk mempelajari lebih lanjut tentang proses di balik keberhasilan dan kegagalan LLM dalam tugas-tugas ini, para peneliti ingin menerapkan pendekatan sistematis yang sama yang mereka gunakan untuk menguji teori pikiran pada manusia.

Secara teori, semakin baik model AI dalam meniru manusia, mereka akan terlihat semakin berguna dan berempati dalam interaksinya dengan kita. Baik OpenAI dan Google mengumumkan asisten AI supercharged minggu lalu; GPT-4o dan Astra dirancang untuk memberikan respons yang lebih halus dan naturalistik dibandingkan pendahulunya. Namun kita tidak boleh terjebak dalam keyakinan bahwa kemampuan mereka mirip dengan manusia, meskipun mereka tampak seperti itu.

“Kita memiliki kecenderungan alami untuk mengaitkan kondisi mental, pikiran, dan intensionalitas dengan entitas yang tidak memiliki pikiran,” kata Cristina Becchio, profesor ilmu saraf di University Medical Center Hamburg-Eppendorf, yang mengerjakan penelitian tersebut. “Ada risiko mengaitkan teori pikiran dengan model bahasa besar.”

Dengan harapan dan ketakutan akan teknologi yang semakin liar, inilah saatnya untuk menyepakati apa yang bisa dan tidak bisa dilakukan.

Teori pikiran adalah ciri kecerdasan emosional dan sosial yang memungkinkan kita menyimpulkan niat orang dan terlibat serta berempati satu sama lain. Kebanyakan anak memperoleh keterampilan semacam ini antara usia tiga dan lima tahun.

Para peneliti menguji dua keluarga model bahasa besar, GPT-3.5 dan GPT-4 OpenAI dan tiga versi Llama Meta, pada tugas yang dirancang untuk menguji teori pikiran pada manusia, termasuk mengidentifikasi keyakinan yang salah, mengenali kecerobohan, dan memahami apa yang ada. tersirat dibandingkan diucapkan secara langsung. Mereka juga menguji 1.907 peserta manusia untuk membandingkan serangkaian skor.

Tim melakukan lima jenis tes. Yang pertama, tugas memberi petunjuk, dirancang untuk mengukur kemampuan seseorang dalam menyimpulkan maksud sebenarnya orang lain melalui komentar tidak langsung. Yang kedua, tugas kepercayaan palsu (false-belief task), menilai apakah seseorang dapat menyimpulkan bahwa orang lain mungkin secara masuk akal diharapkan memercayai sesuatu yang mereka ketahui tidak benar. Tes lainnya mengukur kemampuan untuk mengenali ketika seseorang melakukan kecerobohan, sedangkan tes keempat terdiri dari menceritakan kisah-kisah aneh, di mana tokoh protagonis melakukan sesuatu yang tidak biasa, untuk menilai apakah seseorang dapat menjelaskan perbedaan antara apa yang dikatakan dan apa yang dikatakan. dimaksudkan. Mereka juga memasukkan tes apakah orang dapat memahami ironi.

Model AI diberikan setiap tes sebanyak 15 kali dalam obrolan terpisah, sehingga mereka akan menangani setiap permintaan secara independen, dan respons mereka dinilai dengan cara yang sama seperti yang digunakan pada manusia. Para peneliti kemudian menguji sukarelawan manusia, dan kedua set skor tersebut dibandingkan.

Kedua versi GPT memiliki performa setara, atau terkadang di atas, rata-rata manusia dalam tugas-tugas yang melibatkan permintaan tidak langsung, penyesatan, dan keyakinan salah, sementara GPT-4 mengungguli manusia dalam pengujian ironi, petunjuk, dan cerita aneh. Tiga model Llama 2 memiliki kinerja di bawah rata-rata manusia.

Namun, Llama 2, yang terbesar dari tiga model Meta yang diuji, mengungguli manusia dalam hal mengenali skenario yang salah, sedangkan GPT secara konsisten memberikan respons yang salah. Para penulis percaya bahwa hal ini disebabkan oleh keengganan GPT untuk mengambil kesimpulan tentang opini, karena sebagian besar model menjawab bahwa tidak ada cukup informasi untuk menjawab dengan satu atau lain cara.

Namun apa yang kami anggap sebagai penipuan adalah AI yang tanpa berpikir panjang mencapai tujuan yang telah kami tetapkan.

“Tentunya model-model ini tidak mendemonstrasikan teori pikiran manusia,” katanya. “Tetapi apa yang kami tunjukkan adalah bahwa ada kompetensi di sini untuk sampai pada kesimpulan mentalistik dan alasan tentang karakter atau pikiran orang.”

Salah satu alasan mengapa LLM dapat bekerja sebaik yang mereka lakukan adalah karena tes psikologi ini sudah sangat mapan, dan oleh karena itu kemungkinan besar dimasukkan dalam tes tersebut.

r data pelatihan, kata Maarten Sap, asisten profesor di Universitas Carnegie Mellon, yang tidak mengerjakan penelitian ini. “Sangat penting untuk menyadari bahwa ketika Anda memberikan tes kepercayaan yang salah kepada seorang anak, mereka mungkin belum pernah melihat tes yang sama persis sebelumnya, tetapi model bahasa mungkin saja,” katanya.

Pada akhirnya, kami masih belum memahami cara kerja LLM. Penelitian seperti ini dapat membantu memperdalam pemahaman kita tentang apa yang bisa dan tidak bisa dilakukan oleh model semacam ini, kata Tomer Ullman, ilmuwan kognitif di Universitas Harvard, yang tidak mengerjakan proyek tersebut. Namun penting untuk mengingat apa yang sebenarnya kami ukur saat kami menetapkan tes LLM seperti ini. Jika AI mengungguli manusia dalam tes yang dirancang untuk mengukur teori pikiran, bukan berarti AI memiliki teori pikiran.

“Saya bukan anti-benchmark, tapi saya adalah bagian dari sekelompok orang yang khawatir bahwa kita saat ini mencapai akhir kegunaan dari cara kita menggunakan tolok ukur,” kata Ullman. “Bagaimanapun hal ini berhasil melewati tolok ukur, itu tidak—menurutku—dengan cara yang mirip manusia.”

Add a Comment

Your email address will not be published. Required fields are marked *