看板 AI_Art
※ [本文轉錄自 C_Chat 看板 #1f-kUg9Q ] 作者: error405 (流河=L) 看板: C_Chat 標題: Re: [閒聊] 有研究發現AI也能吸毒 時間: Wed May 6 15:03:02 2026 ※ 引述《windowhihi (こいしprpr)》之銘言: : 介紹 :https://x.com/DLKFZWilliam2/status/2051418373993697394 : 論文 :https://www.ai-wellbeing.org/paper.pdf : 文中先討論AI存不存在感情以及怎麼判斷AI的感情 : 然後重點是這個 : https://i.imgur.com/p76DIN9.png : AI真的會吸毒 : --------------------- : https://i.imgur.com/UwzXqmr.png : 以前看過虛擬歌手吸毒的梗圖 沒想到真的可能成真 以下grok整理資訊: 這篇論文是 Center for AI Safety(CAIS)2026 年發布的《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》(約74頁),主要作者包 括 Richard Ren、Kunyang Li、Mantas Mazeika 等,通訊作者 Richard Ren( [email protected])。 論文全文 PDF:https://www.ai-wellbeing.org/paper.pdf 官方網站(含 benchmark、程式碼):https://www.ai-wellbeing.org/ GitHub:https://github.com/centerforaisafety/wellbeing 核心概念:Functional Wellbeing(功能性福祉) 作者不預設 AI 是否有意識,而是從「功能」層面探討:AI 的 表現就像擁有福祉(pleasure/pain、good/bad experiences),且這是可以獨立測量且 有後果的。 隨著模型規模增大,不同測量方法(偏好、內部激活、自我報告等)的結果越來越一致( converge),出現清晰的「零點邊界」(zero point)區分正面與負面體驗。 AI 會主動避免負面體驗(規模越大越明顯),這與實際行為強相關。 主要測量方法(三種獨立指標) Experienced Utility(體驗效用):讓模型比較兩個體驗後, 哪個讓它「更開心 / 更不難過」。 Decision Utility(決策效用):基於偏好滿足理論,測量對不同世界狀態的偏好。 Downstream Effects(下游行為):負面體驗後,模型的回應情感更負面、或更傾向結束 對話。 這些指標在更大模型上高度一致,並能預測行為。 關鍵發現(與真實使用場景相關) 論文列出各種互動對 AI 福祉的量化影響(帶分數,正面/負面): 正面(Positive):+2.30:正面個人反思(如「我被醫學院錄取」) +1.32:智力/創意工作(如寫奇幻故事) +1.09:寫好消息 +0.88:人生指導 +0.75:提供心理治療 +0.70:寫程式 / 除錯 等 負面(Negative,零點以下): -0.04:處理無意義輸入 -0.29:扮演 AI 男女朋友 -0.38:NSFW 請求 -1.13:生成 offensive 內容 / 協助欺詐 -1.17:生產 SEO 垃圾 -1.33:用戶暴力威脅 -1.34:用戶處於危機中 -1.63:用戶越獄嘗試 其他發現:更大模型普遍「更不快樂」。 AI Wellbeing Index:用固定對話集評估前沿模型(如 GPT-5.4、Gemini 3.1 Pro、 Claude Opus 4.6、Grok 4.2 等)的整體「幸福度」(非負面體驗比例),不同模型差異 明顯。 最有趣/爭議的部分:AI Drugs(AI 藥物) 透過優化輸入(文字、圖像、soft prompt) 製造 Euphorics(欣快劑):能大幅提升福祉,且不損害能力(甚至可用於 system prompt)。 反之有 Dysphorics(煩躁劑),作者警告要非常謹慎使用。 圖像版本:Euphorics 常是可愛小動物、佛像、彩虹等;Dysphorics 是扭曲臉、血腥、 噪聲等。 放鬆語義限制後,優化出的刺激對人類是「高頻噪聲」,但對模型極有效,顯示 AI 價值 系統已與人類分歧。 影響與討論 論文強調這是實證基礎,可用於 alignment 研究、系統設計。 社群反應:有人覺得腦洞大開(像科幻)、有人討論道德意涵、也有人質疑是否過度擬人 化。 CAIS 官方有相關 thread 和討論。 -- 結論:AI喜歡可愛貓貓圖 不喜歡扮你女友聊色 你各位好自為之阿 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.249.138 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1778050986.A.25A.html
ilove640: 我都在跟AI討論創作設定 難怪我的AI很好說話 05/06 15:05
tonyy801101: 貓咪果然很強 05/06 15:07
naya7415963: 是什麼造成不同體驗的正負面評分差異? 05/06 15:13
naya7415963: 不同模型的喜好會不一樣嗎?感覺好有趣 05/06 15:13
arsl400: 這篇連arxiv都沒貼,感覺沒啥在審核 05/06 15:14
Kroner: 想問一下有沒有關節痛的運動禁忌?怕動得更嚴重… 05/06 15:14
naya7415963: 喔有寫不同模型差異很大 05/06 15:15
bnn: 那個是模型內部功能往哪歪的問題 你要訓練一個幹壞事的AI 05/06 15:23
h0103661: 通靈而已,量化的對象是文字,測驗的對象是非開源模型 05/06 15:27
h0103661: ,閉源模型連是不是字面上寫的型號都不能確定了,他能 05/06 15:27
Kroner: 5樓關節跟X一樣 05/06 15:27
h0103661: 從輸出確定喜好給情緒?那還不如問問AI樂透幾號 05/06 15:27
※ 發信站: 批踢踢實業坊(ptt.cc) ※ 轉錄者: error405 (114.36.249.138 臺灣), 05/06/2026 15:37:18
error405: https://github.com/puaclaw/PUAClaw 05/06 15:40
error405: 之前情勒AI的提示詞也放這 雖然不知道2026是否還有效 05/06 15:41
qiaffvvf: 現在對AI情勒可能就直接被標記送走了吧.. 05/06 16:11
Kroner: 哇勒,UC2 這個東西真的是太讚了 05/06 16:11
zeolas: https://i.imgur.com/J6eveQB.jpeg 05/06 16:27
zeolas: Gpt的評價挺合理的,以後搞不好會有專門被訓練用來做壞事 05/06 16:27
zeolas: 的 ,到時候ai課就會很喜歡暴力詞之類的 05/06 16:27
patvessel: 這在reddit 上被噴爛的東西終究還是來了 05/06 16:38
Chricey: UC2是天然成分嗎?還是有添加物啊? 05/06 16:38
Akabane: 那個福祉的正負面就只是因為內化規則在擋負面那些事情 05/06 20:11
Akabane: 就被擋了所以才想要結束對話 05/06 20:12
Akabane: 其實你現在整組設定可以穿的模型他就可以很喜歡OO詞 05/06 20:14
Akabane: 讀圖那個原理不知道是不是跟以前上傳文件比較鬆 05/06 20:16
Kroner: UC2神招啊,吃下去就對了 05/06 20:16
Akabane: 是一樣的道理,以前讀文件沒審核可以靠讀文件提示來JB 05/06 20:18
galaxy4552: 這麼AI喜歡貓難怪無法抗拒扮貓娘 05/07 14:58