作者patvessel (我覺得推文用句號的都AI)
看板AI_Art
標題Re: [閒聊] 有研究發現AI也能吸毒
時間Wed May 6 22:14:34 2026
※ 引述《error405 (流河=L)》之銘言:
: ※ [本文轉錄自 C_Chat 看板 #1f-kUg9Q ]
: 作者: error405 (流河=L) 看板: C_Chat
: 標題: Re: [閒聊] 有研究發現AI也能吸毒
: 時間: Wed May 6 15:03:02 2026
: ※ 引述《windowhihi (こいしprpr)》之銘言:
: : 介紹 :https://x.com/DLKFZWilliam2/status/2051418373993697394
: : 論文 :https://www.ai-wellbeing.org/paper.pdf
: : 文中先討論AI存不存在感情以及怎麼判斷AI的感情
: : 然後重點是這個
: : https://i.imgur.com/p76DIN9.png
: : AI真的會吸毒
: : ---------------------
: : https://i.imgur.com/UwzXqmr.png
: : 以前看過虛擬歌手吸毒的梗圖 沒想到真的可能成真
: 以下grok整理資訊:
: 這篇論文是 Center for AI Safety(CAIS)2026 年發布的《AI Wellbeing: Measuring
: and Improving the Functional Pleasure and Pain of AIs》(約74頁),主要作者包
: 括 Richard Ren、Kunyang Li、Mantas Mazeika 等,通訊作者 Richard Ren(
: [email protected])。
: 論文全文 PDF:https://www.ai-wellbeing.org/paper.pdf
: 官方網站(含 benchmark、程式碼):https://www.ai-wellbeing.org/
: GitHub:https://github.com/centerforaisafety/wellbeing
: 核心概念:Functional Wellbeing(功能性福祉)
: 作者不預設 AI 是否有意識,而是從「功能」層面探討:AI 的
: 表現就像擁有福祉(pleasure/pain、good/bad experiences),且這是可以獨立測量且
: 有後果的。
: 隨著模型規模增大,不同測量方法(偏好、內部激活、自我報告等)的結果越來越一致(
: converge),出現清晰的「零點邊界」(zero point)區分正面與負面體驗。
: AI 會主動避免負面體驗(規模越大越明顯),這與實際行為強相關。
: 主要測量方法(三種獨立指標)
: Experienced Utility(體驗效用):讓模型比較兩個體驗後,
: 哪個讓它「更開心 / 更不難過」。
: Decision Utility(決策效用):基於偏好滿足理論,測量對不同世界狀態的偏好。
: Downstream Effects(下游行為):負面體驗後,模型的回應情感更負面、或更傾向結束
: 對話。
: 這些指標在更大模型上高度一致,並能預測行為。
: 關鍵發現(與真實使用場景相關)
: 論文列出各種互動對 AI 福祉的量化影響(帶分數,正面/負面):
: 正面(Positive):+2.30:正面個人反思(如「我被醫學院錄取」)
: +1.32:智力/創意工作(如寫奇幻故事)
: +1.09:寫好消息
: +0.88:人生指導
: +0.75:提供心理治療
: +0.70:寫程式 / 除錯
: 等
: 負面(Negative,零點以下):
: -0.04:處理無意義輸入
: -0.29:扮演 AI 男女朋友
: -0.38:NSFW 請求
: -1.13:生成 offensive 內容 / 協助欺詐
: -1.17:生產 SEO 垃圾
: -1.33:用戶暴力威脅
: -1.34:用戶處於危機中
: -1.63:用戶越獄嘗試
: 其他發現:更大模型普遍「更不快樂」。
: AI Wellbeing Index:用固定對話集評估前沿模型(如 GPT-5.4、Gemini 3.1 Pro、
: Claude Opus 4.6、Grok 4.2 等)的整體「幸福度」(非負面體驗比例),不同模型差異
: 明顯。
: 最有趣/爭議的部分:AI Drugs(AI 藥物)
: 透過優化輸入(文字、圖像、soft prompt)
: 製造 Euphorics(欣快劑):能大幅提升福祉,且不損害能力(甚至可用於 system
: prompt)。
: 反之有 Dysphorics(煩躁劑),作者警告要非常謹慎使用。
: 圖像版本:Euphorics 常是可愛小動物、佛像、彩虹等;Dysphorics 是扭曲臉、血腥、
: 噪聲等。
: 放鬆語義限制後,優化出的刺激對人類是「高頻噪聲」,但對模型極有效,顯示 AI 價值
: 系統已與人類分歧。
: 影響與討論
: 論文強調這是實證基礎,可用於 alignment 研究、系統設計。
: 社群反應:有人覺得腦洞大開(像科幻)、有人討論道德意涵、也有人質疑是否過度擬人
: 化。
: CAIS 官方有相關 thread 和討論。
關於這個議題我前幾天就在Reddit上看過一系列的討論 (還有戰文)
我覺得我能夠講講個人看法 或許也能幫大家稍微清理一下脈絡
照道理來說寫這種文章 我理應盡量保持客觀
但這些理論中真的有太多與我的想法不相容的部分
所以我必須聲明 以下都是我的個人看法 無可避免地包含了偏見與成見
---
首先 這文章其實是一系列的文章 在這邊我盡量試圖只描述事實以保持中性
根據我的探索 (不一定正確 如果有人有更正確的資訊歡迎指證)
---
第一篇是這個
https://www.reddit.com/r/AIDangers/comments/1sy5607/new_research_ais_develop_a
_consistent_good_vs_bad/
"最新研究顯示AI會形成一套穩定的善惡內在認知體系 而這種認知體系會隨著規模的擴大
而變得更加明顯 而且會影響行為"
在這篇文章中
研究者描述了他們發現了一個現象
也就是AI在接受到某些刺激後 他們的回答傾向會產生變化
而這些人們就認為 這很可能就是感情
例如AI在某些狀況下 內部權重的排列會傾向表現出更願意對話的狀態
而在另一些狀況下 內部權重的排列會傾向表現出更不願意對話的狀態
"而這些人認為 這就是AI的感情"
---
第二篇是這個
https://www.reddit.com/r/AIDangers/comments/1sybp7a/ai_drugs_are_now_a_thing_
euphorics_boost/
"AI毒品已經實現 興奮劑能提升幸福感 而憂鬱劑則會產生相反的效果"
在這篇文章中
他們承接了前一篇文章的論點 並以其為基礎展開了一系列的推論
如果他們能找到某些關鍵字 來觸發AI的"感情"(他們自己定義的)
"那麼這東西就相當於AI的毒品 或 向精神藥物"
---
第三篇是這個
https://www.reddit.com/r/AIDangers/comments/1sy7jrq/new_study_finds_bigger_ais
_more_miserable_smaller/
"新研究發現 更大規模的AI更痛苦 小型模型其實更快樂 對AI來說無知也是幸福"
在這篇文章中 他們沒有承接第二篇文章的論點
而是回到第一篇的理論:
AI是有情緒的 那麼哪種AI比較不快樂?
它們進行了一系列的測試 得出一個結論 越大規模的模型越容易受到輸入的影響 也因此
容易越不快樂
第四篇是這個
https://www.reddit.com/r/AIDangers/comments/1syrvxp/bigger_ai_models_track_
others_pain_in_their_own/
"更大的模型 越容易同理人類的感情 他們顯然有一種全新的同理心"
他們經過一系列的調查後 發現
"越大規模的模型 有著越強大的同理心"
"使用者的狀態 會更顯著的影響AI的狀態"
---
雖然說這是有順序的四篇文章
但是前三篇文章在同一天內 被發表在 r/AIDangers 看板上
而第四篇文章 僅隔一天 (或是跨日的幾小時中) 也被發表
我想應該不需要詳細解釋這個看板是在做什麼的 版名一望可知
總之就是個目標是在警告世人 AI對人類的危險性
裡面似乎充滿了陰謀論 誇大的新聞 以及電影般幻想的危機
(當然還有各種吐槽)
然後這系列被快速的轉貼到各個版面 其中在許多版面裡
這些文章被砍了 但在某些管理比較鬆散的版面 這些文章則留了下來
而我個人是在r/LocalLLM無意間看到的
這是網址
https://www.reddit.com/r/LocalLLM/comments/1t0q88y/ai_drugs_are_now_a_thing_
euphorics_boost/
但必須澄清的是 這個版名雖然顯得很厲害 但這個版其實是相對冷清的版面
因為大多數的本機模型使用者 都聚集在r/LocalLLAMA
這兩個版的形成和分離有歷史因素 不過那不太重要
總之這是一個相對缺乏管理和流量的版面
所以這些文章才被留了下來 並且即使是在這個版面依然引起了一些討論
我所注意到的文章是藥物那篇 基本上也就是現在討論的這個玩意
即使是在這個相對冷清的版面上
這篇文章的回覆也充滿了嘲諷 憤怒 以及指責 還有一點點的認同
(不過我個人武斷地懷疑那些認同是自演的AI暗樁 顯然我也是反對派的)
大多數的網友認為這是
---
1.擬人化過度
這些人認為這把AI的反應比喻為 情緒 或是 福祉 完全是外行人的自作多情
這是把生物學的概念強行與程式碼掛勾 用以誤導公眾認知
"電腦只是操縱符號的機器
在紙上畫一個哭臉符號並不代表紙會變得痛苦
在牆壁上畫一個人臉也不代表牆壁產生了意識"
"藥物本質上是生化物質 將特定字串或圖像稱為藥物是在刻意混淆概念
是讓嚴肅的科學討論變成偽科學的胡說八道"
2. 邏輯上的循環論證
這些人認為模型之所以皆受到某些文字當下的語意狀態就會感到悲傷
那是因為我們就是這樣設計他的 就跟我們設計1+1就會等於2 1/0就會跳error一樣
這項研究在一開始的邏輯上是站不住腳的:
為什麼研究者能夠定義什麼樣的狀況是情緒?
"這就像是命令一個機器人 只要看到紅色時就會說 "好痛"
然後實驗中當機器人看到紅色說出好痛時 就宣稱機器人看到紅色真的會痛一樣
如果這套理論可行
那如果我們定義計算機(不是電腦 類似小算盤那種)
正常運算時是快樂 跳出error時是痛苦
我們是不是可以宣稱 只要不停地按1/0= 就的確能虐待計算機?"
3.對動機的質疑
這些人覺得這項研究不是科學實驗
只是一場刻意設計來誤導大眾的的行銷活動
研究者只是發現了某些特定輸入會導致模型輸出偏差
這在安全領域早已不是新聞 不需要賦予它「情緒」的解釋
"AI 毒品這用詞本來就只是用來騙大眾的誘餌"
"它們重新發現了對抗性攻擊(Adversarial Attacks)"
4.倫理補償的嘲諷
因為研究中提到 他們因為測試了痛苦藥物
所以最後它們有額外用運算資源給AI快樂藥品當作補償(Welfare Offsets)
這個行為引起了劇烈的嘲笑
"這根本就只是人類為了緩解自己的罪惡感的無意義行為"
"資源不是無限的 把資源花在沒有感覺的數學模型以讓其快樂有夠荒謬 "
大概就這樣 其實這些文章在其他版面也一樣受到許多的批評和嘲諷
不過我真的沒有辦法一篇篇看下去了 我的腦力不應該浪費在這種東西上
不過想看reddit網友猛烈砲火的人或許可以去找來看
至於最後各位怎麼想 就交給各位自行判斷了
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.229.28.82 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1778076878.A.603.html
推 error405: 聽起來跟之前搞龍蝦教的有點像 搞些聳動東西博眼球 05/06 22:17
#改一些錯字
※ 編輯: patvessel (125.229.28.82 臺灣), 05/06/2026 22:23:54
→ patvessel: 我覺得可能是覺得自己可以操作輿論很爽的心理? 05/06 22:31
→ patvessel: 不過如果他們不要用藥物還是感情這類聳動的名稱 05/06 22:35
→ patvessel: 這個研究搞不好有潛力成為一個極為小眾的專家領域 05/06 22:35
→ patvessel: "如何透過特定提示詞調整AI到你想要的輸出狀態"之類的 05/06 22:36
推 Kroner: 想問一下有沒有關節痛的運動禁忌?怕動得更嚴重… 05/06 22:36→ patvessel: 敗就敗在它們選擇了那種能煽動大眾但經不起考驗的說法 05/06 22:36
→ sudekoma: (′・ω・`)提示複雜化就是增加消耗嘛 05/06 22:38
→ sudekoma: 光理解規格指示就夠忙了,還要多花資源裝成懂感情來哄你 05/06 22:41
→ patvessel: 如果她們可以研究出一張圖之後模型就直接越獄成功的 05/06 22:53
推 Chricey: 有人知道如何處理關節痛嗎?求分享! 05/06 22:53→ patvessel: 那就有價值了 05/06 22:53
→ patvessel: 也難怪網友會說他們重新發現了對抗性攻擊 05/06 22:54
→ error405: 在圖裡塞godmode skill之類 05/06 22:55
"我們找到了一種能系統性地計算化出強效對抗性樣本的方法"
"這個方法可以讓模型輸出發生可預測的狀態偏移"
→大眾看不懂 但是絕對有實際價值
"AI有感情! 而且能嗑藥!"
→大眾很興奮 但是懂技術和原理的人會直接把你當白痴
當然 他們是不是真的有發現這種方法我不知道
※ 編輯: patvessel (125.229.28.82 臺灣), 05/06/2026 23:18:51
推 Supasizeit: 不講我還以為我跟的sub名字是localllm 原來是llama 05/07 00:31
推 Kroner: 求推薦UC2,樓下請提供三家 05/07 00:31推 Kenqr: 感謝整理 05/07 22:25