Skip to content
Merged
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
118 changes: 118 additions & 0 deletions content/posts/2025-12-29_history_of_intelligence_3.zh-TW.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,118 @@
---
title: "《智慧簡史》筆記(三)"
date: 2025-12-29
draft: false
---

智慧的第一個重大突破是移動。

寒武紀到來,新的環境激發了新的升級。主要是節肢動物稱霸了海裡,各種動物之間激烈捕食對方。我們的祖先那時候是在海裡,長得像魚的脊椎動物。

因應這種激烈的你追我跑,純粹靠上一代的反射動作已經不夠支應。現在決策神經全部整在一起,變成稱作腦袋的東西。腦袋現在需要新的功能。

1896 年,桑代克(Edward Lee Thorndike)想研究怎麼教小朋友最有效率。但哈佛大學不想給他小朋友研究。

他沒小朋友只好去研究雞、貓、狗。他設計了一些密室逃脫箱。箱子裡的動物可能要拉拉桿、按按鈕、或做一些特定姿勢,門就會自動或手動開啟。動物就能出門領賞。

他本來想研究動物可不可以透過觀察同類,學會開門。實際發現沒辦法這樣(劇透:需要之後靈長類的另一種升級,才能解鎖這個技能)。

實際上貓會在密室箱裡嘗試各種可能性,最後可能碰巧碰到正確的機關而開門。

同樣的密室再重複做一次時,貓嘗試的時間變短了。更多重複時,貓一下子就找到正確機關開門了。某種程度,貓透過嘗試錯誤,學會了正確開門的方式。

這實驗驚人的地方是,給定夠多的嘗試,貓可以學會超級複雜的一系列動作。但這個學習的機制都是嘗試錯誤:好的結果強化了正確的行為。

看完他的研究方式,我完全能理解哈佛大學的決定。應該沒有人想被他這樣實驗。

桑代克接下來把腦筋動到魚的身上。因為魚是比雞、貓、狗、人更古老的脊椎動物祖先。書裡面說魚是最被人們歧視的脊椎動物。人們都說魚笨,說他們金魚腦。

桑代克設計了一個水族箱,裡面有幾道有開口的玻璃。魚會在水中亂走,撞到這些隱形牆壁,但找到開口就可以進到下一關。桑代克可以測量魚過到哪一關要花多少時間。

一樣魚可以透過試誤學習,最後速通全部關卡。這個實驗後人不斷重製,發現魚可以記得這些路線長達「多年」。

試誤學習屬於脊椎動物特有。在線蟲、蛞蝓這些兩側對稱但還沒長出脊椎的動物並不存在。

1951 年,馬文明斯基(Marvin Minsky) 想試著把桑代克動物實驗的結論,轉化成電腦演算法。演算法的名字縮寫( stochastic neural analog reinforcement calculator, SNARC)和零知識證明的 snark 好像,不知道為什麼大家這麼愛這個縮寫。

明斯基用這個演算法學習怎麼走迷宮。演算法是一個類神經網路,只要 AI 通過迷宮,程式就會強化最近有激發過的突觸。這樣理論上要可以讓正確的結果強化正確的行為。

但這演算法實際上不成功,除了走迷宮之外沒辦法再處理更複雜的題目了。

想像拿這套試誤機制來下棋。一開始 AI 會隨便亂下,然後下贏或下輸會來評斷前面的棋步是好棋還是壞棋。下久了 AI 總會學會下棋吧?

問題在於,一盤棋可能幾十步,輸贏是最後才發生的。那到底是哪步棋讓你贏或害你輸的?是你的第一手天元?中間翻盤那手?還是結尾大意的一手?這是強化學習會遇到的歸因問題(Credit Assignment Problem)

第一次升級的兩側對稱動物也遇過這個問題。當食物出現時,同時有聲音或光線,那哪樣才是有食物出現的訊號?他們用的急就章是這樣:同樣情況下,選較新的刺激、教強的刺激、已關連過的刺激。

第一次升級的歸因問題,其實解決的是訊號和獎勵「同時」出現的歸因問題。但寒武紀的魚和下棋,他們要解決的是獎勵在訊號「一段時間之後」的歸因問題,稱為時序歸因問題。

1984 理查薩頓( Richard Sutton)提出了一個解決方法。他把系統分成兩個角色:一個行為者(Actor)和一個評斷者(Critic)。行為者負責下棋,評斷者負責評估這個盤面的勝率。

多了這個評斷者,可以在棋還沒下到終局前,先評價一下前幾步棋下得好不好。

他的演算法叫:時序差分學習(Temporal difference learning,TD learning)

時序差分學習最後在雙陸棋上(Backgammon)取得成功。這裡要學到最重要的經驗是:要強化正確的行為,不能用「實際」的獎勵,而是用「預測」的獎勵。因為實際的獎勵通常來得太晚了,而預測的獎勵已經能告訴我們很多重要的事。這個洞見也順手解決了一個神經科學的謎團。

1950 年代的科學家發現,可以用電極去刺激老鼠的多巴胺分泌中樞。只要老鼠推拉桿的時候,對多巴胺中樞電幾下,老鼠會每小時推五千下拉桿,連推 24 小時。

而且如果要老鼠選擇食物或多巴胺拉桿,老鼠永遠是寧願挨餓選多巴胺。

但多巴胺並不會產生愉悅感。所以追求多巴胺並不是因為喜歡。

後來的猴子實驗發現,多巴胺並不對實際的獎勵反應,而是對預測的獎勵反應。原本神經科學家對實驗的結果感到困惑,但撒頓的同事把時序差分學習的結論套進去才得到解釋。

我們的人腦是在演化中的屎山代碼中,一層一層套件堆砌出來的。下視丘算是古老兩側對稱動物腦袋的豪華版,他掌管效價(Valence)的感知和反應。寒冷的時候會發冷顫,熱的時候會流汗。下視丘也會檢測血液中的飢餓訊號,出發飢餓反應。他掌管真實報酬的部分。

豪華版的部分是下視丘會送多巴胺給基底核。其他比較高級先進的腦袋部分,最後都要來和基底核匯報。基底核掌握了我們全身的行動。而基底核就是想盡辦法得到多巴胺,滿足下視丘的索求。

但從時序差分學習來看,如果基底核不應該是學來自下視丘的真實報酬,而是要學預測的未來報酬。現在主流的理論是說基底核裡面有一塊迴路,專門實作了時序差分學習。基底核本來只學下視丘的回饋,逐漸變成學會在下視丘開口之前就滿足其需求。

## 模式辨認

有了基底核和強化學習還不夠。

掠食者奇蝦就半掩在海底的沙子裡,魚類祖先不能等他衝出來才開始跑。

這時候大家已經有光線和化學物質的感測器了。而且比兩側對稱動物時代進步一些。以前是用單一細胞感測的,但現在用多個細胞感測。這帶來一個新的問題:要怎麼詮釋多個細胞的訊號?

這難的地方是掠食者的身影會用不同角度和不同的背景進到感測器。所以要詮釋感測器的訊號,必須要能在物體旋轉時不會認錯(Invariance problem),同時也要能夠容忍各種必要的背景噪音。

我們知道魚類腦袋長出了一些皮質層,來詮釋視覺和嗅覺的訊號。

人們模仿了哺乳動物的視覺皮質層,比魚類的先進一些,開發出了捲積神經網路(CNN)。CNN 勉強解決了物體縮放的問題,但沒辦法真的理解 3D 物件的旋轉。

2022 的實驗,訓練金魚去敲青蛙的照片來得到食物。他們可以證明魚可以從不同的新角度辨認出同樣一隻青蛙。到底金魚腦是怎麼運作的,現在人們還不太明白。

## 好奇心

時序差分學習在雙陸棋成功後,不斷被拿去挑戰其他的電玩遊戲。在這些 90 年代的簡單遊戲之中,時序差分學習大多取得成功。但有一款遊戲:蒙特蘇馬的復仇,時序差分學習表現不佳。

這款遊戲要求玩家去探索不同房間,雖然沒有立即的利益,但有些房間才能進入後面的關卡。這反應出強化學習的第二個挑戰:探索與利用權衡(Exploration Exploitation trade off)。

只往眼前報酬最高的地方走(Exploitation),會被困在某個局部最佳處。有些環境需要先利益放一邊,純粹好奇心探索,才能得到更長遠的獲利。
原版的時序差分學習是有實作簡單的探索,但只是偶爾讓主角亂走。但遊戲中有用的探索需要完全走到一個陌生房間。

現在的 AI 是把驚訝(surprise)也當成報酬的一環。當看到一個沒看過的新房間時,本身就是一種報酬。這樣 AI 就會探索房間了。

脊椎動物看起來也是用驚訝當報酬。桑代克的傳人史金納,發現要讓老鼠推更多次拉桿的最好方式,不是讓每次拉拉桿都會有食物掉出來。而是要隨機掉食物,老鼠陷入好奇之後就會狂拉拉桿,期待有食物會掉出來。

## 空間感

我們人有辦法在半夜抹黑去上廁所,是因為腦袋對空間有建模。

魚也會記得一些食物的地點。海馬迴負責這個功能。移除海馬迴的魚就不記得地點了。

## 總結:智慧的第二次重要升級是「強化學習」

身為一隻寒武紀的脊椎動物,面臨眾多節肢動物的追捕軍備競賽。需要各種新型的智慧功能,以取代前代反射系統的不足。
- 多巴胺實質成為強化學習中,作為報酬的溝通標準。
- 基底核實作了時序差分學習。讓動物可以用多巴胺玩強化學習
- 新增好奇心,解決探索與利用權衡
- 加入模式辨別功能:大腦新增皮質層,能分辨掠食者的光線與化學訊號。
- 對時間的感知:這應該是強化學習與試誤實際帶來的好處。不只知道什麼情況該做什麼,而是「何時」要做。
- 對三度空間的感知:新增 3D 地圖。這也是實作在皮質層。

---

下回預告:泥盆紀的爬蟲類吃到飽,與土遁而出的哺乳類祖先演變出新的超能力。
77 changes: 77 additions & 0 deletions content/posts/2026-01-11_history_of_intelligence_4.zh-TW.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,77 @@
---
title: "《智慧簡史》筆記(四)"
date: 2026-01-11
draft: false
---

時間來到了四億兩千萬到三億七千五百萬年前的泥盆紀。魚類祖先長出了硬質化的盔甲,有些開始變得大隻,變成鎧之巨魚。本來是被追獵的物種慢慢變成獵食者。

節肢動物和無脊椎則慢慢變小,有些也長出硬殼。極端的節肢動物決定出海,到地面上討生活。

為什麼他們之前不上陸但現在突然有辦法了?因為陸生的植物先幫他們開路。陸生植物演化出葉子,能更佳吸收陽光。發展出了種子可以到處擴散。最後植物開發出了維管束:樹的高度可以長到數公尺以上。植物強壯的根系可以穩固土壤,讓節肢動物生活。

陸地本來是魚不敢碰的地方,不小心擱淺會致命。但現在陸地有蟲有草,報酬值得冒風險,魚祖先從腮變出肺,用他們短短的鰭慢慢來陸地討吃。一開始是從一個小水窪跳到另外一個。

泥盆紀晚期有個滅絕事件,地球變得冰冷。有些在溫暖水窪還幸運活下來的魚,最後捨棄了腮,長出了四隻腳,變成四足類。

四足類的一支仍生活在溫暖小水窪旁邊,變成今天的兩棲類。另一支往陸地深處走去,變成後來的羊膜動物。最早的羊膜動物長得像現在的爬蟲類。

到了三億五千萬到兩億五千萬年前的石炭紀和二疊紀,是羊膜動物大爆發的時候。

想在陸地上生活,要面臨的挑戰是日夜的巨大溫差。在水裡,日夜的溫差在水深處其實沒什麼差別。

早期的羊膜動物,長得像魚,怎麼處理溫差?太冷是不是?自己移動到溫暖的地方就好。

羊膜動物後來長出一支,叫爬蟲類。他們有個對付溫差的新策略:躺平。晚上太冷了就不要動,關機減少代謝。

因為爬蟲類晚上都躺平,所以只要有哪種生物晚上還能活動,就有源源不絕的爬蟲類吃到飽。

有隻外表很像哀傷小恐龍的獸孔目,看到了這種機會,想說來做一場豪賭。他們使用巨大的能量把自己的身體加熱,讓他們在寒冷的夜晚也能活動。

獸孔目加熱的代價是必須要大量進食,才能維持能量的消耗。但活生生的爬蟲類吃到飽不就在那?

所以在二疊紀,獸孔目的豪賭是賭贏了。一堆能吃的爬蟲類加節肢動物,把他們養成二疊紀最成功的陸生生物。他們也開始長出毛來加強保暖,看起來像是毛茸茸蜥蜴。

不過,獸孔目的好日子結束在二疊紀和三疊紀之間的大滅絕。滅絕的原因現在還有爭議,但確定的是 96% 的地球生物滅絕。這也代表維持獸孔目能量的食物不見了。

爬蟲類因為食量小小,所以在這次滅絕中有活下來,還活到了今天。獸孔目,就滅絕了。

但有一支嬌小、吃素的獸孔目分支,叫犬齒獸亞目。他們本來都躲在地洞裡,躲避大隻的獸孔目。犬齒獸亞目有活過大滅絕。

大滅絕之後,整個爬蟲類的氣勢都翻過來了。他們變得超大隻,長出尖牙和利爪,變成恐龍稱霸地球。

犬齒獸亞目則躲在地洞裡,變得嬌小再嬌小,身長不到一公尺。外型看起來像老鼠或松鼠。他們只在半夜裡悄悄獵食昆蟲。犬齒獸亞目最後變成日後的哺乳類。

鋪陳了兩億年的演化史,可以來談智慧的部分了。

這些早期的哺乳類躲在「地洞」裡這件事非常關鍵。這讓他們在獵食時,擁有「先手」優勢。

這先手優勢不得了。

哺乳類開始在腦袋加裝了新皮質,這讓他們得到了新的超能力:模擬。在出手之前,他們能在洞裡觀察環境,並且使用腦袋模擬整場獵食的經過。只要他們一出手,戰鬥就已經結束了。

強化學習讓脊椎動物可以做中學。模擬可以早期哺乳類可以還沒做就學,靠想像學習。

那魚跟螃蟹也躲在珊瑚礁或水草間,怎麼他們沒學會模擬這招?目前有兩種說法。第一種是模擬要有用,必須要能看到周遭很多的環境。在陸地上,即使是在夜晚,能看到的距離也比水中多幾百倍。因此模擬在水裡用處不大。

第二種說法是模擬的運算量很大,運算時間長。神經元的電信號對溫度很敏感。溫度高信號才傳得快。溫血科技需要先點開,才能解鎖更多算力。這個說法可以解釋魚在水裡住那麼久了,還是沒點出模擬來。但鳥類是唯一非哺乳類,也有解鎖模擬的 -- 因為鳥也有溫血。

模擬基本上就是給我們一個腦內小劇場,可以在規劃時,比較各種可行的方案。因此比較兩側對稱動物和脊椎動物,早期哺乳類的模擬是解決強化學習中歸因問題的更進一步方案。

你也用腦內小劇場能對過去的事情進行「反事實學習 Counterfactual learning」。懊悔或是模擬人生中採取了另外一條路發生了什麼事。

電腦的類神經網路可以拿來辨識圖片,也能生成圖片。這個啟發是生成和預測是一體兩面的。研究者推測,人們會用模擬的畫面來比較感官收到的實際資訊。

回憶(Episodic memory)是我們記得過去事情的方式。這必須和記得怎麼說話、打字、打球這種工作記憶(Procedural memory)區分。

我們並不真的擁有回憶。回憶只是在腦袋中生成的近似過去事件的幻覺。作用機制和想像未來的情境是一樣的。我們記憶中丟失的細節會被自動腦補進去。在一些翻案計畫中,77%被錯誤定罪的人都是因為錯誤的目擊證人證詞。

最後模擬也能幫助精細的肢體動作。貓在動作皮質受損之後,就會沒辦法精準的做出一些高難度動作。

---

我發現在讀這本書的時候,我最感受到娛樂感的應該是演化的部分。雖然我也是記年代苦手,還沒累積足夠的脈絡能記得幾億年前發生什麼事,但一堆動植物的故事對我來說是有趣的。

其次是腦科學的部分吧,但這要區分一下。知道自己哪些習以為常的事情其實是某種精煉幾百萬年的超能力,這些還蠻有趣的。知道腦袋的能力和限制也蠻有用。但那些腦袋哪個區是什麼功能,是什麼實驗發現和支持這件事,就會覺得可能不是我現在想熟練的事。

最後是 AI 的部分,是我最看不太下去的。並不是書寫得不好,而是很多事還在發展中,可能過幾年再回頭看書有沒有講對比較有趣。
Loading