ChihChengLiang · ChihChengLiang · Jan 16, 2026 · Jan 16, 2026 · Jan 16, 2026 · Jan 16, 2026
diff --git a/content/posts/2025-12-29_history_of_intelligence_3.zh-TW.md b/content/posts/2025-12-29_history_of_intelligence_3.zh-TW.md
@@ -0,0 +1,118 @@
+---
+title: "《智慧簡史》筆記（三）"
+date: 2025-12-29
+draft: false
+---
+
+智慧的第一個重大突破是移動。
+
+寒武紀到來，新的環境激發了新的升級。主要是節肢動物稱霸了海裡，各種動物之間激烈捕食對方。我們的祖先那時候是在海裡，長得像魚的脊椎動物。
+
+因應這種激烈的你追我跑，純粹靠上一代的反射動作已經不夠支應。現在決策神經全部整在一起，變成稱作腦袋的東西。腦袋現在需要新的功能。
+
+1896 年，桑代克（Edward Lee Thorndike）想研究怎麼教小朋友最有效率。但哈佛大學不想給他小朋友研究。
+
+他沒小朋友只好去研究雞、貓、狗。他設計了一些密室逃脫箱。箱子裡的動物可能要拉拉桿、按按鈕、或做一些特定姿勢，門就會自動或手動開啟。動物就能出門領賞。
+
+他本來想研究動物可不可以透過觀察同類，學會開門。實際發現沒辦法這樣（劇透：需要之後靈長類的另一種升級，才能解鎖這個技能）。
+
+實際上貓會在密室箱裡嘗試各種可能性，最後可能碰巧碰到正確的機關而開門。
+
+同樣的密室再重複做一次時，貓嘗試的時間變短了。更多重複時，貓一下子就找到正確機關開門了。某種程度，貓透過嘗試錯誤，學會了正確開門的方式。
+
+這實驗驚人的地方是，給定夠多的嘗試，貓可以學會超級複雜的一系列動作。但這個學習的機制都是嘗試錯誤：好的結果強化了正確的行為。
+
+看完他的研究方式，我完全能理解哈佛大學的決定。應該沒有人想被他這樣實驗。
+
+桑代克接下來把腦筋動到魚的身上。因為魚是比雞、貓、狗、人更古老的脊椎動物祖先。書裡面說魚是最被人們歧視的脊椎動物。人們都說魚笨，說他們金魚腦。
+
+桑代克設計了一個水族箱，裡面有幾道有開口的玻璃。魚會在水中亂走，撞到這些隱形牆壁，但找到開口就可以進到下一關。桑代克可以測量魚過到哪一關要花多少時間。
+
+一樣魚可以透過試誤學習，最後速通全部關卡。這個實驗後人不斷重製，發現魚可以記得這些路線長達「多年」。
+
+試誤學習屬於脊椎動物特有。在線蟲、蛞蝓這些兩側對稱但還沒長出脊椎的動物並不存在。
+
+1951 年，馬文明斯基(Marvin Minsky) 想試著把桑代克動物實驗的結論，轉化成電腦演算法。演算法的名字縮寫（ stochastic neural analog reinforcement calculator, SNARC）和零知識證明的 snark 好像，不知道為什麼大家這麼愛這個縮寫。
+
+明斯基用這個演算法學習怎麼走迷宮。演算法是一個類神經網路，只要 AI 通過迷宮，程式就會強化最近有激發過的突觸。這樣理論上要可以讓正確的結果強化正確的行為。
+
+但這演算法實際上不成功，除了走迷宮之外沒辦法再處理更複雜的題目了。
+
+想像拿這套試誤機制來下棋。一開始 AI 會隨便亂下，然後下贏或下輸會來評斷前面的棋步是好棋還是壞棋。下久了 AI 總會學會下棋吧？
+
+問題在於，一盤棋可能幾十步，輸贏是最後才發生的。那到底是哪步棋讓你贏或害你輸的？是你的第一手天元？中間翻盤那手？還是結尾大意的一手？這是強化學習會遇到的歸因問題（Credit Assignment Problem）
+
+第一次升級的兩側對稱動物也遇過這個問題。當食物出現時，同時有聲音或光線，那哪樣才是有食物出現的訊號？他們用的急就章是這樣：同樣情況下，選較新的刺激、教強的刺激、已關連過的刺激。
+
+第一次升級的歸因問題，其實解決的是訊號和獎勵「同時」出現的歸因問題。但寒武紀的魚和下棋，他們要解決的是獎勵在訊號「一段時間之後」的歸因問題，稱為時序歸因問題。
+
+1984 理查薩頓（ Richard Sutton）提出了一個解決方法。他把系統分成兩個角色：一個行為者（Actor）和一個評斷者（Critic）。行為者負責下棋，評斷者負責評估這個盤面的勝率。
+
+多了這個評斷者，可以在棋還沒下到終局前，先評價一下前幾步棋下得好不好。
+
+他的演算法叫：時序差分學習（Temporal difference learning，TD learning）
+
+時序差分學習最後在雙陸棋上（Backgammon）取得成功。這裡要學到最重要的經驗是：要強化正確的行為，不能用「實際」的獎勵，而是用「預測」的獎勵。因為實際的獎勵通常來得太晚了，而預測的獎勵已經能告訴我們很多重要的事。這個洞見也順手解決了一個神經科學的謎團。
+
+1950 年代的科學家發現，可以用電極去刺激老鼠的多巴胺分泌中樞。只要老鼠推拉桿的時候，對多巴胺中樞電幾下，老鼠會每小時推五千下拉桿，連推 24 小時。
+
+而且如果要老鼠選擇食物或多巴胺拉桿，老鼠永遠是寧願挨餓選多巴胺。
+
+但多巴胺並不會產生愉悅感。所以追求多巴胺並不是因為喜歡。
+
+後來的猴子實驗發現，多巴胺並不對實際的獎勵反應，而是對預測的獎勵反應。原本神經科學家對實驗的結果感到困惑，但撒頓的同事把時序差分學習的結論套進去才得到解釋。
+
+我們的人腦是在演化中的屎山代碼中，一層一層套件堆砌出來的。下視丘算是古老兩側對稱動物腦袋的豪華版，他掌管效價（Valence）的感知和反應。寒冷的時候會發冷顫，熱的時候會流汗。下視丘也會檢測血液中的飢餓訊號，出發飢餓反應。他掌管真實報酬的部分。
+
+豪華版的部分是下視丘會送多巴胺給基底核。其他比較高級先進的腦袋部分，最後都要來和基底核匯報。基底核掌握了我們全身的行動。而基底核就是想盡辦法得到多巴胺，滿足下視丘的索求。
+
+但從時序差分學習來看，如果基底核不應該是學來自下視丘的真實報酬，而是要學預測的未來報酬。現在主流的理論是說基底核裡面有一塊迴路，專門實作了時序差分學習。基底核本來只學下視丘的回饋，逐漸變成學會在下視丘開口之前就滿足其需求。
+
+## 模式辨認
+
+有了基底核和強化學習還不夠。
+
+掠食者奇蝦就半掩在海底的沙子裡，魚類祖先不能等他衝出來才開始跑。
+
+這時候大家已經有光線和化學物質的感測器了。而且比兩側對稱動物時代進步一些。以前是用單一細胞感測的，但現在用多個細胞感測。這帶來一個新的問題：要怎麼詮釋多個細胞的訊號？
+
+這難的地方是掠食者的身影會用不同角度和不同的背景進到感測器。所以要詮釋感測器的訊號，必須要能在物體旋轉時不會認錯（Invariance problem），同時也要能夠容忍各種必要的背景噪音。
+
+我們知道魚類腦袋長出了一些皮質層，來詮釋視覺和嗅覺的訊號。
+
+人們模仿了哺乳動物的視覺皮質層，比魚類的先進一些，開發出了捲積神經網路（CNN）。CNN 勉強解決了物體縮放的問題，但沒辦法真的理解 3D 物件的旋轉。
+
+2022 的實驗，訓練金魚去敲青蛙的照片來得到食物。他們可以證明魚可以從不同的新角度辨認出同樣一隻青蛙。到底金魚腦是怎麼運作的，現在人們還不太明白。
+
+## 好奇心
+
+時序差分學習在雙陸棋成功後，不斷被拿去挑戰其他的電玩遊戲。在這些 90 年代的簡單遊戲之中，時序差分學習大多取得成功。但有一款遊戲：蒙特蘇馬的復仇，時序差分學習表現不佳。
+
+這款遊戲要求玩家去探索不同房間，雖然沒有立即的利益，但有些房間才能進入後面的關卡。這反應出強化學習的第二個挑戰：探索與利用權衡（Exploration Exploitation trade off）。
+
+只往眼前報酬最高的地方走（Exploitation），會被困在某個局部最佳處。有些環境需要先利益放一邊，純粹好奇心探索，才能得到更長遠的獲利。
+原版的時序差分學習是有實作簡單的探索，但只是偶爾讓主角亂走。但遊戲中有用的探索需要完全走到一個陌生房間。
+
+現在的 AI 是把驚訝（surprise）也當成報酬的一環。當看到一個沒看過的新房間時，本身就是一種報酬。這樣 AI 就會探索房間了。
+
+脊椎動物看起來也是用驚訝當報酬。桑代克的傳人史金納，發現要讓老鼠推更多次拉桿的最好方式，不是讓每次拉拉桿都會有食物掉出來。而是要隨機掉食物，老鼠陷入好奇之後就會狂拉拉桿，期待有食物會掉出來。
+
+## 空間感
+
+我們人有辦法在半夜抹黑去上廁所，是因為腦袋對空間有建模。
+
+魚也會記得一些食物的地點。海馬迴負責這個功能。移除海馬迴的魚就不記得地點了。
+
+## 總結：智慧的第二次重要升級是「強化學習」
+
+身為一隻寒武紀的脊椎動物，面臨眾多節肢動物的追捕軍備競賽。需要各種新型的智慧功能，以取代前代反射系統的不足。
+- 多巴胺實質成為強化學習中，作為報酬的溝通標準。
+- 基底核實作了時序差分學習。讓動物可以用多巴胺玩強化學習
+- 新增好奇心，解決探索與利用權衡
+- 加入模式辨別功能：大腦新增皮質層，能分辨掠食者的光線與化學訊號。
+- 對時間的感知：這應該是強化學習與試誤實際帶來的好處。不只知道什麼情況該做什麼，而是「何時」要做。
+- 對三度空間的感知：新增 3D 地圖。這也是實作在皮質層。
+
+---
+
+下回預告：泥盆紀的爬蟲類吃到飽，與土遁而出的哺乳類祖先演變出新的超能力。
diff --git a/content/posts/2026-01-11_history_of_intelligence_4.zh-TW.md b/content/posts/2026-01-11_history_of_intelligence_4.zh-TW.md
@@ -0,0 +1,77 @@
+---
+title: "《智慧簡史》筆記（四）"
+date: 2026-01-11
+draft: false
+---
+
+時間來到了四億兩千萬到三億七千五百萬年前的泥盆紀。魚類祖先長出了硬質化的盔甲，有些開始變得大隻，變成鎧之巨魚。本來是被追獵的物種慢慢變成獵食者。
+
+節肢動物和無脊椎則慢慢變小，有些也長出硬殼。極端的節肢動物決定出海，到地面上討生活。
+
+為什麼他們之前不上陸但現在突然有辦法了？因為陸生的植物先幫他們開路。陸生植物演化出葉子，能更佳吸收陽光。發展出了種子可以到處擴散。最後植物開發出了維管束：樹的高度可以長到數公尺以上。植物強壯的根系可以穩固土壤，讓節肢動物生活。
+
+陸地本來是魚不敢碰的地方，不小心擱淺會致命。但現在陸地有蟲有草，報酬值得冒風險，魚祖先從腮變出肺，用他們短短的鰭慢慢來陸地討吃。一開始是從一個小水窪跳到另外一個。
+
+泥盆紀晚期有個滅絕事件，地球變得冰冷。有些在溫暖水窪還幸運活下來的魚，最後捨棄了腮，長出了四隻腳，變成四足類。
+
+四足類的一支仍生活在溫暖小水窪旁邊，變成今天的兩棲類。另一支往陸地深處走去，變成後來的羊膜動物。最早的羊膜動物長得像現在的爬蟲類。
+
+到了三億五千萬到兩億五千萬年前的石炭紀和二疊紀，是羊膜動物大爆發的時候。
+
+想在陸地上生活，要面臨的挑戰是日夜的巨大溫差。在水裡，日夜的溫差在水深處其實沒什麼差別。
+
+早期的羊膜動物，長得像魚，怎麼處理溫差？太冷是不是？自己移動到溫暖的地方就好。
+
+羊膜動物後來長出一支，叫爬蟲類。他們有個對付溫差的新策略：躺平。晚上太冷了就不要動，關機減少代謝。
+
+因為爬蟲類晚上都躺平，所以只要有哪種生物晚上還能活動，就有源源不絕的爬蟲類吃到飽。
+
+有隻外表很像哀傷小恐龍的獸孔目，看到了這種機會，想說來做一場豪賭。他們使用巨大的能量把自己的身體加熱，讓他們在寒冷的夜晚也能活動。
+
+獸孔目加熱的代價是必須要大量進食，才能維持能量的消耗。但活生生的爬蟲類吃到飽不就在那？
+
+所以在二疊紀，獸孔目的豪賭是賭贏了。一堆能吃的爬蟲類加節肢動物，把他們養成二疊紀最成功的陸生生物。他們也開始長出毛來加強保暖，看起來像是毛茸茸蜥蜴。
+
+不過，獸孔目的好日子結束在二疊紀和三疊紀之間的大滅絕。滅絕的原因現在還有爭議，但確定的是 96% 的地球生物滅絕。這也代表維持獸孔目能量的食物不見了。
+
+爬蟲類因為食量小小，所以在這次滅絕中有活下來，還活到了今天。獸孔目，就滅絕了。
+
+但有一支嬌小、吃素的獸孔目分支，叫犬齒獸亞目。他們本來都躲在地洞裡，躲避大隻的獸孔目。犬齒獸亞目有活過大滅絕。
+
+大滅絕之後，整個爬蟲類的氣勢都翻過來了。他們變得超大隻，長出尖牙和利爪，變成恐龍稱霸地球。
+
+犬齒獸亞目則躲在地洞裡，變得嬌小再嬌小，身長不到一公尺。外型看起來像老鼠或松鼠。他們只在半夜裡悄悄獵食昆蟲。犬齒獸亞目最後變成日後的哺乳類。
+
+鋪陳了兩億年的演化史，可以來談智慧的部分了。
+
+這些早期的哺乳類躲在「地洞」裡這件事非常關鍵。這讓他們在獵食時，擁有「先手」優勢。
+
+這先手優勢不得了。
+
+哺乳類開始在腦袋加裝了新皮質，這讓他們得到了新的超能力：模擬。在出手之前，他們能在洞裡觀察環境，並且使用腦袋模擬整場獵食的經過。只要他們一出手，戰鬥就已經結束了。
+
+強化學習讓脊椎動物可以做中學。模擬可以早期哺乳類可以還沒做就學，靠想像學習。
+
+那魚跟螃蟹也躲在珊瑚礁或水草間，怎麼他們沒學會模擬這招？目前有兩種說法。第一種是模擬要有用，必須要能看到周遭很多的環境。在陸地上，即使是在夜晚，能看到的距離也比水中多幾百倍。因此模擬在水裡用處不大。
+
+第二種說法是模擬的運算量很大，運算時間長。神經元的電信號對溫度很敏感。溫度高信號才傳得快。溫血科技需要先點開，才能解鎖更多算力。這個說法可以解釋魚在水裡住那麼久了，還是沒點出模擬來。但鳥類是唯一非哺乳類，也有解鎖模擬的 -- 因為鳥也有溫血。
+
+模擬基本上就是給我們一個腦內小劇場，可以在規劃時，比較各種可行的方案。因此比較兩側對稱動物和脊椎動物，早期哺乳類的模擬是解決強化學習中歸因問題的更進一步方案。
+
+你也用腦內小劇場能對過去的事情進行「反事實學習 Counterfactual learning」。懊悔或是模擬人生中採取了另外一條路發生了什麼事。
+
+電腦的類神經網路可以拿來辨識圖片，也能生成圖片。這個啟發是生成和預測是一體兩面的。研究者推測，人們會用模擬的畫面來比較感官收到的實際資訊。
+
+回憶（Episodic memory）是我們記得過去事情的方式。這必須和記得怎麼說話、打字、打球這種工作記憶（Procedural memory）區分。
+
+我們並不真的擁有回憶。回憶只是在腦袋中生成的近似過去事件的幻覺。作用機制和想像未來的情境是一樣的。我們記憶中丟失的細節會被自動腦補進去。在一些翻案計畫中，77%被錯誤定罪的人都是因為錯誤的目擊證人證詞。
+
+最後模擬也能幫助精細的肢體動作。貓在動作皮質受損之後，就會沒辦法精準的做出一些高難度動作。
+
+---
+
+我發現在讀這本書的時候，我最感受到娛樂感的應該是演化的部分。雖然我也是記年代苦手，還沒累積足夠的脈絡能記得幾億年前發生什麼事，但一堆動植物的故事對我來說是有趣的。
+
+其次是腦科學的部分吧，但這要區分一下。知道自己哪些習以為常的事情其實是某種精煉幾百萬年的超能力，這些還蠻有趣的。知道腦袋的能力和限制也蠻有用。但那些腦袋哪個區是什麼功能，是什麼實驗發現和支持這件事，就會覺得可能不是我現在想熟練的事。
+
+最後是 AI 的部分，是我最看不太下去的。並不是書寫得不好，而是很多事還在發展中，可能過幾年再回頭看書有沒有講對比較有趣。