什麼是語言模型(LLM)?為什麼 AI 一直在提它?一次看懂底層原理與主流模型
語言模型(Language Model, LM)是一種會「預測下一個字」的 AI,大型語言模型(LLM)指的是參數量上看數十億、用海量文字訓練出來的版本。ChatGPT、Claude、Gemini、Llama 都是 LLM。AI 工具一直在提它,是因為這一波 AI 革命的核心引擎就是 LLM——你能對話、能寫文章、能寫程式、能查資料,背後幾乎都是同一類技術。理解語言模型不需要懂數學,但懂三個關鍵詞:next token prediction、context window、訓練截止日,你的 AI 使用體驗會明顯升級。
一句話定義:語言模型是「下一個字預測器」
很多人以為 AI 是在思考,實際上現代主流的對話式 AI 在做的事情更簡單也更驚人—預測下一個最可能出現的字。給它一段文字當開頭,它計算所有可能字詞的機率,選擇一個輸出,然後再以新的文字當輸入,再選下一個,如此反覆。一句完整的回答,其實是幾百次「下一個字」的連續預測。
聽起來簡單,但當你用幾十億個參數、幾兆字的訓練資料去做這件事,它就會展現出寫詩、寫程式、做摘要、解數學題的能力—這就是scale 帶來能力的奧秘,也是 GPT、Claude、Gemini 背後的核心機制。
為什麼所有 AI 工具都在提語言模型?
因為 2023 年之後的 AI 產品爆發,幾乎都是建立在 LLM 之上的應用層。以下這些你熟悉的工具,底層都是同一類技術:
| 工具 | 實際用途 | 底層模型(2026) |
|---|---|---|
| ChatGPT | 對話、寫作、思考夥伴 | GPT-4o / GPT-5 系列 |
| Claude | 長文寫作、程式碼、分析 | Claude Opus / Sonnet / Haiku |
| Gemini | Google 生態整合 | Gemini 2.x 系列 |
| Perplexity | AI 搜尋與引用 | 多模型混合(Claude/GPT/自家) |
| NotebookLM | 個人知識整理 | Gemini |
| Cursor / Copilot | 程式碼撰寫 | Claude / GPT / 自家模型 |
| Notion AI / Canva AI | 嵌入式生產力 | Claude / GPT / Llama |
| Meta AI | 社群助手 | Llama 系列 |
看出來了嗎?表層應用不同,引擎大致是同一台。所以理解 LLM 的特性,等於一次理解所有這些工具的優缺點。
LLM 是怎麼被訓練出來的?三階段流程
階段一:預訓練(Pre-training)
把網路上能爬到的文字(維基百科、書籍、新聞、論壇、程式碼倉庫)用幾千張 GPU 跑幾個月,讓模型學會語言的統計規律。這階段最燒錢、最耗時,一次預訓練成本動輒上億美元。
階段二:微調(Fine-tuning)
用較小規模、高品質的人工標註資料,把預訓練模型校準到特定用途—例如要會回答問題、要會寫程式、要會用繁體中文。OpenAI、Anthropic 在這一階段投入大量資源,這也是封閉模型品質普遍優於開源模型的關鍵原因。
階段三:對齊(Alignment / RLHF / DPO)
用人類回饋訓練模型「什麼該回答、什麼不該回答、語氣要多誠懇」。這階段決定模型的人格—為什麼 Claude 講話比較溫和、ChatGPT 比較工整、Grok 比較戲謔,差異主要來自對齊階段的設計選擇。
LLM 的關鍵限制:它不是無所不知
- 訓練截止日(knowledge cutoff):模型只知道訓練資料截止那天以前的事。問它「昨天的新聞」會編。
- 幻覺(hallucination):不確定時仍會自信編造,因為它的本質是「預測最可能的下一個字」,不是「查詢資料庫」。
- context window 有限:它一次能讀進多少字是有上限的(從幾千 token 到上百萬 token 不等),超過就會「忘記前面說過什麼」。
- 不會主動更新:除非你給它新資料(透過 RAG、檔案上傳、聯網工具),它只有訓練時的知識。
- 不會真的學習:跟你對話結束後,它不會記得這次經驗,下一次是全新對話。
主流 LLM 一張表看懂
| 模型 | 公司 | 開源/封閉 | 強項 | 適合誰 |
|---|---|---|---|---|
| GPT 系列 | OpenAI | 封閉 | 通用對話、生態最廣 | 大多數一般使用者 |
| Claude | Anthropic | 封閉 | 長文、程式碼、安全性 | 寫作者、工程師、研究者 |
| Gemini | 封閉 | 多模態、Google 整合 | 已在 Google 生態的用戶 | |
| Llama | Meta | 開源 | 可本地部署、企業客製 | 企業內部、研究單位 |
| Qwen | 阿里巴巴 | 開源 | 中文、多語 | 中文重度使用者、開發者 |
| Mistral | Mistral AI | 開源/封閉混合 | 歐洲法規合規、效率高 | 歐洲企業、邊緣裝置 |
| Grok | xAI | 部分開源 | X 平台即時資料 | 關注時事、X 用戶 |
| DeepSeek | DeepSeek | 開源 | 推理能力、成本低 | 推理任務、技術社群 |
LLM 演進關鍵時間軸
2017
2018–20
2022 末
2023
2024
2025–26
LLM 能做什麼?不能做什麼?
| ✓ 它擅長 | ✗ 它弱在 |
|---|---|
| 文字生成與改寫 | 即時資訊查詢(沒聯網時) |
| 摘要、翻譯、結構化 | 精準數學運算(複雜計算需工具) |
| 程式碼草稿 | 需要長期記憶的任務 |
| 角色扮演、對話模擬 | 事實查證(會有幻覺) |
| 分類、抽取、標註 | 不在訓練資料中的最新事件 |
| 多語言互通 | 低資源語言、特殊方言精準度 |
LLM 怎麼突破自己的限制?RAG、工具使用、推理模型
單純的 LLM 受限於訓練截止日、幻覺、不會算數,於是 2024 年起,業界發展出三種主流方式幫 LLM 「外掛能力」:
1.RAG(Retrieval-Augmented Generation)檢索增強生成
讓 LLM 先去「搜尋並讀取相關資料」,再用這些資料生成回答。Perplexity、ChatGPT 的 Search、NotebookLM 都用這個技術。優點是減少幻覺、能引用最新資料;缺點是還是依賴檢索品質。
2.Tool Use / Function Calling 工具使用
讓 LLM 自己決定「我該打哪個 API」「我該執行哪段 code」「我該查資料庫嗎」。Claude、GPT、Gemini 都支援,這是 Agent(代理人)架構的核心。意義在於 LLM 不只是會講話,還能「動手做事」。
3.Reasoning Models 推理模型
OpenAI o-series、Claude Opus 推理模式、DeepSeek-R 系列。模型在輸出最終答案前,會先在內部跑一段「思考過程」(chain of thought),處理數學、邏輯、複雜程式碼時準確度大幅提升。代價是回應比較慢、token 消耗較多。
為什麼網站經營者也要懂語言模型?
如果你經營官網、品牌部落格或電商,LLM 直接影響你被看見的方式。原因:現在的搜尋(Google AI Overviews、Perplexity、Bing Copilot)都是用 LLM 在「閱讀並引用網站內容」。如果你的網站對 LLM 友善——結構化資料齊全、語意清楚、答案優先排版——你就更容易被 AI 摘要時點名引用,流量會持續往你流。
反過來,如果你的網站還停留在「給人類看的純圖片排版、沒有 Schema、沒有 FAQ 結構化資料」,LLM 讀不懂,自然也不會引用你。這也是為什麼 2025 年後台灣不少網站開始談「AI SEO / GEO」(生成式引擎優化),以及像 前網數位資訊 這類服務開始把「AI 維運」「結構化內容」放進核心方案—這不是趕流行,是因為網站接觸到的讀者已經從人類延伸到 LLM。
三個 LLM 常被誤解的觀念
誤解一:LLM 等於 AI
不是。AI 的範圍很大,包含影像辨識、語音合成、強化學習、推薦系統等。LLM 只是其中「處理語言的那部分」,雖然是 2023 年後最熱的一支,但不代表全部 AI。
誤解二:LLM 一定會偏向訓練它的公司觀點
會有影響,但沒有想像中嚴重。對齊階段確實會塑造模型「人格」,但實際輸出的內容更多受到 prompt 與當下對話內容影響。同一個模型,不同的人問,答案差異可以很大。
誤解三:用越多越聰明
對你的工作流會變熟,但模型本身不會因為你常用就變強(它沒有針對你個人微調)。你能影響的是「提示詞品質」「工作流設計」,而不是「讓 AI 學會你」——除非你進入像 Claude Projects、ChatGPT Custom GPTs 這類有「上下文 anchoring」機制的工具。
結語
語言模型(LLM)不是某個神祕黑盒子,它是規模夠大的下一個字預測器。理解了這一點,你會更知道為什麼 AI 有時很厲害、有時很瞎——它在訓練資料密集的領域近乎全能,在訓練資料稀薄的領域就會自信亂編。會用 LLM 的人,不是會背指令的人,而是懂得什麼該交給它、什麼該自己判斷的人。
而當 LLM 已經成為新的閱讀者、新的搜尋引擎、新的內容仲裁者,理解它怎麼運作就不只是工程師的事—任何想被看見的人、品牌、企業,都該知道自己的內容正被一群隱形的演算法讀者持續閱讀。你寫得越清楚、結構越完整,這群隱形讀者就越願意把你推薦給人類讀者。AI 時代的優勢,正是從為 LLM 友善寫作開始累積的。
會「預測下一個字」的 AI 系統,大型版本(LLM)指參數量達數十億甚至上兆等級的版本,如 GPT、Claude、Llama、Gemini。
因為大部分商用 AI 工具的核心引擎都是 LLM,看到的對話介面、AI 寫作、AI 程式生成,底層幾乎是同一類技術。
過去 AI 為單一任務訓練,LLM 為通用語言能力訓練,一個模型可同時對話、翻譯、寫程式、做摘要,泛化能力是過去 AI 做不到的。
嚴格說沒有「人類意義上的思考」,本質是大規模統計預測。實務上把它當「會講話的統計引擎」使用最不會出錯。
它預測「最可能的下一個字」,不是查詢資料庫。當訓練資料不足或超出記憶時,仍會自信編出看似合理的答案。
早期是,2024 年後不再絕對。架構、資料品質、後訓練、推理機制都影響表現,小模型有時可勝過大模型。
不需懂底層數學,但懂 token、context window、幻覺、訓練截止日這幾個基本概念,prompt 會寫得更精準。
封閉模型只能 API 使用,品質通常較強;開源模型可本地部署、客製化、保留資料隱私,適合企業內部應用。