Foundations Archive

AI 基礎概念歷史

回到 AI 基礎概念

迴歸(第 19 輪複習)

迴歸是預測連續數值。

核心觀念

輸出若是價格、銷量、溫度或分數,通常是迴歸。

關鍵詞

連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標

分類(第 19 輪複習)

分類是把資料分到離散類別。

核心觀念

輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。

關鍵詞

二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果

演算法(第 19 輪複習)

演算法是一套解決問題的步驟或方法。

核心觀念

機器學習演算法用來從資料中建立模型。

關鍵詞

決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型

模型(第 19 輪複習)

模型是從資料中學到的規則或表示方式。

核心觀念

訓練完成後,模型可對新資料做預測或生成。

關鍵詞

訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值

資料(第 19 輪複習)

資料是 AI 系統學習與推論的基礎。

核心觀念

資料可以是表格、文字、圖片、聲音或感測器紀錄。

關鍵詞

結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位

生成式 AI 限制(第 18 輪複習)

生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。

核心觀念

使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。

關鍵詞

幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊

自動化(第 18 輪複習)

自動化是讓系統依規則或模型執行重複流程。

核心觀念

AI 可強化自動化,但高風險流程仍需人類覆核。

關鍵詞

Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助

模型偏誤(第 18 輪複習)

模型偏誤可能來自資料代表性不足、標註不一致或設計不當。

核心觀念

偏誤不只影響準確率,也可能造成公平性問題。

關鍵詞

Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料

資料漂移(第 18 輪複習)

資料漂移是上線後新資料分布和訓練資料不同。

核心觀念

資料漂移會讓模型效果下降,因此需要監控。

關鍵詞

Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練

雲端與邊緣(第 18 輪複習)

雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。

核心觀念

選擇部署位置時要考慮成本、延遲、隱私與維運。

關鍵詞

Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署

API(第 18 輪複習)

API 是系統之間交換資料或功能的介面。

核心觀念

AI 服務常透過 API 提供模型推論能力。

關鍵詞

Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制

向量資料庫(第 18 輪複習)

向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。

核心觀念

它常和 RAG 搭配做語意搜尋。

關鍵詞

向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量

大型語言模型(第 18 輪複習)

大型語言模型能根據上下文預測與生成文字。

核心觀念

它擅長語言任務,但可能產生幻覺或過時資訊。

關鍵詞

LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制

推薦系統(第 18 輪複習)

推薦系統根據使用者行為、內容特徵或相似族群推薦項目。

核心觀念

它常用於電商、影音平台與新聞內容。

關鍵詞

協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足

電腦視覺(第 18 輪複習)

電腦視覺讓電腦處理與理解影像或影片。

核心觀念

常見任務有分類、物件偵測、影像分割與瑕疵檢測。

關鍵詞

物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識

自然語言處理(第 18 輪複習)

自然語言處理讓電腦理解、分析或生成文字與語音。

核心觀念

常見任務有分類、摘要、翻譯、問答與情緒分析。

關鍵詞

NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示

混淆矩陣(第 18 輪複習)

混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。

核心觀念

精確率與召回率都可由混淆矩陣計算。

關鍵詞

TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例

訓練集與測試集(第 18 輪複習)

訓練集用來學習,測試集用來評估模型在新資料上的表現。

核心觀念

不能用測試集反覆調模型,否則評估會失真。

關鍵詞

資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估

特徵工程(第 18 輪複習)

特徵工程是把原始資料轉換成模型更容易使用的欄位。

核心觀念

好的特徵可能比複雜模型更能提升表現。

關鍵詞

標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊

分群(第 18 輪複習)

分群是在沒有標籤時找出相似群組。

核心觀念

分群結果需要人再解讀其商業意義。

關鍵詞

K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度

迴歸(第 18 輪複習)

迴歸是預測連續數值。

核心觀念

輸出若是價格、銷量、溫度或分數,通常是迴歸。

關鍵詞

連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標

分類(第 18 輪複習)

分類是把資料分到離散類別。

核心觀念

輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。

關鍵詞

二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果

演算法(第 18 輪複習)

演算法是一套解決問題的步驟或方法。

核心觀念

機器學習演算法用來從資料中建立模型。

關鍵詞

決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型

模型(第 18 輪複習)

模型是從資料中學到的規則或表示方式。

核心觀念

訓練完成後,模型可對新資料做預測或生成。

關鍵詞

訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值

資料(第 18 輪複習)

資料是 AI 系統學習與推論的基礎。

核心觀念

資料可以是表格、文字、圖片、聲音或感測器紀錄。

關鍵詞

結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位

生成式 AI 限制(第 17 輪複習)

生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。

核心觀念

使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。

關鍵詞

幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊

自動化(第 17 輪複習)

自動化是讓系統依規則或模型執行重複流程。

核心觀念

AI 可強化自動化,但高風險流程仍需人類覆核。

關鍵詞

Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助

模型偏誤(第 17 輪複習)

模型偏誤可能來自資料代表性不足、標註不一致或設計不當。

核心觀念

偏誤不只影響準確率,也可能造成公平性問題。

關鍵詞

Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料

資料漂移(第 17 輪複習)

資料漂移是上線後新資料分布和訓練資料不同。

核心觀念

資料漂移會讓模型效果下降,因此需要監控。

關鍵詞

Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練

雲端與邊緣(第 17 輪複習)

雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。

核心觀念

選擇部署位置時要考慮成本、延遲、隱私與維運。

關鍵詞

Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署

API(第 17 輪複習)

API 是系統之間交換資料或功能的介面。

核心觀念

AI 服務常透過 API 提供模型推論能力。

關鍵詞

Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制

向量資料庫(第 17 輪複習)

向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。

核心觀念

它常和 RAG 搭配做語意搜尋。

關鍵詞

向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量

大型語言模型(第 17 輪複習)

大型語言模型能根據上下文預測與生成文字。

核心觀念

它擅長語言任務,但可能產生幻覺或過時資訊。

關鍵詞

LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制

推薦系統(第 17 輪複習)

推薦系統根據使用者行為、內容特徵或相似族群推薦項目。

核心觀念

它常用於電商、影音平台與新聞內容。

關鍵詞

協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足

電腦視覺(第 17 輪複習)

電腦視覺讓電腦處理與理解影像或影片。

核心觀念

常見任務有分類、物件偵測、影像分割與瑕疵檢測。

關鍵詞

物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識

自然語言處理(第 17 輪複習)

自然語言處理讓電腦理解、分析或生成文字與語音。

核心觀念

常見任務有分類、摘要、翻譯、問答與情緒分析。

關鍵詞

NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示

混淆矩陣(第 17 輪複習)

混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。

核心觀念

精確率與召回率都可由混淆矩陣計算。

關鍵詞

TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例

訓練集與測試集(第 17 輪複習)

訓練集用來學習,測試集用來評估模型在新資料上的表現。

核心觀念

不能用測試集反覆調模型,否則評估會失真。

關鍵詞

資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估

特徵工程(第 17 輪複習)

特徵工程是把原始資料轉換成模型更容易使用的欄位。

核心觀念

好的特徵可能比複雜模型更能提升表現。

關鍵詞

標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊

分群(第 17 輪複習)

分群是在沒有標籤時找出相似群組。

核心觀念

分群結果需要人再解讀其商業意義。

關鍵詞

K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度

迴歸(第 17 輪複習)

迴歸是預測連續數值。

核心觀念

輸出若是價格、銷量、溫度或分數,通常是迴歸。

關鍵詞

連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標

分類(第 17 輪複習)

分類是把資料分到離散類別。

核心觀念

輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。

關鍵詞

二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果

演算法(第 17 輪複習)

演算法是一套解決問題的步驟或方法。

核心觀念

機器學習演算法用來從資料中建立模型。

關鍵詞

決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型

模型(第 17 輪複習)

模型是從資料中學到的規則或表示方式。

核心觀念

訓練完成後,模型可對新資料做預測或生成。

關鍵詞

訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值

資料(第 17 輪複習)

資料是 AI 系統學習與推論的基礎。

核心觀念

資料可以是表格、文字、圖片、聲音或感測器紀錄。

關鍵詞

結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位

生成式 AI 限制(第 16 輪複習)

生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。

核心觀念

使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。

關鍵詞

幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊

自動化(第 16 輪複習)

自動化是讓系統依規則或模型執行重複流程。

核心觀念

AI 可強化自動化,但高風險流程仍需人類覆核。

關鍵詞

Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助

模型偏誤(第 16 輪複習)

模型偏誤可能來自資料代表性不足、標註不一致或設計不當。

核心觀念

偏誤不只影響準確率,也可能造成公平性問題。

關鍵詞

Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料

資料漂移(第 16 輪複習)

資料漂移是上線後新資料分布和訓練資料不同。

核心觀念

資料漂移會讓模型效果下降,因此需要監控。

關鍵詞

Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練

雲端與邊緣(第 16 輪複習)

雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。

核心觀念

選擇部署位置時要考慮成本、延遲、隱私與維運。

關鍵詞

Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署

API(第 16 輪複習)

API 是系統之間交換資料或功能的介面。

核心觀念

AI 服務常透過 API 提供模型推論能力。

關鍵詞

Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制

向量資料庫(第 16 輪複習)

向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。

核心觀念

它常和 RAG 搭配做語意搜尋。

關鍵詞

向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量

大型語言模型(第 16 輪複習)

大型語言模型能根據上下文預測與生成文字。

核心觀念

它擅長語言任務,但可能產生幻覺或過時資訊。

關鍵詞

LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制

推薦系統(第 16 輪複習)

推薦系統根據使用者行為、內容特徵或相似族群推薦項目。

核心觀念

它常用於電商、影音平台與新聞內容。

關鍵詞

協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足

電腦視覺(第 16 輪複習)

電腦視覺讓電腦處理與理解影像或影片。

核心觀念

常見任務有分類、物件偵測、影像分割與瑕疵檢測。

關鍵詞

物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識

自然語言處理(第 16 輪複習)

自然語言處理讓電腦理解、分析或生成文字與語音。

核心觀念

常見任務有分類、摘要、翻譯、問答與情緒分析。

關鍵詞

NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示

混淆矩陣(第 16 輪複習)

混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。

核心觀念

精確率與召回率都可由混淆矩陣計算。

關鍵詞

TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例

訓練集與測試集(第 16 輪複習)

訓練集用來學習,測試集用來評估模型在新資料上的表現。

核心觀念

不能用測試集反覆調模型,否則評估會失真。

關鍵詞

資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估

特徵工程(第 16 輪複習)

特徵工程是把原始資料轉換成模型更容易使用的欄位。

核心觀念

好的特徵可能比複雜模型更能提升表現。

關鍵詞

標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊

分群(第 16 輪複習)

分群是在沒有標籤時找出相似群組。

核心觀念

分群結果需要人再解讀其商業意義。

關鍵詞

K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度

迴歸(第 16 輪複習)

迴歸是預測連續數值。

核心觀念

輸出若是價格、銷量、溫度或分數,通常是迴歸。

關鍵詞

連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標

分類(第 16 輪複習)

分類是把資料分到離散類別。

核心觀念

輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。

關鍵詞

二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果

演算法(第 16 輪複習)

演算法是一套解決問題的步驟或方法。

核心觀念

機器學習演算法用來從資料中建立模型。

關鍵詞

決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型

模型(第 16 輪複習)

模型是從資料中學到的規則或表示方式。

核心觀念

訓練完成後,模型可對新資料做預測或生成。

關鍵詞

訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值

資料(第 16 輪複習)

資料是 AI 系統學習與推論的基礎。

核心觀念

資料可以是表格、文字、圖片、聲音或感測器紀錄。

關鍵詞

結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位

生成式 AI 限制(第 15 輪複習)

生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。

核心觀念

使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。

關鍵詞

幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊

自動化(第 15 輪複習)

自動化是讓系統依規則或模型執行重複流程。

核心觀念

AI 可強化自動化,但高風險流程仍需人類覆核。

關鍵詞

Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助

模型偏誤(第 15 輪複習)

模型偏誤可能來自資料代表性不足、標註不一致或設計不當。

核心觀念

偏誤不只影響準確率,也可能造成公平性問題。

關鍵詞

Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料

資料漂移(第 15 輪複習)

資料漂移是上線後新資料分布和訓練資料不同。

核心觀念

資料漂移會讓模型效果下降,因此需要監控。

關鍵詞

Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練

雲端與邊緣(第 15 輪複習)

雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。

核心觀念

選擇部署位置時要考慮成本、延遲、隱私與維運。

關鍵詞

Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署

API(第 15 輪複習)

API 是系統之間交換資料或功能的介面。

核心觀念

AI 服務常透過 API 提供模型推論能力。

關鍵詞

Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制

向量資料庫(第 15 輪複習)

向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。

核心觀念

它常和 RAG 搭配做語意搜尋。

關鍵詞

向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量

大型語言模型(第 15 輪複習)

大型語言模型能根據上下文預測與生成文字。

核心觀念

它擅長語言任務,但可能產生幻覺或過時資訊。

關鍵詞

LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制

推薦系統(第 15 輪複習)

推薦系統根據使用者行為、內容特徵或相似族群推薦項目。

核心觀念

它常用於電商、影音平台與新聞內容。

關鍵詞

協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足

電腦視覺(第 15 輪複習)

電腦視覺讓電腦處理與理解影像或影片。

核心觀念

常見任務有分類、物件偵測、影像分割與瑕疵檢測。

關鍵詞

物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識

自然語言處理(第 15 輪複習)

自然語言處理讓電腦理解、分析或生成文字與語音。

核心觀念

常見任務有分類、摘要、翻譯、問答與情緒分析。

關鍵詞

NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示

混淆矩陣(第 15 輪複習)

混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。

核心觀念

精確率與召回率都可由混淆矩陣計算。

關鍵詞

TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例

訓練集與測試集(第 15 輪複習)

訓練集用來學習,測試集用來評估模型在新資料上的表現。

核心觀念

不能用測試集反覆調模型,否則評估會失真。

關鍵詞

資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估

特徵工程(第 15 輪複習)

特徵工程是把原始資料轉換成模型更容易使用的欄位。

核心觀念

好的特徵可能比複雜模型更能提升表現。

關鍵詞

標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊

分群(第 15 輪複習)

分群是在沒有標籤時找出相似群組。

核心觀念

分群結果需要人再解讀其商業意義。

關鍵詞

K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度

迴歸(第 15 輪複習)

迴歸是預測連續數值。

核心觀念

輸出若是價格、銷量、溫度或分數,通常是迴歸。

關鍵詞

連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標

分類(第 15 輪複習)

分類是把資料分到離散類別。

核心觀念

輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。

關鍵詞

二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果

演算法(第 15 輪複習)

演算法是一套解決問題的步驟或方法。

核心觀念

機器學習演算法用來從資料中建立模型。

關鍵詞

決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型

模型(第 15 輪複習)

模型是從資料中學到的規則或表示方式。

核心觀念

訓練完成後,模型可對新資料做預測或生成。

關鍵詞

訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值

資料(第 15 輪複習)

資料是 AI 系統學習與推論的基礎。

核心觀念

資料可以是表格、文字、圖片、聲音或感測器紀錄。

關鍵詞

結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位

生成式 AI 限制(第 14 輪複習)

生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。

核心觀念

使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。

關鍵詞

幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊

自動化(第 14 輪複習)

自動化是讓系統依規則或模型執行重複流程。

核心觀念

AI 可強化自動化,但高風險流程仍需人類覆核。

關鍵詞

Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助

模型偏誤(第 14 輪複習)

模型偏誤可能來自資料代表性不足、標註不一致或設計不當。

核心觀念

偏誤不只影響準確率,也可能造成公平性問題。

關鍵詞

Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料

資料漂移(第 14 輪複習)

資料漂移是上線後新資料分布和訓練資料不同。

核心觀念

資料漂移會讓模型效果下降,因此需要監控。

關鍵詞

Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練

雲端與邊緣(第 14 輪複習)

雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。

核心觀念

選擇部署位置時要考慮成本、延遲、隱私與維運。

關鍵詞

Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署

API(第 14 輪複習)

API 是系統之間交換資料或功能的介面。

核心觀念

AI 服務常透過 API 提供模型推論能力。

關鍵詞

Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制

向量資料庫(第 14 輪複習)

向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。

核心觀念

它常和 RAG 搭配做語意搜尋。

關鍵詞

向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量

大型語言模型(第 14 輪複習)

大型語言模型能根據上下文預測與生成文字。

核心觀念

它擅長語言任務,但可能產生幻覺或過時資訊。

關鍵詞

LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制

推薦系統(第 14 輪複習)

推薦系統根據使用者行為、內容特徵或相似族群推薦項目。

核心觀念

它常用於電商、影音平台與新聞內容。

關鍵詞

協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足

電腦視覺(第 14 輪複習)

電腦視覺讓電腦處理與理解影像或影片。

核心觀念

常見任務有分類、物件偵測、影像分割與瑕疵檢測。

關鍵詞

物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識

自然語言處理(第 14 輪複習)

自然語言處理讓電腦理解、分析或生成文字與語音。

核心觀念

常見任務有分類、摘要、翻譯、問答與情緒分析。

關鍵詞

NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示

混淆矩陣(第 14 輪複習)

混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。

核心觀念

精確率與召回率都可由混淆矩陣計算。

關鍵詞

TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例

訓練集與測試集(第 14 輪複習)

訓練集用來學習,測試集用來評估模型在新資料上的表現。

核心觀念

不能用測試集反覆調模型,否則評估會失真。

關鍵詞

資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估

特徵工程(第 14 輪複習)

特徵工程是把原始資料轉換成模型更容易使用的欄位。

核心觀念

好的特徵可能比複雜模型更能提升表現。

關鍵詞

標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊

分群(第 14 輪複習)

分群是在沒有標籤時找出相似群組。

核心觀念

分群結果需要人再解讀其商業意義。

關鍵詞

K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度

迴歸(第 14 輪複習)

迴歸是預測連續數值。

核心觀念

輸出若是價格、銷量、溫度或分數,通常是迴歸。

關鍵詞

連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標

分類(第 14 輪複習)

分類是把資料分到離散類別。

核心觀念

輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。

關鍵詞

二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果

演算法(第 14 輪複習)

演算法是一套解決問題的步驟或方法。

核心觀念

機器學習演算法用來從資料中建立模型。

關鍵詞

決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型

模型(第 14 輪複習)

模型是從資料中學到的規則或表示方式。

核心觀念

訓練完成後,模型可對新資料做預測或生成。

關鍵詞

訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值

資料(第 14 輪複習)

資料是 AI 系統學習與推論的基礎。

核心觀念

資料可以是表格、文字、圖片、聲音或感測器紀錄。

關鍵詞

結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位

生成式 AI 限制(第 13 輪複習)

生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。

核心觀念

使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。

關鍵詞

幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊

自動化(第 13 輪複習)

自動化是讓系統依規則或模型執行重複流程。

核心觀念

AI 可強化自動化,但高風險流程仍需人類覆核。

關鍵詞

Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助

模型偏誤(第 13 輪複習)

模型偏誤可能來自資料代表性不足、標註不一致或設計不當。

核心觀念

偏誤不只影響準確率,也可能造成公平性問題。

關鍵詞

Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料

資料漂移(第 13 輪複習)

資料漂移是上線後新資料分布和訓練資料不同。

核心觀念

資料漂移會讓模型效果下降,因此需要監控。

關鍵詞

Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練

雲端與邊緣(第 13 輪複習)

雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。

核心觀念

選擇部署位置時要考慮成本、延遲、隱私與維運。

關鍵詞

Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署

API(第 13 輪複習)

API 是系統之間交換資料或功能的介面。

核心觀念

AI 服務常透過 API 提供模型推論能力。

關鍵詞

Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制

向量資料庫(第 13 輪複習)

向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。

核心觀念

它常和 RAG 搭配做語意搜尋。

關鍵詞

向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量

大型語言模型(第 13 輪複習)

大型語言模型能根據上下文預測與生成文字。

核心觀念

它擅長語言任務,但可能產生幻覺或過時資訊。

關鍵詞

LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制

推薦系統(第 13 輪複習)

推薦系統根據使用者行為、內容特徵或相似族群推薦項目。

核心觀念

它常用於電商、影音平台與新聞內容。

關鍵詞

協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足

電腦視覺(第 13 輪複習)

電腦視覺讓電腦處理與理解影像或影片。

核心觀念

常見任務有分類、物件偵測、影像分割與瑕疵檢測。

關鍵詞

物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識

自然語言處理(第 13 輪複習)

自然語言處理讓電腦理解、分析或生成文字與語音。

核心觀念

常見任務有分類、摘要、翻譯、問答與情緒分析。

關鍵詞

NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示

混淆矩陣(第 13 輪複習)

混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。

核心觀念

精確率與召回率都可由混淆矩陣計算。

關鍵詞

TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例

訓練集與測試集(第 13 輪複習)

訓練集用來學習,測試集用來評估模型在新資料上的表現。

核心觀念

不能用測試集反覆調模型,否則評估會失真。

關鍵詞

資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估

特徵工程(第 13 輪複習)

特徵工程是把原始資料轉換成模型更容易使用的欄位。

核心觀念

好的特徵可能比複雜模型更能提升表現。

關鍵詞

標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊

分群(第 13 輪複習)

分群是在沒有標籤時找出相似群組。

核心觀念

分群結果需要人再解讀其商業意義。

關鍵詞

K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度

迴歸(第 13 輪複習)

迴歸是預測連續數值。

核心觀念

輸出若是價格、銷量、溫度或分數,通常是迴歸。

關鍵詞

連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標

分類(第 13 輪複習)

分類是把資料分到離散類別。

核心觀念

輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。

關鍵詞

二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果

演算法(第 13 輪複習)

演算法是一套解決問題的步驟或方法。

核心觀念

機器學習演算法用來從資料中建立模型。

關鍵詞

決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型

模型(第 13 輪複習)

模型是從資料中學到的規則或表示方式。

核心觀念

訓練完成後,模型可對新資料做預測或生成。

關鍵詞

訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值

資料(第 13 輪複習)

資料是 AI 系統學習與推論的基礎。

核心觀念

資料可以是表格、文字、圖片、聲音或感測器紀錄。

關鍵詞

結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位

生成式 AI 限制(第 12 輪複習)

生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。

核心觀念

使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。

關鍵詞

幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊

自動化(第 12 輪複習)

自動化是讓系統依規則或模型執行重複流程。

核心觀念

AI 可強化自動化,但高風險流程仍需人類覆核。

關鍵詞

Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助

模型偏誤(第 12 輪複習)

模型偏誤可能來自資料代表性不足、標註不一致或設計不當。

核心觀念

偏誤不只影響準確率,也可能造成公平性問題。

關鍵詞

Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料

資料漂移(第 12 輪複習)

資料漂移是上線後新資料分布和訓練資料不同。

核心觀念

資料漂移會讓模型效果下降,因此需要監控。

關鍵詞

Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練

雲端與邊緣(第 12 輪複習)

雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。

核心觀念

選擇部署位置時要考慮成本、延遲、隱私與維運。

關鍵詞

Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署

API(第 12 輪複習)

API 是系統之間交換資料或功能的介面。

核心觀念

AI 服務常透過 API 提供模型推論能力。

關鍵詞

Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制

向量資料庫(第 12 輪複習)

向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。

核心觀念

它常和 RAG 搭配做語意搜尋。

關鍵詞

向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量

大型語言模型(第 12 輪複習)

大型語言模型能根據上下文預測與生成文字。

核心觀念

它擅長語言任務,但可能產生幻覺或過時資訊。

關鍵詞

LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制

推薦系統(第 12 輪複習)

推薦系統根據使用者行為、內容特徵或相似族群推薦項目。

核心觀念

它常用於電商、影音平台與新聞內容。

關鍵詞

協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足

電腦視覺(第 12 輪複習)

電腦視覺讓電腦處理與理解影像或影片。

核心觀念

常見任務有分類、物件偵測、影像分割與瑕疵檢測。

關鍵詞

物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識

自然語言處理(第 12 輪複習)

自然語言處理讓電腦理解、分析或生成文字與語音。

核心觀念

常見任務有分類、摘要、翻譯、問答與情緒分析。

關鍵詞

NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示

混淆矩陣(第 12 輪複習)

混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。

核心觀念

精確率與召回率都可由混淆矩陣計算。

關鍵詞

TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例

訓練集與測試集(第 12 輪複習)

訓練集用來學習,測試集用來評估模型在新資料上的表現。

核心觀念

不能用測試集反覆調模型,否則評估會失真。

關鍵詞

資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估

特徵工程(第 12 輪複習)

特徵工程是把原始資料轉換成模型更容易使用的欄位。

核心觀念

好的特徵可能比複雜模型更能提升表現。

關鍵詞

標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊

分群(第 12 輪複習)

分群是在沒有標籤時找出相似群組。

核心觀念

分群結果需要人再解讀其商業意義。

關鍵詞

K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度

迴歸(第 12 輪複習)

迴歸是預測連續數值。

核心觀念

輸出若是價格、銷量、溫度或分數,通常是迴歸。

關鍵詞

連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標

分類(第 12 輪複習)

分類是把資料分到離散類別。

核心觀念

輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。

關鍵詞

二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果

演算法(第 12 輪複習)

演算法是一套解決問題的步驟或方法。

核心觀念

機器學習演算法用來從資料中建立模型。

關鍵詞

決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型

模型(第 12 輪複習)

模型是從資料中學到的規則或表示方式。

核心觀念

訓練完成後,模型可對新資料做預測或生成。

關鍵詞

訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值

資料(第 12 輪複習)

資料是 AI 系統學習與推論的基礎。

核心觀念

資料可以是表格、文字、圖片、聲音或感測器紀錄。

關鍵詞

結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位

生成式 AI 限制(第 11 輪複習)

生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。

核心觀念

使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。

關鍵詞

幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊

自動化(第 11 輪複習)

自動化是讓系統依規則或模型執行重複流程。

核心觀念

AI 可強化自動化,但高風險流程仍需人類覆核。

關鍵詞

Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助

模型偏誤(第 11 輪複習)

模型偏誤可能來自資料代表性不足、標註不一致或設計不當。

核心觀念

偏誤不只影響準確率,也可能造成公平性問題。

關鍵詞

Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料

資料漂移(第 11 輪複習)

資料漂移是上線後新資料分布和訓練資料不同。

核心觀念

資料漂移會讓模型效果下降,因此需要監控。

關鍵詞

Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練

雲端與邊緣(第 11 輪複習)

雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。

核心觀念

選擇部署位置時要考慮成本、延遲、隱私與維運。

關鍵詞

Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署

API(第 11 輪複習)

API 是系統之間交換資料或功能的介面。

核心觀念

AI 服務常透過 API 提供模型推論能力。

關鍵詞

Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制

向量資料庫(第 11 輪複習)

向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。

核心觀念

它常和 RAG 搭配做語意搜尋。

關鍵詞

向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量

大型語言模型(第 11 輪複習)

大型語言模型能根據上下文預測與生成文字。

核心觀念

它擅長語言任務,但可能產生幻覺或過時資訊。

關鍵詞

LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制

推薦系統(第 11 輪複習)

推薦系統根據使用者行為、內容特徵或相似族群推薦項目。

核心觀念

它常用於電商、影音平台與新聞內容。

關鍵詞

協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足

電腦視覺(第 11 輪複習)

電腦視覺讓電腦處理與理解影像或影片。

核心觀念

常見任務有分類、物件偵測、影像分割與瑕疵檢測。

關鍵詞

物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識

自然語言處理(第 11 輪複習)

自然語言處理讓電腦理解、分析或生成文字與語音。

核心觀念

常見任務有分類、摘要、翻譯、問答與情緒分析。

關鍵詞

NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示

混淆矩陣(第 11 輪複習)

混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。

核心觀念

精確率與召回率都可由混淆矩陣計算。

關鍵詞

TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例

訓練集與測試集(第 11 輪複習)

訓練集用來學習,測試集用來評估模型在新資料上的表現。

核心觀念

不能用測試集反覆調模型,否則評估會失真。

關鍵詞

資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估

特徵工程(第 11 輪複習)

特徵工程是把原始資料轉換成模型更容易使用的欄位。

核心觀念

好的特徵可能比複雜模型更能提升表現。

關鍵詞

標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊

分群(第 11 輪複習)

分群是在沒有標籤時找出相似群組。

核心觀念

分群結果需要人再解讀其商業意義。

關鍵詞

K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度

迴歸(第 11 輪複習)

迴歸是預測連續數值。

核心觀念

輸出若是價格、銷量、溫度或分數,通常是迴歸。

關鍵詞

連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標

分類(第 11 輪複習)

分類是把資料分到離散類別。

核心觀念

輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。

關鍵詞

二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果

演算法(第 11 輪複習)

演算法是一套解決問題的步驟或方法。

核心觀念

機器學習演算法用來從資料中建立模型。

關鍵詞

決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型

模型(第 11 輪複習)

模型是從資料中學到的規則或表示方式。

核心觀念

訓練完成後,模型可對新資料做預測或生成。

關鍵詞

訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值

資料(第 11 輪複習)

資料是 AI 系統學習與推論的基礎。

核心觀念

資料可以是表格、文字、圖片、聲音或感測器紀錄。

關鍵詞

結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位

生成式 AI 限制(第 10 輪複習)

生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。

核心觀念

使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。

關鍵詞

幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊

自動化(第 10 輪複習)

自動化是讓系統依規則或模型執行重複流程。

核心觀念

AI 可強化自動化,但高風險流程仍需人類覆核。

關鍵詞

Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助

模型偏誤(第 10 輪複習)

模型偏誤可能來自資料代表性不足、標註不一致或設計不當。

核心觀念

偏誤不只影響準確率,也可能造成公平性問題。

關鍵詞

Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料

資料漂移(第 10 輪複習)

資料漂移是上線後新資料分布和訓練資料不同。

核心觀念

資料漂移會讓模型效果下降,因此需要監控。

關鍵詞

Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練

雲端與邊緣(第 10 輪複習)

雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。

核心觀念

選擇部署位置時要考慮成本、延遲、隱私與維運。

關鍵詞

Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署

API(第 10 輪複習)

API 是系統之間交換資料或功能的介面。

核心觀念

AI 服務常透過 API 提供模型推論能力。

關鍵詞

Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制

向量資料庫(第 10 輪複習)

向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。

核心觀念

它常和 RAG 搭配做語意搜尋。

關鍵詞

向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量

大型語言模型(第 10 輪複習)

大型語言模型能根據上下文預測與生成文字。

核心觀念

它擅長語言任務,但可能產生幻覺或過時資訊。

關鍵詞

LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制

推薦系統(第 10 輪複習)

推薦系統根據使用者行為、內容特徵或相似族群推薦項目。

核心觀念

它常用於電商、影音平台與新聞內容。

關鍵詞

協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足

電腦視覺(第 10 輪複習)

電腦視覺讓電腦處理與理解影像或影片。

核心觀念

常見任務有分類、物件偵測、影像分割與瑕疵檢測。

關鍵詞

物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識

自然語言處理(第 10 輪複習)

自然語言處理讓電腦理解、分析或生成文字與語音。

核心觀念

常見任務有分類、摘要、翻譯、問答與情緒分析。

關鍵詞

NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示

混淆矩陣(第 10 輪複習)

混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。

核心觀念

精確率與召回率都可由混淆矩陣計算。

關鍵詞

TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例

訓練集與測試集(第 10 輪複習)

訓練集用來學習,測試集用來評估模型在新資料上的表現。

核心觀念

不能用測試集反覆調模型,否則評估會失真。

關鍵詞

資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估

特徵工程(第 10 輪複習)

特徵工程是把原始資料轉換成模型更容易使用的欄位。

核心觀念

好的特徵可能比複雜模型更能提升表現。

關鍵詞

標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊

分群(第 10 輪複習)

分群是在沒有標籤時找出相似群組。

核心觀念

分群結果需要人再解讀其商業意義。

關鍵詞

K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度

迴歸(第 10 輪複習)

迴歸是預測連續數值。

核心觀念

輸出若是價格、銷量、溫度或分數,通常是迴歸。

關鍵詞

連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標

分類(第 10 輪複習)

分類是把資料分到離散類別。

核心觀念

輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。

關鍵詞

二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果

演算法(第 10 輪複習)

演算法是一套解決問題的步驟或方法。

核心觀念

機器學習演算法用來從資料中建立模型。

關鍵詞

決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型

模型(第 10 輪複習)

模型是從資料中學到的規則或表示方式。

核心觀念

訓練完成後,模型可對新資料做預測或生成。

關鍵詞

訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值

資料(第 10 輪複習)

資料是 AI 系統學習與推論的基礎。

核心觀念

資料可以是表格、文字、圖片、聲音或感測器紀錄。

關鍵詞

結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位

生成式 AI 限制(第 9 輪複習)

生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。

核心觀念

使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。

關鍵詞

幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊

自動化(第 9 輪複習)

自動化是讓系統依規則或模型執行重複流程。

核心觀念

AI 可強化自動化,但高風險流程仍需人類覆核。

關鍵詞

Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助

模型偏誤(第 9 輪複習)

模型偏誤可能來自資料代表性不足、標註不一致或設計不當。

核心觀念

偏誤不只影響準確率,也可能造成公平性問題。

關鍵詞

Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料

資料漂移(第 9 輪複習)

資料漂移是上線後新資料分布和訓練資料不同。

核心觀念

資料漂移會讓模型效果下降,因此需要監控。

關鍵詞

Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練

雲端與邊緣(第 9 輪複習)

雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。

核心觀念

選擇部署位置時要考慮成本、延遲、隱私與維運。

關鍵詞

Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署

API(第 9 輪複習)

API 是系統之間交換資料或功能的介面。

核心觀念

AI 服務常透過 API 提供模型推論能力。

關鍵詞

Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制

向量資料庫(第 9 輪複習)

向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。

核心觀念

它常和 RAG 搭配做語意搜尋。

關鍵詞

向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量

大型語言模型(第 9 輪複習)

大型語言模型能根據上下文預測與生成文字。

核心觀念

它擅長語言任務,但可能產生幻覺或過時資訊。

關鍵詞

LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制

推薦系統(第 9 輪複習)

推薦系統根據使用者行為、內容特徵或相似族群推薦項目。

核心觀念

它常用於電商、影音平台與新聞內容。

關鍵詞

協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足

電腦視覺(第 9 輪複習)

電腦視覺讓電腦處理與理解影像或影片。

核心觀念

常見任務有分類、物件偵測、影像分割與瑕疵檢測。

關鍵詞

物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識

自然語言處理(第 9 輪複習)

自然語言處理讓電腦理解、分析或生成文字與語音。

核心觀念

常見任務有分類、摘要、翻譯、問答與情緒分析。

關鍵詞

NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示

混淆矩陣(第 9 輪複習)

混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。

核心觀念

精確率與召回率都可由混淆矩陣計算。

關鍵詞

TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例

訓練集與測試集(第 9 輪複習)

訓練集用來學習,測試集用來評估模型在新資料上的表現。

核心觀念

不能用測試集反覆調模型,否則評估會失真。

關鍵詞

資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估

特徵工程(第 9 輪複習)

特徵工程是把原始資料轉換成模型更容易使用的欄位。

核心觀念

好的特徵可能比複雜模型更能提升表現。

關鍵詞

標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊

分群(第 9 輪複習)

分群是在沒有標籤時找出相似群組。

核心觀念

分群結果需要人再解讀其商業意義。

關鍵詞

K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度

迴歸(第 9 輪複習)

迴歸是預測連續數值。

核心觀念

輸出若是價格、銷量、溫度或分數,通常是迴歸。

關鍵詞

連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標

分類(第 9 輪複習)

分類是把資料分到離散類別。

核心觀念

輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。

關鍵詞

二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果

演算法(第 9 輪複習)

演算法是一套解決問題的步驟或方法。

核心觀念

機器學習演算法用來從資料中建立模型。

關鍵詞

決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型

模型(第 9 輪複習)

模型是從資料中學到的規則或表示方式。

核心觀念

訓練完成後,模型可對新資料做預測或生成。

關鍵詞

訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值

資料(第 9 輪複習)

資料是 AI 系統學習與推論的基礎。

核心觀念

資料可以是表格、文字、圖片、聲音或感測器紀錄。

關鍵詞

結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位

生成式 AI 限制(第 8 輪複習)

生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。

核心觀念

使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。

關鍵詞

幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊

自動化(第 8 輪複習)

自動化是讓系統依規則或模型執行重複流程。

核心觀念

AI 可強化自動化,但高風險流程仍需人類覆核。

關鍵詞

Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助

模型偏誤(第 8 輪複習)

模型偏誤可能來自資料代表性不足、標註不一致或設計不當。

核心觀念

偏誤不只影響準確率,也可能造成公平性問題。

關鍵詞

Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料

資料漂移(第 8 輪複習)

資料漂移是上線後新資料分布和訓練資料不同。

核心觀念

資料漂移會讓模型效果下降,因此需要監控。

關鍵詞

Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練

雲端與邊緣(第 8 輪複習)

雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。

核心觀念

選擇部署位置時要考慮成本、延遲、隱私與維運。

關鍵詞

Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署

API(第 8 輪複習)

API 是系統之間交換資料或功能的介面。

核心觀念

AI 服務常透過 API 提供模型推論能力。

關鍵詞

Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制

向量資料庫(第 8 輪複習)

向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。

核心觀念

它常和 RAG 搭配做語意搜尋。

關鍵詞

向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量

大型語言模型(第 8 輪複習)

大型語言模型能根據上下文預測與生成文字。

核心觀念

它擅長語言任務,但可能產生幻覺或過時資訊。

關鍵詞

LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制

推薦系統(第 8 輪複習)

推薦系統根據使用者行為、內容特徵或相似族群推薦項目。

核心觀念

它常用於電商、影音平台與新聞內容。

關鍵詞

協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足

電腦視覺(第 8 輪複習)

電腦視覺讓電腦處理與理解影像或影片。

核心觀念

常見任務有分類、物件偵測、影像分割與瑕疵檢測。

關鍵詞

物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識

自然語言處理(第 8 輪複習)

自然語言處理讓電腦理解、分析或生成文字與語音。

核心觀念

常見任務有分類、摘要、翻譯、問答與情緒分析。

關鍵詞

NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示

混淆矩陣(第 8 輪複習)

混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。

核心觀念

精確率與召回率都可由混淆矩陣計算。

關鍵詞

TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例

訓練集與測試集(第 8 輪複習)

訓練集用來學習,測試集用來評估模型在新資料上的表現。

核心觀念

不能用測試集反覆調模型,否則評估會失真。

關鍵詞

資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估

特徵工程(第 8 輪複習)

特徵工程是把原始資料轉換成模型更容易使用的欄位。

核心觀念

好的特徵可能比複雜模型更能提升表現。

關鍵詞

標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊

分群(第 8 輪複習)

分群是在沒有標籤時找出相似群組。

核心觀念

分群結果需要人再解讀其商業意義。

關鍵詞

K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度

迴歸(第 8 輪複習)

迴歸是預測連續數值。

核心觀念

輸出若是價格、銷量、溫度或分數,通常是迴歸。

關鍵詞

連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標

分類(第 8 輪複習)

分類是把資料分到離散類別。

核心觀念

輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。

關鍵詞

二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果

演算法(第 8 輪複習)

演算法是一套解決問題的步驟或方法。

核心觀念

機器學習演算法用來從資料中建立模型。

關鍵詞

決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型

模型(第 8 輪複習)

模型是從資料中學到的規則或表示方式。

核心觀念

訓練完成後,模型可對新資料做預測或生成。

關鍵詞

訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值

資料(第 8 輪複習)

資料是 AI 系統學習與推論的基礎。

核心觀念

資料可以是表格、文字、圖片、聲音或感測器紀錄。

關鍵詞

結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位

生成式 AI 限制(第 7 輪複習)

生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。

核心觀念

使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。

關鍵詞

幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊

自動化(第 7 輪複習)

自動化是讓系統依規則或模型執行重複流程。

核心觀念

AI 可強化自動化,但高風險流程仍需人類覆核。

關鍵詞

Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助

模型偏誤(第 7 輪複習)

模型偏誤可能來自資料代表性不足、標註不一致或設計不當。

核心觀念

偏誤不只影響準確率,也可能造成公平性問題。

關鍵詞

Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料

資料漂移(第 7 輪複習)

資料漂移是上線後新資料分布和訓練資料不同。

核心觀念

資料漂移會讓模型效果下降,因此需要監控。

關鍵詞

Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練

雲端與邊緣(第 7 輪複習)

雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。

核心觀念

選擇部署位置時要考慮成本、延遲、隱私與維運。

關鍵詞

Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署

API(第 7 輪複習)

API 是系統之間交換資料或功能的介面。

核心觀念

AI 服務常透過 API 提供模型推論能力。

關鍵詞

Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制

向量資料庫(第 7 輪複習)

向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。

核心觀念

它常和 RAG 搭配做語意搜尋。

關鍵詞

向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量

大型語言模型(第 7 輪複習)

大型語言模型能根據上下文預測與生成文字。

核心觀念

它擅長語言任務,但可能產生幻覺或過時資訊。

關鍵詞

LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制

推薦系統(第 7 輪複習)

推薦系統根據使用者行為、內容特徵或相似族群推薦項目。

核心觀念

它常用於電商、影音平台與新聞內容。

關鍵詞

協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足

電腦視覺(第 7 輪複習)

電腦視覺讓電腦處理與理解影像或影片。

核心觀念

常見任務有分類、物件偵測、影像分割與瑕疵檢測。

關鍵詞

物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識

自然語言處理(第 7 輪複習)

自然語言處理讓電腦理解、分析或生成文字與語音。

核心觀念

常見任務有分類、摘要、翻譯、問答與情緒分析。

關鍵詞

NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示

混淆矩陣(第 7 輪複習)

混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。

核心觀念

精確率與召回率都可由混淆矩陣計算。

關鍵詞

TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例

訓練集與測試集(第 7 輪複習)

訓練集用來學習,測試集用來評估模型在新資料上的表現。

核心觀念

不能用測試集反覆調模型,否則評估會失真。

關鍵詞

資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估

特徵工程(第 7 輪複習)

特徵工程是把原始資料轉換成模型更容易使用的欄位。

核心觀念

好的特徵可能比複雜模型更能提升表現。

關鍵詞

標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊

分群(第 7 輪複習)

分群是在沒有標籤時找出相似群組。

核心觀念

分群結果需要人再解讀其商業意義。

關鍵詞

K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度

迴歸(第 7 輪複習)

迴歸是預測連續數值。

核心觀念

輸出若是價格、銷量、溫度或分數,通常是迴歸。

關鍵詞

連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標

分類(第 7 輪複習)

分類是把資料分到離散類別。

核心觀念

輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。

關鍵詞

二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果

演算法(第 7 輪複習)

演算法是一套解決問題的步驟或方法。

核心觀念

機器學習演算法用來從資料中建立模型。

關鍵詞

決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型

模型(第 7 輪複習)

模型是從資料中學到的規則或表示方式。

核心觀念

訓練完成後,模型可對新資料做預測或生成。

關鍵詞

訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值

資料(第 7 輪複習)

資料是 AI 系統學習與推論的基礎。

核心觀念

資料可以是表格、文字、圖片、聲音或感測器紀錄。

關鍵詞

結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位

生成式 AI 限制(第 6 輪複習)

生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。

核心觀念

使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。

關鍵詞

幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊

自動化(第 6 輪複習)

自動化是讓系統依規則或模型執行重複流程。

核心觀念

AI 可強化自動化,但高風險流程仍需人類覆核。

關鍵詞

Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助

模型偏誤(第 6 輪複習)

模型偏誤可能來自資料代表性不足、標註不一致或設計不當。

核心觀念

偏誤不只影響準確率,也可能造成公平性問題。

關鍵詞

Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料

資料漂移(第 6 輪複習)

資料漂移是上線後新資料分布和訓練資料不同。

核心觀念

資料漂移會讓模型效果下降,因此需要監控。

關鍵詞

Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練

雲端與邊緣(第 6 輪複習)

雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。

核心觀念

選擇部署位置時要考慮成本、延遲、隱私與維運。

關鍵詞

Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署

API(第 6 輪複習)

API 是系統之間交換資料或功能的介面。

核心觀念

AI 服務常透過 API 提供模型推論能力。

關鍵詞

Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制

向量資料庫(第 6 輪複習)

向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。

核心觀念

它常和 RAG 搭配做語意搜尋。

關鍵詞

向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量

大型語言模型(第 6 輪複習)

大型語言模型能根據上下文預測與生成文字。

核心觀念

它擅長語言任務,但可能產生幻覺或過時資訊。

關鍵詞

LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制

推薦系統(第 6 輪複習)

推薦系統根據使用者行為、內容特徵或相似族群推薦項目。

核心觀念

它常用於電商、影音平台與新聞內容。

關鍵詞

協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足

電腦視覺(第 6 輪複習)

電腦視覺讓電腦處理與理解影像或影片。

核心觀念

常見任務有分類、物件偵測、影像分割與瑕疵檢測。

關鍵詞

物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識

自然語言處理(第 6 輪複習)

自然語言處理讓電腦理解、分析或生成文字與語音。

核心觀念

常見任務有分類、摘要、翻譯、問答與情緒分析。

關鍵詞

NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示

混淆矩陣(第 6 輪複習)

混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。

核心觀念

精確率與召回率都可由混淆矩陣計算。

關鍵詞

TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例

訓練集與測試集(第 6 輪複習)

訓練集用來學習,測試集用來評估模型在新資料上的表現。

核心觀念

不能用測試集反覆調模型,否則評估會失真。

關鍵詞

資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估

特徵工程(第 6 輪複習)

特徵工程是把原始資料轉換成模型更容易使用的欄位。

核心觀念

好的特徵可能比複雜模型更能提升表現。

關鍵詞

標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊

分群(第 6 輪複習)

分群是在沒有標籤時找出相似群組。

核心觀念

分群結果需要人再解讀其商業意義。

關鍵詞

K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度

迴歸(第 6 輪複習)

迴歸是預測連續數值。

核心觀念

輸出若是價格、銷量、溫度或分數,通常是迴歸。

關鍵詞

連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標

分類(第 6 輪複習)

分類是把資料分到離散類別。

核心觀念

輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。

關鍵詞

二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果

演算法(第 6 輪複習)

演算法是一套解決問題的步驟或方法。

核心觀念

機器學習演算法用來從資料中建立模型。

關鍵詞

決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型

模型(第 6 輪複習)

模型是從資料中學到的規則或表示方式。

核心觀念

訓練完成後,模型可對新資料做預測或生成。

關鍵詞

訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值

資料(第 6 輪複習)

資料是 AI 系統學習與推論的基礎。

核心觀念

資料可以是表格、文字、圖片、聲音或感測器紀錄。

關鍵詞

結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位

生成式 AI 限制(第 5 輪複習)

生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。

核心觀念

使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。

關鍵詞

幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊

自動化(第 5 輪複習)

自動化是讓系統依規則或模型執行重複流程。

核心觀念

AI 可強化自動化,但高風險流程仍需人類覆核。

關鍵詞

Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助

模型偏誤(第 5 輪複習)

模型偏誤可能來自資料代表性不足、標註不一致或設計不當。

核心觀念

偏誤不只影響準確率,也可能造成公平性問題。

關鍵詞

Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料

資料漂移(第 5 輪複習)

資料漂移是上線後新資料分布和訓練資料不同。

核心觀念

資料漂移會讓模型效果下降,因此需要監控。

關鍵詞

Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練

雲端與邊緣(第 5 輪複習)

雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。

核心觀念

選擇部署位置時要考慮成本、延遲、隱私與維運。

關鍵詞

Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署

API(第 5 輪複習)

API 是系統之間交換資料或功能的介面。

核心觀念

AI 服務常透過 API 提供模型推論能力。

關鍵詞

Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制

向量資料庫(第 5 輪複習)

向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。

核心觀念

它常和 RAG 搭配做語意搜尋。

關鍵詞

向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量

大型語言模型(第 5 輪複習)

大型語言模型能根據上下文預測與生成文字。

核心觀念

它擅長語言任務,但可能產生幻覺或過時資訊。

關鍵詞

LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制

推薦系統(第 5 輪複習)

推薦系統根據使用者行為、內容特徵或相似族群推薦項目。

核心觀念

它常用於電商、影音平台與新聞內容。

關鍵詞

協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足

電腦視覺(第 5 輪複習)

電腦視覺讓電腦處理與理解影像或影片。

核心觀念

常見任務有分類、物件偵測、影像分割與瑕疵檢測。

關鍵詞

物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識

自然語言處理(第 5 輪複習)

自然語言處理讓電腦理解、分析或生成文字與語音。

核心觀念

常見任務有分類、摘要、翻譯、問答與情緒分析。

關鍵詞

NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示

混淆矩陣(第 5 輪複習)

混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。

核心觀念

精確率與召回率都可由混淆矩陣計算。

關鍵詞

TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例

訓練集與測試集(第 5 輪複習)

訓練集用來學習,測試集用來評估模型在新資料上的表現。

核心觀念

不能用測試集反覆調模型,否則評估會失真。

關鍵詞

資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估

特徵工程(第 5 輪複習)

特徵工程是把原始資料轉換成模型更容易使用的欄位。

核心觀念

好的特徵可能比複雜模型更能提升表現。

關鍵詞

標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊

分群(第 5 輪複習)

分群是在沒有標籤時找出相似群組。

核心觀念

分群結果需要人再解讀其商業意義。

關鍵詞

K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度

迴歸(第 5 輪複習)

迴歸是預測連續數值。

核心觀念

輸出若是價格、銷量、溫度或分數,通常是迴歸。

關鍵詞

連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標

分類(第 5 輪複習)

分類是把資料分到離散類別。

核心觀念

輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。

關鍵詞

二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果

演算法(第 5 輪複習)

演算法是一套解決問題的步驟或方法。

核心觀念

機器學習演算法用來從資料中建立模型。

關鍵詞

決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型

模型(第 5 輪複習)

模型是從資料中學到的規則或表示方式。

核心觀念

訓練完成後,模型可對新資料做預測或生成。

關鍵詞

訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值

資料(第 5 輪複習)

資料是 AI 系統學習與推論的基礎。

核心觀念

資料可以是表格、文字、圖片、聲音或感測器紀錄。

關鍵詞

結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位

生成式 AI 限制(第 4 輪複習)

生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。

核心觀念

使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。

關鍵詞

幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊

自動化(第 4 輪複習)

自動化是讓系統依規則或模型執行重複流程。

核心觀念

AI 可強化自動化,但高風險流程仍需人類覆核。

關鍵詞

Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助

模型偏誤(第 4 輪複習)

模型偏誤可能來自資料代表性不足、標註不一致或設計不當。

核心觀念

偏誤不只影響準確率,也可能造成公平性問題。

關鍵詞

Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料

資料漂移(第 4 輪複習)

資料漂移是上線後新資料分布和訓練資料不同。

核心觀念

資料漂移會讓模型效果下降,因此需要監控。

關鍵詞

Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練

雲端與邊緣(第 4 輪複習)

雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。

核心觀念

選擇部署位置時要考慮成本、延遲、隱私與維運。

關鍵詞

Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署

API(第 4 輪複習)

API 是系統之間交換資料或功能的介面。

核心觀念

AI 服務常透過 API 提供模型推論能力。

關鍵詞

Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制

向量資料庫(第 4 輪複習)

向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。

核心觀念

它常和 RAG 搭配做語意搜尋。

關鍵詞

向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量

大型語言模型(第 4 輪複習)

大型語言模型能根據上下文預測與生成文字。

核心觀念

它擅長語言任務,但可能產生幻覺或過時資訊。

關鍵詞

LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制

推薦系統(第 4 輪複習)

推薦系統根據使用者行為、內容特徵或相似族群推薦項目。

核心觀念

它常用於電商、影音平台與新聞內容。

關鍵詞

協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足

電腦視覺(第 4 輪複習)

電腦視覺讓電腦處理與理解影像或影片。

核心觀念

常見任務有分類、物件偵測、影像分割與瑕疵檢測。

關鍵詞

物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識

自然語言處理(第 4 輪複習)

自然語言處理讓電腦理解、分析或生成文字與語音。

核心觀念

常見任務有分類、摘要、翻譯、問答與情緒分析。

關鍵詞

NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示

混淆矩陣(第 4 輪複習)

混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。

核心觀念

精確率與召回率都可由混淆矩陣計算。

關鍵詞

TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例

訓練集與測試集(第 4 輪複習)

訓練集用來學習,測試集用來評估模型在新資料上的表現。

核心觀念

不能用測試集反覆調模型,否則評估會失真。

關鍵詞

資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估

特徵工程(第 4 輪複習)

特徵工程是把原始資料轉換成模型更容易使用的欄位。

核心觀念

好的特徵可能比複雜模型更能提升表現。

關鍵詞

標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊

分群(第 4 輪複習)

分群是在沒有標籤時找出相似群組。

核心觀念

分群結果需要人再解讀其商業意義。

關鍵詞

K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度

迴歸(第 4 輪複習)

迴歸是預測連續數值。

核心觀念

輸出若是價格、銷量、溫度或分數,通常是迴歸。

關鍵詞

連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標

分類(第 4 輪複習)

分類是把資料分到離散類別。

核心觀念

輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。

關鍵詞

二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果

演算法(第 4 輪複習)

演算法是一套解決問題的步驟或方法。

核心觀念

機器學習演算法用來從資料中建立模型。

關鍵詞

決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型

模型(第 4 輪複習)

模型是從資料中學到的規則或表示方式。

核心觀念

訓練完成後,模型可對新資料做預測或生成。

關鍵詞

訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值

資料(第 4 輪複習)

資料是 AI 系統學習與推論的基礎。

核心觀念

資料可以是表格、文字、圖片、聲音或感測器紀錄。

關鍵詞

結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位

生成式 AI 限制(第 3 輪複習)

生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。

核心觀念

使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。

關鍵詞

幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊

自動化(第 3 輪複習)

自動化是讓系統依規則或模型執行重複流程。

核心觀念

AI 可強化自動化,但高風險流程仍需人類覆核。

關鍵詞

Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助

模型偏誤(第 3 輪複習)

模型偏誤可能來自資料代表性不足、標註不一致或設計不當。

核心觀念

偏誤不只影響準確率,也可能造成公平性問題。

關鍵詞

Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料

資料漂移(第 3 輪複習)

資料漂移是上線後新資料分布和訓練資料不同。

核心觀念

資料漂移會讓模型效果下降,因此需要監控。

關鍵詞

Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練

雲端與邊緣(第 3 輪複習)

雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。

核心觀念

選擇部署位置時要考慮成本、延遲、隱私與維運。

關鍵詞

Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署

API(第 3 輪複習)

API 是系統之間交換資料或功能的介面。

核心觀念

AI 服務常透過 API 提供模型推論能力。

關鍵詞

Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制

向量資料庫(第 3 輪複習)

向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。

核心觀念

它常和 RAG 搭配做語意搜尋。

關鍵詞

向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量

大型語言模型(第 3 輪複習)

大型語言模型能根據上下文預測與生成文字。

核心觀念

它擅長語言任務,但可能產生幻覺或過時資訊。

關鍵詞

LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制

推薦系統(第 3 輪複習)

推薦系統根據使用者行為、內容特徵或相似族群推薦項目。

核心觀念

它常用於電商、影音平台與新聞內容。

關鍵詞

協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足

電腦視覺(第 3 輪複習)

電腦視覺讓電腦處理與理解影像或影片。

核心觀念

常見任務有分類、物件偵測、影像分割與瑕疵檢測。

關鍵詞

物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識

自然語言處理(第 3 輪複習)

自然語言處理讓電腦理解、分析或生成文字與語音。

核心觀念

常見任務有分類、摘要、翻譯、問答與情緒分析。

關鍵詞

NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示

混淆矩陣(第 3 輪複習)

混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。

核心觀念

精確率與召回率都可由混淆矩陣計算。

關鍵詞

TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例

訓練集與測試集(第 3 輪複習)

訓練集用來學習,測試集用來評估模型在新資料上的表現。

核心觀念

不能用測試集反覆調模型,否則評估會失真。

關鍵詞

資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估

特徵工程(第 3 輪複習)

特徵工程是把原始資料轉換成模型更容易使用的欄位。

核心觀念

好的特徵可能比複雜模型更能提升表現。

關鍵詞

標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊

分群(第 3 輪複習)

分群是在沒有標籤時找出相似群組。

核心觀念

分群結果需要人再解讀其商業意義。

關鍵詞

K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度

迴歸(第 3 輪複習)

迴歸是預測連續數值。

核心觀念

輸出若是價格、銷量、溫度或分數,通常是迴歸。

關鍵詞

連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標

分類(第 3 輪複習)

分類是把資料分到離散類別。

核心觀念

輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。

關鍵詞

二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果

演算法(第 3 輪複習)

演算法是一套解決問題的步驟或方法。

核心觀念

機器學習演算法用來從資料中建立模型。

關鍵詞

決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型

模型(第 3 輪複習)

模型是從資料中學到的規則或表示方式。

核心觀念

訓練完成後,模型可對新資料做預測或生成。

關鍵詞

訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值

資料(第 3 輪複習)

資料是 AI 系統學習與推論的基礎。

核心觀念

資料可以是表格、文字、圖片、聲音或感測器紀錄。

關鍵詞

結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位

生成式 AI 限制(第 2 輪複習)

生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。

核心觀念

使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。

關鍵詞

幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊

自動化(第 2 輪複習)

自動化是讓系統依規則或模型執行重複流程。

核心觀念

AI 可強化自動化,但高風險流程仍需人類覆核。

關鍵詞

Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助

模型偏誤(第 2 輪複習)

模型偏誤可能來自資料代表性不足、標註不一致或設計不當。

核心觀念

偏誤不只影響準確率,也可能造成公平性問題。

關鍵詞

Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料

資料漂移(第 2 輪複習)

資料漂移是上線後新資料分布和訓練資料不同。

核心觀念

資料漂移會讓模型效果下降,因此需要監控。

關鍵詞

Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練

雲端與邊緣(第 2 輪複習)

雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。

核心觀念

選擇部署位置時要考慮成本、延遲、隱私與維運。

關鍵詞

Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署

API(第 2 輪複習)

API 是系統之間交換資料或功能的介面。

核心觀念

AI 服務常透過 API 提供模型推論能力。

關鍵詞

Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制

向量資料庫(第 2 輪複習)

向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。

核心觀念

它常和 RAG 搭配做語意搜尋。

關鍵詞

向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量

大型語言模型(第 2 輪複習)

大型語言模型能根據上下文預測與生成文字。

核心觀念

它擅長語言任務,但可能產生幻覺或過時資訊。

關鍵詞

LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制

推薦系統(第 2 輪複習)

推薦系統根據使用者行為、內容特徵或相似族群推薦項目。

核心觀念

它常用於電商、影音平台與新聞內容。

關鍵詞

協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足

電腦視覺(第 2 輪複習)

電腦視覺讓電腦處理與理解影像或影片。

核心觀念

常見任務有分類、物件偵測、影像分割與瑕疵檢測。

關鍵詞

物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識

自然語言處理(第 2 輪複習)

自然語言處理讓電腦理解、分析或生成文字與語音。

核心觀念

常見任務有分類、摘要、翻譯、問答與情緒分析。

關鍵詞

NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示

混淆矩陣(第 2 輪複習)

混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。

核心觀念

精確率與召回率都可由混淆矩陣計算。

關鍵詞

TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例

訓練集與測試集(第 2 輪複習)

訓練集用來學習,測試集用來評估模型在新資料上的表現。

核心觀念

不能用測試集反覆調模型,否則評估會失真。

關鍵詞

資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估

特徵工程(第 2 輪複習)

特徵工程是把原始資料轉換成模型更容易使用的欄位。

核心觀念

好的特徵可能比複雜模型更能提升表現。

關鍵詞

標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊

分群(第 2 輪複習)

分群是在沒有標籤時找出相似群組。

核心觀念

分群結果需要人再解讀其商業意義。

關鍵詞

K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度

迴歸(第 2 輪複習)

迴歸是預測連續數值。

核心觀念

輸出若是價格、銷量、溫度或分數,通常是迴歸。

關鍵詞

連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標

分類(第 2 輪複習)

分類是把資料分到離散類別。

核心觀念

輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。

關鍵詞

二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果

演算法(第 2 輪複習)

演算法是一套解決問題的步驟或方法。

核心觀念

機器學習演算法用來從資料中建立模型。

關鍵詞

決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型

模型(第 2 輪複習)

模型是從資料中學到的規則或表示方式。

核心觀念

訓練完成後,模型可對新資料做預測或生成。

關鍵詞

訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值

資料(第 2 輪複習)

資料是 AI 系統學習與推論的基礎。

核心觀念

資料可以是表格、文字、圖片、聲音或感測器紀錄。

關鍵詞

結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位

生成式 AI 限制

生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。

核心觀念

使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。

關鍵詞

幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊

自動化

自動化是讓系統依規則或模型執行重複流程。

核心觀念

AI 可強化自動化,但高風險流程仍需人類覆核。

關鍵詞

Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助

模型偏誤

模型偏誤可能來自資料代表性不足、標註不一致或設計不當。

核心觀念

偏誤不只影響準確率,也可能造成公平性問題。

關鍵詞

Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料

資料漂移

資料漂移是上線後新資料分布和訓練資料不同。

核心觀念

資料漂移會讓模型效果下降,因此需要監控。

關鍵詞

Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練

雲端與邊緣

雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。

核心觀念

選擇部署位置時要考慮成本、延遲、隱私與維運。

關鍵詞

Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署

API

API 是系統之間交換資料或功能的介面。

核心觀念

AI 服務常透過 API 提供模型推論能力。

關鍵詞

Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制

向量資料庫

向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。

核心觀念

它常和 RAG 搭配做語意搜尋。

關鍵詞

向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量

大型語言模型

大型語言模型能根據上下文預測與生成文字。

核心觀念

它擅長語言任務,但可能產生幻覺或過時資訊。

關鍵詞

LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制

推薦系統

推薦系統根據使用者行為、內容特徵或相似族群推薦項目。

核心觀念

它常用於電商、影音平台與新聞內容。

關鍵詞

協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足

電腦視覺

電腦視覺讓電腦處理與理解影像或影片。

核心觀念

常見任務有分類、物件偵測、影像分割與瑕疵檢測。

關鍵詞

物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識

自然語言處理

自然語言處理讓電腦理解、分析或生成文字與語音。

核心觀念

常見任務有分類、摘要、翻譯、問答與情緒分析。

關鍵詞

NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示

混淆矩陣

混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。

核心觀念

精確率與召回率都可由混淆矩陣計算。

關鍵詞

TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例

訓練集與測試集

訓練集用來學習,測試集用來評估模型在新資料上的表現。

核心觀念

不能用測試集反覆調模型,否則評估會失真。

關鍵詞

資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估

特徵工程

特徵工程是把原始資料轉換成模型更容易使用的欄位。

核心觀念

好的特徵可能比複雜模型更能提升表現。

關鍵詞

標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊

分群

分群是在沒有標籤時找出相似群組。

核心觀念

分群結果需要人再解讀其商業意義。

關鍵詞

K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度

迴歸

迴歸是預測連續數值。

核心觀念

輸出若是價格、銷量、溫度或分數,通常是迴歸。

關鍵詞

連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標

分類

分類是把資料分到離散類別。

核心觀念

輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。

關鍵詞

二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果

演算法

演算法是一套解決問題的步驟或方法。

核心觀念

機器學習演算法用來從資料中建立模型。

關鍵詞

決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型

模型

模型是從資料中學到的規則或表示方式。

核心觀念

訓練完成後,模型可對新資料做預測或生成。

關鍵詞

訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值

資料

資料是 AI 系統學習與推論的基礎。

核心觀念

資料可以是表格、文字、圖片、聲音或感測器紀錄。

關鍵詞

結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位