迴歸(第 19 輪複習)
迴歸是預測連續數值。
輸出若是價格、銷量、溫度或分數,通常是迴歸。
連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標
Foundations Archive
迴歸是預測連續數值。
輸出若是價格、銷量、溫度或分數,通常是迴歸。
連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標
分類是把資料分到離散類別。
輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。
二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果
演算法是一套解決問題的步驟或方法。
機器學習演算法用來從資料中建立模型。
決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型
模型是從資料中學到的規則或表示方式。
訓練完成後,模型可對新資料做預測或生成。
訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值
資料是 AI 系統學習與推論的基礎。
資料可以是表格、文字、圖片、聲音或感測器紀錄。
結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位
生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。
使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。
幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊
自動化是讓系統依規則或模型執行重複流程。
AI 可強化自動化,但高風險流程仍需人類覆核。
Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助
模型偏誤可能來自資料代表性不足、標註不一致或設計不當。
偏誤不只影響準確率,也可能造成公平性問題。
Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料
資料漂移是上線後新資料分布和訓練資料不同。
資料漂移會讓模型效果下降,因此需要監控。
Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練
雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。
選擇部署位置時要考慮成本、延遲、隱私與維運。
Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署
API 是系統之間交換資料或功能的介面。
AI 服務常透過 API 提供模型推論能力。
Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制
向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。
它常和 RAG 搭配做語意搜尋。
向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量
大型語言模型能根據上下文預測與生成文字。
它擅長語言任務,但可能產生幻覺或過時資訊。
LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制
推薦系統根據使用者行為、內容特徵或相似族群推薦項目。
它常用於電商、影音平台與新聞內容。
協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足
電腦視覺讓電腦處理與理解影像或影片。
常見任務有分類、物件偵測、影像分割與瑕疵檢測。
物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識
自然語言處理讓電腦理解、分析或生成文字與語音。
常見任務有分類、摘要、翻譯、問答與情緒分析。
NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示
混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。
精確率與召回率都可由混淆矩陣計算。
TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例
訓練集用來學習,測試集用來評估模型在新資料上的表現。
不能用測試集反覆調模型,否則評估會失真。
資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估
特徵工程是把原始資料轉換成模型更容易使用的欄位。
好的特徵可能比複雜模型更能提升表現。
標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊
分群是在沒有標籤時找出相似群組。
分群結果需要人再解讀其商業意義。
K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度
迴歸是預測連續數值。
輸出若是價格、銷量、溫度或分數,通常是迴歸。
連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標
分類是把資料分到離散類別。
輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。
二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果
演算法是一套解決問題的步驟或方法。
機器學習演算法用來從資料中建立模型。
決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型
模型是從資料中學到的規則或表示方式。
訓練完成後,模型可對新資料做預測或生成。
訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值
資料是 AI 系統學習與推論的基礎。
資料可以是表格、文字、圖片、聲音或感測器紀錄。
結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位
生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。
使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。
幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊
自動化是讓系統依規則或模型執行重複流程。
AI 可強化自動化,但高風險流程仍需人類覆核。
Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助
模型偏誤可能來自資料代表性不足、標註不一致或設計不當。
偏誤不只影響準確率,也可能造成公平性問題。
Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料
資料漂移是上線後新資料分布和訓練資料不同。
資料漂移會讓模型效果下降,因此需要監控。
Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練
雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。
選擇部署位置時要考慮成本、延遲、隱私與維運。
Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署
API 是系統之間交換資料或功能的介面。
AI 服務常透過 API 提供模型推論能力。
Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制
向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。
它常和 RAG 搭配做語意搜尋。
向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量
大型語言模型能根據上下文預測與生成文字。
它擅長語言任務,但可能產生幻覺或過時資訊。
LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制
推薦系統根據使用者行為、內容特徵或相似族群推薦項目。
它常用於電商、影音平台與新聞內容。
協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足
電腦視覺讓電腦處理與理解影像或影片。
常見任務有分類、物件偵測、影像分割與瑕疵檢測。
物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識
自然語言處理讓電腦理解、分析或生成文字與語音。
常見任務有分類、摘要、翻譯、問答與情緒分析。
NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示
混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。
精確率與召回率都可由混淆矩陣計算。
TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例
訓練集用來學習,測試集用來評估模型在新資料上的表現。
不能用測試集反覆調模型,否則評估會失真。
資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估
特徵工程是把原始資料轉換成模型更容易使用的欄位。
好的特徵可能比複雜模型更能提升表現。
標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊
分群是在沒有標籤時找出相似群組。
分群結果需要人再解讀其商業意義。
K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度
迴歸是預測連續數值。
輸出若是價格、銷量、溫度或分數,通常是迴歸。
連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標
分類是把資料分到離散類別。
輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。
二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果
演算法是一套解決問題的步驟或方法。
機器學習演算法用來從資料中建立模型。
決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型
模型是從資料中學到的規則或表示方式。
訓練完成後,模型可對新資料做預測或生成。
訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值
資料是 AI 系統學習與推論的基礎。
資料可以是表格、文字、圖片、聲音或感測器紀錄。
結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位
生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。
使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。
幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊
自動化是讓系統依規則或模型執行重複流程。
AI 可強化自動化,但高風險流程仍需人類覆核。
Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助
模型偏誤可能來自資料代表性不足、標註不一致或設計不當。
偏誤不只影響準確率,也可能造成公平性問題。
Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料
資料漂移是上線後新資料分布和訓練資料不同。
資料漂移會讓模型效果下降,因此需要監控。
Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練
雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。
選擇部署位置時要考慮成本、延遲、隱私與維運。
Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署
API 是系統之間交換資料或功能的介面。
AI 服務常透過 API 提供模型推論能力。
Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制
向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。
它常和 RAG 搭配做語意搜尋。
向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量
大型語言模型能根據上下文預測與生成文字。
它擅長語言任務,但可能產生幻覺或過時資訊。
LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制
推薦系統根據使用者行為、內容特徵或相似族群推薦項目。
它常用於電商、影音平台與新聞內容。
協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足
電腦視覺讓電腦處理與理解影像或影片。
常見任務有分類、物件偵測、影像分割與瑕疵檢測。
物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識
自然語言處理讓電腦理解、分析或生成文字與語音。
常見任務有分類、摘要、翻譯、問答與情緒分析。
NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示
混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。
精確率與召回率都可由混淆矩陣計算。
TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例
訓練集用來學習,測試集用來評估模型在新資料上的表現。
不能用測試集反覆調模型,否則評估會失真。
資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估
特徵工程是把原始資料轉換成模型更容易使用的欄位。
好的特徵可能比複雜模型更能提升表現。
標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊
分群是在沒有標籤時找出相似群組。
分群結果需要人再解讀其商業意義。
K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度
迴歸是預測連續數值。
輸出若是價格、銷量、溫度或分數,通常是迴歸。
連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標
分類是把資料分到離散類別。
輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。
二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果
演算法是一套解決問題的步驟或方法。
機器學習演算法用來從資料中建立模型。
決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型
模型是從資料中學到的規則或表示方式。
訓練完成後,模型可對新資料做預測或生成。
訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值
資料是 AI 系統學習與推論的基礎。
資料可以是表格、文字、圖片、聲音或感測器紀錄。
結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位
生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。
使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。
幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊
自動化是讓系統依規則或模型執行重複流程。
AI 可強化自動化,但高風險流程仍需人類覆核。
Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助
模型偏誤可能來自資料代表性不足、標註不一致或設計不當。
偏誤不只影響準確率,也可能造成公平性問題。
Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料
資料漂移是上線後新資料分布和訓練資料不同。
資料漂移會讓模型效果下降,因此需要監控。
Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練
雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。
選擇部署位置時要考慮成本、延遲、隱私與維運。
Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署
API 是系統之間交換資料或功能的介面。
AI 服務常透過 API 提供模型推論能力。
Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制
向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。
它常和 RAG 搭配做語意搜尋。
向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量
大型語言模型能根據上下文預測與生成文字。
它擅長語言任務,但可能產生幻覺或過時資訊。
LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制
推薦系統根據使用者行為、內容特徵或相似族群推薦項目。
它常用於電商、影音平台與新聞內容。
協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足
電腦視覺讓電腦處理與理解影像或影片。
常見任務有分類、物件偵測、影像分割與瑕疵檢測。
物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識
自然語言處理讓電腦理解、分析或生成文字與語音。
常見任務有分類、摘要、翻譯、問答與情緒分析。
NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示
混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。
精確率與召回率都可由混淆矩陣計算。
TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例
訓練集用來學習,測試集用來評估模型在新資料上的表現。
不能用測試集反覆調模型,否則評估會失真。
資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估
特徵工程是把原始資料轉換成模型更容易使用的欄位。
好的特徵可能比複雜模型更能提升表現。
標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊
分群是在沒有標籤時找出相似群組。
分群結果需要人再解讀其商業意義。
K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度
迴歸是預測連續數值。
輸出若是價格、銷量、溫度或分數,通常是迴歸。
連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標
分類是把資料分到離散類別。
輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。
二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果
演算法是一套解決問題的步驟或方法。
機器學習演算法用來從資料中建立模型。
決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型
模型是從資料中學到的規則或表示方式。
訓練完成後,模型可對新資料做預測或生成。
訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值
資料是 AI 系統學習與推論的基礎。
資料可以是表格、文字、圖片、聲音或感測器紀錄。
結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位
生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。
使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。
幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊
自動化是讓系統依規則或模型執行重複流程。
AI 可強化自動化,但高風險流程仍需人類覆核。
Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助
模型偏誤可能來自資料代表性不足、標註不一致或設計不當。
偏誤不只影響準確率,也可能造成公平性問題。
Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料
資料漂移是上線後新資料分布和訓練資料不同。
資料漂移會讓模型效果下降,因此需要監控。
Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練
雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。
選擇部署位置時要考慮成本、延遲、隱私與維運。
Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署
API 是系統之間交換資料或功能的介面。
AI 服務常透過 API 提供模型推論能力。
Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制
向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。
它常和 RAG 搭配做語意搜尋。
向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量
大型語言模型能根據上下文預測與生成文字。
它擅長語言任務,但可能產生幻覺或過時資訊。
LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制
推薦系統根據使用者行為、內容特徵或相似族群推薦項目。
它常用於電商、影音平台與新聞內容。
協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足
電腦視覺讓電腦處理與理解影像或影片。
常見任務有分類、物件偵測、影像分割與瑕疵檢測。
物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識
自然語言處理讓電腦理解、分析或生成文字與語音。
常見任務有分類、摘要、翻譯、問答與情緒分析。
NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示
混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。
精確率與召回率都可由混淆矩陣計算。
TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例
訓練集用來學習,測試集用來評估模型在新資料上的表現。
不能用測試集反覆調模型,否則評估會失真。
資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估
特徵工程是把原始資料轉換成模型更容易使用的欄位。
好的特徵可能比複雜模型更能提升表現。
標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊
分群是在沒有標籤時找出相似群組。
分群結果需要人再解讀其商業意義。
K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度
迴歸是預測連續數值。
輸出若是價格、銷量、溫度或分數,通常是迴歸。
連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標
分類是把資料分到離散類別。
輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。
二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果
演算法是一套解決問題的步驟或方法。
機器學習演算法用來從資料中建立模型。
決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型
模型是從資料中學到的規則或表示方式。
訓練完成後,模型可對新資料做預測或生成。
訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值
資料是 AI 系統學習與推論的基礎。
資料可以是表格、文字、圖片、聲音或感測器紀錄。
結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位
生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。
使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。
幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊
自動化是讓系統依規則或模型執行重複流程。
AI 可強化自動化,但高風險流程仍需人類覆核。
Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助
模型偏誤可能來自資料代表性不足、標註不一致或設計不當。
偏誤不只影響準確率,也可能造成公平性問題。
Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料
資料漂移是上線後新資料分布和訓練資料不同。
資料漂移會讓模型效果下降,因此需要監控。
Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練
雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。
選擇部署位置時要考慮成本、延遲、隱私與維運。
Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署
API 是系統之間交換資料或功能的介面。
AI 服務常透過 API 提供模型推論能力。
Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制
向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。
它常和 RAG 搭配做語意搜尋。
向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量
大型語言模型能根據上下文預測與生成文字。
它擅長語言任務,但可能產生幻覺或過時資訊。
LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制
推薦系統根據使用者行為、內容特徵或相似族群推薦項目。
它常用於電商、影音平台與新聞內容。
協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足
電腦視覺讓電腦處理與理解影像或影片。
常見任務有分類、物件偵測、影像分割與瑕疵檢測。
物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識
自然語言處理讓電腦理解、分析或生成文字與語音。
常見任務有分類、摘要、翻譯、問答與情緒分析。
NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示
混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。
精確率與召回率都可由混淆矩陣計算。
TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例
訓練集用來學習,測試集用來評估模型在新資料上的表現。
不能用測試集反覆調模型,否則評估會失真。
資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估
特徵工程是把原始資料轉換成模型更容易使用的欄位。
好的特徵可能比複雜模型更能提升表現。
標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊
分群是在沒有標籤時找出相似群組。
分群結果需要人再解讀其商業意義。
K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度
迴歸是預測連續數值。
輸出若是價格、銷量、溫度或分數,通常是迴歸。
連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標
分類是把資料分到離散類別。
輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。
二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果
演算法是一套解決問題的步驟或方法。
機器學習演算法用來從資料中建立模型。
決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型
模型是從資料中學到的規則或表示方式。
訓練完成後,模型可對新資料做預測或生成。
訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值
資料是 AI 系統學習與推論的基礎。
資料可以是表格、文字、圖片、聲音或感測器紀錄。
結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位
生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。
使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。
幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊
自動化是讓系統依規則或模型執行重複流程。
AI 可強化自動化,但高風險流程仍需人類覆核。
Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助
模型偏誤可能來自資料代表性不足、標註不一致或設計不當。
偏誤不只影響準確率,也可能造成公平性問題。
Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料
資料漂移是上線後新資料分布和訓練資料不同。
資料漂移會讓模型效果下降,因此需要監控。
Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練
雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。
選擇部署位置時要考慮成本、延遲、隱私與維運。
Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署
API 是系統之間交換資料或功能的介面。
AI 服務常透過 API 提供模型推論能力。
Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制
向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。
它常和 RAG 搭配做語意搜尋。
向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量
大型語言模型能根據上下文預測與生成文字。
它擅長語言任務,但可能產生幻覺或過時資訊。
LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制
推薦系統根據使用者行為、內容特徵或相似族群推薦項目。
它常用於電商、影音平台與新聞內容。
協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足
電腦視覺讓電腦處理與理解影像或影片。
常見任務有分類、物件偵測、影像分割與瑕疵檢測。
物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識
自然語言處理讓電腦理解、分析或生成文字與語音。
常見任務有分類、摘要、翻譯、問答與情緒分析。
NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示
混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。
精確率與召回率都可由混淆矩陣計算。
TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例
訓練集用來學習,測試集用來評估模型在新資料上的表現。
不能用測試集反覆調模型,否則評估會失真。
資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估
特徵工程是把原始資料轉換成模型更容易使用的欄位。
好的特徵可能比複雜模型更能提升表現。
標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊
分群是在沒有標籤時找出相似群組。
分群結果需要人再解讀其商業意義。
K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度
迴歸是預測連續數值。
輸出若是價格、銷量、溫度或分數,通常是迴歸。
連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標
分類是把資料分到離散類別。
輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。
二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果
演算法是一套解決問題的步驟或方法。
機器學習演算法用來從資料中建立模型。
決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型
模型是從資料中學到的規則或表示方式。
訓練完成後,模型可對新資料做預測或生成。
訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值
資料是 AI 系統學習與推論的基礎。
資料可以是表格、文字、圖片、聲音或感測器紀錄。
結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位
生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。
使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。
幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊
自動化是讓系統依規則或模型執行重複流程。
AI 可強化自動化,但高風險流程仍需人類覆核。
Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助
模型偏誤可能來自資料代表性不足、標註不一致或設計不當。
偏誤不只影響準確率,也可能造成公平性問題。
Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料
資料漂移是上線後新資料分布和訓練資料不同。
資料漂移會讓模型效果下降,因此需要監控。
Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練
雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。
選擇部署位置時要考慮成本、延遲、隱私與維運。
Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署
API 是系統之間交換資料或功能的介面。
AI 服務常透過 API 提供模型推論能力。
Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制
向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。
它常和 RAG 搭配做語意搜尋。
向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量
大型語言模型能根據上下文預測與生成文字。
它擅長語言任務,但可能產生幻覺或過時資訊。
LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制
推薦系統根據使用者行為、內容特徵或相似族群推薦項目。
它常用於電商、影音平台與新聞內容。
協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足
電腦視覺讓電腦處理與理解影像或影片。
常見任務有分類、物件偵測、影像分割與瑕疵檢測。
物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識
自然語言處理讓電腦理解、分析或生成文字與語音。
常見任務有分類、摘要、翻譯、問答與情緒分析。
NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示
混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。
精確率與召回率都可由混淆矩陣計算。
TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例
訓練集用來學習,測試集用來評估模型在新資料上的表現。
不能用測試集反覆調模型,否則評估會失真。
資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估
特徵工程是把原始資料轉換成模型更容易使用的欄位。
好的特徵可能比複雜模型更能提升表現。
標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊
分群是在沒有標籤時找出相似群組。
分群結果需要人再解讀其商業意義。
K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度
迴歸是預測連續數值。
輸出若是價格、銷量、溫度或分數,通常是迴歸。
連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標
分類是把資料分到離散類別。
輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。
二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果
演算法是一套解決問題的步驟或方法。
機器學習演算法用來從資料中建立模型。
決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型
模型是從資料中學到的規則或表示方式。
訓練完成後,模型可對新資料做預測或生成。
訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值
資料是 AI 系統學習與推論的基礎。
資料可以是表格、文字、圖片、聲音或感測器紀錄。
結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位
生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。
使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。
幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊
自動化是讓系統依規則或模型執行重複流程。
AI 可強化自動化,但高風險流程仍需人類覆核。
Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助
模型偏誤可能來自資料代表性不足、標註不一致或設計不當。
偏誤不只影響準確率,也可能造成公平性問題。
Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料
資料漂移是上線後新資料分布和訓練資料不同。
資料漂移會讓模型效果下降,因此需要監控。
Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練
雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。
選擇部署位置時要考慮成本、延遲、隱私與維運。
Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署
API 是系統之間交換資料或功能的介面。
AI 服務常透過 API 提供模型推論能力。
Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制
向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。
它常和 RAG 搭配做語意搜尋。
向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量
大型語言模型能根據上下文預測與生成文字。
它擅長語言任務,但可能產生幻覺或過時資訊。
LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制
推薦系統根據使用者行為、內容特徵或相似族群推薦項目。
它常用於電商、影音平台與新聞內容。
協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足
電腦視覺讓電腦處理與理解影像或影片。
常見任務有分類、物件偵測、影像分割與瑕疵檢測。
物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識
自然語言處理讓電腦理解、分析或生成文字與語音。
常見任務有分類、摘要、翻譯、問答與情緒分析。
NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示
混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。
精確率與召回率都可由混淆矩陣計算。
TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例
訓練集用來學習,測試集用來評估模型在新資料上的表現。
不能用測試集反覆調模型,否則評估會失真。
資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估
特徵工程是把原始資料轉換成模型更容易使用的欄位。
好的特徵可能比複雜模型更能提升表現。
標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊
分群是在沒有標籤時找出相似群組。
分群結果需要人再解讀其商業意義。
K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度
迴歸是預測連續數值。
輸出若是價格、銷量、溫度或分數,通常是迴歸。
連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標
分類是把資料分到離散類別。
輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。
二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果
演算法是一套解決問題的步驟或方法。
機器學習演算法用來從資料中建立模型。
決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型
模型是從資料中學到的規則或表示方式。
訓練完成後,模型可對新資料做預測或生成。
訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值
資料是 AI 系統學習與推論的基礎。
資料可以是表格、文字、圖片、聲音或感測器紀錄。
結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位
生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。
使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。
幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊
自動化是讓系統依規則或模型執行重複流程。
AI 可強化自動化,但高風險流程仍需人類覆核。
Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助
模型偏誤可能來自資料代表性不足、標註不一致或設計不當。
偏誤不只影響準確率,也可能造成公平性問題。
Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料
資料漂移是上線後新資料分布和訓練資料不同。
資料漂移會讓模型效果下降,因此需要監控。
Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練
雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。
選擇部署位置時要考慮成本、延遲、隱私與維運。
Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署
API 是系統之間交換資料或功能的介面。
AI 服務常透過 API 提供模型推論能力。
Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制
向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。
它常和 RAG 搭配做語意搜尋。
向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量
大型語言模型能根據上下文預測與生成文字。
它擅長語言任務,但可能產生幻覺或過時資訊。
LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制
推薦系統根據使用者行為、內容特徵或相似族群推薦項目。
它常用於電商、影音平台與新聞內容。
協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足
電腦視覺讓電腦處理與理解影像或影片。
常見任務有分類、物件偵測、影像分割與瑕疵檢測。
物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識
自然語言處理讓電腦理解、分析或生成文字與語音。
常見任務有分類、摘要、翻譯、問答與情緒分析。
NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示
混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。
精確率與召回率都可由混淆矩陣計算。
TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例
訓練集用來學習,測試集用來評估模型在新資料上的表現。
不能用測試集反覆調模型,否則評估會失真。
資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估
特徵工程是把原始資料轉換成模型更容易使用的欄位。
好的特徵可能比複雜模型更能提升表現。
標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊
分群是在沒有標籤時找出相似群組。
分群結果需要人再解讀其商業意義。
K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度
迴歸是預測連續數值。
輸出若是價格、銷量、溫度或分數,通常是迴歸。
連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標
分類是把資料分到離散類別。
輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。
二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果
演算法是一套解決問題的步驟或方法。
機器學習演算法用來從資料中建立模型。
決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型
模型是從資料中學到的規則或表示方式。
訓練完成後,模型可對新資料做預測或生成。
訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值
資料是 AI 系統學習與推論的基礎。
資料可以是表格、文字、圖片、聲音或感測器紀錄。
結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位
生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。
使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。
幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊
自動化是讓系統依規則或模型執行重複流程。
AI 可強化自動化,但高風險流程仍需人類覆核。
Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助
模型偏誤可能來自資料代表性不足、標註不一致或設計不當。
偏誤不只影響準確率,也可能造成公平性問題。
Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料
資料漂移是上線後新資料分布和訓練資料不同。
資料漂移會讓模型效果下降,因此需要監控。
Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練
雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。
選擇部署位置時要考慮成本、延遲、隱私與維運。
Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署
API 是系統之間交換資料或功能的介面。
AI 服務常透過 API 提供模型推論能力。
Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制
向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。
它常和 RAG 搭配做語意搜尋。
向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量
大型語言模型能根據上下文預測與生成文字。
它擅長語言任務,但可能產生幻覺或過時資訊。
LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制
推薦系統根據使用者行為、內容特徵或相似族群推薦項目。
它常用於電商、影音平台與新聞內容。
協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足
電腦視覺讓電腦處理與理解影像或影片。
常見任務有分類、物件偵測、影像分割與瑕疵檢測。
物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識
自然語言處理讓電腦理解、分析或生成文字與語音。
常見任務有分類、摘要、翻譯、問答與情緒分析。
NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示
混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。
精確率與召回率都可由混淆矩陣計算。
TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例
訓練集用來學習,測試集用來評估模型在新資料上的表現。
不能用測試集反覆調模型,否則評估會失真。
資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估
特徵工程是把原始資料轉換成模型更容易使用的欄位。
好的特徵可能比複雜模型更能提升表現。
標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊
分群是在沒有標籤時找出相似群組。
分群結果需要人再解讀其商業意義。
K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度
迴歸是預測連續數值。
輸出若是價格、銷量、溫度或分數,通常是迴歸。
連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標
分類是把資料分到離散類別。
輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。
二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果
演算法是一套解決問題的步驟或方法。
機器學習演算法用來從資料中建立模型。
決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型
模型是從資料中學到的規則或表示方式。
訓練完成後,模型可對新資料做預測或生成。
訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值
資料是 AI 系統學習與推論的基礎。
資料可以是表格、文字、圖片、聲音或感測器紀錄。
結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位
生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。
使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。
幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊
自動化是讓系統依規則或模型執行重複流程。
AI 可強化自動化,但高風險流程仍需人類覆核。
Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助
模型偏誤可能來自資料代表性不足、標註不一致或設計不當。
偏誤不只影響準確率,也可能造成公平性問題。
Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料
資料漂移是上線後新資料分布和訓練資料不同。
資料漂移會讓模型效果下降,因此需要監控。
Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練
雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。
選擇部署位置時要考慮成本、延遲、隱私與維運。
Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署
API 是系統之間交換資料或功能的介面。
AI 服務常透過 API 提供模型推論能力。
Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制
向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。
它常和 RAG 搭配做語意搜尋。
向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量
大型語言模型能根據上下文預測與生成文字。
它擅長語言任務,但可能產生幻覺或過時資訊。
LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制
推薦系統根據使用者行為、內容特徵或相似族群推薦項目。
它常用於電商、影音平台與新聞內容。
協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足
電腦視覺讓電腦處理與理解影像或影片。
常見任務有分類、物件偵測、影像分割與瑕疵檢測。
物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識
自然語言處理讓電腦理解、分析或生成文字與語音。
常見任務有分類、摘要、翻譯、問答與情緒分析。
NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示
混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。
精確率與召回率都可由混淆矩陣計算。
TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例
訓練集用來學習,測試集用來評估模型在新資料上的表現。
不能用測試集反覆調模型,否則評估會失真。
資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估
特徵工程是把原始資料轉換成模型更容易使用的欄位。
好的特徵可能比複雜模型更能提升表現。
標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊
分群是在沒有標籤時找出相似群組。
分群結果需要人再解讀其商業意義。
K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度
迴歸是預測連續數值。
輸出若是價格、銷量、溫度或分數,通常是迴歸。
連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標
分類是把資料分到離散類別。
輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。
二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果
演算法是一套解決問題的步驟或方法。
機器學習演算法用來從資料中建立模型。
決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型
模型是從資料中學到的規則或表示方式。
訓練完成後,模型可對新資料做預測或生成。
訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值
資料是 AI 系統學習與推論的基礎。
資料可以是表格、文字、圖片、聲音或感測器紀錄。
結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位
生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。
使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。
幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊
自動化是讓系統依規則或模型執行重複流程。
AI 可強化自動化,但高風險流程仍需人類覆核。
Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助
模型偏誤可能來自資料代表性不足、標註不一致或設計不當。
偏誤不只影響準確率,也可能造成公平性問題。
Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料
資料漂移是上線後新資料分布和訓練資料不同。
資料漂移會讓模型效果下降,因此需要監控。
Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練
雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。
選擇部署位置時要考慮成本、延遲、隱私與維運。
Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署
API 是系統之間交換資料或功能的介面。
AI 服務常透過 API 提供模型推論能力。
Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制
向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。
它常和 RAG 搭配做語意搜尋。
向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量
大型語言模型能根據上下文預測與生成文字。
它擅長語言任務,但可能產生幻覺或過時資訊。
LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制
推薦系統根據使用者行為、內容特徵或相似族群推薦項目。
它常用於電商、影音平台與新聞內容。
協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足
電腦視覺讓電腦處理與理解影像或影片。
常見任務有分類、物件偵測、影像分割與瑕疵檢測。
物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識
自然語言處理讓電腦理解、分析或生成文字與語音。
常見任務有分類、摘要、翻譯、問答與情緒分析。
NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示
混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。
精確率與召回率都可由混淆矩陣計算。
TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例
訓練集用來學習,測試集用來評估模型在新資料上的表現。
不能用測試集反覆調模型,否則評估會失真。
資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估
特徵工程是把原始資料轉換成模型更容易使用的欄位。
好的特徵可能比複雜模型更能提升表現。
標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊
分群是在沒有標籤時找出相似群組。
分群結果需要人再解讀其商業意義。
K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度
迴歸是預測連續數值。
輸出若是價格、銷量、溫度或分數,通常是迴歸。
連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標
分類是把資料分到離散類別。
輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。
二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果
演算法是一套解決問題的步驟或方法。
機器學習演算法用來從資料中建立模型。
決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型
模型是從資料中學到的規則或表示方式。
訓練完成後,模型可對新資料做預測或生成。
訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值
資料是 AI 系統學習與推論的基礎。
資料可以是表格、文字、圖片、聲音或感測器紀錄。
結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位
生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。
使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。
幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊
自動化是讓系統依規則或模型執行重複流程。
AI 可強化自動化,但高風險流程仍需人類覆核。
Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助
模型偏誤可能來自資料代表性不足、標註不一致或設計不當。
偏誤不只影響準確率,也可能造成公平性問題。
Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料
資料漂移是上線後新資料分布和訓練資料不同。
資料漂移會讓模型效果下降,因此需要監控。
Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練
雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。
選擇部署位置時要考慮成本、延遲、隱私與維運。
Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署
API 是系統之間交換資料或功能的介面。
AI 服務常透過 API 提供模型推論能力。
Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制
向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。
它常和 RAG 搭配做語意搜尋。
向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量
大型語言模型能根據上下文預測與生成文字。
它擅長語言任務,但可能產生幻覺或過時資訊。
LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制
推薦系統根據使用者行為、內容特徵或相似族群推薦項目。
它常用於電商、影音平台與新聞內容。
協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足
電腦視覺讓電腦處理與理解影像或影片。
常見任務有分類、物件偵測、影像分割與瑕疵檢測。
物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識
自然語言處理讓電腦理解、分析或生成文字與語音。
常見任務有分類、摘要、翻譯、問答與情緒分析。
NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示
混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。
精確率與召回率都可由混淆矩陣計算。
TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例
訓練集用來學習,測試集用來評估模型在新資料上的表現。
不能用測試集反覆調模型,否則評估會失真。
資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估
特徵工程是把原始資料轉換成模型更容易使用的欄位。
好的特徵可能比複雜模型更能提升表現。
標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊
分群是在沒有標籤時找出相似群組。
分群結果需要人再解讀其商業意義。
K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度
迴歸是預測連續數值。
輸出若是價格、銷量、溫度或分數,通常是迴歸。
連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標
分類是把資料分到離散類別。
輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。
二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果
演算法是一套解決問題的步驟或方法。
機器學習演算法用來從資料中建立模型。
決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型
模型是從資料中學到的規則或表示方式。
訓練完成後,模型可對新資料做預測或生成。
訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值
資料是 AI 系統學習與推論的基礎。
資料可以是表格、文字、圖片、聲音或感測器紀錄。
結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位
生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。
使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。
幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊
自動化是讓系統依規則或模型執行重複流程。
AI 可強化自動化,但高風險流程仍需人類覆核。
Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助
模型偏誤可能來自資料代表性不足、標註不一致或設計不當。
偏誤不只影響準確率,也可能造成公平性問題。
Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料
資料漂移是上線後新資料分布和訓練資料不同。
資料漂移會讓模型效果下降,因此需要監控。
Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練
雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。
選擇部署位置時要考慮成本、延遲、隱私與維運。
Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署
API 是系統之間交換資料或功能的介面。
AI 服務常透過 API 提供模型推論能力。
Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制
向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。
它常和 RAG 搭配做語意搜尋。
向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量
大型語言模型能根據上下文預測與生成文字。
它擅長語言任務,但可能產生幻覺或過時資訊。
LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制
推薦系統根據使用者行為、內容特徵或相似族群推薦項目。
它常用於電商、影音平台與新聞內容。
協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足
電腦視覺讓電腦處理與理解影像或影片。
常見任務有分類、物件偵測、影像分割與瑕疵檢測。
物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識
自然語言處理讓電腦理解、分析或生成文字與語音。
常見任務有分類、摘要、翻譯、問答與情緒分析。
NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示
混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。
精確率與召回率都可由混淆矩陣計算。
TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例
訓練集用來學習,測試集用來評估模型在新資料上的表現。
不能用測試集反覆調模型,否則評估會失真。
資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估
特徵工程是把原始資料轉換成模型更容易使用的欄位。
好的特徵可能比複雜模型更能提升表現。
標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊
分群是在沒有標籤時找出相似群組。
分群結果需要人再解讀其商業意義。
K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度
迴歸是預測連續數值。
輸出若是價格、銷量、溫度或分數,通常是迴歸。
連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標
分類是把資料分到離散類別。
輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。
二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果
演算法是一套解決問題的步驟或方法。
機器學習演算法用來從資料中建立模型。
決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型
模型是從資料中學到的規則或表示方式。
訓練完成後,模型可對新資料做預測或生成。
訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值
資料是 AI 系統學習與推論的基礎。
資料可以是表格、文字、圖片、聲音或感測器紀錄。
結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位
生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。
使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。
幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊
自動化是讓系統依規則或模型執行重複流程。
AI 可強化自動化,但高風險流程仍需人類覆核。
Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助
模型偏誤可能來自資料代表性不足、標註不一致或設計不當。
偏誤不只影響準確率,也可能造成公平性問題。
Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料
資料漂移是上線後新資料分布和訓練資料不同。
資料漂移會讓模型效果下降,因此需要監控。
Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練
雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。
選擇部署位置時要考慮成本、延遲、隱私與維運。
Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署
API 是系統之間交換資料或功能的介面。
AI 服務常透過 API 提供模型推論能力。
Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制
向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。
它常和 RAG 搭配做語意搜尋。
向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量
大型語言模型能根據上下文預測與生成文字。
它擅長語言任務,但可能產生幻覺或過時資訊。
LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制
推薦系統根據使用者行為、內容特徵或相似族群推薦項目。
它常用於電商、影音平台與新聞內容。
協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足
電腦視覺讓電腦處理與理解影像或影片。
常見任務有分類、物件偵測、影像分割與瑕疵檢測。
物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識
自然語言處理讓電腦理解、分析或生成文字與語音。
常見任務有分類、摘要、翻譯、問答與情緒分析。
NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示
混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。
精確率與召回率都可由混淆矩陣計算。
TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例
訓練集用來學習,測試集用來評估模型在新資料上的表現。
不能用測試集反覆調模型,否則評估會失真。
資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估
特徵工程是把原始資料轉換成模型更容易使用的欄位。
好的特徵可能比複雜模型更能提升表現。
標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊
分群是在沒有標籤時找出相似群組。
分群結果需要人再解讀其商業意義。
K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度
迴歸是預測連續數值。
輸出若是價格、銷量、溫度或分數,通常是迴歸。
連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標
分類是把資料分到離散類別。
輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。
二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果
演算法是一套解決問題的步驟或方法。
機器學習演算法用來從資料中建立模型。
決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型
模型是從資料中學到的規則或表示方式。
訓練完成後,模型可對新資料做預測或生成。
訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值
資料是 AI 系統學習與推論的基礎。
資料可以是表格、文字、圖片、聲音或感測器紀錄。
結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位
生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。
使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。
幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊
自動化是讓系統依規則或模型執行重複流程。
AI 可強化自動化,但高風險流程仍需人類覆核。
Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助
模型偏誤可能來自資料代表性不足、標註不一致或設計不當。
偏誤不只影響準確率,也可能造成公平性問題。
Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料
資料漂移是上線後新資料分布和訓練資料不同。
資料漂移會讓模型效果下降,因此需要監控。
Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練
雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。
選擇部署位置時要考慮成本、延遲、隱私與維運。
Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署
API 是系統之間交換資料或功能的介面。
AI 服務常透過 API 提供模型推論能力。
Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制
向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。
它常和 RAG 搭配做語意搜尋。
向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量
大型語言模型能根據上下文預測與生成文字。
它擅長語言任務,但可能產生幻覺或過時資訊。
LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制
推薦系統根據使用者行為、內容特徵或相似族群推薦項目。
它常用於電商、影音平台與新聞內容。
協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足
電腦視覺讓電腦處理與理解影像或影片。
常見任務有分類、物件偵測、影像分割與瑕疵檢測。
物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識
自然語言處理讓電腦理解、分析或生成文字與語音。
常見任務有分類、摘要、翻譯、問答與情緒分析。
NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示
混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。
精確率與召回率都可由混淆矩陣計算。
TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例
訓練集用來學習,測試集用來評估模型在新資料上的表現。
不能用測試集反覆調模型,否則評估會失真。
資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估
特徵工程是把原始資料轉換成模型更容易使用的欄位。
好的特徵可能比複雜模型更能提升表現。
標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊
分群是在沒有標籤時找出相似群組。
分群結果需要人再解讀其商業意義。
K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度
迴歸是預測連續數值。
輸出若是價格、銷量、溫度或分數,通常是迴歸。
連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標
分類是把資料分到離散類別。
輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。
二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果
演算法是一套解決問題的步驟或方法。
機器學習演算法用來從資料中建立模型。
決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型
模型是從資料中學到的規則或表示方式。
訓練完成後,模型可對新資料做預測或生成。
訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值
資料是 AI 系統學習與推論的基礎。
資料可以是表格、文字、圖片、聲音或感測器紀錄。
結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位
生成式 AI 可能犯錯、編造來源、洩漏資料或受到提示詞攻擊。
使用時要設定資料權限、輸出檢查與禁止輸入敏感資料規範。
幻覺: 錯誤生成; Prompt injection: 提示詞攻擊; 敏感資料: 不宜外洩資訊
自動化是讓系統依規則或模型執行重複流程。
AI 可強化自動化,但高風險流程仍需人類覆核。
Workflow: 工作流程; Rule-based: 規則式; AI-assisted: AI 輔助
模型偏誤可能來自資料代表性不足、標註不一致或設計不當。
偏誤不只影響準確率,也可能造成公平性問題。
Bias: 偏誤; Fairness: 公平性; Representative data: 具代表性的資料
資料漂移是上線後新資料分布和訓練資料不同。
資料漂移會讓模型效果下降,因此需要監控。
Drift: 漂移; Monitoring: 監控; Retraining: 重新訓練
雲端適合集中運算,邊緣運算適合低延遲或資料不易外傳的場景。
選擇部署位置時要考慮成本、延遲、隱私與維運。
Cloud: 雲端; Edge: 邊緣; Latency: 延遲; On-premise: 內部部署
API 是系統之間交換資料或功能的介面。
AI 服務常透過 API 提供模型推論能力。
Endpoint: API 位置; Request: 請求; Response: 回應; Rate limit: 呼叫限制
向量資料庫用來儲存與搜尋文字、圖片等資料的向量表示。
它常和 RAG 搭配做語意搜尋。
向量: 資料的數值表示; 相似度搜尋: 找語意接近資料; Embedding: 轉成向量
大型語言模型能根據上下文預測與生成文字。
它擅長語言任務,但可能產生幻覺或過時資訊。
LLM: 大型語言模型; 上下文: 提供給模型的資訊; Token 限制: 可處理文字長度限制
推薦系統根據使用者行為、內容特徵或相似族群推薦項目。
它常用於電商、影音平台與新聞內容。
協同過濾: 看相似使用者; 內容式推薦: 看物品特徵; 冷啟動: 新用戶或新物品資料不足
電腦視覺讓電腦處理與理解影像或影片。
常見任務有分類、物件偵測、影像分割與瑕疵檢測。
物件偵測: 找位置與類別; 分割: 標出區域; OCR: 影像文字辨識
自然語言處理讓電腦理解、分析或生成文字與語音。
常見任務有分類、摘要、翻譯、問答與情緒分析。
NLP: 自然語言處理; Token: 文字切分單位; Embedding: 文字向量表示
混淆矩陣用 TP、FP、TN、FN 分析分類模型結果。
精確率與召回率都可由混淆矩陣計算。
TP: 真正例; FP: 假正例; TN: 真負例; FN: 假負例
訓練集用來學習,測試集用來評估模型在新資料上的表現。
不能用測試集反覆調模型,否則評估會失真。
資料切分: 分成訓練驗證測試; 驗證集: 調整模型; 測試集: 最終評估
特徵工程是把原始資料轉換成模型更容易使用的欄位。
好的特徵可能比複雜模型更能提升表現。
標準化: 調整尺度; 編碼: 將類別轉數字; 衍生欄位: 從既有欄位產生新資訊
分群是在沒有標籤時找出相似群組。
分群結果需要人再解讀其商業意義。
K-means: 常見分群方法; 群中心: 群組代表點; 相似度: 資料接近程度
迴歸是預測連續數值。
輸出若是價格、銷量、溫度或分數,通常是迴歸。
連續值: 可用數字大小表示; MAE: 平均絕對誤差; RMSE: 平方誤差相關指標
分類是把資料分到離散類別。
輸出若是貓/狗、正常/異常、通過/不通過,通常是分類。
二元分類: 兩類; 多類分類: 多個類別; 混淆矩陣: 分析分類結果
演算法是一套解決問題的步驟或方法。
機器學習演算法用來從資料中建立模型。
決策樹: 樹狀判斷; KNN: 近鄰比較; 神經網路: 多層運算模型
模型是從資料中學到的規則或表示方式。
訓練完成後,模型可對新資料做預測或生成。
訓練: 學習規律; 推論: 用模型產生結果; 參數: 模型內部數值
資料是 AI 系統學習與推論的基礎。
資料可以是表格、文字、圖片、聲音或感測器紀錄。
結構化資料: 表格欄位; 非結構化資料: 文字圖片音訊; 特徵: 可用來判斷的資料欄位