機器學習(ML,Machine Learning)技術是人工智能(AI)系統中一種關鍵的最基礎技術。在GB/T 5271.31-2006《信息技術 詞匯 第31部分 人工智能 機器學習》和GB/T 41867-2022《信息技術 人工智能 術語》以及ISO/IEC 22989:2022《信息技術 人工智能 概念和術語》等不同的標準中對于“機器學習”的定義表述有所不同,具體匯列于下表0中,從中可以加深對其概念的理解。事實上,ML是運用計算技術使系統能夠從數據或經驗中學習, ML 系統是通過對算法進行優化以適配訓練數據,或通過最大化獎勵來提高其性能而開發出來的。自 20 世紀 40 年代初以來,人們一直在探索神經元建模(即神經網絡)以及能夠從數據中學習的計算機程序的開發。隨著大量數據和計算資源的可用性,機器學習是一個不斷發展的領域,在眾多行業領域中出現了新的應用。人工智能(AI)系統正是由于機器學習(ML)技術的出現而得到飛速的發展。
表 0:不同標準中對“機器學習(ML)”的定義表述
欲具體了解人工智能(AI)系統介紹的請進入。
一、機器學習(ML)系統的框架
機器學習系統是指能運行或用于開發機器學習模型、算法和相關應用的軟件系統。
1、ISO/IEC 23053:2022的要求
下圖 1-1是ISO/IEC 23053:2022《使用機器學習(ML)的人工智能(AI)系統框架》給出的機器學習(ML)系統的構成框架。圖中提供的內容并非是框架構成的全部,圖中的要素明確了不同角色及其可由不同實體(例如不同的供應商)實現的特定于機器學習的功能。
圖 1-1:機器學習(ML)系統的構成框架(ISO/IEC 23053:2022)
圖 1-1是根據構成機器學習的任務、模型的構建與使用、數據、工具和技術等相關維度給出的,各維度的釋義詳見下表1-1。在圖中,模型開發與使用的子元素可被視為一種分層方法,即應用是基于模型構建的,而這些模型又被用于解決任務。模型開發與使用反過來又依賴于軟件工具、技術和數據等。機器學習模型在部署后會產生諸如預測或決策之類的輸出。預訓練模型是指在獲取時就已經完成訓練的機器學習模型。在某些情況下,開發的模型可以應用于類似的任務,但在不同的領域中使用。在某些應用中,ML進行高級別的預測或決策,而在其它應用中,ML為狹義定義的問題提供答案。
表 1-1:機器學習(ML)系統框架構成維度的簡述(ISO/IEC 23053:2022)
2、GB/T 43782-2024的要求
在我國國家標準GB/T 43782-2024《人工智能 機器學習系統技術要求》中,根據提供機器學習應用的開發、訓練、部署、運行和管理能力等,給出了機器學習系統框架如下圖1-2所示。該框架是結合了人工智能(AI)系統的整體框架,因此其主要構成部分包括:機器學習運行時組件、機器學習框架、機器學習服務組件、工具、運維管理等,下表1-2對這些構成部分給予了簡單的描述。
圖 1-2:機器學習(ML)系統的構成框架(GB/T 43782-2024)
表 1-2:機器學習(ML)系統框架構成部分的簡述(GB/T 43782-2024)
二、機器學習系統的學習方法
1、概述
根據ISO/IEC 23053:2022標準,機器學習的基本學習方法可分為三種類型:監督式機器學習、無監督式機器學習以及強化式機器學習,可用下圖2-1表示。半監督式機器學習、自監督式機器學習、遷移學習以及集成學習是在同時受到多種機器學習基本方法啟發的基礎上產生的,并且需要分別進行討論。
圖 2-1:ML的基本學習方法-監督機器學習、無監督機器學習和強化機器學習
由于ISO/IEC 23053:2022標準中的術語與定義引用的是ISO/IEC 22989:2022《信息技術 人工智能 概念和術語》標準,故下表2-1-1給出了各種ML學習方法術語在ISO/IEC 22989:2022中的定義。溫馨提示:在其它資料中是將機器學習基本學習方法分為監督式機器學習、無監督式機器學習和半監督式機器學習三種,這也可從表2-1-1中術語的定義看出。
表 2-1-1:ML的學習方法術語的定義(ISO/IEC 22989:2022)
值得提出的是,“數據”在機器學習模型的生命周期中屬于核心要素,因為無論是訓練還是評估均依賴于它。為此,在機器學習(ML)技術中,涉及到術語“數據”的相關概念,如訓練數據、測試數據、驗證數據、生產數據、標注數據、未標注數據等等,故下表2-1-2依據ISO/IEC 22989:2022一一列出了它們的含義及作用。其中,標注數據是機器學習技術的一項最基礎工作,無論是ML學習方法的監督式機器學習、無監督式機器學習還是半監督式機器學習,都與標注數據相關。我國國家標準GB/T 42755-2023《人工智能 面向機器學習的數據標注規程》規定了人工智能領域面向機器學習的數據標注的規程,包括框架與流程等,若要了解的請查閱下附件2。
表 2-1-2:ML中相關“數據”術語的含義(ISO/IEC 22989:2022)
附件 2:GB/T 42755-2023《人工智能 面向機器學習的數據標注規程》
下述依據ISO/IEC 23053:2022標準,主要介紹機器學習的三種基本學習方法,在下表2-1-3中列出了機器學習的其它學習方法的簡述。若要詳細了解ISO/IEC 23053:2022標準具體內容的請查閱該標準原文。
表 2-1-3:機器學習的其它學習方法簡述
欲詳細了解ISO/IEC 23053:2022標準原文的請進入。
2、監督式機器學習
監督式機器學習(Supervised machine learning)即ML模型利用帶標簽的數據進行訓練。帶標簽的數據由一系列輸入與正確或真實的輸出相映射的樣本構成。由此,訓練數據以輸入變量與“真實”輸出的配對形式加以組織。在不同的情境中,真實的輸出亦被稱作標簽、目標變量以及真實基準。在如下圖2-2-1所示的監督學習過程中,算法會根據輸入和輸出進行擬合,從而生成一個模型。標簽可以是原始數據的一部分,但通常需要手動生成標簽或者通過其它AI流程來生成。根據所針對的機器學習任務的不同,標簽可以有多種形式:一是,分類需要的是分類標簽(數據實例所屬的類別,如狗或建筑物);二是,對于回歸任務,它們是數值型的(如度量值、可能性或概率的連續值);三是,對于結構化預測任務,它們也可以以結構化對象的形式呈現(如一個序列、一個圖像、一個樹或圖表)。
圖 2-2-1:使用監督機器學習創建機器學習模型
下圖 2-2-2展示了一個典型的監督式機器學習過程,其中涵蓋了創建、評估和使用ML模型的各種過程。其中,“數據集與模型創建”階段對應于模型的準備、訓練和選擇,以及用于模型創建或評估所需的任何數據。“模型評估”階段是使用評估指標對模型進行測試,以評估其性能和符合度。在“模型使用”階段,模型應用于生產數據以進行預測。水平維度對應于這三個階段,而垂直維度則表明所描繪的組件和過程是否與數據、模型、工具相關聯。
圖 2-2-2:典型的監督機器學習過程
訓練模型的好的表現和魯棒性很大程度上取決于訓練數據的多樣性(如各種各樣的行人)、訓練數據的質量(如照片中的光照度或分辨率)以及標簽的準確性(如在人行橫道內正確標注行人)。監督式機器學習數據的所有方面都容易出錯,在從數據集創建到模型測試的整個周期中都需要特別注意。
3、無監督式機器學習
無監督式機器學習(Unsupervised machine learning)與監督式機器學習不同,其直接將輸入映射到輸出,無需在有標簽的數據上進行訓練。然而,訓練過程與圖 2-2-2所示的監督機器學習過程類似,在無監督學習過程中,無需訪問標簽。標簽通常作為模型訓練的副產品產生,如圖2-3所示,算法僅基于輸入進行擬合以生成模型,無需事先準備。
圖 2-3:基于無監督機器學習的ML模型創建
4、強化機器學習
強化機器學習(Reinforcement machine learning)是指訓練一個或多個智能體與它們所處的環境進行交互,以實現預先設定的目標的過程。強化學習與其它方法不同,因為其原理在于模型從某一狀態開始初始化,然后采取一個動作,確定該動作所對應的獎勵,接著模型會進入一個新的狀態,試圖使該狀態下的獎勵最大化。訓練可用于初始化模型或確定模型采取動作時所遵循的策略。在強化機器學習中,機器學習智能體通過反復試錯的迭代過程來學習。智能體的目標是找到一種策略(即構建一個模型),以便從環境中獲得最佳獎勵。對于每次試驗(成功或失敗),環境都會提供間接反饋。然后,智能體根據這種反饋調整其行為(即其模型)。這個過程如圖2-4所示。智能體確定哪些交互能夠持續為其行動提供最大的獎勵,以試圖達成目標。
圖 2-4:典型的強化機器學習過程
欲更多了解相關機器學習(ML)學習方法的請進入。
三、機器學習的流程
1、概述
要利用機器學習達成特定的應用目標,需要創建一個機器學習模型,對其進行評估并投入使用。這一過程通常涉及數據、算法和計算資源。這里描述了一個具有代表性的機器學習流程,包括每個步驟所應用的過程。在進入該流程之前,有必要定義任務或要解決的問題,并確立了解決方案、目標和要求。對問題進行詳盡的定義(包括如輸入和輸出格式的精確定義)有助于選擇合適的機器學習算法,并獲取訓練機器學習模型所需的相關數據集。下圖 3-1 展示了開發、驗證、部署和運行機器學習模型所涉及的具體機器學習流程,以及這些流程與人工智能系統生命周期階段之間的關系。
圖 3-1:機器學習流程與人工智能系統生命周期的映射
2、流程
由圖 3-1可知,機器學習的流程包括數據采集、數據準備、建模、數據的驗證與確認、模型部署、運行六個過程。下表3-2式對這六個過程的簡單描述,在ISO/IEC 23053:2022標準中有詳細的描述,請參見標準的原文。
表 3-2:機器學習流程的簡述
四、機器學習的技術要求
我國國家標準GB/T 43782-2024《人工智能 機器學習系統技術要求》規定了機器學習系統的技術要求,包括了功能、可靠性、維護性、兼容性、安全性和可擴展性要求。這些要求都是原則性的要求,若要詳細了解該標準具體內容的請查閱下附件4。
附件 4:GB/T 43782-2024《人工智能 機器學習系統技術要求》
欲進一步了解ISO/IEC關于人工智能(AI)方面標準情況介紹的請進入。