人工智能(AI)正在以前所未有的速度重塑人類社會的運行方式,促進著人類社會文明的巨大進步,而其核心技術構成AI系統的“大腦”,鼎立AI的快速發展與演進。由于當今AI技術的高速發展,其AI相關技術層出不窮,下述將介紹推動AI發展的最基礎的關鍵技術,這些技術構成了AI技術發展的核心技術。人工智能(AI)的最基礎的關鍵技術應包括AI的學習能力類技術和AI的處理能力類技術。
欲詳細了解人工智能(AI)系統介紹的請進入。
一、AI的學習能力技術
1、概述
學習(learning)是人類提高智能的關鍵,計算機或機器(統稱“智能體”)的智能能力同樣需要通過學習來提高呈現。因此,稱為“機器學習”的技術成為AI技術的基礎和根本。隨著機器學習(ML,Machine Learning)技術的發展,又進一步出現了深度學習(DL,Deep Learning)、強化學習(RL,Reinforcement Learning)、聯邦學習(FL,Federated Learning)等的技術概念,它們展現了機器學習在某些方面的學習能力的表現。下表1-1-1列出了GB/T 41867-2022《信息技術 人工智能 術語》給出的這些AI學習能力技術的術語定義。可知,機器學習(ML)是基礎,深度學習(DL)是ML的子集,強化學習(RL)則關注決策過程;聯邦學習(FL)則注重聯合多方進行數據訓練。它們之間的關系圖可用下圖1-1來表示;它們之間特征對比可詳見下表1-1-2。各種學習技術都需要相應的架構和算法,架構的優化和算法的算力表征和反映了各學習技術的學習能力。DL、RL和FL的ML可以實施融合,如:深度強化學習用深度神經網絡做強化學習的決策,可用于Atari游戲AI等;聯邦深度學習:可多個醫院用聯邦學習框架協作訓練深度學習模型,可用于疾病的診斷等。
表 1-1-1:關于機器學習、深度學習、強化學習、聯邦學習的定義
圖 1-1:關于機器學習、深度學習、強化學習、聯邦學習的關系
表 1-1-2:關于機器學習、深度學習、強化學習、聯邦學習的特征
日常中,還有提到遷移學習、持續學習、連續學習、終身學習等術語,本質上,它們都是以機器學習為基礎,在AI的學習能力上另類表現。
2、關于機器學習的學習方法
機器學習(ML)采用計算技術使AI系統能夠從數據或經驗中學習。換句話說,ML 系統是通過優化算法以適應訓練數據或通過最大化獎勵來提高其性能而開發出來的。機器學習(ML)所采用的學習方法(或稱學習策略)有:監督學習、無監督學習和半監督學習等形式。其含義依據GB/T 41867-2022和GB/T 5271.31-2006《信息技術 詞匯 第31部分 人工智能 機器學習》標準詳見下表1-2-1(兩個標準的表述有所不同);下表1-2-2給出了各學習方法的特征對比。一般來講,當有充足、高質量的標注數據,且任務目標明確時可選擇監督學習;當數據無標簽,目標是探索數據模式時可選擇無監督學習;當標注數據有限,但有大量無標簽數據時可選擇半監督學習。
表 1-2-1:關于監督學習、無監督學習和半監督學習的定義
表 1-2-2:關于監督學習、無監督學習和半監督學習的特征
需要指出的是:在ISO/IEC 23053:2022《使用機器學習(ML)的人工智能(AI)系統框架》中指出,把機器學習的學習方法分為監督學習、無監督學習、強化學習、半監督學習、自監督學習、遷移學習和集成學習等。但它把前三種稱為ML的基本學習方法;而把后四種稱為是同時受到三種基本學習方法啟發的另類學習方法。下表1-2-3是依據ISO/IEC 23053:2022和ISO/IEC 22989:2022《信息技術 人工智能 概念和術語》,匯總了上述提到的所有“XX學習”類術語的定義及概念。可知,機器學習的學習方法應為監督學習、無監督學習和半監督學習三種。
表 1-2-3:ISO/IEC標準中所定義的“XX學習”類術語
欲詳細了解機器學習(ML)技術介紹的請進入。
3、深度學習(DL)
深度學習(DL)稱為機器學習(ML)的一個子集。它是指AI通過訓練具有多個隱藏層的神經網絡來創建豐富的層次化表示的方法;DL基于多層神經網絡,通過特征自動提取突破了傳統算法的局限,深度學習過程允許神經網絡逐步優化最終輸出。DL可以減少或消除對特征工程的需求,因為最相關的特征會自動被識別,但它可能需要大量的時間和計算資源。DL常采用的神經網絡類型有:卷積神經網絡(CNN,Convolutional Neural Networks)、循環神經網絡(RNN,Recurrent neural network)、長短期記憶網絡(LSTM,Long Short-Term Memory Network)和生成對抗網絡(GAN,Generative Adversarial Network)等。它們的含義根據GB/T 41867-2022詳見下表1-3-1;下表1-3-2給出了各神經網絡的特征對比。CNN在圖像識別領域準確率超越人類水平,支撐自動駕駛的視覺感知系統; RNN及其變體LSTM在語音識別和機器翻譯領域取得突破,使智能助手能夠理解自然語言; GAN的出現,更開啟了AI創造內容的新紀元。
表 1-3-1:關于卷積神經網絡、循環神經網絡、長短期記憶網絡、生成對抗網絡的定義
表 1-3-2:關于卷積神經網絡、循環神經網絡、長短期記憶網絡、生成對抗網絡的特征
神經網絡試圖模擬人類在觀察、學習、分析和復雜問題決策方面的智能能力。因此,神經網絡的設計靈感來源于人類和動物大腦中神經元的連接方式。神經網絡的結構由相互連接的處理元素組成,這些元素被稱為神經元。每個神經元接收多個輸入并僅產生一個輸出。它們被組織成層,其中一層的輸出成為下一層的輸入。每個連接都有一個與輸入重要性相關的權重。神經網絡通過已知輸入的訓練來學習,將實際輸出與預期輸出進行比較,并使用誤差來調整權重。因此,產生正確答案的鏈接會被加強,而產生錯誤答案的鏈接會被削弱。諸如上述的CNN、RNN、LSTM和GAN等本質上是神經元的排列方式不同。神經網絡可以稱之為機器學習算法的一種。
二、AI的處理能力技術
1、概述
所謂AI的處理能力是指AI系統對輸入數據或信息的處理能力。對于AI,輸入數據或信息通常包括文本(指令)、語言、語音、圖像、視頻等模態。智能體要實現智能,首要的和最基本的就是要能面對語音語言、圖形圖像等輸入信息模態進行感知并進行處理,生成結果并輸出。這就有了AI的不同輸入模態處理技術,常用到的有:自然語言處理(NLP,Natural Language Processing )技術、計算機視覺(CV,Computer Vision)處理技術、多模態(MM,Multi-Mode)處理技術。根據相關國家標準各種處理技術的含義詳見下表2-1-1;下表2-1-2給出了各處理技術的特征描述。顯然,多模態處理技術是NLP技術和VC技術等處理技術的融合,未來各處理技術的深度融合將推動AI的更快發展。同樣,各種處理技術都需要相應的架構和算法,架構的優化和算法的能力表征和反映了各處理技術的處理能力。
表 2-1-1:自然語言處理技術、計算機視覺處理技術和多模態技術的定義
表2-1-2:自然語言處理技術、計算機視覺處理技術和多模態技術的描述
2、自然語音處理(NLR)技術
自然語言處理是基于自然語言理解和自然語言生成的信息處理。這包括使用文本或語音進行自然語言分析和生成。通過自然語言處理能力,計算機可以分析用人類語言編寫的文本, 并識別概念、實體、關鍵詞、關系、情感、情緒和其他特征,使用戶能夠從內容中提取見解。 憑借這些能力,計算機還可以生成文本或語音來與用戶交流。任何以文本或語音形式接受自然語言作為輸入或輸出,并能夠對其進行處理的系統,都在使用自然語言處理組件。這樣的處理系統需要一個自然語言理解組件和一個自然語言生成組件。因此NLP組件有眾多種,用于處理不同的任務,具體詳見下表2-2的介紹。
表 2-2:自然語音處理(NLR)的組件
3、計算機視覺(CV)處理技術
CV定義為“一個功能單元獲取、處理和解讀代表圖像或視頻的數據的能力”。計算機視覺與圖像識別密切相關,例如對數字圖像的處理,下表2-3-1給出了數字圖像的一些描述。視覺數據通常源自數字圖像傳感器、數字化掃描的模擬圖像或其它圖形輸入設備。CV的基本任務包括圖像采集、重采樣、縮放、降噪、對比度增強、特征提取、分割、目標檢測和分類等。在AI系統中,有多種方法可以完成計算機視覺任務,如近年來,深度卷積神經網絡因其在圖像分類任務中的高準確性以及其訓練和預測性能而受到青睞。下表2-3-2列出了基于計算機視覺和圖像識別的AI應用示例。
表 2-3-1:關于數字圖像的特點
表 2-3-2:基于計算機視覺和圖像識別的AI應用示例
4、多模態處理技術
AI的多模態處理技術是指通過融合文本、圖像、音頻、視頻等多種數據模態,實現對復雜信息的綜合理解與生成的技術體系。它是NLP技術與CV技術的結合,但絕不是兩者的簡單拼湊,它通過特征級融合(對齊不同模態的特征向量)、模型級融合(獨立模型輸出整合)和決策級融合(加權投票或貝葉斯推理)等機制實現跨模態信息的互補。
三、AI的核心技術
基于上述AI的學習能力技術和處理能力技術及其融合,可以將AI關鍵技術分為感知類技術(Perception Technologies)、認知類技術(Cognition Technologies)和生成類技術(Generation Technologies),這三大技術構成了AI的最核心技術,它們的含義和特征等詳見下表3的描述。關鍵是,通過這三類技術的結合,AI系統可以像人類一樣“感知-思考-創造”,逐步實現從“工具”到“智能體”的進化,實現高智能的AI。
表 3:關于AI的感知類技術、認知類技術和生成類技術
當然,上述通過AI的最基礎技術所形成的AI核心技術的實現,還需要AI的硬件技術(如GPU、TPU等)和軟件技術(如架構、算法等)的加持。AI關鍵技術的協同發展,正在構建從感知到決策的完整智能鏈條。隨著多模態學習、因果推理等前沿方向的突破,AI將向更通用、更可靠的方向演進,實現具身式AI(如機器人)和非具身式AI(如大語言模型ChatGPT、DeepSeek等)協同快速發展。顯然,隨著AI的大規模的發展,AI倫理技術與安全技術變得異常重要,創新與倫理規制的平衡,將成為決定智能文明走向的關鍵命題,務必確保AI系統的公平性、透明性和可控性。
欲進一步了解人工智能(NVIDIA)GPU技術性能參數介紹的請進入。