人工智能(AI)正在以前所未有的速度重塑人類社會的運行方式,促進著人類社會文明的巨大進步,而其核心技術(shù)構(gòu)成AI系統(tǒng)的“大腦”,鼎立AI的快速發(fā)展與演進。由于當(dāng)今AI技術(shù)的高速發(fā)展,其AI相關(guān)技術(shù)層出不窮,下述將介紹推動AI發(fā)展的最基礎(chǔ)的關(guān)鍵技術(shù),這些技術(shù)構(gòu)成了AI技術(shù)發(fā)展的核心技術(shù)。人工智能(AI)的最基礎(chǔ)的關(guān)鍵技術(shù)應(yīng)包括AI的學(xué)習(xí)能力類技術(shù)和AI的處理能力類技術(shù)。
欲詳細了解人工智能(AI)系統(tǒng)介紹的請進入。
一、AI的學(xué)習(xí)能力技術(shù)
1、概述
學(xué)習(xí)(learning)是人類提高智能的關(guān)鍵,計算機或機器(統(tǒng)稱“智能體”)的智能能力同樣需要通過學(xué)習(xí)來提高呈現(xiàn)。因此,稱為“機器學(xué)習(xí)”的技術(shù)成為AI技術(shù)的基礎(chǔ)和根本。隨著機器學(xué)習(xí)(ML,Machine Learning)技術(shù)的發(fā)展,又進一步出現(xiàn)了深度學(xué)習(xí)(DL,Deep Learning)、強化學(xué)習(xí)(RL,Reinforcement Learning)、聯(lián)邦學(xué)習(xí)(FL,Federated Learning)等的技術(shù)概念,它們展現(xiàn)了機器學(xué)習(xí)在某些方面的學(xué)習(xí)能力的表現(xiàn)。下表1-1-1列出了GB/T 41867-2022《信息技術(shù) 人工智能 術(shù)語》給出的這些AI學(xué)習(xí)能力技術(shù)的術(shù)語定義。可知,機器學(xué)習(xí)(ML)是基礎(chǔ),深度學(xué)習(xí)(DL)是ML的子集,強化學(xué)習(xí)(RL)則關(guān)注決策過程;聯(lián)邦學(xué)習(xí)(FL)則注重聯(lián)合多方進行數(shù)據(jù)訓(xùn)練。它們之間的關(guān)系圖可用下圖1-1來表示;它們之間特征對比可詳見下表1-1-2。各種學(xué)習(xí)技術(shù)都需要相應(yīng)的架構(gòu)和算法,架構(gòu)的優(yōu)化和算法的算力表征和反映了各學(xué)習(xí)技術(shù)的學(xué)習(xí)能力。DL、RL和FL的ML可以實施融合,如:深度強化學(xué)習(xí)用深度神經(jīng)網(wǎng)絡(luò)做強化學(xué)習(xí)的決策,可用于Atari游戲AI等;聯(lián)邦深度學(xué)習(xí):可多個醫(yī)院用聯(lián)邦學(xué)習(xí)框架協(xié)作訓(xùn)練深度學(xué)習(xí)模型,可用于疾病的診斷等。
表 1-1-1:關(guān)于機器學(xué)習(xí)、深度學(xué)習(xí)、強化學(xué)習(xí)、聯(lián)邦學(xué)習(xí)的定義
圖 1-1:關(guān)于機器學(xué)習(xí)、深度學(xué)習(xí)、強化學(xué)習(xí)、聯(lián)邦學(xué)習(xí)的關(guān)系
表 1-1-2:關(guān)于機器學(xué)習(xí)、深度學(xué)習(xí)、強化學(xué)習(xí)、聯(lián)邦學(xué)習(xí)的特征
日常中,還有提到遷移學(xué)習(xí)、持續(xù)學(xué)習(xí)、連續(xù)學(xué)習(xí)、終身學(xué)習(xí)等術(shù)語,本質(zhì)上,它們都是以機器學(xué)習(xí)為基礎(chǔ),在AI的學(xué)習(xí)能力上另類表現(xiàn)。
2、關(guān)于機器學(xué)習(xí)的學(xué)習(xí)方法
機器學(xué)習(xí)(ML)采用計算技術(shù)使AI系統(tǒng)能夠從數(shù)據(jù)或經(jīng)驗中學(xué)習(xí)。換句話說,ML 系統(tǒng)是通過優(yōu)化算法以適應(yīng)訓(xùn)練數(shù)據(jù)或通過最大化獎勵來提高其性能而開發(fā)出來的。機器學(xué)習(xí)(ML)所采用的學(xué)習(xí)方法(或稱學(xué)習(xí)策略)有:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)等形式。其含義依據(jù)GB/T 41867-2022和GB/T 5271.31-2006《信息技術(shù) 詞匯 第31部分 人工智能 機器學(xué)習(xí)》標(biāo)準(zhǔn)詳見下表1-2-1(兩個標(biāo)準(zhǔn)的表述有所不同);下表1-2-2給出了各學(xué)習(xí)方法的特征對比。一般來講,當(dāng)有充足、高質(zhì)量的標(biāo)注數(shù)據(jù),且任務(wù)目標(biāo)明確時可選擇監(jiān)督學(xué)習(xí);當(dāng)數(shù)據(jù)無標(biāo)簽,目標(biāo)是探索數(shù)據(jù)模式時可選擇無監(jiān)督學(xué)習(xí);當(dāng)標(biāo)注數(shù)據(jù)有限,但有大量無標(biāo)簽數(shù)據(jù)時可選擇半監(jiān)督學(xué)習(xí)。
表 1-2-1:關(guān)于監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的定義
表 1-2-2:關(guān)于監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的特征
需要指出的是:在ISO/IEC 23053:2022《使用機器學(xué)習(xí)(ML)的人工智能(AI)系統(tǒng)框架》中指出,把機器學(xué)習(xí)的學(xué)習(xí)方法分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、自監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)和集成學(xué)習(xí)等。但它把前三種稱為ML的基本學(xué)習(xí)方法;而把后四種稱為是同時受到三種基本學(xué)習(xí)方法啟發(fā)的另類學(xué)習(xí)方法。下表1-2-3是依據(jù)ISO/IEC 23053:2022和ISO/IEC 22989:2022《信息技術(shù) 人工智能 概念和術(shù)語》,匯總了上述提到的所有“XX學(xué)習(xí)”類術(shù)語的定義及概念。可知,機器學(xué)習(xí)的學(xué)習(xí)方法應(yīng)為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)三種。
表 1-2-3:ISO/IEC標(biāo)準(zhǔn)中所定義的“XX學(xué)習(xí)”類術(shù)語
欲詳細了解機器學(xué)習(xí)(ML)技術(shù)介紹的請進入。
3、深度學(xué)習(xí)(DL)
深度學(xué)習(xí)(DL)稱為機器學(xué)習(xí)(ML)的一個子集。它是指AI通過訓(xùn)練具有多個隱藏層的神經(jīng)網(wǎng)絡(luò)來創(chuàng)建豐富的層次化表示的方法;DL基于多層神經(jīng)網(wǎng)絡(luò),通過特征自動提取突破了傳統(tǒng)算法的局限,深度學(xué)習(xí)過程允許神經(jīng)網(wǎng)絡(luò)逐步優(yōu)化最終輸出。DL可以減少或消除對特征工程的需求,因為最相關(guān)的特征會自動被識別,但它可能需要大量的時間和計算資源。DL常采用的神經(jīng)網(wǎng)絡(luò)類型有:卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional Neural Networks)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,Recurrent neural network)、長短期記憶網(wǎng)絡(luò)(LSTM,Long Short-Term Memory Network)和生成對抗網(wǎng)絡(luò)(GAN,Generative Adversarial Network)等。它們的含義根據(jù)GB/T 41867-2022詳見下表1-3-1;下表1-3-2給出了各神經(jīng)網(wǎng)絡(luò)的特征對比。CNN在圖像識別領(lǐng)域準(zhǔn)確率超越人類水平,支撐自動駕駛的視覺感知系統(tǒng); RNN及其變體LSTM在語音識別和機器翻譯領(lǐng)域取得突破,使智能助手能夠理解自然語言; GAN的出現(xiàn),更開啟了AI創(chuàng)造內(nèi)容的新紀(jì)元。
表 1-3-1:關(guān)于卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、長短期記憶網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)的定義
表 1-3-2:關(guān)于卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、長短期記憶網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)的特征
神經(jīng)網(wǎng)絡(luò)試圖模擬人類在觀察、學(xué)習(xí)、分析和復(fù)雜問題決策方面的智能能力。因此,神經(jīng)網(wǎng)絡(luò)的設(shè)計靈感來源于人類和動物大腦中神經(jīng)元的連接方式。神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)由相互連接的處理元素組成,這些元素被稱為神經(jīng)元。每個神經(jīng)元接收多個輸入并僅產(chǎn)生一個輸出。它們被組織成層,其中一層的輸出成為下一層的輸入。每個連接都有一個與輸入重要性相關(guān)的權(quán)重。神經(jīng)網(wǎng)絡(luò)通過已知輸入的訓(xùn)練來學(xué)習(xí),將實際輸出與預(yù)期輸出進行比較,并使用誤差來調(diào)整權(quán)重。因此,產(chǎn)生正確答案的鏈接會被加強,而產(chǎn)生錯誤答案的鏈接會被削弱。諸如上述的CNN、RNN、LSTM和GAN等本質(zhì)上是神經(jīng)元的排列方式不同。神經(jīng)網(wǎng)絡(luò)可以稱之為機器學(xué)習(xí)算法的一種。
二、AI的處理能力技術(shù)
1、概述
所謂AI的處理能力是指AI系統(tǒng)對輸入數(shù)據(jù)或信息的處理能力。對于AI,輸入數(shù)據(jù)或信息通常包括文本(指令)、語言、語音、圖像、視頻等模態(tài)。智能體要實現(xiàn)智能,首要的和最基本的就是要能面對語音語言、圖形圖像等輸入信息模態(tài)進行感知并進行處理,生成結(jié)果并輸出。這就有了AI的不同輸入模態(tài)處理技術(shù),常用到的有:自然語言處理(NLP,Natural Language Processing )技術(shù)、計算機視覺(CV,Computer Vision)處理技術(shù)、多模態(tài)(MM,Multi-Mode)處理技術(shù)。根據(jù)相關(guān)國家標(biāo)準(zhǔn)各種處理技術(shù)的含義詳見下表2-1-1;下表2-1-2給出了各處理技術(shù)的特征描述。顯然,多模態(tài)處理技術(shù)是NLP技術(shù)和VC技術(shù)等處理技術(shù)的融合,未來各處理技術(shù)的深度融合將推動AI的更快發(fā)展。同樣,各種處理技術(shù)都需要相應(yīng)的架構(gòu)和算法,架構(gòu)的優(yōu)化和算法的能力表征和反映了各處理技術(shù)的處理能力。
表 2-1-1:自然語言處理技術(shù)、計算機視覺處理技術(shù)和多模態(tài)技術(shù)的定義
表2-1-2:自然語言處理技術(shù)、計算機視覺處理技術(shù)和多模態(tài)技術(shù)的描述
2、自然語音處理(NLR)技術(shù)
自然語言處理是基于自然語言理解和自然語言生成的信息處理。這包括使用文本或語音進行自然語言分析和生成。通過自然語言處理能力,計算機可以分析用人類語言編寫的文本, 并識別概念、實體、關(guān)鍵詞、關(guān)系、情感、情緒和其他特征,使用戶能夠從內(nèi)容中提取見解。 憑借這些能力,計算機還可以生成文本或語音來與用戶交流。任何以文本或語音形式接受自然語言作為輸入或輸出,并能夠?qū)ζ溥M行處理的系統(tǒng),都在使用自然語言處理組件。這樣的處理系統(tǒng)需要一個自然語言理解組件和一個自然語言生成組件。因此NLP組件有眾多種,用于處理不同的任務(wù),具體詳見下表2-2的介紹。
表 2-2:自然語音處理(NLR)的組件
3、計算機視覺(CV)處理技術(shù)
CV定義為“一個功能單元獲取、處理和解讀代表圖像或視頻的數(shù)據(jù)的能力”。計算機視覺與圖像識別密切相關(guān),例如對數(shù)字圖像的處理,下表2-3-1給出了數(shù)字圖像的一些描述。視覺數(shù)據(jù)通常源自數(shù)字圖像傳感器、數(shù)字化掃描的模擬圖像或其它圖形輸入設(shè)備。CV的基本任務(wù)包括圖像采集、重采樣、縮放、降噪、對比度增強、特征提取、分割、目標(biāo)檢測和分類等。在AI系統(tǒng)中,有多種方法可以完成計算機視覺任務(wù),如近年來,深度卷積神經(jīng)網(wǎng)絡(luò)因其在圖像分類任務(wù)中的高準(zhǔn)確性以及其訓(xùn)練和預(yù)測性能而受到青睞。下表2-3-2列出了基于計算機視覺和圖像識別的AI應(yīng)用示例。
表 2-3-1:關(guān)于數(shù)字圖像的特點
表 2-3-2:基于計算機視覺和圖像識別的AI應(yīng)用示例
4、多模態(tài)處理技術(shù)
AI的多模態(tài)處理技術(shù)是指通過融合文本、圖像、音頻、視頻等多種數(shù)據(jù)模態(tài),實現(xiàn)對復(fù)雜信息的綜合理解與生成的技術(shù)體系。它是NLP技術(shù)與CV技術(shù)的結(jié)合,但絕不是兩者的簡單拼湊,它通過特征級融合(對齊不同模態(tài)的特征向量)、模型級融合(獨立模型輸出整合)和決策級融合(加權(quán)投票或貝葉斯推理)等機制實現(xiàn)跨模態(tài)信息的互補。
三、AI的核心技術(shù)
基于上述AI的學(xué)習(xí)能力技術(shù)和處理能力技術(shù)及其融合,可以將AI關(guān)鍵技術(shù)分為感知類技術(shù)(Perception Technologies)、認(rèn)知類技術(shù)(Cognition Technologies)和生成類技術(shù)(Generation Technologies),這三大技術(shù)構(gòu)成了AI的最核心技術(shù),它們的含義和特征等詳見下表3的描述。關(guān)鍵是,通過這三類技術(shù)的結(jié)合,AI系統(tǒng)可以像人類一樣“感知-思考-創(chuàng)造”,逐步實現(xiàn)從“工具”到“智能體”的進化,實現(xiàn)高智能的AI。
表 3:關(guān)于AI的感知類技術(shù)、認(rèn)知類技術(shù)和生成類技術(shù)
當(dāng)然,上述通過AI的最基礎(chǔ)技術(shù)所形成的AI核心技術(shù)的實現(xiàn),還需要AI的硬件技術(shù)(如GPU、TPU等)和軟件技術(shù)(如架構(gòu)、算法等)的加持。AI關(guān)鍵技術(shù)的協(xié)同發(fā)展,正在構(gòu)建從感知到?jīng)Q策的完整智能鏈條。隨著多模態(tài)學(xué)習(xí)、因果推理等前沿方向的突破,AI將向更通用、更可靠的方向演進,實現(xiàn)具身式AI(如機器人)和非具身式AI(如大語言模型ChatGPT、DeepSeek等)協(xié)同快速發(fā)展。顯然,隨著AI的大規(guī)模的發(fā)展,AI倫理技術(shù)與安全技術(shù)變得異常重要,創(chuàng)新與倫理規(guī)制的平衡,將成為決定智能文明走向的關(guān)鍵命題,務(wù)必確保AI系統(tǒng)的公平性、透明性和可控性。
欲進一步了解人工智能(NVIDIA)GPU技術(shù)性能參數(shù)介紹的請進入。