10 月 12 日動靜 說話模子(Language Model)簡單來講就是一串詞序列的幾率散布,首要感化是為一個長度為 m 的文本肯定一個幾率散布 P,暗示這段文本存在的可能性。
大師之前可能或多或少傳聞過 GPT-3,OpenAI 最新的說話模子,可謂地表最強說話模子,也被認為是革命性的人工智能模子。除此以外還 BERT、Switch Transformer 等重量級產物,并且業內其他企業也在盡力推出自家的模子。
微軟和英偉達今天公布了由 DeepSpeed 和 Megatron 驅動的 Megatron-Turing 天然說話生成模子(MT-NLG),這是迄今為止練習的最年夜和最壯大的解碼說話模子。
作為 Turing NLG 17B 和 Megatron-LM 的繼任者,這個模子包羅 5300 億個參數,并且 MT-NLG 的參數數目是同類現有最年夜模子 GPT-3 的 3 倍,并在一系列普遍的天然說話使命中展現了無與倫比的正確性,例如:
完成猜測
瀏覽理解
常識推理
天然說話推理
詞義消歧
105 層、基在轉換器的 MT-NLG 在零、單和少樣本設置中改良了先前最早進的模子,并為兩個模子范圍的年夜范圍說話模子設定了新尺度和質量。
據悉,模子練習是在基在 NVIDIA DGX SuperPOD 的 Selene 超等計較機上以夾雜精度完成的,該超等計較機由 560 個 DGX A100 辦事器供給撐持,這些辦事器以完全的胖樹(FatTree)設置裝備擺設與 HDR InfiniBand 聯網。每一個 DGX A100 有 8 個 NVIDIA A100 80GB Tensor Core GPU,經由過程 NVLink 和 NVSwitch 彼此完全毗連。微軟 Azure NDv4 云超等計較機利用了近似的參考架構。
特殊提示: {{z(站點標題)}}信息來自在互聯網,目標在在傳遞更多信息,其實不代表 {{z(站點標題)}}附和其不雅點。其原創性和文中陳說文字和內容未經本站證實,對本文和此中全數或部門內容、文字的真實性、完全性、和時性本站不作任何包管或許諾,并請自行核實相干內容。本站不承當此類作品侵權行動的直接責任和連帶責任。如若 {{z(站點標題)}}有任何內容加害您的權益,請和時聯系我們,本站將會在24小時內處置終了。