大語言模型開發與訓練
【課程編號】:NX40488
大語言模型開發與訓練
【課件下載】:點擊下載課程綱要Word版
【所屬類別】:研發管理培訓
【培訓課時】:可根據客戶需求協商安排
【課程關鍵字】:模型開發培訓
我要預訂
咨詢電話:027-5111 9925 , 027-5111 9926手機:18971071887郵箱:Service@mingketang.com
課程大綱
第一天:基礎知識與初步實踐
上午:理論基礎與工具準備
1. 歡迎與介紹
培訓目標和內容概述
參與者自我介紹與期望
2. 大語言模型概述
2.1什么是大語言模型(LLM)
定義與基本概念
介紹Transformer架構及其在自然語言處理中的重要性
2.2 LLM的應用場景和優勢
介紹LLM在文本生成、翻譯、問答系統、文本摘要等方面的應用
主要的LLM架構
GPT(Generative Pretrained Transformer)
GPT2和GPT3的區別與應用實例
BERT(Bidirectional Encoder Representations from Transformers)
BERT的雙向編碼器架構及其在自然語言理解任務中的應用
其他知名架構(如T5、RoBERTa等)
2.3 簡要介紹這些模型的特點與應用場景
2.4實例展示
使用預訓練模型生成文本(如GPT3)
現場演示如何使用OpenAI的GPT3 API生成文本,并展示其效果
3. 開發環境準備
3.1必要的開發工具和庫
Python編程語言及其在數據科學與機器學習中的重要性
TensorFlow與PyTorch框架的比較與選擇
Hugging Face Transformers庫的功能與優勢
3.2環境搭建與配置
Jupyter Notebook安裝與配置
安裝Anaconda或直接安裝Jupyter Notebook
配置虛擬環境以便隔離項目依賴
相關庫的安裝(如`transformers`, `datasets`, `scikitlearn`)
使用pip安裝所需的Python庫,并確保環境配置正確
3.3實踐操作:環境配置和測試
運行一個簡單的預訓練模型示例
加載并運行一個簡單的預訓練模型(如DistilBERT),確保環境配置無誤
下午:數據處理與自動打標簽
4. 數據預處理
4.1數據收集與清洗
從電商系統導出產品數據和文章數據
介紹如何通過API或數據庫導出電商數據
4.2 數據清洗和處理(去重、去噪、填補缺失值等)
使用Pandas進行數據清洗操作,展示具體代碼實例
4.3數據格式與存儲
常見數據格式(JSON、CSV、SQL等)
講解每種格式的優缺點及其適用場景
4.4數據庫的使用與管理
使用SQLite或其他數據庫進行數據存儲與管理
4.5數據處理工具與方法
Pandas用于數據處理
詳細講解Pandas的基本操作(如DataFrame的創建、讀取、過濾、轉換等)
NLTK用于自然語言處理
介紹NLTK庫的功能,如分詞、詞性標注、命名實體識別等
4.6實踐:數據預處理操作
使用Pandas加載并處理數據集
現場操作,展示如何用Pandas加載CSV文件并進行數據處理
簡單的數據清洗與轉換
實現數據去重、處理缺失值等操作
5. 自動打標簽
5.1自動打標簽的概念與重要性
介紹標簽在機器學習和數據挖掘中的作用
講解自動打標簽在電商中的具體應用
5.2標簽方法與策略
基于規則的方法
介紹正則表達式和關鍵字匹配的基本概念與應用
基于機器學習的方法
使用分類模型(如Logistic回歸、SVM等)進行標簽預測
5.3實踐:對電商系統的產品數據和文章數據進行打標簽
使用預訓練模型進行文本分類
加載預訓練的文本分類模型,并應用于實際數據
標簽數據的生成與存儲
將生成的標簽保存到數據庫或文件中
5.4案例分析與討論
成功案例分享
介紹一些企業成功實施自動打標簽的案例
常見問題與解決方案
分析在打標簽過程中可能遇到的問題,并提出解決方案
第二天:系統構建與實戰開發
上午:系統標簽體系建設與模型訓練
6. 系統標簽體系建設
6.1標簽體系設計原則
標簽的標準化與一致性
介紹如何設計標準化的標簽體系,確保標簽的一致性和可維護性
標簽的層級結構
講解如何設計層級標簽體系,便于管理和使用
標簽的層級結構與管理
標簽的定義與維護
使用Excel或數據庫進行標簽管理
標簽的版本控制
介紹標簽版本控制的必要性及其實現方法
6.2實踐:構建一個簡單的標簽體系
設計并實現標簽層級結構
現場操作,展示如何設計和實現一個標簽體系
為電商數據建立標簽體系
將設計好的標簽體系應用于實際的電商數據
7. 大語言模型的數據訓練
7.1訓練數據的準備與處理
數據標注與分割
介紹如何標注數據,并進行訓練集、驗證集和測試集的劃分
訓練集、驗證集與測試集的劃分
使用scikitlearn的`train_test_split`函數進行數據劃分
7.2模型訓練的步驟與注意事項
預訓練模型的選擇與使用
介紹如何選擇適合任務的預訓練模型,并加載使用
超參數調優
講解模型訓練中的超參數調優技巧
7.3實踐:使用示例數據集進行模型訓練
加載預訓練模型(如BERT、GPT)
現場操作,展示如何加載并微調預訓練模型
在特定任務上進行微調(如文本分類、標簽生成)
實現文本分類任務的微調訓練
7.4模型評估與優化
模型性能評估指標(如準確率、召回率、F1得分)
講解常用的模型評估指標及其計算方法
模型優化方法(如早停、學習率調整)
介紹模型優化的常用方法,并展示具體實現
7.5實戰操作:訓練與優化
實時監控訓練過程與結果
使用TensorBoard等工具實時監控訓練過程
調整參數與重新訓練
現場演示調整超參數并重新訓練模型
下午:人機對話系統與綜合實戰
8. 基于大語言模型的人機對話系統
人機對話系統的基本原理
對話管理與狀態追蹤
介紹對話管理的基本概念與實現
自然語言生成(NLG)
講解自然語言生成的基本原理及其在對話系統中的應用
實踐:構建一個簡單的對話系統
使用預訓練模型(如DialoGPT)進行對話生成
加載DialoGPT模型并實現簡單的對話生成
集成對話系統與電商平臺,實現在電商系統中進行搜索與下單操作
現場演示如何將對話系統與電商平臺集成,實現自動下單
9. 綜合實戰
任務描述:構建一個完整的系統,實現從自動打標簽到人機對話的全流程
詳細描述綜合實戰任務的目標和要求
分組實踐:每組負責一個子任務
數據預處理
標簽體系建設
模型訓練
對話系統開發
每組成員分工合作,完成各自負責的任務
系統集成與測試
各組任務的集成
將各組完成的任務集成到一個完整的系統中
系統功能測試與優化
進行系統測試,確保各部分功能正常,并進行優化
10. 總結與答疑
討論與反饋
參與者分享培訓體驗與收獲
講師總結培訓內容與重點
Q&A環節
回答參與者的問題,解決實際操作中的困惑
后續學習資源推薦
提供相關學習資料與資源,幫助參與者繼續深入學習
期望結果
參與者對大語言模型開發與訓練有基礎的了解
參與者能夠實際操作并實現基本的大語言模型任務
參與者能夠結合電商系統的需求進行標簽體系建設與人機對話系統的開發
注意事項
確保培訓期間有足夠的實踐時間,強調動手操作
提供技術支持與指導,確保每個參與者能夠順利完成任務
實時調整培訓節奏,根據參與者的反饋與需求進行優化
通過這個詳細的大綱,參與者將能夠在兩天內掌握大語言模型的基本開發技能,并應用于具體的電商場景,完成自動打標簽、標簽體系建設、模型訓練以及人機對話系統的開發任務。
李老師
李海良簡介
李海良,,暨南大學副教授,碩士生導師,九三學社社員,中山大學工學博士香港城市大學訪問學者,廣東工業大學校外合作研究生導師。研究方向為深度學習、圖像識別、智慧綜合能源和能源大數據。在IEEE Transactions on Neural Networks and Learning Systems和Information fusion等TOP期刊第一作者發表SCI論文6篇,主持省級課題2項,參與國家自然科學基金1項。長期擔任IEEE Internet of Things Journal、International Journal of Communication Systems、IET Computer Vision、IET Image Processing和 IET Radar, Sonar & Navigation等SCI期刊審稿人。曾獲得第六屆全國電子信息科學博士生論壇論文成果匯報二等獎(2017),第七屆全國電子信息科學博士生論壇論文成果匯報三等獎(2016),2020年12月在INSCRYPT 2020 國際會議擔任Session chair。
2018年獲得中山大學工學博士學位,2019年至2021年在暨南大學網絡安全學院做博后,合作導師為密碼學與信息安全領域專家、國家杰青翁健教授。
擅長操作系統和數據庫的安全配置,針對注入式、篡改、偽造、流量分析以及竊聽等主流攻擊方式有深入研究,在人工智能領域,針對對抗樣本攻擊與防御方面發表多篇SCI論文。
曾參與基于聯邦學習的廣東海關數據隱私保護系統的研發工作,參與暨南大學與金山毒霸的校園網攻防安全軟件的研發工作
參與基于視頻圖像安全的珠海電力局電纜防外破項目
參與東軟集團社保系統和醫院管理系統的研發工作
曾經為廣東移動、深圳市電力局、肇慶學院、嶺南師范學院、華南農業大學、東莞城市學院、電子科技大學中山學院以及鄭州航空工業管理學院等知名企業院校提供培訓服務,積累了大量的行業培訓項目經驗。
擅長主講課程:
《人工智能》《計算機網絡》《網絡與信息安全》《軟件工程》《物聯網》《大數據和數據科學》 《網絡安全》 《互聯網與人工智能》 《網絡信息安全與數據安全》 《 高級計算機系統結構》 《物聯網技術》 《 云計算與大數據算法設計》 《軟件工程》 《 研究方法論》 《物聯網技術與發展趨勢 《網絡空間安全前沿問題研究》 《智能人機交互》 《高級人工智能》 《大數據科學應用》 《信息安全》 《高級軟件工程》 《高級算法設計與分析》
獲獎經歷:
2015年8月 第六屆全國電子信息科學博士生論壇論文成果匯報二等獎
2016年8月 第七屆全國電子信息科學博士生論壇論文成果匯報三等獎
2020年12月 INSCRYPT 2020 Session chair
學習經歷
2014年9月-2018年6月,中山大學,信息與通信工程,博士研究生
2017年7月-2017年9月,香港城市大學,訪問學者
工作經歷
2019年2月至2021年2月,暨南大學信息科學技術學院,博士后
研究方向
基于注意力機制的神經網絡,智慧綜合能源和能源大數據。
主要論文
1. Hailiang Li, Jian Weng*,Adaptive Dropout Method Based on Biological Principles,IEEE Transactions on Neural Networks and Learning Systems,vol.32,no.9, pp.4267-4276, Sept. 2021,JCR1區,IF:10.451,TOP期刊
2. Hailiang Li, Jian Weng*, A Defense Method Based on Attention Mechanism Against Traffic sign Adversarial samples,Information Fusion,Volume 76, 2021, Pages 55-65,JCR1區,IF:12.975,TOP期刊
3. Hailiang Li, et al,A Semi-automated Annotation Algorithm Based on Weakly Supervised Learning for Medical Images,Biocybernetics and Biomedical Engineering 40 (2020) pp. 787-802, SCI索引,第一作者,影響因子:4.314
4. Hailiang Li, et al,An improved deep learning approach for detection of thyroid papillary cancer in ultrasound images,Scientific Reprots,(2018) 8:6600,SCI索引,第一作者,影響因子:4.379
5.張宇,李海良*.基于RSA的圖像可識別對抗攻擊方法[J].網絡與信息安全學報,2021,7(05):40-48.通信作者,中國科技核心期刊
承擔課題
1. 基于注意力機制的安全性圖像識別模型研究與應用,2021廣東省普通高校特色創新項目,主持,17.12萬元,項目編號:2021KTSCX006;
2. 基于 AIOT 的多維視覺下電力施工人員工作監控與管理系統,廣東省科技創新戰略專項資金,主持,2萬元,項目編號:PDJH2021b0058;
社會職務
廣東工業大學,校外合作碩士生導師
我要預訂
咨詢電話:027-5111 9925 , 027-5111 9926手機:18971071887郵箱:Service@mingketang.com
企業管理培訓分類導航
企業培訓公開課日歷
2025年
2024年