題目一:多模态情感理解、生成、分析關鍵技術研究
内容簡介:多模态情感分析指從一段視頻中抽取語言、音頻、視覺等模态信息,以綜合判斷說話的情感極性、情緒狀态、觀點傾向等。多模态情感分析數據集收集難度和标注難度較大,标注數據量往往較少,難以學習到魯棒的深度網絡。此外,之前算法忽略了樣本間和類别間模态關系的探索。本報告主要介紹利用自監督和弱監督學習算法的多模态情感分析技術,以充分挖掘多模數據潛力,建模樣本間和類别間的模态交互關系,訓練魯棒的模型。
多模态情感理解指從以說話人為中心的視頻中抽取語言、音頻、視覺模态信息,綜合分析出說話人的情感極性、情緒狀态、觀點傾向等。由于模态之間巨大的異構性和信息不平衡,多模态情感理解模型難以做到充分挖掘模态内特有知識和模态間共有特征,從而實現有效的多模态融合過程。同時,由于訓練過程需要多模态數據成對出現,預訓練好的多模态模型在面對缺失模态的下遊場景時存在性能急劇下降的問題,如何結合生成模型對缺失模态進行信息補充,使多模态理解模型成功到遷移到複雜多變的推理場景中,也是目前亟待解決的關鍵問題。本報告聚焦于多模态情感理解和生成框架的構建和應用,探索更有效的融合方法和更魯棒的泛化策略,為多模态領域的研究提供新視角。
報告人:胡海峰
報告人簡介:教授,博士生導師,美國卡内基梅隆大學訪問教授。從事計算機視覺、模式識别、人工智能、機器學習等方面研究,開發應用涉及智能駕駛、智能交通、主動安防以及智慧醫療等領域。在IEEE/ACM彙刊, Pattern Recognition等國際權威期刊以及AAAI, ACL, CVPR, EMNLP等國際知名會議發表250餘篇論文。主持四項國家級和兩項省級重點課題,參與多個國家級重大科技項目。
題目二:跨模态檢索和生成
内容簡介:跨模态檢索是智能安防、多模态檢索和多媒體分析等領域挑戰性和緊迫性課題。目前,開放複雜環境下跨模态表征學習問題,以及無監督跨模态檢索所面臨的僞标簽學習問題,仍然是該領域重點研究難題。彙報人在魯棒的表征對抗學習、模态解耦合、僞标簽學習等方面進行廣泛研究,取得系列的跨模态檢索研究成果。同時,彙報人對跨模态生成領域進行深入研究,該研究是内容創作、數字媒體、虛拟現實等領域挑戰性課題。彙報人對交互式局部語義控制、長視距語義信息學習、多層級粒度表征學習等進行廣泛研究,取得系列跨模态生成研究成果。
報告人:胡偉鵬
報告人簡介:2022年至今年擔任南洋理工大學的電氣與電子工程學院CARTIN實驗室的博士後研究員,合作導師為Yap-Peng Tan教授和Xudong Jiang教授。2022年7月獲得中山大學博士,師從胡海峰教授,專業為信息與通信工程專業。研究興趣包括計算機視覺,深度學習,圖像和視頻生成,人機交互,異構人臉識别,行人重識别等。目前已經發表21篇國際期刊會議論文,其中14篇為第一作者,包括8篇一作已錄用中科院一區TOP期刊論文IEEE TIP, TIFS, TMM, TCSVT,以及通信作者發表CVPR計算機頂會論文。目前是多個頂刊審稿人,包括TIP, TIFS, TII, TMM, TCSVT, PR等期刊的審稿人。
時 間:2024年4月25日(周四)上午11:00開始
地 點:太阳集团app首页石牌校區南海樓338
熱烈歡迎廣大師生參加!
太阳集团1088vip
2024年4月24日