報告時間:2025年5月16日(星期五)14:30
報告地點:翡翠湖校區(qū)科教樓B501報告廳
報 告 人:羅杰波 教授
工作單位:美國羅切斯特大學計算機科學系
舉辦單位:計算機與信息學院(人工智能學院)
報告簡介:
近期研究揭示了多模態(tài)大型模型(MLMMs)在通用視覺和語言任務(wù)中的出色能力。人們越來越關(guān)注MLMMs在特定領(lǐng)域的表現(xiàn),尤其是社交媒體內(nèi)容。由于社交媒體內(nèi)容本質(zhì)上是多模態(tài)的,包含文本、圖像、視頻和音頻,模型需要理解這些不同溝通方式之間的相互作用及其對信息傳遞的影響。然而,理解社交媒體內(nèi)容對當前機器學習框架仍是一個挑戰(zhàn)。為了評估MLMMs在社交媒體分析中的能力,該研究選擇了五個關(guān)鍵任務(wù):情感分析、仇恨言論檢測、虛假新聞識別、人口推斷和政治意識形態(tài)檢測。研究團隊首先對每個任務(wù)使用現(xiàn)有基準數(shù)據(jù)集進行初步定量分析,隨后回顧結(jié)果并選取定性樣本,以展示GPT-4V在理解多模態(tài)社交媒體內(nèi)容中的潛力。GPT-4V在這些任務(wù)中表現(xiàn)出色,展現(xiàn)了其在圖像-文本對聯(lián)合理解、語境和文化意識以及廣泛常識知識方面的優(yōu)勢。然而,盡管有這些優(yōu)勢,GPT-4V仍面臨挑戰(zhàn),例如“幻覺”問題(生成不準確或虛構(gòu)內(nèi)容),并且在多語言社交媒體內(nèi)容的理解和適應(yīng)最新社交媒體趨勢方面存在困難,因此進一步提出了幾種策略來提升模型在這些任務(wù)中的表現(xiàn)。該研究的發(fā)現(xiàn)為MLMMs的未來發(fā)展提供了希望,強調(diào)了通過多態(tài)信息分析來加深對社交媒體內(nèi)容及其用戶的理解的重要性。
報告人簡介:
羅杰波教授是羅切斯特大學計算機科學系教授。他于2011年加入該校,此前在柯達研究實驗室擁有長達15年的卓越職業(yè)生涯。他發(fā)表了超過600篇技術(shù)論文,并持有超過90項美國專利。他的研究興趣包括計算機視覺、自然語言處理(NLP)、機器學習、數(shù)據(jù)挖掘、計算社會科學和數(shù)字健康等領(lǐng)域。他曾參與眾多技術(shù)會議的組織工作,包括擔任ACM Multimedia 2010、IEEE CVPR 2012 和 IEEE ICIP 2017的程序主席,以及ACM Multimedia 2018 和 IEEE ICME 2024 的大會主席。羅教授還曾擔任多個頂級期刊的編委,包括 IEEE TPAMI、IEEE TMM、TCSVT、IEEE TBD、ACM TST 和 PR 等。他是 ACM、AAAI、IEEE、AIMBE、IAPR 和 SPIE 的Fellow,同時是歐洲科學院院士和美國國家發(fā)明家學院院士。他于2021年獲得ACM SIGMM技術(shù)成就獎,并于2025年榮獲IEEE計算機協(xié)會愛德華·J·麥克盧斯基技術(shù)成就獎。