天橋腦科學研究院資助的首個中文腦電圖數據集研究項目登上《自然》子刊|鈦快訊
(圖片來源:unsplash)
鈦媒體App 6月7日消息,南方科技大學劉泉影教授、澳門大學伍海燕教授聯合課題組日前在英國自然子刊《Scientific Data》上發表了一項突破性研究成果——首個專門針對中文語言的腦電圖數據集“ChineseEEG”。
研究團隊表示,ChineseEEG數據集不僅對神經科學、語言學及相關領域有著深遠的意義,還將在腦機接口、語義解碼等領域帶來廣泛的應用前景。例如,可以利用基于腦信號的文字轉換技術,幫助殘障人士通過大腦活動直接控制計算機或其他設備,為他們提供更便捷的交流和生活方式。
這項研究是天橋腦科學研究院(TianQiao & Chrissy Chen Institute, TCCI)資助的首個中文腦電圖數據集研究項目,同時也是TCCI發起的MindD數據支持計劃的第一個資助項目,并且還是《Nature》子刊上首個用于語義對齊和神經解碼的中文語言的腦電圖數據集。
實際上,語言是人類交流的核心,無論是使用母語還是學習新語言,大腦都能迅速理解和表達。這種能力源于大腦對語言的復雜處理機制。當接收語言信息時,大腦會啟動一系列神經活動來解析這些數據。通過研究這些神經活動,科學家們可以揭示大腦如何處理和理解語言。
近年來,腦電圖(EEG)、功能磁共振成像(fMRI)和皮層腦電圖(ECoG)等技術在研究大腦語言處理機制方面發揮了關鍵作用。然而,大量神經信號數據的獲取依然困難,尤其是針對中文的腦電圖數據集相對稀缺。不同語言的結構差異意味著大腦處理這些語言的方式也不盡相同,因此創建基于非英語刺激的腦電圖數據集顯得尤為重要。
為了填補這一空白,劉泉影教授和伍海燕教授的研究團隊通過使用兩部經典中文小說《小王子》和《狼王夢》作為實驗材料。這些文本不僅包含了豐富的常用漢字和表達方式,而且為實驗提供了多樣化的語言刺激。每位參與者默讀了長達12小時的中文文本。期間,研究團隊記錄了他們的腦電圖等數據。實驗包括了一個練習閱讀階段和兩個正式的閱讀階段,每個階段均由數個實驗運行組成。
實驗設備和相關數據模態
ChineseEEG數據集的優勢在于,除了提供多種預處理后的腦電圖傳感器級數據外,還提供了由BERT-base-chinese模型生成的中文文本嵌入,為研究自然語言處理模型中的文本表示與大腦神經活動之間的關系提供了新的視角。研究人員可以利用這些數據集深入分析大腦如何處理中文,推動跨語言神經科學研究的發展。
那么,ChineseEEG可以具體用來做什么呢?
- 首先,由于參與者接受了長達12小時的中文語言刺激,涵蓋了豐富的詞匯和語義,這對于研究大腦長期處理語言的變化十分有益;
- 其次,利用128個通道的高密度腦電圖數據和每秒1000次的采樣率,研究人員能夠精確追蹤大腦在閱讀中文時的微妙變化;
- 最后,更為重要的是,研究者提供了經過處理的腦電圖數據和文本嵌入,使得不具備神經科學或計算機科學背景的人也能夠直接使用這些數據進行研究。
舉例來說,這些數據可用于:1、腦電圖的時頻分析,幫助提取神經振蕩的不同頻段;2、腦電圖源重建,揭示大腦活動的源頭;3、文本嵌入,利用預先訓練好的技術計算小說的嵌入,探索腦電圖與文本之間的關系;4、數據對齊,幫助研究者更好地理解他們收集到的數據,將腦電圖數據與文本內容和眼動追蹤數據對齊。
伍海燕教授表示:“海量腦科學數據的采集、管理和分析是公認的難題,這也極大地制約了以大模型為代表的新一代AI在相關領域的應用。天橋腦科學研究院推出的MindD數據支持計劃及時滿足了科學家和臨床醫生群體的需求。”
MindD數據支持計劃面向中國神經科學家、認知科學家、心理學家,以及神經和精神疾病醫生開放,在安全合規的前提下,資助人類大腦及相關全身和行為數據的采集、分析和訓練。該計劃首期計劃提供1億元經費資助,同時免費提供存儲服務器、算力等基礎設施,創新數據采集技術,以及AI和數據專業人才資源。天橋腦科學研究院與澳門大學伍海燕、南方科技大學劉泉影聯合課題組達成的資助正是該計劃的首批項目之一。
天橋腦科學研究院(TCCI)是由陳天橋、雒芊芊夫婦出資10億美元創建的全球最大私人腦科學研究機構之一,主要推動三大領域的關鍵性大腦研究:大腦的探知,大腦相關疾病治療以及大腦功能的開發。TCCI與華山醫院、上海市精神衛生中心設立了應用神經技術前沿實驗室、人工智能與精神健康前沿實驗室;與加州理工學院合作成立了TCCI加州理工神經科學研究院。TCCI建成了支持腦科學研究的生態系統,項目遍布歐美、亞洲和大洋洲,包括學術會議和交流、夏校培訓、AI加速科學大獎、科研型臨床醫生獎勵計劃、特殊病例社區、中文媒體追問等。
展望未來,團隊表示,隨著技術的進一步成熟和數據集的不斷豐富,預計將有更多創新研究成果涌現,深化人類對大腦如何處理語言和其他復雜任務的理解。MindD計劃也將繼續幫助相關研究領域突破數據瓶頸,為“AI 腦科學”的發展奠定良好基礎,同時吸引更多國際合作和跨學科研究,加速AI技術在醫療和健康領域的實際應用。
(本文首發于鈦媒體App,作者|林志佳,編輯|胡潤峰)