您的位置:首頁>新聞 > 業界 >

大規模函數型數據分析存儲空間與計算效率問題取得進展

2023-08-26 15:35:27    來源:中國科學報


【資料圖】

在大數據時代下,隨著互聯網、云存儲等技術的高速發展,實際分析處理中遇到的數據規模越來越大。盡管大規模函數型數據可以給我們帶來海量信息,但是其對計算資源有著更高的需求,所需的計算時間更長,這也極大地提升了計算成本,影響數據分析的時效性、可操作性。因此如何解決大規模函數型數據分析時,遇到的存儲空間和計算效率等方面的難題是大數據時代下函數型數據分析的一個重要問題。

近日,針對上述問題,西安交通大學經濟與金融學院青年教師劉華博士、上海財經大學統計與管理學院教授尤進紅博士和加拿大西蒙弗雷澤大學教授Jiguo Cao博士進行了深入的研究。他們首次把子抽樣思想應用到函數型數據分析,開發出適應于函數型廣義回歸模型的最優抽樣方法Functional L-Optimality Subsampling(FLoS),以此來實現減少計算時間、克服內存不足等問題的目標。除此之外,作者還通過理論和一系列的數值模擬來說明了該抽樣方法的準確性和有效性。

科研人員把提出的最優抽樣方法FLoS用于分析器官移植數據案例,該數據收集了幾十萬名腎臟器官移植接受者在接受器官移植手術時的信息,并記錄了這些移植手術接受者在術后每次隨訪的信息,因此其是一個數據量非常龐大的且包含函數型數據的數據集。他們想要用接受者術后的腎小球過濾率曲線來判斷移植手術能否成功并且預估他們在術后的大致壽命。通過分析與對比,他們發現基于FLoS方法抽取到的最優子樣本得到的抽樣估計和全樣本下的估計幾乎完全一致,進一步驗證了該最優抽樣方法的準確性和有效性。

研究成果發表在JMLR.(圖源JMLR網站)

近日,上述研究成果以《大規模函數型廣義回歸模型下的最優抽樣方法FLoS》為題發表在機器學習和人工智能領域國際頂級期刊Journal of Machine Learning Research(簡稱JMLR)上。劉華是第一作者,西安交通大學經濟與金融學院是第一署名單位。JMLR由麻省理工學院出版社出版,依托于麻省理工學院的計算機科學與人工智能實驗室,是國際上公認的計算機領域頂級期刊之一。

關鍵詞:

相關閱讀