Hugging Face推開源多模態AI模型IDEFICS 支持圖像、文本輸入

2023-08-26 02:00:50 來源：站長之家

【資料圖】

編程客棧（）8月23日消息:最近， Hugging Face 推出了一個名為 IDEFICS 的開源多模態 AI 模型，它可以接受圖像和文本作為輸入，并生成連貫的文本輸出。

IDEFICS 是一個強大的視覺語言模型，擁有高達800億的參數量，功能包括根據圖像生成描述、回答相關問題以及根據多個圖像生成敘述等。

IDEFICS 基于 DeepMind 開發的 Flamingo 模型，后者是一種目前最先進的視覺語言模型，但尚未對外開源。相比之下，IDEFICS 作為 Flamingo 的開源實現版本，其測試結果顯示在各類圖像理解任務上其表現與 Flamingo 相當。

為訓練 IDEFICS，Hugging Face 利用了多種公開的數據集，還額外構建了一個包含1.4億張圖像的大規模圖像-編程客棧文本數據集。

IDEFICS 有兩個版本，包括90億參數的基礎版和800億參數的大模型版，可以處理不同的應用場景。

IDEFICS 的推出為研究人員和開發者提供了js一個強大的開源視覺語言編程模型，相比專利系統如 GPT-3，它提供了更大的靈活性。同js時，IDEFICS 也顯示出生成式模型處理多模態輸入的潛力。

未來如果能進一步提升多模態理解和生成能力，將可以大幅推動諸如機器人、自動駕駛等多模態 AI 應用的發展。

項目網址:https://huggingface.co/spaces/HuggingFaceM4/idefics_playground

關鍵詞：

久久精品五福影院1421_亚洲看片免费_www国产亚洲精品久久麻豆_影音先锋中文字幕资源