加州大学研究人员开发视觉语言模型 BLIVA，以更好地处理包含文本的图像

据站长之家 8 月 28 日报道，加州大学圣地亚哥分校的研究人员开发了一种视觉语言模型 BLIVA，旨在更好地处理包含文本的图像。视觉语言模型（VLM）通过合并视觉理解功能来扩展大型语言模型 (LLM)，以回答有关图像的问题。

据悉，BLIVA 结合了两种互补的视觉嵌入类型：一种是 Salesforce InstructBLIP 提取的学习查询嵌入，用于关注与文本输入相关的图像区域；另一种是受 Microsoft LLaVA 启发提取的编码修补嵌入，直接从完整图像的原始像素修补中获得。

免责声明

发文时比特币价格：$29249

当前比特币价格：[crypto coins=”BTC” type=”text” show=”price”]

当前比特币涨幅：[crypto coins=”BTC” type=”text” show=”percent”]

免责声明：

本文不代表路远网立场，且不构成投资建议，请谨慎对待。用户由此造成的损失由用户自行承担，与路远网没有任何关系；

路远网不对网站所发布内容的准确性，真实性等任何方面做任何形式的承诺和保障；

网站内所有涉及到的区块链（衍生）项目，路远网对项目的真实性，准确性等任何方面均不做任何形式的承诺和保障；

网站内所有涉及到的区块链（衍生）项目，路远网不对其构成任何投资建议，用户由此造成的损失由用户自行承担，与路远网没有任何关系；

路远区块链研究院声明：路远区块链研究院内容由路远网发布，部分来源于互联网和行业分析师投稿收录，内容为路远区块链研究院加盟专职分析师独立观点，不代表路远网立场。

登录 注册 找回密码