• 首页
  • 粮食
  • 蔬菜
  • 果品
  • 水产
  • 酒水
  • 饮料
  • 茶叶
  • 畜禽
  • 食用油
  • 资讯
logo
  • 首页>
  • 蔬菜 >
  • 正文

清华开源图文对话模型及其benchmark

2023-05-21 21:11:04 来源:量子位

丰色 萧箫 发自 凹非寺


(资料图片)

量子位 | 公众号 QbitAI

什么,最懂表情包的中文开源大模型出现了??!

就在最近,来自清华的一个叫VisualGLM-6B的大模型在网上传开了来,起因是网友们发现,它连表情包似乎都能解读!

像这个腊肠犬版蒙娜丽莎,它不仅准确理解了这是腊肠犬与蒙娜丽莎的“合体照”,还点出了这只是一幅虚构作品:

又像是这个正在出租车后熨衣斗的男子,它也一眼看出了“不对劲”的地方:

值得一提的是,在此前GPT-4刚发布时,网友们也同样将它用来测了测常识理解能力:

就如同 弱智吧 问题是大模型语言理解能力的benchmark一样, 表情包 简直就是大模型图片理解能力的benchmark。

要是它真能理解网友们奇奇怪怪的表情包,那AI简直没有什么不能get到的信息点了啊!

我们赶紧测试了一波,看看它究竟效果如何。

gif也能看懂,但解读太过正经

目前,VisualGLM-6B已经推出了网页端试玩版。

只需要在Hugging Face的试玩界面上传图片,再与它进行“对话”,它就能生成理解图片的结果:

先试试 初级难度 的表情包。

官方给出了几个问题示例,例如“描述一下这个场景”、“这是什么东西”、“这张图片描述了什么”,我们就先尝试一下这几个问题。

输入一只正在听歌的小猫,让VisualGLM-6B 描述一下表情包中的场景 :

还不错,VisualGLM-6B准确get了小猫享受音乐或使用电子设备这个过程!

再输入一个章鱼哥表情包,问它“这是什么东西”:

也没问题。看起来能拿给爸妈用了(手动狗头)。

再试试用吃饭小狗,让VisualGLM-6B解读一下 这张图片描述了什么 :

看起来初级表情包都没什么问题,是时候加大力度了。

上传一个 gif 试试?第一眼似乎没有问题:

但再换一个gif试试就会发现,它似乎只理解了 第一帧图像 ,猜测是不是“主角在试图抓住或捕捉它”,但实际上只是在扔钞票:

与之前的一些图片理解AI不同,VisualGLM-6B在解读时会着重介绍表情包角色中的 面部表情 ,例如“它看起来不舒服或者紧张”:

BUT!当我们再上一点难度,给表情包 配上文字 之后,它就无法理解表情包的含义了:

尤其是这种靠配文传达表情包精髓的,VisualGLM-6B就会开始展现“瞎解读”的功底:

如果图像拼接太多,它还会出现奇怪的bug,例如把摸鱼狗头人认成大鲨鱼:

而且,它在描述表情包的时候整体比较正经,不会解读图像以外的“用意”。

例如,有网友测试了一下经典的“熊猫人显卡”表情包:

以及周星驰的经典“我全都要”表情包:

显然VisualGLM-6B能大致理解图片的场景,但对于表情包的配文就无法理解了。

总结一下,对于包含经典作品角色的表情包,或是经过文字加工前的“原始”表情包,VisualGLM-6B能说出这个角色的名字,或是描述出其中的场景:

虽然也可以让它描述情绪,不过AI看出来的情绪,可能和最终表情包表达的情绪不太一样:

但一旦表情包加上了文字、或是被P进了新场景,VisualGLM-6B就会因为无法解读图片中文字的意思,而变得“看不懂梗”了。

△有时候还会解读错乱,例如狗看成猪

那么,拥有一部分解读表情包能力的VisualGLM-6B,究竟是什么来头?

多模态对话VisualGLM-6B,最低只需8.7G显存

事实上,VisualGLM-6B并非专门为“表情包解读”而开发。

它是由智谱AI和清华大学KEG实验室打造的开源多模态对话模型,主要用于中文图像理解,解读表情包可以说只是它被开发出来的一个“副业”。

它的正经用法,一般是酱婶的:

提起这个团队,大家更熟悉的可能是ChatGLM-6B大模型。

后者此前我们有作介绍:

它是“清华系ChatGPT”的一员,2022年8月发布,共62亿规模参数,支持中英双语对话。

上线4天就突破6k star,目前已经近25k。

据介绍,VisualGLM-6B正是在ChatGLM-6B的基础上完成:

ChatGLM-6B负责它的语言模型部分,图像部分则通过训练BLIP2-Qformer构建起视觉模型与语言模型的“桥梁”。

因此,VisualGLM-6B整体模型 共78亿参数 。

具体而言,VisualGLM-6B的预训练在中英文权重相同的情况下,在30M高质量中文图文对和300M经过筛选的英文图文对上完成(来自CogView数据集)。

这一训练方法可以将视觉信息对齐到ChatGLM的语义空间。

微调阶段,VisualGLM-6B又在长视觉问答数据上训练,以生成符合人类偏好的答案。

与此同时,VisualGLM-6B由SwissArmyTransformer (简称“sat” ) 库训练,这是一个支持Transformer灵活修改、训练的工具库,支持Lora、P-tuning等参数高效微调方法。

最终,本项目既提供了HuggingFace接口,也提供了基于sat的接口。

要说VisualGLM-6B最大的特点,便是结合模型量化技术,可以让大家在 消费级的显卡 上进行本地部署, INT4量化级别下最低只需8.7G显存 。

具体包含三种部署工具:

一是命令行Demo。执行命令:

python cli_demo.py

然后程序便自动下载sat模型,大家就可以在命令行中进行交互式的对话了。

输入指示并回车即可生成回复,输入clear可以清空对话历史,输入stop终止程序。

二是基于Gradio的网页版Demo。

需要先安装Gradio:pip install gradio,然后下载并进入本仓库运行web_demo.py,最后在浏览器中打开系统输出的地址即可使用。

三是API部署。需要安装额外的依赖:pip install fastapi uvicorn,然后运行仓库中的api.py。

更多细节和推理、量化部分的方法就不赘述了,可戳参考链接[1]查看官方介绍。

需要注意的是,如官方所述,VisualGLM-6B正处于V1版本,视觉和语言模型的参数、计算量都较小,因此会出现相当多的已知局限性,像图像描述事实性/模型幻觉问题、图像细节信息捕捉不足,以及一些来自语言模型的局限性等等。

就如下面这张测试,VisualGLM-6B描述得还挺到位的,能看出是阿根廷和世界杯,但别被蒙了:图上并没有阿圭罗和迪马利亚这两位球星。

因此,官方也称将在后续继续针对以上问题进行一一改进。

不过,拥有图片解读能力的大模型,也并不只有VisualGLM-6B一个。

目前来看,表现比较好的“表情包杀手”还是 GPT-4 ,从网友测试来看,它已经能根据表情包中的文字解读meme:

开源大模型 方面,基于Vicuna-13B开发的MiniGPT-4也能解读图片,同样只需要一张单卡RTX3090就能搞定:

不过在这批大模型中,VisualGLM-6B强调的则是“中文开源”特点,换而言之,它在中文描述上可能会比其他大模型更准确一些。

你试玩过这些“表情包解读AI”了吗?感觉谁更能get人类思想精华?(手动狗头)

VisualGLM-6B试玩地址: https://huggingface.co/spaces/lykeven/visualglm-6b

参考链接: [1]https://mp.weixin.qq.com/s/SzS6Gx8ZjtBXXQ7cs8-zLQ [2]https://twitter.com/thukeg/status/1659079789599248386

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

关键词:

    为您推荐

  • 商务部:上周食用农产品价格上涨4.3% 猪肉批发价涨9.7%

    资讯2021-10-27
  • 商务部:上周生产资料价格上涨5% 煤炭继续领涨

    资讯2021-10-27
  • 美术作品中的党史 | 第61集《1978年11月24日·小岗》

    资讯2021-10-27
  • 31省份累计报告接种新冠病毒疫苗224868.8万剂次

    资讯2021-10-27
  • 草原都市呼和浩特战疫记:民众做好防控,生活未受冲击

    资讯2021-10-27
  • 恭城:做大做强地理标志产品,“农旅融合”助推乡村振兴

    资讯2021-10-27
  • 安徽:5年来追回外逃人员183人

    资讯2021-10-27
  • 第十三届中国舞蹈“荷花奖”民族民间舞评奖活动开幕

    资讯2021-10-27
  • 甘肃兰州统一安排中小学线上教学 各学校“停课不停学”

    资讯2021-10-27
  • 内蒙古包头发生多车连撞事故 已致5死11伤

    资讯2021-10-27
  • 商务部:上周猪肉消费明显回升 零售价格止跌上扬

    资讯2021-10-27
  • 全方位提高供给质量 推动食品产业高质量发展

    资讯2021-10-27
  • 坚持“六大保障” 构建超大城市食品安全社会共治新格局

    资讯2021-10-27
  • 17部门联合发文 推进国家文化出口基地提质扩容增效

    资讯2021-10-27
  • 俄卡马河畔切尔尼市一住宅楼天然气爆炸 5人伤亡

    资讯2021-10-27
  • 国家中小企业发展基金与全国股转公司、北交所签署战略合作协议

    资讯2021-10-27
  • 网易云课堂引进亚马逊AWS近百门IT类课程 向社会免费开放

    资讯2021-10-27
  • 冰雪之约 中国之邀|北京冬奥会倒计时100天,我们准备好了!

    粮食2021-10-27
  • 第38届和第39届东盟峰会在文莱开幕

    粮食2021-10-27
  • 高德车道级导航正式发布 覆盖全国超120个城市高速和快速路

    粮食2021-10-27

果品

  • 北京2022年冬奥会、冬残奥会奖牌“同心”正式发布
  • 冬奥故事会丨一图了解冬奥会历届奖牌
  • 同心筑梦向未来——写在北京冬奥会开幕倒计时100天之际
  • 外交部:美国针对亚裔仇恨犯罪数字令人痛心

蔬菜

  • 清华开源图文对话模型及其benchmark
  • 孕妇能不能喝豆奶粉吗_孕妇能不能喝豆奶粉
  • ST摩登:公司实际控制人林永飞取保候审_当前看点
  • 常熟汽饰最新公告:成为某知名新能源主机厂供应商 预计项目总额约19亿元_世界快报
  • 造梦3昆仑山多少波出极品 造梦3
  • 天天看点:新鲜半枝莲如何保存 新鲜半枝莲的保存方法
  • 我不同意彻底打倒胡锡进,过分批判彻底否定是一种网络情绪极端化表现
  • 环球通讯!吃什么东西喝什么东西最醒酒快
  • 不用农药化肥 江苏戴庄蹚出生态农业新路 每日速递
  • 关注:用彩纸做手工大全集 用彩纸做手工大全

每日食品网 每日食品网 版权所有 联系邮箱:5 146 761 13 @qq.com 备案号:浙ICP备2022016517号-15

Copyright ? 1998-2015 by www.shipin.rexun.cn. all rights reserved