昨天deepseek发布了开源多模态大模型Janus-Pro-7B,除了可以识别图像,还可以生成图像,其多项能力都在openai发布的dalle-3之上。

那么到底效果如何?我花了两个小时本地运行了一套Janus-Pro-7B多模态模型。想实操的小伙伴们可以收藏起来了。界面展示如下所示:

话不多说,先看测试结果,再看具体的安装步骤。
图片识别测试结果
测试一:识别建筑物

广州塔的照片,完美识别;以及下面的米国某个大城市也是完美识别。

测试二:识别城市街景
为了保留测试的真实性,我们随机发一张前段时间拍的照片。结果稍微有点失望。
结果将“颐和园”识别为“故宫”。

将“西安城墙”识别为“故宫”。

测试三:识别中文文字

目前这个开源的模型对中文的识别还是差点意思,输入“春华秋实”,给我识别出来“天、地、人”。
测试四:识别英文文字

英文的效果还是非常ok的,在没有输入任何提示词的情况下,都可以快速识别。
总体测评:
作为一块本地部署的大模型,对图片以及物件和英文的支持非常棒,完全能够超过dell-3和SD。
不好意思,说错了。SD没有。哈哈哈!
但是街景识别以及中文内容识别还是有点差距啊。
文生图测试结果
这次janus-pro-7B更新最大的特点就是支持短文prompt。而不像之前mj需要精确详细的描述才能生成。
效果还算OK,大家也可以试试。

安装步骤
这一步就进入到我们的实操环节了。小伙伴们可以按照步骤实操起来了。命令简单,小白都会!
步骤一:安装conda 3.12环境。
conda create --name deepseek7B python=3.12
####运行成功后激活deepseek7B
conda activate deepseek7B

步骤二:去git 上下载具体的模型包代码
###命令
git clone git@github.com:deepseek-ai/Janus.git

步骤三:安装依赖文件。
cd Janus
pip install -e .
###安装gradio依赖的ui界面
pip install gradio
###启动带有gradio的ui界面
python demo/app_januspro.py
这个时候,不要急,漫长的等待即可。

14GB+的大模型差不多要1个多小时才下载完成。

废了九九八十一步终于安装成功了,会出现下面访问地址:

写在后面的话
deepseek真的是全村人的骄傲啊,总体上体验下来确实很ok。希望蛇年,我们国内的大模型能够超越欧美,引领AI的方向。
我叫大瑜,一个10年工作经验的程序员。AI技术和AI工具的实践者。关注我,学习更多的AI知识和技能。
原文始发于微信公众号(大瑜聊AI):全村人的希望!Deepseek Janus-Pro-7B本地跑通,超强多模态!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/313753.html