驱动AI应用的开源向量数据库,支持万亿级向量数据的快速搜索与管理!

驱动AI应用的开源向量数据库,支持万亿级向量数据的快速搜索与管理!Milvus 是一个开源的向量数据库,成立于 2019 年,其独特目标是存储、索引和管理由深度神经网络和其他机器学习(ML)模型生成的大规模嵌入向量。

作为一个专为处理输入向量查询而设计的数据库,它能够在万亿级别上进行向量索引。与现有的主要处理遵循预定义模式的结构化数据的关系型数据库不同,Milvus 从底层开始设计,处理转换自非结构化数据的嵌入向量。

随着互联网的发展和演变,非结构化数据变得越来越普遍,包括电子邮件、论文、物联网传感器数据、Facebook 照片、蛋白质结构等等。为了使计算机能够理解和处理非结构化数据,这些数据被转换为使用嵌入技术的向量。Milvus 存储和索引这些向量。Milvus 能够通过计算它们的相似性距离来分析两个向量之间的关联。如果两个嵌入向量非常相似,意味着原始数据源也是相似的。驱动AI应用的开源向量数据库,支持万亿级向量数据的快速搜索与管理!

主要特征

  • 对万亿级向量数据集进行毫秒级搜索
  • 简化非结构化数据管理
  • 云可扩展性和高可靠性的向量数据库
  • 高度可扩展和灵活性
  • 支持混合搜索能力
  • 统一的 Lambda 结构
  • 拥有一个开发者至上的社区,提供多语言支持和工具链

示例应用程序

图像相似性搜索

图像可搜索并立即从海量数据库中返回最相似的图像。

像谷歌这样的主要搜索引擎已经为用户提供了按图片搜索的选项。此外,电子商务平台已经意识到此功能为在线购物者带来的好处,亚马逊将图像搜索整合到其智能手机应用程序中。驱动AI应用的开源向量数据库,支持万亿级向量数据的快速搜索与管理!

视频相似度搜索

通过将关键帧转换为向量,然后将结果输入 Milvus,可以近乎实时地搜索和推荐数十亿个视频。

用户在观看自己喜欢的电影或视频后,可以轻松地截屏并通过在各种社交网络平台上发布来分享自己的想法。当关注者看到截图时,如果帖子中没有明确拼写电影名称,真的很难分辨是哪部电影。为了找出电影的名称,用户可以利用视频相似度搜索系统。通过使用该系统,用户可以上传图像并获得包含与上传图像相似的关键帧的视频或电影。驱动AI应用的开源向量数据库,支持万亿级向量数据的快速搜索与管理!

音频相似度搜索

快速查询语音、音乐、音效、表面相似声音等海量音频数据。

语音、音乐、音效等多种音频搜索,可以快速查询海量音频数据,挖掘出相似的声音。音频相似度搜索系统的应用包括识别相似的音效、最大限度地减少知识产权侵权等。音频检索可用于实时搜索和监控网络媒体,打击侵犯知识产权行为。它还在音频数据的分类和统计分析中发挥重要作用。驱动AI应用的开源向量数据库,支持万亿级向量数据的快速搜索与管理!

分子相似性搜索

超快的相似性搜索、子结构搜索或超结构搜索特定分子。

药物发现是新药研发的重要组成部分。药物发现的过程包括目标选择和确认。当发现片段或先导化合物时,研究人员通常会在内部或商业化合物库中搜索类似化合物,以发现构效关系 (SAR) 和化合物可用性。最终,他们将评估将先导化合物优化为候选化合物的潜力。为了从数十亿规模的化合物库中发现可用的化合物,通常检索化学指纹用于子结构搜索和分子相似性搜索。驱动AI应用的开源向量数据库,支持万亿级向量数据的快速搜索与管理!

推荐系统

根据用户的行为和需求推荐信息或产品。

推荐系统是信息过滤系统的一个子集,可用于个性化电影、音乐、产品、Feed 流推荐等多种场景。与搜索引擎不同,推荐系统不需要用户准确描述自己的需求,而是通过分析用户行为来发现用户的需求和兴趣。驱动AI应用的开源向量数据库,支持万亿级向量数据的快速搜索与管理!

问答系统

自动回答用户问题的交互式数字 QA 聊天机器人。

问答系统是一种常见的现实世界应用,属于自然语言处理领域。典型的 QA 系统包括在线客户服务系统、QA 聊天机器人等。大多数问答系统可以分为:生成式或检索式、单轮或多轮、开放域或特定问答系统。驱动AI应用的开源向量数据库,支持万亿级向量数据的快速搜索与管理!

DNA 序列分类

通过比对相似的 DNA 序列,在毫秒级内准确梳理出基因的分类。

DNA 序列是基因溯源、物种鉴定、疾病诊断等领域的一个流行概念。尽管所有行业都渴望一种更智能、更高效的研究方法,但人工智能已经引起了人们的广泛关注,尤其是在生物和医学领域。越来越多的科学家和研究人员正在为生物信息学领域的机器学习和深度学习做出贡献。为了使实验结果更有说服力,一种常见的选择是增加样本量。基因组学与大数据的合作,带来了更多现实应用的可能性。然而,传统的序列比对存在局限性,不适用于大型数据集。为了在现实中做出更少的权衡,向量化是一个大型 DNA 序列数据集的不错选择。驱动AI应用的开源向量数据库,支持万亿级向量数据的快速搜索与管理!

文本搜索引擎

通过将关键字与文本数据库进行比较,帮助用户找到需要的信息。

Milvus 在自然语言处理(NLP)领域的一个主要应用是文本搜索引擎。Milvus 可以帮助用户找到需要的信息,它甚至可以显示很难找到的信息。文本搜索引擎将用户输入的关键字或语义与文本数据库进行比较,然后返回满足特定条件的结果。驱动AI应用的开源向量数据库,支持万亿级向量数据的快速搜索与管理!

功能架构

Milvus 作为云原生矢量数据库,在设计上将存储和计算分离。为了增强弹性和灵活性,Milvus 中的所有组件都是无状态的。

该系统分为四个级别:

  • 接入层:接入层由一组无状态代理组成,作为系统的前端和用户端点。
  • 协调器服务:协调器服务为工作节点分配任务,充当系统的大脑。
  • 工作节点:工作节点充当手臂和腿,是遵循协调器服务指令并执行用户触发的 DML/DDL 命令的哑执行器。
  • 存储:存储是系统的骨干,负责数据持久化。它包括元存储、日志代理和对象存储。
驱动AI应用的开源向量数据库,支持万亿级向量数据的快速搜索与管理!

传送门

开源协议:Apache-2.0

开源地址:https://github.com/milvus-io/milvus

项目合集:https://github.com/OpenTechCol/OpenTechCol

「回复【加群】加入开源技术交流群,干货很多!」

-END-


原文始发于微信公众号(开源技术专栏):驱动AI应用的开源向量数据库,支持万亿级向量数据的快速搜索与管理!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/145668.html

(0)
小半的头像小半

相关推荐

发表回复

登录后才能评论
极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!