驱动AI应用的开源向量数据库，支持万亿级向量数据的快速搜索与管理！

Milvus 是一个开源的向量数据库，成立于 2019 年，其独特目标是存储、索引和管理由深度神经网络和其他机器学习（ML）模型生成的大规模嵌入向量。

作为一个专为处理输入向量查询而设计的数据库，它能够在万亿级别上进行向量索引。与现有的主要处理遵循预定义模式的结构化数据的关系型数据库不同，Milvus 从底层开始设计，处理转换自非结构化数据的嵌入向量。

随着互联网的发展和演变，非结构化数据变得越来越普遍，包括电子邮件、论文、物联网传感器数据、Facebook 照片、蛋白质结构等等。为了使计算机能够理解和处理非结构化数据，这些数据被转换为使用嵌入技术的向量。Milvus 存储和索引这些向量。Milvus 能够通过计算它们的相似性距离来分析两个向量之间的关联。如果两个嵌入向量非常相似，意味着原始数据源也是相似的。

主要特征

对万亿级向量数据集进行毫秒级搜索
简化非结构化数据管理
云可扩展性和高可靠性的向量数据库
高度可扩展和灵活性
支持混合搜索能力
统一的 Lambda 结构
拥有一个开发者至上的社区，提供多语言支持和工具链

示例应用程序

图像相似性搜索

图像可搜索并立即从海量数据库中返回最相似的图像。

像谷歌这样的主要搜索引擎已经为用户提供了按图片搜索的选项。此外，电子商务平台已经意识到此功能为在线购物者带来的好处，亚马逊将图像搜索整合到其智能手机应用程序中。

视频相似度搜索

通过将关键帧转换为向量，然后将结果输入 Milvus，可以近乎实时地搜索和推荐数十亿个视频。

用户在观看自己喜欢的电影或视频后，可以轻松地截屏并通过在各种社交网络平台上发布来分享自己的想法。当关注者看到截图时，如果帖子中没有明确拼写电影名称，真的很难分辨是哪部电影。为了找出电影的名称，用户可以利用视频相似度搜索系统。通过使用该系统，用户可以上传图像并获得包含与上传图像相似的关键帧的视频或电影。

音频相似度搜索

快速查询语音、音乐、音效、表面相似声音等海量音频数据。

语音、音乐、音效等多种音频搜索，可以快速查询海量音频数据，挖掘出相似的声音。音频相似度搜索系统的应用包括识别相似的音效、最大限度地减少知识产权侵权等。音频检索可用于实时搜索和监控网络媒体，打击侵犯知识产权行为。它还在音频数据的分类和统计分析中发挥重要作用。

分子相似性搜索

超快的相似性搜索、子结构搜索或超结构搜索特定分子。

药物发现是新药研发的重要组成部分。药物发现的过程包括目标选择和确认。当发现片段或先导化合物时，研究人员通常会在内部或商业化合物库中搜索类似化合物，以发现构效关系 (SAR) 和化合物可用性。最终，他们将评估将先导化合物优化为候选化合物的潜力。为了从数十亿规模的化合物库中发现可用的化合物，通常检索化学指纹用于子结构搜索和分子相似性搜索。

问答系统

自动回答用户问题的交互式数字 QA 聊天机器人。

问答系统是一种常见的现实世界应用，属于自然语言处理领域。典型的 QA 系统包括在线客户服务系统、QA 聊天机器人等。大多数问答系统可以分为：生成式或检索式、单轮或多轮、开放域或特定问答系统。

DNA 序列分类

通过比对相似的 DNA 序列，在毫秒级内准确梳理出基因的分类。

DNA 序列是基因溯源、物种鉴定、疾病诊断等领域的一个流行概念。尽管所有行业都渴望一种更智能、更高效的研究方法，但人工智能已经引起了人们的广泛关注，尤其是在生物和医学领域。越来越多的科学家和研究人员正在为生物信息学领域的机器学习和深度学习做出贡献。为了使实验结果更有说服力，一种常见的选择是增加样本量。基因组学与大数据的合作，带来了更多现实应用的可能性。然而，传统的序列比对存在局限性，不适用于大型数据集。为了在现实中做出更少的权衡，向量化是一个大型 DNA 序列数据集的不错选择。