AIGC光环下,千亿向量赛道成资本追逐新风口

AIGC光环下,千亿向量赛道成资本追逐新风口,向量数据库在大模型时代中展现出了巨大的商业机会。不过,目前来看,这个赛道仍然充满变数。

过去半年,向量数据库成为为数不多在AIGC光环下迅速走红的赛道,甚至有人将其视为AIGC成功的基石。7月4日,腾讯云也正式宣布推出向量数据库,成为大厂中首例,目前阿里云、亚马逊云等尚未释放出明确信号。

“谁*发布并不重要,重要的是谁有强大的资源能够将这件事情快速落实下去。”一位数据库产业观察者对钛媒体表示。对于大厂而言,是否要做一个独立的数据库还有待高层战略选择和布局节奏。但资本市场绝不会错过追逐任何一个风口。

今年4月,Pinecone获得了a16z领投的1亿美元B轮融资,估值一度达到7.5亿美元。

作为OpenAI的合作方之一,Pinecone团队的创始人Liberty还是亚马逊AI实验室的*,创建了当前有名的机器学习平台SageMaker。而另一家同为OpenAI合作方、且估值超过5亿美金的团队,是来自中国的Zilliz。据钛媒体*获悉,近段时间,多家VC正在联络Zilliz试图给出新一轮融资,而这家企业距上一轮融资不足一年。

据钛媒体不完全统计,仅在2023年4月前后的一个月内,这个赛道已经相继有数家企业获得主流投资机构的投资,除了Pinecone外,还有Weaviate的5000万美元B轮融资、Qdrant的750万美元种子轮融资、Chroma的1800万美元种子轮融资……向量数据库无疑给了资本市场新的投资杠杆,但也有相关从业者预警,“想要做好需要积累,现在入局向量细分赛道已经晚了。”

AIGC光环下,千亿向量赛道成资本追逐新风口

向量数据库在大模型时代中展现出了巨大的商业机会。东北证券分析指出,向量数据库市场空间巨大,目前处于从0-1阶段。预测到2030年,全球向量数据库市场规模有望达到500亿美元,国内向量数据库市场规模有望超过600亿人民币。

不过,目前来看,这个赛道仍然充满变数。

一方面,应用广泛。即便传统数据库厂商不单独研发向量数据库,基本上也会选择主张支持原生的向量词嵌入和向量搜索引擎。对于那些缺乏向量检索功能的数据库,实现它可能也是时间早晚的问题。而对于有能力的大企业客户也完全可以基于开源引擎尝试使用,在此之前,许多互联网公司、AI大公司也早就在使用向量引擎。值得一提的是,最近这段时间就连老牌MongoDB也在其NoSQL数据库中增加向量搜索的方式进入到这股潮流。

另一方面,向量数据库依然有其落地的技术难点。例如相似性检索和计算复杂度的问题,对于Clickhouse的依赖性问题;作为一款面向AI应用的新型数据库(与现有的SQL稍做区分),它并没有替换已有的数据库,依然需要跟传统数据库搭配使用。

值得一提的是,AIGC大模型到来,实际上带来了新的场景应用点,这跟以往向量数据库厂商在探索的客户场景会有所不同。探索与创新,会显得十分重要。未来数据库能不能为上层的AI应用提供稳定、高性能的基础设施能力,才是重点考察方向。

目前业内也在寻求数据库与AIGC大模型的结合方式,例如阿里云今年最新迭代的云原生多模数据库Lindorm,也可以支持AIGC场景应用。

“能力是ready的,但没有人会非常有把握,因为现在AI的变化太快了,跟数据库的结合应该有更多的层次。”国内某数据库创业公司负责人表示,通过过去一段时间与客户的交流,现在正做的事情是将AI能力植入到其所倡导的Serverless HTAP数据库架构中。

AIGC光环下,千亿向量赛道成资本追逐新风口

图片引用自摩天轮《中国数据库行业分析报告》,2022.10

结合墨天轮去年10月公布的全球数据库行业分析报告可以看到,其从技术维度将向量数据库产品进行了拆分:包括向量检索库、向量插件、向量字段、向量执行化引擎。这其实也在透露出一个问题:当下火的其实并不完全是向量数据库,而是在向量这一场景下的价值收益。

01 向量数据库怎么就火了

近期,许多具备大模型技术栈研发实力的企业,都会不约而同地提及“应用语言向量检索技术用于模型训练”。

在技术界,向量检索并不是一个新名词。但它的发展与人工智能浪潮的推动高度绑定。

向量,顾名思义Embedding,最开始的用于文本表达的词向量,到后来可用于表达图片、视频、语音等非结构化数据转化的深层语义,通过数据向量化可被计算机识别、使用,且在转化的过程中不丢失信息。一开始,向量技术也基本使用于互联网大公司的业务场景中。

AIGC光环下,千亿向量赛道成资本追逐新风口

图片引用自Pinecone博客

例如,微软Bing搜索引擎,在2000年就曾宣布使用向量实现搜索引擎的增强,可处理2000多亿张网页的向量数据。在那个时代,这个数据已经非常庞大了,但在更多的工业界或实验室里,向量数据仍处于小规模验证的阶段。

真正的改变则来自于2017年前后,伴随深度学习在工业界的广泛落地,实际应用场景下的数据量级开始直线增加。这一年,FAIR研究人员开源了(FAISS,Facebook AI Similarity Search)AI向量相似性检索库,在十亿级数据集上创建了邻近搜索、且运行于GPU的k-selection算法。2020年7月,谷歌研究院开源了向量相似性搜索库ScaNN,提出新的数据集向量压缩技术,以提高向量检索的准确性。

实际上,在此期间,国内的互联网公司也没闲着,据说阿里巴巴自研了Proxima,对于更多的企业,包括创业厂商在内,也会使用向量相似性检索技术的相关开源组件如Faiss、Nmslib和Annoy等ANN库,京东零售基于Faiss的Vearch也已经在各自规模化业务场景中投入使用。

创业公司Zilliz从2018年开始布局做向量数据库,2019年开源了Milvus,单独作为一个品类进行研发创新。其做法比较明确:开源Milvus向量数据库,持续运营积累大量社区开发者使用;在商业化方面,推出云端全托管数据库服务Zilliz Cloud,并与Milvus形成插件化集成,与国产大模型进行对接。

不过,不同于2017年前后在行业风口和资本热钱影响下成立的一批AI公司,一开始就瞄准向量数据库创业赛道的企业其实寥寥无几。即便Zilliz也并非是从创业之初锚定向量数据库——Zilliz创始人星爵在去年9月与钛媒体交流时曾解释:“AI时代,数据处理的类型和计算体系架构都发生了较大变化,但当时团队对最终产品形态是什么,并不是很清晰。不断交流的过程中,我们意识到企业对海量非结构化数据管理的需求。”

总结起来,在向量数据库的发展过程中,技术进展和创新起到了重要的推动作用。

首先在数据层面,向量作为一个新型数据处理单元,其数据量达到了一定规模,需要一个专用的管理系统,对管理的复杂度如分布式、高可用性、数据的一致性和备份等要求也越来越高。

其次,数据库系统的研究者和工程师们不断改进和优化向量数据库的存储引擎、索引结构和查询算法,提高了向量数据的存储效率和查询性能。

此外,随着硬件技术的发展,如GPU、FPGA、ARM架构芯片的应用,也为向量数据库的性能提升带来了新的机会。

这三点因素共同促使了向量数据库系统的诞生——想要高效处理这些海量的向量数据,就需要更细分、更专业的数据基础设施,为向量构建专门的数据库处理系统

02 现阶段,客户有必要替换吗?

从产品层面讲,如果传统数据库厂商不单独研发向量数据库,那么基本上会主张支持原生的向量词嵌入和向量搜索引擎。

向量数据库市场的阵营在ChatGPT影响之前就已经在形成分化,既包括提供开源组件的Milvus、Vald、Weaviate、Qdrant、Vaspa、Vearch、AquilaDB、Marqo,到商业化服务产品Pinecone,再到大厂谷歌推出的Vertex AI匹配引擎,数据库厂商Elastic和Redis基于自身提供的向量检索功能等等。

这其实也表明了当前向量数据库市场存在的两种路线:一个是基于分析数据库的向量化执行引擎,英文是Vectorization,这是学术界2013年提出的名词,如Clickhouse、Spark引擎,是一种新型的执行方式,用于处理传统的结构化数据如表单等,更多的是结构化数据分析数据里面做并行执行的一种方式,在新型的处理芯片上进行处理。

另一个则是推出向量数据库(Vector Database),本质上处理的是AI领域的一类新型数据类型,例如对多模数据的处理,相比其他的向量检索技术在检索速度和精准性上都有了一个很高的提升。

后者的做法也基本在几家主流云厂商如亚马逊云、阿里云上能够看到,而这些云平台应用市场也会提供给这些第三方向量数据库企业进行托管。例如,阿里云开发的内存数据库Tair,在兼容Redis生态的同时,也具备向量检索能力,实现缓存+向量二合一,已经投入在电商等场景。

“如果你看好AI,你就可以看好向量数据库。”2023年的大模型大火一段时间后,腾讯云数据库团队最终明确了这样一个逻辑。

腾讯云会更倾向于倡导向量数据库“专库专用”的理念,并且认可这样一个趋势。腾讯云正式发布向量数据库时,腾讯云数据库副总经理罗云这样对钛媒体解释:“向量检索技术确实不是今天才有,在此之前有像基于Faiss库的单机检索引擎,也有已有数据库上外挂插件的形态,还有的则是具备Purpose-built的独立向量数据库。”

在他看来,由于向量检索是一个极消耗CPU和内存资源的工作,当支撑的业务负载越来越大之后,之前这种传统的插件形式就会面临一定的挑战。而独立向量数据库可以让用户更好地精细化管理大模型训练时的资源成本和时间问题。

此外,还由于客户对私域数据的保护,不会放在共有云的大模型平台上进行训练,而是更愿意将私域数据存储在向量数据库中,当需要推理时就会将一部分信息传递给大模型作推理。云厂商提供的数据服务会更有竞争力。

据罗云所述,腾讯云自研的分布式向量数据库核心引擎Olama,原名ElasticFaiss,最早于2019年4月进行孵化,过去几年,Olama对开源架构技术点持续优化,以支撑越来越多的算法库。

目前,处在探索期的向量数据库依然充满挑战:一是数据存储和索引。

由于向量数据通常具有高维度和大规模的特点,传统的存储和索引方法无法满足其高效查询的需求。二是查询性能和计算复杂度。由于向量数据的特殊性质,相似性搜索和向量操作往往需要进行大量的计算和比较。三是数据质量和准确性。向量数据中可能存在噪声、缺失值和异常值等问题,这些问题会对数据的查询和分析结果产生不良影响等。

相较于大模型的高调火热,向量数据库仍然靠近底层,并没有达到真正意义上的全民皆知,向量数据库更多时候是需要集成到其他平台或云上被销售。

而从需求端看,过去,向量检索还主要聚焦于机器学习和数据挖掘领域,通过高效的数据存储和查询工具,使得相似性搜索和聚类分析成为可能。在推荐系统中,向量数据库助力个性化推荐,根据用户兴趣和商品相似性,呈现给用户最贴切的推荐结果。

如今,在ChatGPT爆火之后,前来咨询向量数据库的客户也络绎不绝,并且涌现出了一批新的中小型开发者。Zilliz团队的一个直观感受是,目前大家主要的竞争会集中在产品功能设计和易用性上。如Midjourey只有11人团队,这类小团队用户业务更加聚焦于大模型应用,这与此前大数据量的互联网B端用户有明显需求的不同。

一位售前人员解释,还是要根据客户的业务属性,需要的数据库系统是否解决的是面向AI应用的部分。

无论怎样,外界正在意识到向量数据库作为一种新型数据库存在的价值。不过,理解大模型只是AI的其中一种形态,泛化能力变强,场景通用性也更强,以大模型助力AI落地变得更顺畅的过程中,还有很多可优化空间。

(0)
小多多的头像小多多创始人

相关推荐

  • 人形机器人,无法阻挡的未来潮流

    最近,接连发生了3件不算太轰动,却意味深长的事。一,继去年谷歌工程师爆料LaMDA具备自我认知后,OpenAI首席科学家Ilya Sutskever也声称,ChatGPT可能是有意识的。“当下的首要任务,并非开发下一个GPT或DALL-E,而是研究如何阻止超级AI失控。”二,白宫正式通过AI监管的行

    2023年11月4日 创投
  • 在创新药冷寂中加速前行,亚虹医药商业化进入兑现期_行业动态

    药企的本职是创造临床、商业价值。当越来越多药企加速前进,追求更高的效率与增长的时候,意味着一个更具确定性时代的来临。亚虹医药(股票代码:688176.SH)即是其中一例。今年8月以来,亚虹医药(股票代码:688176.SH)旗下膀胱癌诊断及手术药物海克威III期临床试验、用于非手术治疗宫颈高级别鳞

    2023年10月25日
  • 华西证券首次覆盖医渡科技并给予“增持”评级_行业动态

    近日,华西证券发布首次覆盖医渡科技的研报,给予其“增持”评级。华西证券在研报中指出,医渡科技是中国医疗智能行业的头部企业,根据医渡科技FY2…” />
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8

    2023年6月9日
  • 盈峰投资到安徽募资

    投资界(ID:pedaily2012)消息,11月22日,由新兴产业发展基金、金寨县联合盈峰集团、泸州老窖集团旗下基金等发起设立的安徽盈金高新产业投资合伙企业(有限合伙)(简称“盈金高新基金”)顺利通过中国证券投资基金业协会基金产品备案(基金编号:SACR85),基金管理人为宁波盈峰股权投资基金管理

    2023年11月27日
  • 打造值得信赖的品牌一嗨租车与年轻人的双向奔赴_行业动态

    当自驾出游成为年轻人生活的一部分,当安全、私密、灵活的成为愉悦出行的前提,年轻人的出行需求正在经历深刻的变化——出行的要求不再仅仅是简单的交通工具,而是追求更加自由、舒适和便捷的出行体验。同时,他们也注重环保和科技,希望通过出行方式来展示自己的个性和品味。作为一家具有前瞻性的直营连锁汽车租赁企业,

    2023年11月23日
  • 2017全年一次性年终奖个人所得税计算方法

    全年一次性奖金是指行政机关、企事业单位等扣缴义务人依据 其全年经济效益和对雇员全年工作业绩的综合考核状况 ,向雇员发放的一次性奖金。那么年终奖的扣税方式是什么呢? 年终奖个税计算办…

    2022年3月31日
  • 2023逆势增长,该领域一众企业是今年为数不多的赢家

    2023年,医疗行业许多细分市场都在过冬,但有些赛道却在加速增长,如内窥镜。根据相关上市企业发布的半年报:开立医疗、澳华内镜、海泰新光的内镜业务在上半年分别实现了38%、73%、46%的同比增长。相比于“跌跌不休”的其他细分市场,内窥镜行业的逆势增长让开立医疗、澳华内镜、海泰新光等相关企业成了今年为

    创投 2023年12月3日
  • 网络安全板块优质股 都是机构追捧的好公司

    最近一段时间以来,很多的A股市场投资者都关注到了网络安全这个板块,那么在股票市场上,有哪些公司的业务涉及网络安全呢?这篇文章就跟大家聊聊这个话题! 华胜天成:获得信息安全行业“灾难…

    创投 2022年1月25日
  • 轩尼斯门窗品牌稳居铝合金门窗十大品牌!_行业动态

    轩尼斯门窗这个品牌怎么样?近日,由居美丨中华建材网发起的“华腾杯”2023家居建材行业品牌力综合指数荣耀揭榜,轩尼斯门窗凭借雄厚的综合实力,在众多品牌中脱颖而出,再次揽获“铝合金门窗影响力十大品牌”和“铝合金门窗十佳品牌”双项殊荣,以口碑彰显行业标杆力量。行业风向标“华腾杯”2023家居建材行业品

    2023年10月9日 创投
  • 查理·芒格的传奇一生,和他被巴菲特掩盖的投资智慧

    当地时间周二(11月28日),伯克希尔-哈撒韦在其子公司美国商业资讯网站上发布声明,投资天才、沃伦·巴菲特的得力助手查理·芒格去世。芒格出生于1924年1月1日,享年99岁,此时距离他100岁生日只有一个月。巴菲特在新闻稿中称,“如果没有查理的灵感、智慧和参与,伯克希尔-哈撒韦就不可能发展到今天的地

    创投 2023年11月30日
  • 芯片降价,市场动向恐生变数

    临近年末,本来是传统旺季,但各大晶圆代工厂的日子似乎并不好过。近期,产业链相关企业和人士表示,各大成熟制程产线再次降价,主要针对2024年*季度订单。全球范围内,成熟制程产线主要分布在中国台湾和中国大陆,特别是中国台湾地区,其整体制程工艺水平和市场影响力在中国大陆之上,所以,相对而言,该地区的整体芯

    2023年11月15日
  • 卖爆了的华为Mate60Pro,仍有三大悬念待解

    8月30日凌晨,苹果在公众号上发布了秋季发布会的主宣传海报,标题是《好奇的心,请留给 9 月 13 日》。中国消费者会不会继续把好奇的心留给苹果秋季发布会和 iPhone 15 系列,我不好说,但可以肯定的是,这两天中国消费者的好奇心都给了华为和 Mate 60 Pro。8月29日午间,华为 Mat

    2023年9月1日
  • 洋河打响「第三保位战」

    过去20年,洋河以一匹黑马姿态逆袭到白酒行业第三名,超过了泸州老窖与汾酒。洋河的成功靠的是对“新国酒”的创新以及管理层的强大执行力。如今,当白酒进入到量减价增的存量竞争阶段时,洋河昔日的地推能力似乎失去了作用,公司的品牌短板似乎在被放大。今年前三季度,洋河成了白酒前五中增速最慢的公司,利润规模与排名

    2023年11月27日 创投
  • 青岛:北方第三城

    红瓦绿树,碧海蓝天,这是山东青岛给人留下的*印象。说起来,青岛在山东是个很独特的存在。如果你问青岛人,他的籍贯是哪?他一般会说自己是青岛人,而不说自己是山东人。尤其是很多青岛籍明星自我介绍时,一定会说自己是青岛人,很少说是山东人。客观上说,就是青岛人普遍比其他地方的山东人有股优越感。因为青岛不仅是沿

    2023年10月15日 创投
  • 香港Web3基金来了

    香港Web3基金来了,随着疫情后香港与内陆进一步打通,半个投资圈的人纷纷前往香港出差,这一幕越来越热闹。

    2023年4月14日