架构师_程序员_码农网

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

搜索
查看: 519|回复: 3

【AI】(十一)嵌入模型 Embedding Model 的选择

[复制链接]
发表于 2025-3-14 23:01:35 | 显示全部楼层 |阅读模式
需求:企业在搭建 RAG 知识库的时候,选择合适的 Embedding 嵌入模型很重要,Embedding 的性能决定了检索的准确性,也间接决定了大模型输出的可信度。常用模型:bge、m3e、nomic-embed-text、BCEmbedding(网易有道)。

为什么需要嵌入模型

计算机本质上只能处理数字运算,无法直接理解自然语言、文字、图片、音频等非数值形式的数据。因此,我们需要通过“向量化”操作,将这些数据转化为计算机可以理解和处理的数值形式,即映射为数学上的向量表示。这一过程通常借助嵌入模型(Embedding Model)来实现,它可以有效地捕捉数据中的语义信息和内在结构。

嵌入模型的作用在于,它不仅能够将离散的数据(如单词、图像片段或音频片段)转换为连续的低维向量,还能在向量空间中保留数据之间的语义关系。例如,在自然语言处理中,嵌入模型可以生成词向量,使得语义相似的单词在向量空间中距离更近。这种高效的表示方式使计算机能够基于这些向量进行复杂的计算与分析,从而更好地理解与处理文本、图像或声音等复杂数据。

通过嵌入模型的向量化操作,计算机不仅可以高效地处理大规模数据,还能在各种任务中(如分类、检索、生成等)展现出更强的性能和泛化能力。

嵌入模型评测

要判断一个嵌入模型的好坏,必须有一套明确的标准。通常使用 MTEB 和 C-MTEB 进行基准测试。

MTEB

Huggingface有一个MTEB(Massive Multilingual Text Embedding Benchmark)评测标准是一个业界比较公认的标准,可以作为参考。涵盖了8个嵌入任务,共58个数据集和112种语言,是目前迄今为止最全面的文本嵌入基准。

QQ截图20250314225803.jpg

排行榜:超链接登录可见。
GitHub 地址:超链接登录可见。

QQ截图20250314225827.jpg QQ截图20250314225835.jpg

C-MTEB

C-MTEB是当前最全面的中文语义向量评测基准,涵盖6大类评测任务(检索、排序、句子相似度、推理、分类、聚类)和 35 个数据集。

C-MTEB论文:超链接登录可见。
代码和排行榜:超链接登录可见。,(网上很多地址是旧的)

QQ截图20250314225844.jpg




上一篇:Linux 命令 sudo 和 apt 英文单词缩写
下一篇:.NET/C# 使用 SM3 算法生成签名
码农网,只发表在实践过程中,遇到的技术难题,不误导他人。
 楼主| 发表于 2025-3-17 08:55:55 | 显示全部楼层
Arctic Embed 2.0

Snowflake 很高兴地宣布发布Arctic Embed L 2.0和Arctic Embed M 2.0,这是我们前沿嵌入模型的下一个迭代,现在支持多语言搜索。超链接登录可见。

模型下载

Arctic Embed L 2.0:超链接登录可见。
Arctic Embed M 2.0:超链接登录可见。

码农网,只发表在实践过程中,遇到的技术难题,不误导他人。
 楼主| 发表于 2025-3-17 16:30:21 | 显示全部楼层
BCEmbedding 是由网易有道开发的中英双语和跨语种语义表征算法模型库,其中包含 EmbeddingModel和 RerankerModel两类基础模型。EmbeddingModel专门用于生成语义向量,在语义搜索和问答中起着关键作用,而 RerankerModel擅长优化语义搜索结果和语义相关顺序精排。

GitHub:超链接登录可见。

EmbeddingModel:超链接登录可见。
RerankerModel:超链接登录可见。

码农网,只发表在实践过程中,遇到的技术难题,不误导他人。
 楼主| 发表于 2025-3-18 10:07:55 | 显示全部楼层
模型名称版本组织/个人地址嵌入长度最大输入长度
gtegte-large-zh阿里巴巴达摩院超链接登录可见。1024512
bgebge-large-zh-v1.5北京智源人工智能研究院超链接登录可见。1024512
m3em3e-basemoka超链接登录可见。768512
tao8ktao8kHuggingface开发者amu研发并开源超链接登录可见。1024512

码农网,只发表在实践过程中,遇到的技术难题,不误导他人。
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

免责声明:
码农网所发布的一切软件、编程资料或者文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。

Mail To:help@itsvse.com

QQ|手机版|小黑屋|架构师 ( 鲁ICP备14021824号-2 )|网站地图

GMT+8, 2025-6-15 22:14

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表