Chat with Wiki - BAAI/bge呢

Answer

BGE（BAAI 通用嵌入）是由北京人工智能研究院开发的模型，代表了一些可用的最强大的开源嵌入模型。它擅长捕获跨多种语言和领域的语义关系。

在 Rankify 中，BGE 集成具有以下特点：

支持多种 BGE 模型大小。
具备跨语言检索能力。
为生产环境优化了推理。

在人岗匹配的相似性计算中，如邬嘉文的 AI 求职助手中，使用了 BGE-M3 模型，通过 Python 代码实现，具体步骤包括读取相关文件、使用模型计算相似性，并将信息汇总保存。代码如下：

import pandas as pd
from FlagEmbedding import BGEM3FlagModel

1. 读取 cv.txt 文件
with open('cv.txt','r',encoding='utf-8')as file:
    cv_content=file.read()

2. 读取 JobDetails2.xlsx 文件所有字段
job_details=pd.read_excel('JobDetails2.xlsx')

3. 使用 BGE-M3 模型计算相似性
model=BGEM3FlagModel('BAAI/bge-m3',use_fp16=True)
cv_embedding=model.encode([cv_content],batch_size=1,max_length=8192)['dense_vecs']
计算 cv 与每个 job_description 的相似性
similarities=[]
for job_description in job_details['job_description']:
    job_embedding=model.encode([job_description])['dense_vecs']
    similarity=cv_embedding@job_embedding.T
    similarities.append(similarity.item())

4. 将所有信息汇总保存为 123.xlsx
job_details['similarity']=similarities
job_details.to_excel('123.xlsx',index=False)

Content generated by AI large model, please carefully verify (powered by aily)

References

1.6万字Rankify完全指南：三行代码搞定RAG，24种重排序方法任你选 | 全网最详细。

由北京人工智能研究院开发的BGE模型，代表了一些可用的最强大的开源嵌入模型。这些模型擅长捕获跨多种语言和领域的语义关系。Rankify的BGE集成特点：•支持多种BGE模型大小•跨语言检索能力•为生产环境优化的推理[heading4]ColBERT（上下文化后期交互）[content]ColBERT引入了一种新颖的"后期交互"范式，保留了查询和文档的细粒度上下文信息。ColBERT不是将文档压缩为单一向量，而是维护令牌级表示并计算细粒度相似度分数。Rankify的ColBERT实现包括：•支持ColBERTv2架构•使用压缩表示进行高效索引•用于令牌级匹配的MaxSim运算符[heading4]Contriever[content]Contriever模型是无需标记数据训练的自监督密集检索器，在监督训练数据有限时特别有价值。这些模型通过精心设计的对比学习目标学习有效表示。Rankify支持：•基础和多语言Contriever变体•与高效索引机制集成•用于领域适应的微调功能预检索文档遵循一致的格式：

邬嘉文：AI求职助手

1.使用DGE-M3模型，对简历和岗位做相似性匹配。算法推荐的岗位，红字是一些关键匹配点。算法不太推荐的岗位，蓝字是一些关键匹配点。Python代码import pandas as pdfrom FlagEmbedding import BGEM3FlagModel1.读取cv.txt文件with open('cv.txt','r',encoding='utf-8')as file:cv_content=file.read()2.读取JobDetails2.xlsx文件所有字段job_details=pd.read_excel('JobDetails2.xlsx')3.使用BGE-M3模型计算相似性model=BGEM3FlagModel('BAAI/bge-m3',use_fp16=True)cv_embedding=model.encode([cv_content],batch_size=1,max_length=8192)['dense_vecs']计算cv与每个job_description的相似性similarities=[]for job_description in job_details['job_description']:job_embedding=model.encode([job_description])['dense_vecs']similarity=cv_embedding@job_embedding.Tsimilarities.append(similarity.item())4.将所有信息汇总保存为123.xlsxjob_details['similarity']=similaritiesjob_details.to_excel('123.xlsx',index=False)

邬嘉文：AI求职助手