BGE(BAAI 通用嵌入)是由北京人工智能研究院开发的模型,代表了一些可用的最强大的开源嵌入模型。它擅长捕获跨多种语言和领域的语义关系。
在 Rankify 中,BGE 集成具有以下特点:
在人岗匹配的相似性计算中,如邬嘉文的 AI 求职助手中,使用了 BGE-M3 模型,通过 Python 代码实现,具体步骤包括读取相关文件、使用模型计算相似性,并将信息汇总保存。代码如下:
import pandas as pd
from FlagEmbedding import BGEM3FlagModel
1. 读取 cv.txt 文件
with open('cv.txt','r',encoding='utf-8')as file:
cv_content=file.read()
2. 读取 JobDetails2.xlsx 文件所有字段
job_details=pd.read_excel('JobDetails2.xlsx')
3. 使用 BGE-M3 模型计算相似性
model=BGEM3FlagModel('BAAI/bge-m3',use_fp16=True)
cv_embedding=model.encode([cv_content],batch_size=1,max_length=8192)['dense_vecs']
计算 cv 与每个 job_description 的相似性
similarities=[]
for job_description in job_details['job_description']:
job_embedding=model.encode([job_description])['dense_vecs']
similarity=cv_embedding@job_embedding.T
similarities.append(similarity.item())
4. 将所有信息汇总保存为 123.xlsx
job_details['similarity']=similarities
job_details.to_excel('123.xlsx',index=False)
由北京人工智能研究院开发的BGE模型,代表了一些可用的最强大的开源嵌入模型。这些模型擅长捕获跨多种语言和领域的语义关系。Rankify的BGE集成特点:•支持多种BGE模型大小•跨语言检索能力•为生产环境优化的推理[heading4]ColBERT(上下文化后期交互)[content]ColBERT引入了一种新颖的"后期交互"范式,保留了查询和文档的细粒度上下文信息。ColBERT不是将文档压缩为单一向量,而是维护令牌级表示并计算细粒度相似度分数。Rankify的ColBERT实现包括:•支持ColBERTv2架构•使用压缩表示进行高效索引•用于令牌级匹配的MaxSim运算符[heading4]Contriever[content]Contriever模型是无需标记数据训练的自监督密集检索器,在监督训练数据有限时特别有价值。这些模型通过精心设计的对比学习目标学习有效表示。Rankify支持:•基础和多语言Contriever变体•与高效索引机制集成•用于领域适应的微调功能预检索文档遵循一致的格式:
1.使用DGE-M3模型,对简历和岗位做相似性匹配。算法推荐的岗位,红字是一些关键匹配点。算法不太推荐的岗位,蓝字是一些关键匹配点。Python代码import pandas as pdfrom FlagEmbedding import BGEM3FlagModel1.读取cv.txt文件with open('cv.txt','r',encoding='utf-8')as file:cv_content=file.read()2.读取JobDetails2.xlsx文件所有字段job_details=pd.read_excel('JobDetails2.xlsx')3.使用BGE-M3模型计算相似性model=BGEM3FlagModel('BAAI/bge-m3',use_fp16=True)cv_embedding=model.encode([cv_content],batch_size=1,max_length=8192)['dense_vecs']计算cv与每个job_description的相似性similarities=[]for job_description in job_details['job_description']:job_embedding=model.encode([job_description])['dense_vecs']similarity=cv_embedding@job_embedding.Tsimilarities.append(similarity.item())4.将所有信息汇总保存为123.xlsxjob_details['similarity']=similaritiesjob_details.to_excel('123.xlsx',index=False)
1.使用DGE-M3模型,对简历和岗位做相似性匹配。算法推荐的岗位,红字是一些关键匹配点。算法不太推荐的岗位,蓝字是一些关键匹配点。Python代码import pandas as pdfrom FlagEmbedding import BGEM3FlagModel1.读取cv.txt文件with open('cv.txt','r',encoding='utf-8')as file:cv_content=file.read()2.读取JobDetails2.xlsx文件所有字段job_details=pd.read_excel('JobDetails2.xlsx')3.使用BGE-M3模型计算相似性model=BGEM3FlagModel('BAAI/bge-m3',use_fp16=True)cv_embedding=model.encode([cv_content],batch_size=1,max_length=8192)['dense_vecs']计算cv与每个job_description的相似性similarities=[]for job_description in job_details['job_description']:job_embedding=model.encode([job_description])['dense_vecs']similarity=cv_embedding@job_embedding.Tsimilarities.append(similarity.item())4.将所有信息汇总保存为123.xlsxjob_details['similarity']=similaritiesjob_details.to_excel('123.xlsx',index=False)