嵌入式模型mxbai-embed-large介绍及使用

mxbai-embed-large 是由 Mixedbread.ai 团队开发的大规模文本嵌入模型，专注于高效生成高质量的文本向量表示。该模型适用于语义搜索、信息检索、聚类等任务，支持多语言，并在多项基准测试中表现优异。

慎思笃行丨

1281人浏览 · 2025-05-29 10:22:49

慎思笃行丨 · 2025-05-29 10:22:49 发布

mxbai-embed-large 模型概述

模型特点

多语言支持：覆盖英语、中文、德语等多种语言。
高性能：在 MTEB（Massive Text Embedding Benchmark）等评测中排名靠前。
长文本优化：可处理长达 512 token 的输入文本。
开源可用：通过 Hugging Face 等平台公开发布。

安装依赖

使用前需安装 sentence-transformers 或 transformers 库：

pip install sentence-transformers
# 或
pip install transformers

使用方法

方法一：通过 `sentence-transformers` 调用

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("mixedbread-ai/mxbai-embed-large")
texts = ["示例文本1", "示例文本2"]
embeddings = model.encode(texts)
print(embeddings.shape)  # 输出向量维度，例如 (2, 1024)

方法二：通过 `transformers` 调用

from transformers import AutoTokenizer, AutoModel
import torch

tokenizer = AutoTokenizer.from_pretrained("mixedbread-ai/mxbai-embed-large")
model = AutoModel.from_pretrained("mixedbread-ai/mxbai-embed-large")

texts = ["示例文本1", "示例文本2"]
inputs = tokenizer(texts, padding=True, truncation=True, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)
embeddings = outputs.last_hidden_state.mean(dim=1)  # 池化操作