欢迎访问 n1n 在线文档!平台充值汇率 1:1 即 1 人民币充值到账 1 美元,支持近 600+ 海内外模型,限时特价模型低至 1 折,欢迎上岸!
【 亚洲地区入口及接口地址:llm-api.net 】,【 全球地区入口及接口地址:api.n1n.ai 】
| 算法名称 | 特点 | 应用模型 |
|---|---|---|
| BPE | 字节对编码,平衡词汇表大小 | GPT 系列 |
| WordPiece | 基于似然的子词分割 | BERT |
| SentencePiece | 语言无关的分词 | T5, LLaMA |
| tiktoken | OpenAI优化的BPE实现 | GPT-3.5/4 |
输入: "Hello, world!"
Token: ["Hello", ",", " world", "!"]
Token数量: 4输入: "你好,世界!"
Token: ["你", "好", ",", "世", "界", "!"]
Token数量: 6输入: "OpenAI的GPT-4很强大"
Token: ["Open", "AI", "的", "GPT", "-", "4", "很", "强", "大"]
Token数量: 9输入: "请写一首关于春天的诗" (12 Token)
输出: "春风吹绿江南岸..." (约100 Token)
总计: 112 Token<BOS>:序列开始标记<EOS>:序列结束标记<UNK>:未知Token标记<PAD>:填充Token# tiktoken (OpenAI)
import tiktoken
encoding = tiktoken.get_encoding("cl100k_base")
tokens = encoding.encode("你好世界")
print(f"Token数量: {len(tokens)}")
# transformers (Hugging Face)
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("gpt2")
tokens = tokenizer.encode("Hello world")