解码 boss 直聘的薪资
最近(2025.06.16)在爬取 boss 直聘信息的时候发现薪资信息是经过编码的、人类不可读的形式。
将 font-family: kanzhun-mix, kanzhun-Regular
取消后薪资显示成方块儿,能够确定其是由特殊的字体进行解码的。
在 Network 中选中 Font 能看到 3 个字体文件。
分别查看 3 个字体文件的内容
1. 第一个字体是 base64 格式,需要特殊处理
import base64
# 原始数据(去掉前缀)
data = ""
# 解码 base64 数据
binary_data = base64.b64decode(data)
# 写入 .woff 文件
with open("1.woff", "wb") as f:
f.write(binary_data)
使用在线字体查看器打开文件1.woff ,比如 FontEditor在线工具。发现字体是 element-icons,可以忽略。
2. 3kovsijnt11693967587313.woff2
字体是 kanzhun Regular
,是我们要找到的目标,并且可以看出只有 0 ~ 9
这 10 个数字被编码了。且 Unicode 的映射关系如下:
mapping = {
0xe031: "0",
0xe032: "1",
0xe033: "2",
0xe034: "3",
0xe035: "4",
0xe036: "5",
0xe037: "6",
0xe038: "7",
0xe039: "8",
0xe03a: "9",
}
3. 16a48d9v961651026858984.ttf
字体是 kanzhun
,并不是我们要找的目标。因为薪、元、时等中文是没有被编码的,如下:
根据映射关系进行解码
from selenium import webdriver
from selenium.webdriver.common.by import By
import time
def crawl_boss():
driver = webdriver.Chrome()
try:
# 打开目标网页
url = "https://www.zhipin.com/web/geek/jobs?query=&city=101010100&position=200101"
driver.get(url)
time.sleep(5) # 等待页面加载
# 获取页面内容
job_list = driver.find_elements(By.CSS_SELECTOR, ".card-area")
for job in job_list:
name = job.find_element(By.CSS_SELECTOR, ".job-name").text
company = job.find_element(By.CSS_SELECTOR, ".boss-name").text
salary = job.find_element(By.CSS_SELECTOR, ".job-salary").text
job_obj = {
"name": name,
"company": company,
"salary": salary,
"decoded_salary": decode_salary(salary),
}
print(job_obj, salary)
except Exception as e:
print(f"爬取失败: {e}")
finally:
# 关闭浏览器
driver.quit()
mapping = {
0xe031: "0",
0xe032: "1",
0xe033: "2",
0xe034: "3",
0xe035: "4",
0xe036: "5",
0xe037: "6",
0xe038: "7",
0xe039: "8",
0xe03a: "9",
}
def decode_salary(encoded_salary):
for key, value in mapping.items():
encoded_salary = encoded_salary.replace(chr(key), value)
return encoded_salary
if __name__ == "__main__":
crawl_boss()
更简单粗暴的映射方式
手动从 html 中复制出编码后的 0 ~ 9 进行映射。
mapping = {
"": "0",
"": "1",
"": "2",
"": "3",
"": "4",
"": "5",
"": "6",
"": "7",
"": "8",
"": "9",
}
def decode_salary(encoded_salary):
for key, value in mapping.items():
encoded_salary = encoded_salary.replace(key, value)
return encoded_salary
关于 Unicode Private Use Areas,PUA
查资料发现编码 0xe031~0xe03a,属于 Unicode Private Use Areas,以下摘自维基百科,里面也提到了字体相关的信息:
在Unicode中,私人使用区(英语:Private Use Areas,PUA)指其解释未在Unicode标准中指定,而是由合作用户之间的私人协议决定其用途的一系列码位。[4] 目前定义了三个私人使用区:一个在基本多语言平面(U+E000-U+F8FF)中,另外两个几乎包含了整个第15和第16平面(分别为U+F0000-U+FFFFD,U+100000-U+10FFFD)。[5]
私人使用区字符的分配,可以不由字面意义上的“私人”决定。一些组织已经发布了一些分配计划。但根据其定义,私人使用区相同的代码点可分配为不同的字符,因此使用某种字体的用户看到其显示为一种形态,但使用其它字体的用户看到的字符可能完全不同。