Python后端学习系列（7）：日志记录与监控（使用logging、Prometheus等）

最新推荐文章于 2025-06-08 09:57:23 发布

DoYangTan

最新推荐文章于 2025-06-08 09:57:23 发布

阅读量658

点赞数 19

CC 4.0 BY-SA版权

文章标签： python 学习 prometheus

本文链接：https://blog.csdn.net/Azperk/article/details/146398428

Python后端学习系列（7）：日志记录与监控（使用logging、Prometheus等）

前言

在Python后端开发中，随着应用的日益复杂以及运行环境的多变，日志记录与系统监控变得至关重要。它们就像是后端应用的“眼睛”和“体检报告”，能够帮助我们了解应用的运行状态、及时发现问题并进行优化。本期我们将重点探讨如何使用Python的logging模块进行日志记录，以及借助Prometheus实现系统监控，一起来学习吧。

一、日志记录的重要性与基本规范

1. 重要性

问题排查：当应用出现错误或者异常行为时，详细准确的日志可以帮助我们回溯操作流程、查看具体的参数值等，快速定位问题所在，比如是哪个函数引发了数据库连接错误，当时传入的参数是什么情况。
性能分析：通过记录关键操作的耗时等信息，我们可以分析出应用的性能瓶颈点，以便针对性地进行优化，例如了解某个接口响应时间过长的原因。
运行状态跟踪：能实时掌握应用的运行情况，知晓哪些功能被频繁调用、哪些模块运行正常等，方便对整个系统有清晰的把控。

2. 基本规范

日志级别清晰：常见的日志级别有DEBUG（用于调试信息，最详细）、INFO（一般性的信息，表明程序正常运行的关键步骤等）、WARN（警告信息，提示可能存在问题但不影响当前主要功能）、ERROR（出现错误，影响了部分功能）、CRITICAL（严重错误，可能导致系统无法正常运行）。合理设置不同级别日志的输出，避免日志过多或者关键信息遗漏。
内容准确有意义：日志内容应包含足够的关键信息，如时间、模块名称、具体操作内容、相关参数值等，方便后续查看和分析，例如“[2025-03-20 10:00:00][user_service.py] [INFO] User with ID 100 logged in successfully”。
格式统一：保持整个应用日志格式的一致性，便于阅读和使用日志分析工具进行处理。

二、Python中logging模块的使用方法

1. 基本配置

import logging

logging.basicConfig(
    level=logging.INFO,  # 设置日志级别为INFO，即INFO及以上级别日志会被输出
    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',  # 定义日志格式
    handlers=[
        logging.StreamHandler()  # 输出到控制台，也可以配置文件处理器等输出到文件
    ]
)

通过上述代码，我们完成了logging模块的基本配置，确定了日志级别、格式以及输出的位置（这里是控制台）。

2. 记录不同级别日志示例

import logging

logging.debug('This is a debug message')
logging.info('This is an info message')
logging.warning('This is a warning message')
logging.error('This is an error message')
logging.critical('This is a critical message')

运行这段代码，由于我们前面配置的日志级别是INFO，所以只会输出INFO、WARN、ERROR、CRITICAL这几个级别的日志到控制台。

3. 在模块中使用

假设我们有一个user_service.py模块，代码如下：

import logging

logger = logging.getLogger(__name__)  # 获取当前模块对应的logger对象

def register_user(username, password):
    logger.info(f"Attempting to register user: {username}")
    try:
        # 模拟注册用户的操作，这里假设可能出现异常
        if len(password) < 6:
            raise ValueError("Password too short")
        # 实际注册逻辑省略
        logger.info(f"User {username} registered successfully")
    except Exception as e:
        logger.error(f"Error registering user {username}: {str(e)}", exc_info=True)  # 记录详细异常信息

在其他地方调用这个模块的函数时，相应的日志就会按照配置进行输出，方便跟踪user_service模块的运行情况。

三、如何利用Prometheus进行系统监控

1. Prometheus简介

Prometheus是一款开源的系统监控和告警工具套件，它通过定时从应用中拉取指标数据（也支持应用主动推送），然后可以对这些数据进行存储、查询、可视化展示以及基于规则设置告警等操作，能很好地监控Python后端应用以及整个系统的各项关键指标。

2. 安装与配置（以Linux系统为例）

下载安装包：

wget https://github.com/prometheus/prometheus/releases/download/vX.Y.Z/prometheus-X.Y.Z.linux-amd64.tar.gz  # 替换X.Y.Z为实际版本号

解压安装包：

tar xvf prometheus-X.Y.Z.linux-amd64.tar.gz
cd prometheus-X.Y.Z.linux-amd64

配置文件修改：主要编辑prometheus.yml配置文件，指定要监控的目标、抓取数据的时间间隔等，示例配置如下：

global:
  scrape_interval: 15s  # 每15秒抓取一次指标数据

scrape_configs:
  - job_name: 'python_backend'
    static_configs:
      - targets: ['localhost:8000']  # 假设Python后端应用运行在本地8000端口，这里填写对应的IP和端口

启动Prometheus：

./prometheus --config.file=prometheus.yml

3. 在Python应用中暴露指标

可以使用prometheus_client库来在Python应用中定义和暴露指标，示例如下：

from prometheus_client import start_http_server, Counter, Gauge
import time

# 定义一个计数器指标，用于记录请求次数
REQUEST_COUNT = Counter('http_requests_total', 'Total number of HTTP requests')

# 定义一个 gauge 指标，用于记录当前内存使用情况（这里是模拟示例，实际需结合相应库获取真实内存数据）
MEMORY_USAGE = Gauge('memory_usage_bytes', 'Current memory usage in bytes')

def handle_request():
    REQUEST_COUNT.inc()  # 每次请求时计数器加1
    # 模拟获取内存使用情况并更新 gauge 指标值（实际应用中替换为真实获取内存的逻辑）
    MEMORY_USAGE.set(1024 * 1024)  # 假设当前内存使用1MB
    time.sleep(1)

if __name__ == "__main__":
    start_http_server(8001)  # 在8001端口暴露指标，供Prometheus抓取
    while True:
        handle_request()

通过上述代码，Python后端应用就可以将定义好的指标数据暴露出来，供Prometheus定时抓取并进行后续的监控分析了。

四、基于日志和监控数据的问题排查与优化

1. 问题排查

结合日志和监控数据定位问题：当出现性能问题或者功能异常时，首先查看监控数据中各项指标的变化趋势，比如是否某段时间请求量暴增、内存使用率过高，再结合对应时间段的日志信息，查找具体是哪个模块、哪个操作引发的异常，例如从日志中看到某个接口频繁报错，结合监控的请求量可以判断是否是该接口负载过大导致。
深入分析日志详情：对于关键的ERROR、CRITICAL级别日志，仔细查看其中的参数值、异常堆栈信息等，利用日志记录的详细情况还原当时的操作场景，逐步排查问题根源，比如是数据库连接参数配置错误还是业务逻辑处理不当等原因。

2. 优化

性能优化依据：通过监控数据中接口响应时间、资源使用率等指标，确定性能瓶颈所在，比如发现某个数据库查询操作耗时过长，就可以针对性地优化查询语句、添加索引或者考虑缓存策略等优化措施。
功能优化调整：依据日志中记录的用户操作行为、功能使用频率等信息，对应用的功能进行优化，例如发现某个很少使用的功能模块却占用较多资源，可以考虑简化或者移除该模块；或者根据用户频繁访问的功能路径，优化相应的业务逻辑和页面展示等。

学习资源推荐

官方文档：
- Python logging模块官方文档，全面且深入地介绍了logging模块的各种功能、配置方法以及高级用法，是掌握日志记录的权威资料。
- Prometheus官方文档，涵盖了Prometheus从安装、配置到指标定义、查询以及告警等各方面的详细内容，对于深入学习系统监控必不可少。
在线课程：
- 慕课网的Python应用监控与日志管理课程，通过实际案例讲解如何在Python后端应用中做好日志记录和系统监控，以及如何利用它们进行问题排查与优化。
- 网易云课堂上关于Python系统运维与性能优化相关课程，其中有专门章节介绍基于日志和监控数据的应用优化策略与实践操作。