写点什么

AWS Lambda Python 链路可观测最佳实践

作者:观测云
  • 2025-12-12
    上海
  • 本文字数:3689 字

    阅读完需:约 12 分钟

AWS Lambda Python 链路可观测最佳实践

背景

随着企业核心业务全面向云原生和无服务器架构迁移,AWS Lambda 因其免运维、自动扩缩容和按调用计费的优势,已成为支撑高并发、事件驱动型业务的首选计算平台。然而,Serverless 的“黑盒化”特征也带来了新的可观测性挑战:


  • 分布式链路断裂:Lambda 函数往往作为事件触发链中的关键一环,与 API Gateway、S3、SQS、DynamoDB 等服务交叉调用,传统 APM 难以串联完整调用链。

  • 冷启动与性能瓶颈难定位:函数初始化耗时、依赖库加载、网络延迟等性能指标缺乏细粒度追踪,影响用户体验与成本控制。

  • 多环境、多账号下的观测一致性缺失:Dev、QA、Prod 环境函数数量众多,若没有统一的链路标准和标签规范,问题定位效率低,跨团队协作成本高。


为保障线上稳定性、优化函数性能、实现 Serverless 场景下的可观测闭环,亟需基于 Python 运行时构建一套标准化方案,提供从原理、代码示例到生产级部署的完整落地方案,助力企业在 Serverless 架构下实现“问题可追踪、性能可量化、成本可优化”的目标。


AWS 提供了两种链路协议支持用于 Lambda 函数的链路追踪:OpenTelemetry、X-Ray。当前最佳实践主要是采用 OpenTelemetry 协议来实现链路可观测。

观测云

观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。支持通过一键集成 OpenTelemetry 标准 SDK/Collector,把分布式链路、指标、日志三信号统一采集并云端托管,在 OTel 的厂商中立格式之上提供即开即用的仪表、告警与 AI 异常检测,让用户免运维后端即可把云原生应用的可观测数据“拿来即用”,实现从链路到业务场景的端到端可视化。

实践

AWS Lambda 使用 Python 语言编写函数,并调用应用服务,应用服务为 java 语言。同时需要将可观测数据上报至观测云。

准备 Lambda Layer

需要新增以下两个 Layer


  • Opentelemetry Layer:用于链路插桩

  • DataKit Layer: 用于接收 Opentelemetry 的可观测数据

Opentelemetry Layer

使用 OpenTelemetry 自动插桩方式可以零侵入 Python 代码实现链路追踪,这里 OpenTelemetry 可以作为 layer 附着到 Lambda 函数内部。


AWS 宁夏节点需要手动构建 OpenTelemetry layer,其他节点可直接使用对应的 ARN,这里主要介绍手动构建方式:


1、下载源码


git clone https://github.com/open-telemetry/opentelemetry-lambda.git
复制代码


2、构建


构建前,主要安装相关 AWS 工具,可以参考仓库 README 文件,假设以及装好了相关工具,执行下面操作进行构建:


liurui@liurui:~/code/opentelemetry-lambda$ cd python/srcliurui@liurui:~/code/opentelemetry-lambda/python/src$ ./run.sh -r cn-northwest-1
复制代码


构建部分日志如下:


running...Invoked with: -r cn-northwest-1sam building...run.sh: Starting sam build.Starting Build inside a container                                                                                                                               Building layer 'OTelLayer'                                                                                                                                      For container layer build, first compatible runtime is chosen as build target for container.                                                                    
Fetching public.ecr.aws/sam/build-python3.9:latest-x86_64 Docker container image......Mounting /home/liurui/code/opentelemetry-lambda/python/src/otel as /tmp/samcli/source:ro,delegated, inside runtime container

Successfully created/updated stack - otel-stack in cn-northwest-1

OTel Lambda layer ARN:arn:aws-cn:lambda:cn-northwest-1:888888888:layer:otel-layer:2
复制代码


构建成功后,自动上传在 AWS Layer 上 otel-layer,复制当前 ARN,后续操作会用到。

DataKit Layer

DataKit Layer 是观测云研发的 AWS Lambda Layer,用于采集、上报链路、指标、日志等数据。可以接收 OpenTelemetry 链路信息 。


登录 AWS Lambda 控制台,创建名为 datakit-x86_64 layer,可自行调整,选择于 Python 应用相符的架构,当前主要是 AMD 架构,根据架构,选择下面的压缩包进行上传,保存即可:


  • AMD 架构:https://static.guance.com/datakit/datakit_aws_extension-linux-amd64.zip

  • ARM 架构:https://static.guance.com/datakit/datakit_aws_extension-linux-arm64.zip

Lambda 函数

创建 Lambda 函数

创建 Lambda 函数,运行时选择 Python,架构选择 x86_64。


新增示例代码

lambda_function.py 新增以下内容:


import jsonimport urllib.requestimport urllib.errorimport time
# 上游接口UPSTREAM_URL = "http://java服务接口:8090/user"
def lambda_handler(event, context): """ 带日志的接口转发示例 """ # 1. 取 Lambda RequestId,方便全链路追踪 request_id = context.aws_request_id print(json.dumps({ "level": "INFO", "requestId": request_id, "message": "Lambda invoke start", "event": event }))
try: # 2. 解析入参 params = event.get("queryStringParameters") or {} todo_id = params.get("id", "1") print(json.dumps({ "level": "INFO", "requestId": request_id, "message": "Parsed todo_id", "todo_id": todo_id }))
# 3. 调用上游 upstream = UPSTREAM_URL print(json.dumps({ "level": "INFO", "requestId": request_id, "message": "Upstream request start", "url": upstream })) start = time.time()
req = urllib.request.Request(upstream, method="GET") with urllib.request.urlopen(req, timeout=5) as resp: upstream_body = resp.read().decode("utf-8") upstream_json = json.loads(upstream_body)
latency = round((time.time() - start) * 1000, 2) print(json.dumps({ "level": "INFO", "requestId": request_id, "message": "Upstream request finish", "statusCode": resp.status, "latency_ms": latency }))
# 4. 返回 response_body = { "message": "Hello from Lambda!", "upstream": upstream_json } print(json.dumps({ "level": "INFO", "requestId": request_id, "message": "Lambda invoke success", "response": response_body })) return { "statusCode": 200, "headers": {"Content-Type": "application/json"}, "body": json.dumps(response_body) }
# 5. 异常分支日志 except urllib.error.HTTPError as e: print(json.dumps({ "level": "ERROR", "requestId": request_id, "message": "Upstream HTTPError", "statusCode": e.code, "reason": e.reason })) return { "statusCode": e.code, "body": json.dumps({"error": f"Upstream HTTPError: {e.reason}"}) }
except urllib.error.URLError as e: print(json.dumps({ "level": "ERROR", "requestId": request_id, "message": "Upstream URLError", "reason": str(e.reason) })) return { "statusCode": 502, "body": json.dumps({"error": f"Upstream URLError: {e.reason}"}) }
except Exception as e: print(json.dumps({ "level": "ERROR", "requestId": request_id, "message": "Unknown exception", "error": str(e) })) return { "statusCode": 500, "body": json.dumps({"error": str(e)}) }
复制代码



添加完成后,点击 Deploy 进行部署。

添加 Layer

点击 Layger 进行添加,选择 指定一个 ARN 进行添加,ARN 为上面准备工作产生的 Layer ARN 地址。



确保已经添加了以下两个 Layer。


添加环境变量

在对应的函数配置里面进行添加。


# otel lambda handlerAWS_LAMBDA_EXEC_WRAPPER = /opt/python/otel-handler# 观测云网关地址ENV_DATAWAY = http://open****?token=xxxxxxx# otel 上报地址,无需调整OTEL_EXPORTER_OTLP_ENDPOINT = http://localhost:9529/otel
复制代码


测试

点击测试按钮进行测试。


观测云链路效果


用户头像

观测云

关注

还未添加个人签名 2021-02-08 加入

云时代的系统可观测平台

评论

发布
暂无评论
AWS Lambda Python 链路可观测最佳实践_aws lambda_观测云_InfoQ写作社区