当前位置：首页 > 技术文章 > 正文内容

Python异步编程:从“入门劝退”到“性能飞跃”的必经之路

zonemu2个月前 (08-28)技术文章22

在技术的世界里，总有一些概念初看之下令人望而却步，Python异步编程就是其中之一。我刚开始接触Python时，对它也是敬而远之，那些神秘的async和await关键字，就像是通往一个未知世界的黑巷子，让人感到困惑和不解。但随着我编写自动化脚本和后端服务的经验日益丰富，我逐渐意识到，异步编程不再是一种可有可无的选择，它更像是构建快速、可扩展应用程序的“秘密武器”。

本文将深入探讨Python异步编程的奥秘，分享我如何从编写“能用就行”的同步代码，转变为构建能够轻松处理数百个任务而毫不费力的“闪电般”异步应用。本文旨在帮助读者理解异步编程的本质，掌握其核心用法，并避开常见的陷阱，最终让你的Python代码性能实现质的飞跃。

一、理解异步编程的本质：为什么它如此重要？

在深入代码之前，我们必须先弄清楚一个根本问题：异步编程为什么会存在？以及我们应该在何时使用它？

同步（Synchronous）Python代码的工作方式非常直观：它会一个接一个地执行任务，并且在每个任务完成之前都会处于“阻塞”状态。这就像你排队办理业务，柜员必须先为你一个人服务完毕，才能开始为下一个人服务。如果你的业务需要等待很长时间（比如填写表格），那么后面的人就只能干等着。

而异步（Asynchronous）编程则提供了一种完全不同的思路。它允许你在等待某些“慢”操作（如I/O操作、API调用或数据库查询）完成时，去执行其他的代码。这就像一个智能的柜员，当你需要填写表格时，他会先让你到一边填写，然后立即开始为队伍里的下一个人服务。当你的表格填写完毕，他再回头来处理你的业务。这样一来，柜员的工作效率大大提高，排队等待的时间也显著缩短。

一个简单的判断标准是：如果你的任务大部分时间都花在“等待”上，而不是在“计算”上，那么异步编程将能显著提升其运行速度。例如，向多个服务器发送HTTP请求、从数据库中批量查询数据、或者从磁盘读取大文件，这些都是典型的“等待”密集型任务。

二、从同步到异步：一个最简单的例子

为了直观地展示同步和异步的区别，让我们从一个最简单的“睡眠”例子开始。

在同步世界里，如果我们有两个任务，每个任务都需要“睡眠”1秒钟，那么总共需要2秒才能完成。因为第二个任务必须等到第一个任务的1秒钟“睡眠”结束后才能开始。

但在异步世界中，情况就完全不同了。我们可以让这两个任务几乎同时开始“睡眠”。下面是一个用asyncio库实现的简单异步“睡眠”示例。

import asyncio
import time

async def say_hello():
    await asyncio.sleep(1) # 异步睡眠1秒
    print("Hello")

async def say_world():
    await asyncio.sleep(1) # 异步睡眠1秒
    print("World")

async def main():
    start = time.time()
    await asyncio.gather(say_hello(), say_world()) # 并发执行两个任务
    print(f"Took {time.time() - start:.2f} seconds")

asyncio.run(main())

这段代码的运行结果会显示总耗时大约为1秒。为什么呢？因为asyncio.gather函数使得say_hello()和say_world()这两个协程几乎同时开始运行。当say_hello()执行到await asyncio.sleep(1)时，它会暂停并让出控制权，让事件循环（event loop）去执行其他任务。此时，say_world()协程也会开始执行，同样在await asyncio.sleep(1)处暂停。事件循环会在这两个协程之间切换，当1秒钟过去后，两个协程的“睡眠”都结束了，并会继续执行print()语句。这样一来，原本需要2秒的任务，在异步编程的加持下，仅用了约1秒钟就完成了。

三、实战网络请求：异步编程的“黄金领地”

等待网络响应是异步编程最典型的应用场景之一。在传统的同步代码中，如果你需要向三个不同的网址发送HTTP请求，你必须等第一个请求返回后才能发送第二个，以此类推。如果每个请求都需要几百毫秒，那么三个请求可能需要一秒甚至更长的时间。

而通过异步编程，我们可以同时发送这三个请求，大大缩短总体的等待时间。以下是使用aiohttp库实现异步HTTP请求的例子。

import asyncio
import aiohttp

async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text()

async def main():
    urls = [
        "https://example.com",
        "https://httpbin.org/get",
        "https://jsonplaceholder.typicode.com/posts"
    ]
    async with aiohttp.ClientSession() as session:
        # 使用asyncio.gather并发执行所有请求
        results = await asyncio.gather(*(fetch(session, url) for url in urls))
        for r in results:
            print(len(r), "characters received")

asyncio.run(main())

在这段代码中，我们创建了一个ClientSession，然后使用asyncio.gather来同时执行对三个不同URL的fetch协程。这意味着这三个网络请求几乎是并行进行的。当所有请求都返回后，await asyncio.gather才会完成，并返回一个包含所有结果的列表。这极大地提高了网络I/O密集型任务的效率。

四、数据库交互：让异步之光照亮数据层

数据库操作同样是异步编程的另一个“金矿”。许多数据库操作，如查询、插入和更新，都需要等待数据库服务器的响应，这同样是典型的I/O等待。像asyncpg这样的库就是为异步数据库操作而生，它允许我们执行非阻塞的数据库查询。

下面是一个使用asyncpg异步查询数据库的例子。

import asyncio
import asyncpg

async def fetch_users():
    # 建立异步连接
    conn = await asyncpg.connect(user='postgres', password='password',
                                 database='testdb', host='127.0.0.1')
    # 执行非阻塞查询
    rows = await conn.fetch("SELECT * FROM users")
    await conn.close()
    return rows

async def main():
    users = await fetch_users()
    for user in users:
        print(user)

asyncio.run(main())

通过这种方式，你的应用程序可以在等待数据库返回查询结果的同时，去处理其他传入的请求。这对于构建高并发、高吞吐量的后端服务至关重要。想象一下，一个Web服务需要同时处理来自多个用户的请求，如果每个请求都必须同步地等待数据库查询，那么服务器的吞吐量将受到严重限制。而通过异步编程，服务器可以同时发起多个数据库查询，并高效地处理其他请求，从而显著提升性能。

五、警惕“陷阱”：阻塞代码对异步的致命打击

异步代码虽然强大，但也并非无懈可击。如果我们在异步代码中不小心混入了阻塞（blocking）调用，那将是灾难性的。这就像是给一辆法拉利跑车的引擎里扔进一块砖头，瞬间就会让它熄火。

一个典型的例子就是使用time.sleep()。time.sleep()是一个同步阻塞函数，它会暂停整个程序的执行，直到指定的秒数过去。

import asyncio
import time

async def bad_sleep():
    time.sleep(3)  # 这是错误的做法：它会阻塞事件循环
    print("Done sleeping")

asyncio.run(bad_sleep())

这段代码虽然看起来在async函数中，但time.sleep(3)会完全阻塞整个事件循环（event loop）3秒钟。在这3秒内，任何其他的异步任务都无法得到执行，这完全违背了异步编程的初衷。

正确的做法是，用await asyncio.sleep(3)来替代time.sleep(3)。asyncio.sleep是一个异步协程，它会暂停当前任务，并让出控制权给事件循环，从而让其他任务能够继续运行。

六、当计算密集型任务遇到异步编程

异步编程并非万能钥匙。它主要解决的是I/O密集型任务的性能问题，对于CPU密集型任务（如复杂的数学计算、图像处理等），异步编程本身并不能带来性能上的提升。因为这些任务需要持续占用CPU，而不是等待外部资源。

然而，我们并非不能将CPU密集型任务与异步编程结合起来。Python提供了concurrent.futures模块，可以让我们将CPU密集型任务 offload 到其他线程或进程中执行，从而避免阻塞主事件循环。

下面是一个将CPU密集型任务与异步编程结合的例子。

import asyncio
from concurrent.futures import ProcessPoolExecutor

def cpu_task(n):
    total = 0
    for i in range(n):
        total += i ** 2
    return total

async def main():
    loop = asyncio.get_running_loop()
    with ProcessPoolExecutor() as pool:
        # 在一个单独的进程中执行cpu_task
        result = await loop.run_in_executor(pool, cpu_task, 10_000_000)
        print("Result:", result)

asyncio.run(main())

在这段代码中，cpu_task是一个典型的CPU密集型函数，它会进行大量的计算。我们通过loop.run_in_executor将其提交到一个进程池中执行。这样，cpu_task在另一个进程中运行时，主事件循环并不会被阻塞，仍然可以继续处理其他异步任务。当cpu_task计算完成后，结果会返回给主事件循环，从而实现异步与CPU密集型任务的和谐共存。

七、构建一个真实的异步数据处理流水线

理论知识固然重要，但将其应用于实际场景才能真正体现其价值。下面我们构建一个简单的ETL（提取、转换、加载）异步数据处理流水线。

这个流水线将从一个远程API提取数据，对数据进行转换，最后再将数据加载到某个地方（这里是打印到控制台）。

import asyncio
import aiohttp

async def extract(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as resp:
            return await resp.json()

async def transform(data):
    return [item['title'].upper() for item in data]

async def load(data):
    for title in data:
        print("Loaded:", title)

async def main():
    data = await extract("https://jsonplaceholder.typicode.com/posts")
    transformed = await transform(data)
    await load(transformed)

asyncio.run(main())

这段代码清晰地展示了异步流水线的工作方式。extract函数负责从网络上异步获取数据。当它完成时，将数据传递给transform函数进行转换。最后，转换后的数据再传递给load函数进行处理。

这种模式对于数据处理密集型的工作流而言，效率极高。例如，如果你需要从多个数据源并行提取数据， then transform the combined data, and finally load it into a data warehouse, 异步流水线可以让你在等待任何一个数据源响应时，去执行其他任务，从而大大缩短整个流程的耗时。

八、专业级的异步代码测试

编写异步代码只是第一步，如何确保其正确性同样至关重要。测试异步代码需要特别的处理。如果你试图用标准的unittest或pytest来直接测试async函数，你可能会遇到“RuntimeError: Event loop is closed”这样的错误。

为了解决这个问题，我们需要借助专门的工具，比如pytest-asyncio。这个库能够让pytest识别并正确地执行异步测试函数。

下面是一个使用pytest-asyncio进行异步测试的简单例子。

import pytest
import asyncio

@pytest.mark.asyncio
async def test_addition():
    await asyncio.sleep(0.1)
    assert 1 + 1 == 2

通过在测试函数上添加@pytest.mark.asyncio装饰器，pytest-asyncio会为这个函数创建一个临时的事件循环，并确保它能够正确地运行。这样，我们就可以像测试普通函数一样，轻松地测试我们的异步代码，确保其逻辑的健壮性。

总结与展望

一旦你真正掌握了异步编程，你就会发现它的应用场景无处不在。无论是爬取数百个网页、处理实时数据流，还是构建响应极快的API，异步编程都能让你的代码性能得到显著提升。

当然，正如那句名言所说：“过早的优化是万恶之源，但有策略的优化是受人尊敬的根源”。异步编程并非适用于所有情况。但如果你的程序瓶颈在于I/O等待，那么异步编程就像是给你的代码注入了一剂强心针，让它从一个缓慢的“文书”变成了一个高效的“多面手”。

希望本文能够为你打开异步编程的大门，让你不再畏惧那些神秘的async和await，而是能够熟练地运用它们，构建出更强大、更高效的Python应用程序。

#Python基础#

空木资源网

Python异步编程:从“入门劝退”到“性能飞跃”的必经之路

一、理解异步编程的本质：为什么它如此重要？

二、从同步到异步：一个最简单的例子

三、实战网络请求：异步编程的“黄金领地”

四、数据库交互：让异步之光照亮数据层

五、警惕“陷阱”：阻塞代码对异步的致命打击

六、当计算密集型任务遇到异步编程

七、构建一个真实的异步数据处理流水线

八、专业级的异步代码测试

总结与展望

相关文章

Gitlab 的使用和代码审查流程介绍

Jenkins 学习笔记（jenkins要学多久）

我的VIM配置（如何配置vim编辑环境）

HTML5与APP的抉择（h5与app的区别）

为了成为Claude Code高手，我雇了个AI当教练

ES6史上最全数JS数组方法合集-02-数组操作

滇ICP备2024046894号-37