Scrapy下导入airflow模块引起的日志故障分析

在Scrapy项目中导入airflow模块后,日志输出出现异常,主要表现为重复记录和不同的日志级别。分析发现,airflow的日志配置与Scrapy的根日志记录器配置冲突,导致日志处理流程受到影响。最终,重复输出的原因是两个项目级别的日志配置混合在一起,影响了日志的处理效率和输出格式。

August 15, 2024 · 8 min · 3774 words · Leo

(译)在Python中如何使用生成器和yield

翻译自RealPython教程。教程中通过回文数字生成展示了如何使用Python生成器和生成器表达式;在PEP-342 yield 升级为表达式后如何使用send、throw、close方法来与生成器交互;以及如何构建生成器管道来高效处理大型数据集。

September 28, 2022 · 17 min · 8207 words · Leo

浅谈Python线程安全

GIL并不能保证线程安全,谈谈Python线程安全带来的问题现象,通过 dis.dis() 模块从字节码执行流程分析其造成原因。

March 10, 2022 · 6 min · 2873 words · Leo

布隆过滤器简述与Python实现

对比常见的简单单机去重方案,体现出Bit-Map用于去重时的优势和劣势以及其应用场景,进而引出空间效率高的概率型数据结构——布隆过滤器。对比布隆过滤器的关键指标对去重精度和内存影响。并借用公式使用Python bitarray实现了一个简易的布隆过滤器。

March 1, 2021 · 6 min · 2883 words · Leo