远程大数据工程师 25-40K

架构设计：负责公司 PB 级用
户行为数据（AppList + GPS）仓库的建设。设计基于StarRocks + MinIO 的存算分离架构，在私有化物理机环境下实现低成本存储与秒级多维
查询。
ETL 与 Python 工程化：放弃传统 Java 开发模式，主导使用 PySpark 编写高性能数据清洗脚本。解决海量JSON/GPS 日志处理中的数据倾斜与内存溢出 (OOM) 问题，建立 Python
Native 的数据工程体系。
AI 数据管道建设：负责搭建数据湖 -> 训练集群的高速数据传输通道。解决海量小文件读取瓶颈，优化 I/O 吞吐，确保清洗后的语料能高速流向 GPU 集群，保障AI训练效率。
集群稳定性：负责私有云环境下大数据组件（Spark on K8s/YARN, StarRocks）的部署与监控。配合 AI 团队进行资源隔离（CPU vs GPU），确保数据处理与模型训练互不干扰。
计算机相关专业本科及以上学历，5 年以上大数据架构经验，必须有 PB 级数据处理实战经验。
精通 Python (PySpark)：具备大型 Python 工程开发能力。同时具备阅读 Java/Scala 报堆栈 (Stack Trace) 的能力，能排查 Spark 底层的 JVM 问题。
精通MPP数据库，是 StarRocks、Apache Doris 或 ClickHouse 的重度使用者。
熟悉私有云/IDC 环境下的资源规划，具备在物理机上搭建和维护大规模集群的能力。
简历投递 yang2233567@gmail.com

6 声望

暂无个人描述~

讨论数量: 0

(=￣ω￣=)··· 暂无内容！

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助