简历 栾艳明 Cooper (zh-CN)
联系方式
- 手机: 182 2119 2304
- Email: gc.suprs@gmail.com
- 微信号: gsavlan
- QQ: 492569685
个人信息
- 栾艳明 Cooper / 男 / 1989
- 本科/华南理工大学 2012 毕业
- 工作年限: 3年
- 技术博客: CooperBlog
- Github: http://github.com/CooperLuan
- 微博: @小栾Cooper
- 期望职位: Python工程师/数据分析工程师
- 期望薪资: 税前月薪 17k~25k
- 期望城市: 上海
工作经历
大岂网络 (2015.3 ~ 今) Python 工程师
- 职责 从 0 开始负责公司的数据统计、分析、挖掘的实现
- 挑战 日益增长的日志的存储、数据清洗、统计优化、运营活动效果重现/跟踪、数据分析挖掘、繁杂的数据需求
- 解决方法
- 用 MongoDB 存储
- 用 pandas 从 Mongo 加载数据 分析用户行为
- 用 Mongo 的 aggregate 做中小量数据的聚合
- 提供大量的统计数据类 API 供 Web/其他系统/其他 使用
菜根科技 (2014.4 ~ 2015.3) Python 工程师
电商数据 ETL/归一化 项目
- 职责
- 在已有构架基础上横向扩展和微优化
- 在 ETL 的基础上做
商品归一化
- 维护运行在
aws
上的 ETL/归一化 数据 - 为分析系统提供有效的归一化数据
- 为垂直市场报告提供统计数据支持
- 挑战
- 怎样高效水平扩展并保证正确率
- 怎样保证归一化的准确率/减少维护成本
- 面对不同的行业/数据来源/大量运行日志 怎样快速定位 ETL/归一化 效果/问题
- 怎样处理杂乱无章的数据/同时尽可能保证数据完整
- 快速/易维护/代码干净的最佳实践在哪里
- 解决方法
- 大量通用代码/模块/高覆盖率的 unittest
- 分别尝试了机器学习自动分类/自动识别分类标志/手动建分类库的方法
- 将 ETL/归一化 数据抽象为
DataModel
- 用 DataModel 配合 Pandas 输出系统运行状况统计表
- 利用用 MongoDB + Pandas 的高级特性
- 收获
- 能够比较好的利用
MongoDB
/Pandas
的高级特性 - 对 Python 科学计算中的各环节有所了解/实践
- 学习方法改进
- 同事评价工作效率高/伪全栈
- 能够比较好的利用
广州迪奥信息科技 (2012.4 ~ 2014.4)
毕业前为初创公司从 0 开始开发了两个产品, 涉及爬虫/Web 后端/初期前端/运维/分布数据处理
- 职责
- 为公司的产品/想做的事情 做技术构架/技术成本评估/demo/产品开发
- 挑战
- 在初级 python 水平的情况下所有的工作从 0 做起
- 解决方法 & 构架
- 爬虫 & 解析: python + lxml + re
- Web 后端(前后端分离): tornado
- Web 前端: tornado template 后转为 php/Bootstrap 体系
- 数据: MySQL 分表,分库/Redis
- 数据处理: MySQL/Python/SP 可在 3 台机器分布处理
- 运维: Ubuntu/MySQL 主从
- 任务队列: 分别自己实现/rq 可用 30 个节点 + 少量 redis 内存占用完成抓取
- 收获
- 有机会接触并用到了几个技术领域的解决方案
- 锻炼成了伪全栈
- 意识到自己在技术/沟通交流上的问题/瓶颈
开源项目和作品
开源项目
- 学习笔记: 用 markdown/ipython notebook 纪录了一些技术类的学习笔记 非成文传播笔记
- instream: 对收集到的信息流(微博等)数据打标签, 并以类似
inbox
的方式展现信息流
技术文章
- 译 all-this
- 译 parsing raw data
- 更多文章见 Blog
技能清单
以下均为我熟练使用的技能
- Web开发: Python
- 数据处理/科学计算: Pandas/NumPy/MongoDB
- Web框架: flask/tornado
- 前端框架: Bootstrap 体系/jQuery
- 数据库相关: MongoDB/MySQL
- 版本管理、文档: Git/Github
- 云和开放平台: 微博开放平台/微信应用开发
以下为我认为可以快速学习并投入开发的
- Django
- scikit-learn
- Spark/Hadoop
- Python 运维工具
- Web 前端
- JAVA
- AWS
致谢
感谢您花时间阅读我的简历,期待能有机会和您共事