photo

叶思

教育

The University of Edinburgh (爱丁堡大学)

2016年9月 - 2018年1月

计算机科学硕士 (人工智能方向)

南开大学

2012年8月 - 2016年6月

软件工程学士 (金融工程学士双学位)

技能

技术栈和编程语言

HiveSpark机器学习图计算编程语言: Python SQL Scala Shell

个人技能总结

1. 在腾讯和百度主导过多个项目,有Own/Lead项目经验
    2. 有稽核风控的策略经验,有独立分析和解决安全问题的能力,能针对作弊场景进行有效数据挖掘并形成安全策略
    3. 掌握多种人工智能和机器学习算法,并能有效应用于安全风控中。如孤立森林等判异算法、聚类算法、XGBoost、
GCN/GraphSage(熟悉)等
    4. 具备数据分析、大数据开发、图计算等大数据分析处理能力。 包含hive、spark、graphx、python等
    5. 工作认真负责、勇于担当、沟通和团队协作能力强;能力综合,有独立管理和运营项目的经验

工作经历

腾讯 - 数据科学

T7-T9

稽核风控设备指纹数据分析异常检测
2019年6月 - 2022年10月
QIMEI稽核风控-数据和策略算法负责人;QIMEI身份服务-数据分析师;大同DataBand-异常检测和规则学习负责人

百度 - 广告方向测试开发工程师

T3-T4

词典大数据处理广告badcase挖掘推荐效果监控
2018年2月 - 2019年4月
百度国际化Simeji输入法 - 广告方向质量保障负责人

项目经验

QIMEI稽核风控

数据策略&算法开发&运营负责人

HiveSpark机器学习图计算&图学习
15个月
1. 主导建设了包含离线稽核策略和训练,在线黑库服务,打击质量评估的完整通用稽核风控服务体系。覆盖MAU达6亿,线上使用业务>10个
    2. 开发了基于QIMEI安全上报的离线稽核策略能力。包含模拟器识别、身份和设备篡改挖掘、设备劫持识别、虚假激活识别、虚假刷量挖掘、群控识别、协议挂识别等约30类作弊设备
    3. 实时预测:开发训练了XGBoost分类模型,且用以补充实时预测能力。和QIMEI黑库能力共同应用于在线打击能力中
    4. 设备图谱黑产扩散:在画像UID图谱的基础上,添加多类设备信息关系边以构建设备安全Graph,用图计算寻找相关关系强的节点,扩散黑产和挖掘团伙10%。共建应用GraphSage图神经网络能力的黑产扩散算法策略
    5. 行为序列异常挖掘:针对脚本、批量化、自动化的恶意刷量场景,提取了行为间隔时序数据作为原始行特征,并加入人工分析特征来共同表征行为模式。 通过对不同行为模式在行为时序上的分析,挖掘定位多类异常行为模式,并使用KMEANS++进行多层聚类,挖掘了刷量团伙
    6. 整体负责QIMEI稽核的运营和数据分析工作,包含业务接入推广、用户反馈处理、黑产case分析等数据分析

QIMEI36设备ID

开发者&数据分析

hivespark设备图谱数据分析
15个月
1. 指标系统:共建QIMEI36唯一设备ID的关键运营指标体系和监控体系
    2. 数据分析:负责QIMEI36稳定性的数据分析保障,业务新增Gap漏斗分析,设备指纹不稳定(一对多)问题分析等
    3. 基于QIMEI36扩散机制的设备图谱构建,兜底设备ID找回能力

DataBand对大同标准化上报数据的异常检测和规则学习

开发者&能力建设负责人

异常检测聚类遗传算法Spark
1年
1. 独立探索设计并开发了基于Isolation Tree、Gap Statistic和KMeans的数值类上报字段的异常判断和规则学习算法和工程落地
    2. 调研并构建了基于regex golf和遗传算法的字符串正则表达式规则学习
    3. 构建基于分布统计的ENUM类上报字段的异常判断和规则学习
    4. 整体训练规则量达到18w,覆盖4000+参数和600+点位的学习,抽样评估生成规则和判异准确率超95%

基于图计算的数仓血缘关系治理

独立开发

SparkGraphx图计算
3个月
1. 从0到1,独立探索和开发了图计算引擎在元数据血缘图上的应用。解决了元数仓治理中,sql难以覆盖的重要计算和数据挖掘问题
    2. 完成了表循环热度递归计算,表重要度pagerank计算,表循环不规范调用挖掘等图计算任务
    3. 该套系统目前已在司内平台达到了可用状态,可承接基于血缘或其它拓扑结构的算法和图计算目标

其他