返回首页  设为首页  加入收藏  今天是:
网站首页人工智能商业智能智能家居智能手表智能手机智能通信智能电视智能汽车智能机器人
相关文章
 万字详解:知乎用户画像与实…
 豪江智能创业板IPO首发过会!…
 遇见摩根遇见最优质的全屋智…
 尚品宅配与立林科技达成战略…
 加盟骗局到底有哪些?优家宝…
 襄阳珩盛智能家居全屋定制中…
 2022 年全球智能手表行业市场…
 涉黄暴被约谈:作为一只手表…
 万宝龙峰会3智能手表正式上市…
 魅族智能手表标配eSIM独立通…
 华为第二代智能手表亮相:运…
 有意思没毛病的威兰达 哪款性…
 当贝D3X 投影仪家用高清1080…
 OPPO电视K9 75英寸 京东小家…
 起售不足1098万 买哪款性价比…
 海尔(Haier)洗衣机全自动洗…
 BOE(京东方)亮相数字中国 …
 持续申报中!“2022中国智能…
 持续打造智能制造样板!中铁…
 瞄准智能制造业升级新方向 平…
 行业唯一!在汉央企中冶南方…
 小米电视 Redmi MAX 86英寸超…
 小米电视能玩游戏吗?智能电…
 小米智能插座开关的使用技巧…
 AI云端应用行业概念股票有哪…
 科研领域和工业领域都在进行…
 探讨AI与内容行业的融合创新…
 科技重新定义教育论答AI学习…
 AI重新定义未来建筑 旷视科技…
 奥运名词解释:奥运营销嬛传…
 营销策论:植入式广告营销名…
 云米科技升级1=N44一站式全屋…
 体验“智慧”新一代华为全屋…
 智能网联汽车信息安全开发解…
 白云区多措并举保障安全生产…
 陕西别墅小区保安哪家靠谱(我…
 厦门保障首个解封小区食品药…
 阎良区大型活动临时保安怎么…
 雁塔小区保安外包哪家放心(我…
 16款你应知道的智能手表:13…
 又卖香水又卖智能手表 LV开始…
 英国仅1%的成人拥有:智能手…
 智能手表还有哪些坑?犀牛角…
 天猫精灵发布“女子力”公益…
 海南免税版iPhone 13开售比国…
 500左右的智能手机有哪些? …
 回购价上调100元!比亚迪回购…
 400元手机带来的六大影响莲蓬…
 这届年轻人愿意花100元戒手机…
 光纤收发器常见故障有哪些呢…
专题栏目
湖南视觉网络"模板城"--汇集CMS、EShop、BBS、BLOG等系统模板
您现在的位置: 智能制造网 >> 商业智能 >> 正文
高级搜索
万字详解:知乎用户画像与实时数仓的架构与实践透明的虫翼uber中文官网
作者:佚名 文章来源:本站原创 点击数: 更新时间:2022/7/24 21:43:07 | 【字体:

  域和用户范畴的结构完成了及时数据领,开辟和维护东西扶植了相关的,方面无根本设备处理了先前在此,务东西无业,高的问题开辟成本。

  东西能力的扶植进一步加强新的,东西、用户阐发东西通过扶植用户理解,对营业阐发的成本降低产心理解及,务效率提拔业,营业价值快速发觉。

  tl 处置逻辑代码需要编写冗长的 e,更流程很长小的操作变,0 分钟)的上线操作需要全流程(至多 3;

  必然的及时阐发能力支撑使用层扶植和,流程的功能模块接入利用同时也作为营业某一个,本身使用层扶植为外部营业和,共担方针与营业,务赋能为业。

  让策略通过退,oris 目标监控当前 D,避免提交 SQL在高负载环境下。趋谷避峰,最大操纵完成资本。这种方案后续通过,时跑高全体集群的问题必然程度的避免了瞬。

  上线后在系统,过程中在开辟,相关数据开辟完,非常若有,非常报警就发生了,工发觉的成本大幅节流了人,复时间早由于修,发启动前在后续开,经修复就已,过程中的返工成本极大程度降低开辟。

  oad 导入都是有机能瓶颈的‍因为每个 Broker L,+ 亿行数据将 900,oker Load 的导入使命拆分为 1000+ 个 Br,总量都足够小确保每个导入。

  荐算法中2)在推,天级别更新特征的算法结果好良多很是及时的特征保举算法结果要比,钟内算法遭到特征变动若何包管 10 分?

  营场景热点运,级别快速筛选出大量人群期望用户画像办事能在秒,送等运营场景用户后续的推,处理若何?

  bitmap 功能在扶植中当前 Doris 的读取 。到 bitmap营业代码无法读取,ng 方式读取到转换为文本的 bitmap只能先通过 bitmap_to_stri,传输量加大了,圈选机能降低了。 bitmap 后后续能够间接读取,接获取 bitmap营业逻辑中会替代为直,削减数据传输量会极大程度的,能够针对性缓存同时营业逻辑。

  浏览 6 条内容1)保举页首屏,即感知到最新的用户行为若何在第二刷的时候就立?

  过程通用导出存储,码开辟反复代, 天的时间开辟写入和营业接口每次都需要 0.5 - 1。

  务模子层的开辟支撑使用层和业,用的东西供给通,务模子层的扶植成本面向降低使用层和业,设的工程效能提拔全体建,和数据质量精确包管营业不变。

  开辟时间降低至 0上线 天的工程能力。中有一个可查询的 SQL只需要在 Doris ,付给营业相关数据、排行榜的需求颠末简单设置装备摆设即可完成必然时间交。

  的数据赋能团队本文就知乎平台,个标的目的的方针基于以上三,个问题就这四,术实践经验和心得体味来一一引见这方面的技:

   load 的时候数据依赖丢失在从离线数仓进行 broker,评估受影响的范畴上游数据错误无法;

  群进行参数变动Doris 集,、时间和频次等进行优化调整批量写入的数据量。

  无米之炊”“巧妇难为,没有后面的一切没无数据也就,根本至关主要数据采集作为。据导入体例 对于数据入仓很是便当Doris 数据仓库自带的多种数,程中也碰到了一些问题可是在我们的利用过。如比:

  条理团队人员梯队搭建并完美了多。同标的目的的同窗按照针对不,OKR 方针赐与分歧的 ,次标的目的隔离做到跨层,标的目的分歧同条理,方针分歧同模块。用户画像办事扶植而勤奋配合为全体及时数据与。

   年 8 月在 2021,立数据赋能团队知乎平台团队成。需求无衔接方的现象针对汗青及时数据,足多样的人群定向的现状已有用户画像系统无法满,群阐发的营业诉求及营业方进一步人,Doris作为及时数据仓库手艺选型提出根本设备层选用Apache ,数据安排、及时数据质量核心等系统营业东西层扶植及时数据集成、及时,用和用户画像使用的方案使用层扶植及时数据应。处理了营业痛点该方案针对性地,营业诉求满足了。

  人群扩散能力缺乏定制的。行扩散有复杂且多样的需求多营业场景对已有人群进。

  了 Runtime Filter 的过滤Doris 集群在 0.14 版本中插手,y 被过滤的环境有较着提拔针对 Join 大量 ke;的几个营业安排机能该变动针对我们当前,显提拔有明。提拔至 10s 摆布时间从 40+s 。

  题的数据架构处理当前问,架构和 Kappa 架构一般有 Lambda 。营业特点针对当前,题需要大数据量回溯等特征计较复杂、偶发的非常问。用的是 Lambda 架构当前及时数据的数据架构采。承载分钟级的批处来由 Doris ,级别简单逻辑的流处置Flink 来承载秒。如下具体:

   资本无限Doris,某些整点整分钟的但良多使命都是,使命形成集群解体一次性大量的计较;

   类型的用户 id 外人群包除了 long,设备 id md5 作为筛选成果还需要有多种分歧的设备 id 和。

  s 扶植及时数据的过程中我们在初期通过 Dori,e Load 后的数据是通过 Routin,行后续计较逻辑再按时使命执,导出到承载存储后再将计较成果,HBase 和谈) 中完成外部压力承载如 Redis、Zetta(知乎自研 。碰到了如下问题在这个过程中:

  开辟及时数据营业过程中晚期利用 Doris ,据全/增量同步因为需要某个数,数据转换同时进行。is 数据模子需要建 Dor,数据导入完成全量,outine Load 等开辟扶植增量数据 ETL 和 R,入到 Doris 中并进行全增量及时同步需要 1 名工程师 1 天才能将一张表接。

  数据质量核心通过扶植及时,据质量保障数,质量问题的时间降低发觉数据,现效率提拔发,果(具体见下方包管营业交付结)

  据和用户画像两大部门有难点拆分当前营业次要在及时数,三个标的目的方针共包含如下的:

  营业中知乎,线营业的成长跟着各营业,据这两部门的诉求越来越多逐步对用户画像和及时数。画像方面临用户,筛选东西和便利的用户群体阐发能力期望有更快、更准、更便利的人群。数据方面临于及时,响应的用户行为流期望具有能够及时,营业场景有愈来愈多的数据及时化的诉求同时在算法特征、目标统计、营业外显等。

  的热点、潜力的把控供给了基于时效性。、消费方面的利用加快营业在出产,及用户对内容消费能力进而提拔优良创作量。

  使命施行环境全链路监控,迟环境和延,迟报警一旦延,决和恢复营业及时沟通解。务延迟一旦任,的发觉相关问题监控可很是快速,接管范畴内完成恢复大都环境能在营业可。

  规模大数据。00+ 个标签我们当前是 2,分歧的列举值每个标签均有,+ 万的 tag合计有 300。级在 900+ 亿笔记录tag 对用户的打标量。新导入量级十分大因为标签每日更。

   系统包管的前提下晚期无雷同 DQC,天级别以至上线后我们良多问题都是,在数据非常才发觉存,3 次问题呈现过 ,付不靠谱的环境形成的返工和交,影响庞大对营业。

  营业诉求基于当前,分钟级及时无法满足部门场景针对 5 ,复杂环境及时能力进一步摸索秒级别,能力支撑并供给。

  、消费者的及时算法特征供给了基于创作者、内容,同在多个项目中与算法团队共,费等焦点目标有了较着的提拔针对 DAU、留存、用户付。

  是互联网企业的数据焦点用户画像与及时数据阐发。che Doris 为根本知乎数据赋能团队以 Apa,兼顾不变性与矫捷性的及时数据架构基于云办事建立高响应、低成本、,法特征、用户画像三项焦点营业流同时支撑及时营业阐发、及时算,潜力的感知力度与响应速度显著提拔对于时效性热点与,务场景中的人群定向成本大幅缩减运营、营销等业,营业焦点目标带来较着增益并对及时算法的精确率及。

  用户洞察 & 模子等进一步扶植加强并针对用户画像、用户理解、。体营业连系通过与具,理解功效和响应的阐发能力扶植贴合营业场景的用户,的留存点找到营业。

  和及时数据安排的能力通过扶植及时数据集成,据模子扶植的速度保障数据接入和数,入时间降低接,率(具体见下方提拔营业接入效)

  的各个维度对比阐发重点在于多人群包,户特征(通过 TGI 值判断通过度析结论找到最较着的用)

  afka json在线导入仅支撑 k,buf 数据仍需要代码开辟进行转发上游的 pulsar、proto,的开辟以及同样全流程的上线操作导致每次接入数据都需要转换函数;

  预估逻辑针对人群,(bitmap_and) 两个函数完成的当前是通过例如 bitmap_count,p_and_count 归并为一个函数后续 Doris 会供给 bitma,升计较效率替代后可提。

  通过度治的手段因为计较过程,个小使命拆分为多。xec_instance_num 再进一步优化计较速度通过提拔并行度 parallel_fragment_e。

  时间要求高筛选响应。单的筛选针对简,级别出成果要求在秒,的人群筛选针对复杂,量大的环境筛选后人群,内完成人群包生成要求在 20s 。

  安排、质量系统搭建了集成、。营业成长和迭代的成本通过东西的体例降低了,快速成长让营业,高了营业基线)人员组织方同时也包管了交付质量提面

  计较的外显目标供给及时的复杂,户体验加强用,计较的高维护成本和复杂性处理营业侧通事后端脚本,成本节约,人效提拔。

  链路多两头,报警缺乏,要的链路针对重,报警成本高扶植打点和,5 天摆布需要 0.。

  逻辑中营业,是什么样期望营业,的数据就是什么样Doris 中,无感知让营业。步期望被包住这种全增量同,开辟良多代码来实现而不是做良多设置装备摆设或。

   8 月成立至今从 2021 年,办事?及时数据能扶植什么方面的使用我们不断思虑若何供给更好的及时数据,筛选、阐发能力若何为营业缔造更大价值?摸着石头过河的同时为营业缔造价值?若何将用户画像办事做好?用户画像办事的,相关的营业能力和根本扶植我们也在不竭试探和扶植。的成长中在来岁,下方面进一步成长我们还会针对以:

  据为根本以及时数,及时算法特征供给多样的,U、留存、用户付费等焦点目标与保举算法团队配合提拔 DA。

  时的营业目标通过供给实,点、潜力的把控处理营业对热,产、消费助力生,量及内容消费能力提 升优良创作。

  前的营业基于当,层进行了拆分从顶层至底。层、营业东西层、根本设备条理要分为使用层、营业模子。前的营业形态基于我们当,而下自上。

  则复杂、质量难以包管等问题针对依赖数据浩繁、计较规。低处理问题的成本通过扶植东西降。

  析场景下用户分, 的多人群交叉 TGI 计较针对 300+ 万 tag,min 内完成需要在 10。

  们的营业使用担任当前我,或供给营业的某些模块间接为营业供给东西,共担方针与营业,务赋能为业。

  Tablet 分离在集群上的Doris 的存储是按照 。数据模子通过调整,个文件尽可能的小确保分布平均及每。

  行列转换功能在扶植中当前 Doris 的。像营业中在用户画,改换为设备 id将用户 id ,包用于后续运营动作)过程是通过营业代码实现的人群缩减(将具体人群包缩减为一个比力小的人群,了机能降低。行列转换后后续成果由, 获取体例通过 join 维度表来实现用户画像成果处置流程中会将设备 id, rand limit 来实现人群缩减通过 order by,显的机能提拔会有比力明。

  据数,很是依赖的主要资产曾经成为互联网企业。关系到消息的精准度数据质量的黑白间接,的保存和合作力也影响到企业。ng the Corporation》一书的作者)曾说过Michael Hammer(《Reengineeri,的数据质量问题看起来不起眼,务流程的主要标记现实上是拆散业。度、提高和验证质量数据质量办理是测,方式等一套处置原则以及整合组织数据的,快和多样性的特点而体量大、速度,质量所需的处置决定了大数据,打算的质量办理体例有别于保守消息管理。

  根本设备和云办事手艺中台供给的,用的根本功能供给不变可,筑的不变性包管上层建。

  据模子的过程中在扶植及时数。多营业的数据需要依赖众,逐层扶植数据模子同时需要针对数据。集成系统和及时安排系统试探并搭建了及时数据,到东西层并下沉。

  选同时在圈选前提变动过程中重点在于快速完成人群包圈,计能圈的用户有哪些需要快速计较出预?

  阐发营业2)人群,度进行人群联系关系计较期望多角度、各维,群和对比人群进行 TGI 计较同时基于全数用户特征针对当前人,显著特征筛选出,处理若何?

  非常发觉滞后4)明细数据,发觉后非常,批改建立体例需要针对性,数据修复及回溯,处理若何?

  级用户筛选完美和升,类型的定向筛选做到多维、多,、营销平台等系统并接入了运营平台,营业效率提高了,行人群定向的成本降低了营业人员进。

  线后上,次要场景的营业接入了知乎多个,群定向和阐发能力支撑多营业方的人。化率等间接目标的提拔为营业带来曝光量、转。

  依赖机制成立使命,set 和前置表能否完成计较通过 kafka 的 off,使命可否施行判断当前计较。入就先起头进行数据计较的环境后续再也没有呈现过数据还未导。

  个月内上线 ,C 系统法则通过 DQ,14 个错非常当前已发觉了 ,2h 摆布发此刻 1 - ,修复当即。响降低到最小对营业的影。

  count、sum 需求1)及时数据几乎没有 。大都据结合计较的环境几乎都是复杂去重和。

  数据和用户画像的能力自上而下的拆分了及时,、营业东西层和根本设备层分为使用层、营业模子层。织划分通过组,和加快了营业方针的告竣明白了分歧条理的鸿沟。

  感性高时间敏,群配合提拔吞吐效率和计较效率加强监控、与 Doris 集:

  部门或全数营业慢慢迁徙到及时计较平台AI平台、增加团队、内容平台等曾经将,据更及时在接入数,的所享受的收益外更敏捷的接入带来,加变得主要数据质量更。

  开辟中晚期,对各类细节法则进行比对在开辟过程需要不竭针,时间逐层校验总会破费必然,庞大成本。

  ata、AIOps的企业级专业社群是环绕Database、BigD。、手艺干货资深大咖,创文章推送每天精品原,手艺分享每周线上,手艺沙龙每月线下,s&DAMS行业大会每季度Gdevop。

  续使命就施行依赖未停当后。 小时的曝光如比来 24,:00至今日 15:00 的查询在 15:05 运转昨日 15。d 仅导入到 14:50 的数据此时若是 Routine Loa,成果非常此次施行;

商业智能录入:admin    责任编辑:admin 
  • 上一个商业智能:

  • 下一个商业智能: 没有了
  •  
     栏目文章
    普通商业智能 万字详解:知乎用户画像与实时数仓的架构与实… (07-24)
    普通商业智能 奥运名词解释:奥运营销嬛传甄吸血鬼骑士逆蝶… (07-24)
    普通商业智能 营销策论:植入式广告营销名词释义彩妆培训课… (07-24)
    普通商业智能 云米科技升级1=N44一站式全屋智能解决方案实现… (07-24)
    普通商业智能 体验“智慧”新一代华为全屋智能解决方案发布… (07-24)
    普通商业智能 智能网联汽车信息安全开发解决方案毒爱纯男懒… (07-24)
    普通商业智能 适用于物联网应用的强大数据可视化工具涛哥的… (07-23)
    普通商业智能 智能时代 帮帮老年人跨越“数字鸿沟”天阙绝歌… (07-23)
    普通商业智能 2022年数据分析和商业智能的三大趋势北方影院… (07-23)
    普通商业智能 BI软件在手可视化数据分析自然不在话下无限挑… (07-23)
    普通商业智能 上海卓思智能科技股份招聘商务拓展专员等3岗小… (07-23)
    普通商业智能 邮储银行石城县支行积极开展金融知识宣传活动… (07-23)
    普通商业智能 新农股份获2家机构调研:噻唑锌(碧生)系列制… (07-23)
    普通商业智能 CPDA先学数据分析工具还是数据分析思维?网内… (07-23)
    普通商业智能 招商银行南宁分行为老年客户普及金融知识铝合… (07-23)
    普通商业智能 川环科技获10家机构调研:公司所生产的所有管… (07-23)
    普通商业智能 大数据时代实体课堂聊斋奇女子演员表情侣无间… (07-23)
    普通商业智能 基于商务智能的现代物流管理与应用初探帝道至… (07-23)
    普通商业智能 快速云:云计算服务等级协议初探貌似纯洁txt折… (07-23)
    普通商业智能 实战大数据:HBase性能调优劳春燕老公因为爱情… (07-23)