静夜寂歌之祭对基因科学来说,DNA双螺旋结构被提出之后,涌现出基因克隆、基因组测序等多项技术,直接促进了现代生物技术产业的兴起;
对通信工程来说,低损耗光纤的发明直接推动了数据通信、视频数据流、云计算的发展,造就了当今世界万物互联的生活方式;
对数据科学来说,被提出后的50年中不断丰富自身的内涵和外延,构成了今天数智化时代的基石。
苏萌说,这50年来非常幸运——在信息技术起飞的年代里亲历了数据科学1.0-3.0,见证了每一个关键时刻。
3月30日,当他站在数据科学顶尖峰会的演讲台上,以自身和百分点科技的视角全面解构数据科学的四个代际之时,吸引了上百万人次沉浸式体验这场数据科学穿越之旅。
因科学研究计算机模拟产生了大量数据,需要依靠算法发现其中规律,图灵奖得主Peter Naur首次提出了数据科学(Data Science)的概念:基于数据处理的科学,这标志着数据科学的开端;
互联网之父罗伯特.卡恩和文顿.瑟夫成功实验了数据包在网络和电脑之间的信息传输,并公布了TCP/IP协议,这奠定了互联网的基础。
之后的30多年里,被称为数据科学的小数据时代,主要面向结构化数据、历史数据和线下数据,运用关系型数据库、统计、ETL和数据仓库等技术,服务于商业和公共事务。
例如,金融行业较早地将数据分析技术应用到风险管理和投资决策等方面;电信运营商通过用户画像进行套餐营销;零售行业通过RFID等技术进行供应链数字化改造。
这些需求催生了一批老牌的数据科学公司,如SAS、SPSS、MathWorks、Wolfram、Alteryx、Palantir等等,带来了数据科学技术应用的早期繁荣。
1997年到美国留学,完成了统计学、计量经济学和营销模型等学科的学习,在康奈尔大学师从国际营销模型领域大师 Vithala R. Rao 教授,获得了博士学位。期间也曾就职于全球顶尖的计算软件公司Wolfram, 并推动了数据科学软件Mathematica与三十所中国高校的合作。
2006年,北大在全球范围招聘教授,苏萌从两百多位世界知名高校博士毕业生中脱颖而出,受聘北大光华担任助理教授,成为国内高校引进的博士毕业于美国常青藤大学营销模型专业的第一位全职教授,为硕士博士生开设数据建模方面的课程。
2000年前后,美国的Yahoo、Google、Facebook、Twitter等互联网公司纷纷崛起,中国也出现了BAT等巨头,世界进入到了互联网时代。
这些互联网企业需要用分布式集群的方式来存储、分析和挖掘海量互联网数据,以提高业务运营和决策效率。2004年,Google 发布MapReduce,随后Hadoop的诞生,一个崭新的时代正在开启。
时隔30多年后,无论是数据量还是数据处理能力,都发生了量变到质变,数据科学迎来了进阶时刻。
这一年,中国使用手机上网的人数占网民总数的近30%,进入了手机上网的大众化阶段;
这一年,自然科学国际顶级期刊《Nature》上首次提出了“Big Data”的概念。这犹如一声惊雷,开启了接下来近10年的数据科学大数据时代。
互联网和移动互联网的浪潮不仅带来了更海量的数据,也催生了数据处理分析技术的更迭。
这个阶段,大数据技术风起云涌,Storm、Spark、Flink等新型分布式计算框架像雨后春笋般不断涌现,极大地提高了数据处理的深度、广度和速度。Python语言开始流行,机器学习开始成为数据科学的重要技术手段。
市场端的数据科学应用以单点技术和场景为主,最典型的包括个性化推荐、数字竞价广告、金融风控等。其中,个性化推荐算法是苏萌在康奈尔大学读书期间跟导师共同的研究方向之一。
2008年,他和几位美国顶尖高校的教授合作发表了一篇关于个性化推荐的文章。
苏萌认为,科研不能只体现在论文的发表上,也应该能线年夏天,怀着这个朴素的想法,他在北大附近的中关村公馆租了一间80平米的小公寓,向家人借了50万元,注册成立了百分点科技,专注于研发个性化推荐引擎的算法与技术实现。之后的几年,服务了2,000多家互联网电商和媒体客户,并成为国内规模最大的推荐引擎技术服务商。
数据科学赛道的独特性在于,它是利用科学方法、流程、算法和系统从数据中提取价值的跨学科领域,一方面是人才培养门槛高,一方面是要具备领域知识。
百分点科技之所以成为国内用数据科学为产业赋能的先行者,并逐渐成长为标杆性企业,与公司创始团队具备深厚的数据科学理论功底和实践经验分不开。
随着资本与技术人才的涌入,以及大数据技术的采纳周期和新的市场需求,互联网领域的大数据浪潮,迅速扩展到了传统行业,一批龙头企业开始拥抱大数据,探索数字化转型。
他和团队感受到了这股浪潮,并率先将在互联网端沉淀下来的大数据技术应用到To B端的企业数字化转型中,并在服务零售、金融、媒体、制造、地产等各行业头部客户的过程中,积累了扎实的行业知识、业务理解和行业上下游生态。
然而,数据科学被更多人关注是因为Patil和 Davenport于2012年在哈佛商业评论上发表的《数据科学家——21世纪最性感的职业》,让数据科学从象牙塔走向公众视野。
随着商业上的繁荣和大众的广泛关注,各国政府开始将发展大数据提升为国家战略。
美国很早便在国家安全领域利用大数据技术,大家熟知的Palantir辅助抓捕便是经典案例。早在2012年,美国就通过了《大数据研究和发展计划》,后续每年都不断有政策推出,以促进和规范大数据行业发展。
中国在2015年首次提出“国家大数据战略”,发布《促进大数据发展行动纲要》,并在第二届世界互联网大会上首次提出推进数字中国建设。
从此,“数据”成为自上而下的焦点,大数据成为孕育AI的沃土。而数据科学所承载的释放数据生产力的使命从未改变,为数字化持续提供基础性的价值。
2016年,AlphaGo击败了围棋世界冠军李世石,以深度学习算法为代表的人工智能技术掀起了一波新的浪潮。
2017年,谷歌迭代了Kubernetes多个版本,以容器化技术解决了应用在云上部署的问题。
2018年,谷歌发布了AutoML技术,Facebook推出了PyTorch深度学习框架,人们可以轻松构建和训练自己的自动化机器学习和深度学习模型。Google提出了BERT预训练语言模型,该技术在自然语言处理领域得到广泛应用。
最近OpenAI发布了大型语言模型GPT4.0,生成式AI作为一种全新的运算模式,就像PC、互联网和云计算一样,会有很多应用程序基于GPT诞生。
新技术和新应用,产生了更加海量和实时的文本、语音、图像和视频等多模态数据,这些数据需要进入到可分析、可解释、可参与预测和决策辅助的场景中来。
2017年党的十九大将“数字中国”纳入报告之中,推动互联网、大数据、人工智能和实体经济深度融合,发展数字经济形成新动能。为拓展数字经济领域的全球合作,2017年的世界互联网大会上,中国等多个国家共同发起《“一带一路”数字经济国际合作倡议》。
这一年,对于数据科学工程化的产业转化需求从企业端扩展到了政府端,百分点科技也正式开启了To G业务,将之前在互联网和企业服务沉淀的数据科学产品与技术应用于政务领域,面向数字城市、公安、应急、生态环境、营商环境和统计等领域,构建智慧城市数字底座和场景智能应用,助力政府治理能力提升和治理体系现代化。
这一年,百分点科技第一个国际业务项目落地,开启了新一代信息技术科技企业出海的新篇章。七年来,百分点科技用数据科学技术与产品服务了全球20多个国家。
2017年,百分点科技也发布了DeepMatrix 1.0,该系统融合了大数据与人工智能技术,支持复杂业务问题的自动识别和判断,并可以做出前瞻或实时决策。在算力、数据、算法三重因素的驱动下,DeepMatrix 2.0进一步强化了自然语言处理、动态知识图谱等多项认知智能技术。
2021年,经过多年行业成功实践,百分点科技基于探索出的行业落地新范式,正式推出DeepMatrix 3.0。和前两代产品相比,这一版本在数据治理和数据资产运营层面有所加强,将数据自动化地引入到数据治理过程中,并运用搜索、可视化分析等技术挖掘和发挥数据的价值。
数据科学在不断地发展和变迁之中,保持了其价值的基础性和技术的集大成性。随着技术、数据和场景的深化,政企客户对于数据科学的诉求不再是单一工具和单点技术的支持,而是寻求整体解决方案的介入。
国内外一些领先的厂商开始沉淀通用型的数据科学工具,致力于打造端到端的数据科学解决方案。2019年华为推出了ModelArts和DataArts,打通了大数据和人工智能,实现数据全生命周期治理;2021年阿里云PAI首次进入了Gartner魔力象限,标志着国际市场对于中国顶尖企业的数据科学能力的认可。在这期间,国外的Plantir和Alteryx纷纷迭代自己的产品技术并且完成了上市。
经过13年的技术积累与实践,2023年,百分点科技也推出了一站式价值实现平台——数据科学基础平台DeepMatrix 4.0,服务于数据工程师、数据分析师和数据科学家,助力便捷高效地将数据转化为业务知识并辅助决策和行动,最终释放数据价值。
相比于目前数据科学平台市场上的其它产品,DeepMatrix 4.0具备三方面的独特优势:
首先是一体化。平台中的工具、数据、模型、知识都遵循统一的协议、标准和规范,可以无缝对接和互操作。产品中每个模块都可以独立部署和使用,为用户提供了更多的选择和灵活性,满足不同场景的需求。
二是知识化。平台不断沉淀领域中的数据科学知识,包括程序性知识、事实性知识和概念性知识。传统企业的数字化转型面临着冷启动问题,平台能够借助行业内已有的专业知识为其破局。
三是智能化。数据科学基础平台内置了智能辅助开发系统,可以自动化地辅助开发者选择方案以及完成数据适配,并智能化地进行方案精调和改进。同时,能够在数据治理的多个环节依托知识库及语义理解等智能技术帮助开发者提高效率。
百分点科技进入大数据行业较早,因此得以拥有持续完善迭代自身平台产品的条件,拥有从数字化转型方法论、路径规划、产品工具到项目交付、运营服务的一体化方案构建能力,这是目前很多新兴企业难以做到的。
对于数据科学的未来发展,苏萌说,数字技术的大融合将产生叠加态,我们将进入原生的数据时代。
未来,全球80亿人和无数的物联网设备连接到网络并成为数据源,不断产生关于他们的活动、认知和智慧的大量数据。我们期待这些数据形成普惠型的生产要素,每个人都能通过数据的生产和使用而获益,形成更加平等的生产关系,更加和谐的社会关系。
在这个阶段,大数据、AI、云计算、智能交互等技术将与物理世界深度融合,数据的模态更丰富、质量更高、时效性更强,算法更先进、算力更强大。更重要的是,企业将利用数据原生应用实现对现实世界的理解和改造,这将极大地释放数据要素红利,促进产业数字化的广度和深度,最终解放生产力。
未来的数据科学将走向平民化,随着数据科学通用工具的一体化和平台化、领域知识的程序化和服务化,交互方式的自然语言化,数据科学技术将像互联网一样普惠大众,业务和决策人员将可以跨过程序员直接与数据进行交互,提高分析和决策效率。
针对数据的科学技术将作为重要生产力推动商业模式和社会组织的变革。数据科学的发展将带来新的社会分工,会有一些业务和商业模式可以不依赖于现实世界而直接生长在数据世界里,进而重塑生产关系和商业秩序。
他总结过去五十年中的发展规律:信息技术创造了数字世界,数字技术推动数字经济不断发展,数字经济促进了人类和组织的社会变革,变革又进一步为创新提供了土壤。
他说,用数据科学构建更智能的世界,是百分点科技的使命,也将是其未来继续不懈努力的方向。
9月23日,由中国互联网协会主办,北京泰尔英福科技有限公司合办,中关村区块链产业联盟和中国生产力促进协会数字经济工委会协办的2024(首届)中国数字人大会——面向人工智能的数字身份体系研究论坛在中关村国家自主创新示范区展示中心成功举办。中国信息通信研究院(以下简称“中国信通院”)总工程师敖立发表致辞。
未来颠覆性技术,特别是食品合成生物学技术将重新定义食品行业,引领行业发展潮流,改变这个行业的市场规则,而我们应该积极迎接这样的改变。
这些发现或有助开发实用的室温超导体,并可理解量子气体模拟——一个结合量子光学和凝聚态物理学的重要领域。
张甘霖的学生、土壤所助理研究员杨顺华说,这种执着的精神,深深影响着年轻一代的科研人员。
《三体》成为世界走近中国的一份路引,更是展现当代中国文化的一张名片在国际文化传播中,“内容为王”仍然是基本法则。
“三项改革”政策实施以来,越来越多的高校老师将自己的科研成果带到路演现场,迈出从实验室到生产线
黄河孕育了千年文脉,是华夏文明的母亲河,是中华民族的象征,是涵养中华文明的重要源泉。打造数据中心、讲好黄河故事,有利于全景式呈现黄河文化基因和历史文脉,创新黄河文化表达方式。
月亮很近,抬头就能望见阴晴圆缺;月球很远,需要航天人一步一个脚印地艰难跋涉。中国探月20年,也拉近了星辰大海与普通公众生活的距离。
研究结果表明,数字化技术与氢能技术呈现显著融合趋势,企业的数字化转型战略有助于推动其在氢能技术方面的创新产出。该文研究结果不仅有助于了解氢能技术当前的发展趋势和面临的挑战,也为推动氢能技术与数字化转型的深度融合提供了理论支撑。
从汽车钎焊铝箔的“门外汉”,到“摸着石头过河”开发出相关产品……郭飞跃在创新路上,不服输、敢打拼,攻克了一个个难关。近日,郭飞跃接受科技日报记者采访,讲述带领团队从零起步,潜心研发汽车钎焊铝箔产品的艰辛历程。
不仅是在兰考,在“齐鲁粮仓”,稻菽飘香、鱼跃莲池、瓜果盈枝都离不开科技加持的精细气象服务。
天线飞转、屏幕闪烁、无形空间、电波交织……陈杨受邀参加红蓝对抗演练,充当“磨刀石”。
从1994年北斗系统工程立项至今的30年间,几代北斗人栉风沐雨、接续奋斗,坚持自主创新、分步建设、渐进发展,走出一条从无到有、从有到优,从有源到无源、从区域到全球的中国特色卫星导航系统建设道路,为更好服务全球、造福人类贡献了中国智慧和力量。
金秋九月,丰收的喜悦洋溢在田间地头。无人机、无人驾驶、云计算等“技术活儿”正在神州大地上描绘着一幅绚丽多彩的“现代耕耘图”,让大国粮仓更丰盈。
9月19日,国家统计局发布了新中国75年经济社会发展成就系列报告之十四。党的十八大以来,生态文明建设从理论到实践都发生了历史性、转折性、全局性变化,生态环境质量持续改善,美丽中国建设迈出重大步伐。
多模态地理科学大模型“坤元19日正式发布,这是全球首个多模态地理科学大模型,由中国科学院地理科学与资源研究所联合中国科学院青藏高原研究所、中国科学院自动化研究所等单位共同研发。
卡塔尔威尔康奈尔医学院科学家通过分析391名志愿者的血液、尿液和唾液样本中的数千种分子,绘制出人体及其复杂生理过程的分子图。
|