一、安全事件 2016年,各种信息安全事件依旧层出不穷,且愈演愈烈,影响到人类社会生活的方方面面。 1. 信息及数据泄露 #国内高校学生的个人信息泄露,则导致即将步...
从MySQL到Kafka,如何管理每天实时发布的几十亿条消息?
当你的系统每天要实时从MySQL到Kafka发布几十亿条消息时,你会怎么管理这些数据的模式信息呢?当你的系统要接入几百个服务时,你就要处理几千种不同的模式,手工管理...
机器排序学习在电商搜索中的实战
背景 1号店的搜索Ranking Model一直在朝着精细化方向深化,我们希望在提升用户满意度的同时,也能提升网站的流量转化率。在实践机器排序学习之前,1号店网站的...
7 款从 HTML 文档提取文本的工具
摘要: 下面的工具包括了由为初学者和小项目而设计的非常简单的工具到需要一定的编码知识,旨在用于更大,更困难的任务的高级工具。 收集电子邮件地址、竞争分...
在Python3.5下安装和测试Scrapy爬网站
. 引言 Scrapy框架结构清晰,基于twisted的异步架构可以充分利用计算机资源,是爬虫做大的必备基础。 本文将讲解如何快速安装此框架并使用起来。 2. 安装...
子弹不能开锁 那些误导我们几十年的电影镜头
电影反映真实生活但因为是艺术表现形式又高于生活,日常看电影除了看个热闹和过瘾外,我们也常常会因为电影而勿信了其中一些并不科学的镜头,并且一信就是几十年,而且有的不科...
阿里巴巴、Facebook、Cloudera等巨头的数据收集框架全攻略
互联网的发展,带来了日新月异的业务种类,随着业务的增长,随之而来的,是业务日志指数的递增。一些公司每条业务线, 提供服务的线上服务器就达几百台之多, 每天的日志量超...
每天处理几十亿条消息:Yelp的实时数据管道
在研发团队急剧扩张的挑战下,Yelp将系统架构转成了面向服务的体系结构(Service Oriented Architecture,SOA)。转型成功的提升了开发效...
回归框架下的人脸对齐和三维重建
三维人脸重建的目标是根据某个人的一张或者多张二维人脸图像重建出其三维人脸模型(此处的三维人脸模型一般仅指形状模型,定义为三维点云)。 今天我们只讨论由单张二维图像重...
腾讯帝国因它而起,20年前已有500万用户+30%日活,这款社交通讯产品的鼻祖今天居然还活着?ICQ
网龄较大的互联网人可能都还记得,QQ最初是靠“借鉴”一款叫做ICQ的国外即时通讯软件 起家的,腾讯也因此背负着“抄袭”的名声。 20年过去了,腾讯,无论是产品还是名...