不说谎的创新经济媒体,致力于发现创新公司,服务创新公司,旗下产品覆盖150万+新经济用户,单周全网分发量可达1500万,已完成真格基金、软银中国、险峰、BAI等顶级机构的5轮融资。
分享

获天使投资 少年极客造智能爬虫 清理2千万网页 为3000企业寻干净数据

造数 2016年 可联系
智能数据挖掘平台
企业服务/文化娱乐/人工智能
融资进度
A轮
融资额度
千万级人民币
融资时间
2017.12.19
投资方
逐鹿资本
创始人
黄震昕,初二自学黑客技术,初三自建网站,高一参加iGoogle大学生创新设计大赛并获奖,高二孤身上京拜访李开复,被他写入《向死而生》一书中,大一开始组建学生技术团队,大三在校园O2O领域创业,获得四轮融资。
>
造数 2016年 可联系
智能数据挖掘平台
企业服务/文化娱乐/人工智能
融资进度
A轮
融资额度
千万级人民币
融资时间
2017.12.19
投资方
逐鹿资本
创始人
黄震昕,初二自学黑客技术,初三自建网站,高一参加iGoogle大学生创新设计大赛并获奖,高二孤身上京拜访李开复,被他写入《向死而生》一书中,大一开始组建学生技术团队,大三在校园O2O领域创业,获得四轮融资。
>

◆ 造数创始人黄震昕

文| 铅笔道 记者 刘金策

导语

初二自学黑客技术,初三自建网站,高一参加iGoogle大学生创新设计大赛并获奖,高二孤身上京拜访李开复,被他写入《向死而生》一书中,大一开始组建学生技术团队,大三在校园O2O领域创业,获得四轮融资……

外人眼里的黄震昕,是一个类似科幻电影里天才少年式的人物。

去年10月,他带着一帮同样“Geek”的员工成立了北京造数科技有限公司,开始新一次创业。

造数是一家技术驱动的公司,通过智能解析网页,帮助客户在没有编程基础的情况下,快速获取互联网的公开数据。企业可运用这些外部数据来分析市场、应对竞争、促进销售等,并省去招募爬虫工程师和爬虫维护的成本。

目前,造数已经累计爬取2000万个网页,服务3000家以上企业客户。

注:黄震昕承诺文中数据无误,为其真实性负责,铅笔道已备份录音速记,为内容客观性背书。

大数据基础层的商业价值

成都,电子科技大学,去年7月。

黄震昕带着同伴在校内游荡。

他在找自己的导师周涛,导师是一位业内的传奇人物:27岁成为四川最年轻的教授,《大数据时代》译者、电子科技大学互联网科学中心主任……这串头衔可以排到很长。

更重要的是,从自己入校那天起,导师就给予了自己信任和支持。他相信这次也不会例外。

三人在一栋教学楼的三楼走廊见面。年轻的教授从走廊翻到天台,示意他俩跟着过去。

黄震昕开门见山,“老师,我在酝酿想做一个新的事情。”

周涛教授的回答同样直接,“你想做什么?”

智能云爬虫,我想从大数据产业链的基础层切入,把互联网上已经开源但是混乱的大数据转成结构化数据,为企业提供有价值的数据资产。”

“那你的优势在哪,你凭什么来做这件事?”

“我的团队成员有完整的创业经验,愿意跟我一起干的都是待了3、4年老员工,技术层面绝对信得过……”黄震昕从技术、团队方面回答了老师的问题。

“好,我支持你。”老师当场拍板。

不久之后,前一项目的投资方——明势资本投决定再次投资他的新项目。

就这样,导师和明势资本成为黄震昕的天使投资方。

300万天使投资,一支跟了自己4年的技术团队,这是黄震昕去年8月启动造数时的全部资本。

选择数据挖掘领域,他经过了仔细考虑。

对很多中小企业来说,需要从互联网获取外部数据,以便进行市场分析、舆情监控和竞对分析等活动, 例如,对京东、亚马逊的商品进行追踪以获得市场的最新动态,对商圈内大众点评店铺数据进行分析以得到最佳的店铺选点,或者对政府的招投标网站进行检测以第一时间获得市场动态。

大数据时代到来,市场上爬虫的需求越来越多,但是爬虫需要的代码基础使这项服务的专业性门槛较高。“一个小型企业聘请爬虫工程师的成本至少在20万,中型企业的爬虫工程维护成本更高。”

很多时候,企业因为技术和成本限制居然还是手动复制粘贴来收集数据。

黄震昕想做的,是用智能算法来做互联网数据的挖掘,提高效率,为企业节省人力成本,让企业把更多时间集中在数据本身上。

8月的一天,天气正好,日历上说宜动土装修、搬家、结婚、开业,这是黄震昕特意选的黄道吉日,那天,项目正式开工。

对造数团队来说,产品研发过程算的上顺风顺水。

◆ 造数网站首页截图

与传统爬虫工具相比,造数做了两点改进:

一是可以智能解析页面结构。客户无需编程基础即可使用,不用再专门雇佣爬虫工程师,从而简化操作流程,降低产品使用门槛。

第二则是造数的服务搭建在云上,客户只需访问网站即可使用,不需要下载专门的软件。“整个平台都是基于云端的”。

智能算法+云服务

去年年底,项目进入测试阶段。

一位客户主动找上门来,说自己之前想用某工具采集亚马逊上一件商品的所有评论结果,要学习大量专业名词,看5个以上的长视频来学习,“花了一周时间也没学会软件操作”。

改用造数之后,客户5分钟学会操作,从创建爬虫和得到结果一共也没用上十分钟。

得到这个消息的时候,黄震昕觉得有些自豪。

年初,网站服务器突然崩溃,团队却开了两瓶香槟庆祝。

之所以如此,是因为团队此前运营推广效果开始显现,“那天造数网站的独立访问量超过2000,用户量激增”。

对造数这种以技术驱动的公司来说,技术研发过程难度虽大,但心中总算有谱。重点要做的,反而是如何将产品推向市场。

进入测试阶段后,团队就开始考虑这个问题。

恰好,团队负责运营的一位同事在知乎拥有10万粉丝。他在“你写论文时发现了哪些神网站?”这个问题下作答,提到了自己家的网站。

无心插柳,最终这个问题得到约400个赞同,给网站带来1500多的独立访客。

那天之后,团队立马重新调整了系统架构,并对服务器进行了升级。“增加此前平台没有的集群架构,提高了系统可伸缩性”。

为了保持系统持续性运转,团队一直在优化底层技术。2月下旬,造数完成了对网站的深度爬取功能。3月中旬,造数完成了API功能……

现阶段,造数可以提供两种服务模式,一种是根据爬取次数收费的普通服务,另一种则是根据企业需求单独定制的服务,包括私有化部署版本购买,知识图谱,数据产品开发等。

企业用户在使用造数时,需要先行注册,之后输入需要爬取的页面并选取得所需的数据,配置地址规则,之后平台会自动抓取,得到用户所需数据。

数据导出时,用户可通过控制台选择自己喜欢的格式输出,系统目前已经支持Excel,CSV,JSON等多种格式,也可以通过API与企业内部系统进行融合。

现阶段,团队已经累计服务3000家以上的企业,爬取2000万以上网页。

今年,黄震昕和团队将继续优化算法,提高系统智能度以使产品更加易用。同时,团队正计划启动下一轮融资,资金主要用于技术的研发升级。

/The End/

编辑   赵芳馨     校对   洪佳添

您可能感兴趣的文章
发表评论

所有评论

刘金策

铅笔道记者

我是本文作者刘金策,一个关注汽车交通、智能硬件的霹雳少年,相关行业创业者求报道,咱们微信聊聊:asusslet 。(加好友请注明公司、职位、事由哦)

asusslet
最近文章

联系创业者

close

创业者需要验证您的身份,请输入您的请求信息:

0/200

进入个人中心-联络人,即可查看请求结果

取消
确定

提示信息

close

您还未认证身份,暂时无法和ta联系!请尽快前往个人中心进行创投认证哦。

去认证咯
还是算了
联系方式
电话
拨打电话
邮箱
复制到剪切板
微信
复制到剪切板

查看所有联系人

下载铅笔道APP
下载铅笔道APP
下载铅笔道APP
下载铅笔道APP
关闭二维码