0201.大数据时代的前瞻
推荐阅读:宇宙职业选手、斗罗大陆V重生唐三、万相之王、星门、剑道第一仙、雪中悍刀行、剑来、一剑独尊、临渊行、沧元图
一秒记住【阅书小说网 www.yueshu.la】,精彩小说无弹窗免费阅读!
{时间:2003年3月4日}
{地点:加州-帕洛阿尔托}
7天时间拿下300w用户增长,这样的数据在于【myspace】绝对是爆发式的增长。当然,这与詹妮弗【红人计划】所积累的红人资源有相当大的关系。
只不过,一次性输送给【mysapce】后,剩下的推广工作就只能靠着用户们在体验过【myspace】的社交属性后,慢慢去做口口相传了。而陈士骏和萨克斯两人,也终于可以从夜店里脱身开来,真正投身到【myspace】的线上推广当中。
至于【myspace】和【红人计划】如何谈推广佣金,这件事就交给詹妮弗去定了。
一方面詹妮弗势必要接触到商业上的谈判,而萨克斯、陈士骏肯定会考虑到给自己人一个温和的谈判空间。结bing果无论如何,都不是【红人计划】现在需要关注的。
sns的爆发期还没有到,【红人计划】目前仍旧在酝酿期。这个时期的红人资源积累,要放手给詹妮弗去尝试。这样在未来sns爆发期到来之际,【bing生态圈】才能在没有自己关注的情况下正常运转下去。
而另一方面,宁子默也必须要去做重要的事情。
他要霍夫曼帮忙找的人,已经有消息了。
……
3月4日一大早,按照约定时间到达山景城领赢总部的宁子默,一进门就对霍夫曼笑着说:“我没有想到你竟然这么快就找到了。”
“你都说让我在斯坦福帮你找了,这么熟悉的范围对我这位斯坦福毕业的知名学生还不是易如反掌的事?”霍夫曼笑着说。
宁子默让霍夫曼帮忙找的人,和从德国法兰克福【bing】总部传来的消息有关。
路奇的搜索引擎团队已经取得不小的进展,目前数据爬虫已经开发完毕,并且已经开始爬取和收集数据。
但搜索算法的效率上,路奇一直不是很满意,于是他邮件里的这份担忧不得不让宁子默潜藏的挖角计划提前浮出水面。
前世里如果宁子默对倍宝公司是景仰之情,那么对于峰语这家公司就带着敬佩。
这家以搜索引擎起家的公司本着“不作恶的”的理念,在前世的那个世界里一度霸占着“改变世界企业榜单的top 10”以内位置数年时间。
所以对于峰语,宁子默也曾像研究倍宝公司一样研究过它的历史。
那时候宁子默就留意到一个许多人未曾怎么关注过的小公司-kaltix。
虽然kaltix公司在峰语的发展史上没有怎么暴露过名字,但就是kaltix公司的三个人。三位斯坦福的学生,他们开发了kaltix,并利用了一套专有算法来加速峰语pagerank算法的基础计算,并根据个人的兴趣而不是峰语开发的共识方法对搜索结果进行排序。
这一套算法包含三个技术:二次外推,blockrank和自适应pagerank,它们共同组成了kaltix的基础。
就是这一套和公司名一样的技术,使得峰语搜索引擎速度提高了5倍。实际上在网络有限的资料中,kaltix说提供的技术,比2003年峰语使用的算法速度快近1000倍。
这些算法是在前世的2003年5月22日,在匈牙利的布达佩斯举办的第十二届国际万维网大会( 2003),由他们的毕业论文提及的。
原本,宁子默计划在5月前联系他们。但既然路奇提前暴露出【bing搜索】的不足,那宁子默只能将这个联系时间提前。
“实际上,这几个家伙正好注册了我们的领赢用户。我是先从领赢平台搜索到他们是搜索引擎专家,才转而联系了他们。”
霍夫曼递给宁子默几张纸,宁子默顺手接过来,那上边正是三人的资料。
霍夫曼笑着说,“现在我习惯先从咱们的领赢数据库里搜索人才了,碰巧他们三人最近尝试在领赢上放上了各自的信息,并做了一些搜索引擎的探讨话题,就让我留了个心眼。而这一次回去斯坦福,我碰巧又问到了他们,于是就约了今天。”
正在这个时候,敲门声响起来了。
“人到了。”霍夫曼挑眉说,
“那可就巧了。”
宁子默站起身来,和霍夫曼一起走到门边。
门一打开,门外站着三位一脸青涩的年轻人。
“赛普坎穆瓦( sep kamvar),塔尔.哈维立瓦拉(taher haveliwala)和格兰.杰(glen jeh)?”
霍夫曼准确地叫出三人的名字并笑脸相迎,让一脸青涩的年轻人们顿时轻松不少。
“boss,这三位是kaltix的创始人,赛普坎穆瓦( sep kamvar),塔尔哈维立瓦拉(taher haveliwala)和格兰杰(glen jeh)。”
霍夫曼对自己的称呼,让宁子默内心的白眼翻到天际。
无非是自己要约谈的是几个小年轻,而自己不像霍夫曼那般“成熟稳重”。所以他特意用了这种方式加重自己身份的方式,来让年轻的kaltix的三位年轻创始人更重视他。
“这位是我们的ceo兼首席产品架构师,宁,”霍夫曼向三人介绍到,“同时,他就是前倍宝最年轻的coo先生。也是带领我们倍宝走向上市和出售。”
尽管万分不习惯霍夫曼喊自己boss,但宁子默还是感激的冲他笑了笑。
走过去与三人分别握手,然后带着三人随意地坐在沙发上,“三位要喝点什么?”
“三杯咖啡,谢谢。”
“好的,三杯咖啡。boss你还是老样子?”
“嗯。”
霍夫曼这一番做派给足了宁子默架子,但也给这几位年轻人一些压力。他们哪能想到,面前这位比他们还年轻的东方人竟然比他们的前辈学长更有分量。
以至于霍夫曼出去后,三人的表现甚至有些拘谨。
宁子默只能先随意聊着,等到霍夫曼送来咖啡后,场面才欢缓和了一些。
望着三人,宁子默拍了拍霍夫曼的胳膊笑着说,“霍夫曼和你们开一个小玩笑,其实我们现在是领赢的联合创始人,并不存在什么上下级关系。咱们年龄相仿不必要太过客气,所以你们喊我宁就好了。”
“好的,宁”
宁子默放低姿态,霍夫曼也毫不在意地笑了笑。轻松的环境让气氛缓和不少,三人这时明显放松下来。
叫做赛普的年轻人先一步开口,“宁,霍夫曼是我们的学长,前几天他碰巧找到我们,说你对我们的项目感兴趣准备投资,但我们没有想到你有这么年轻。”
“我也没有想到kaltix的创始人是和我年龄相仿的三个年轻人,我以为像我这样的天才只有少数几个,可结果今天就见到三个。”
彼此相似的恭维像极了“大人”的方式,几个人顿时心照不宣的笑了起来,气氛更加融洽起来。
乘着这个热乎劲,宁子默放下咖啡道,“既然大家都是年轻人,我就长话短说。但是说起来这话呢,又有些长了,这确实挺矛盾点额。”
宁子默平日里还是蛮喜欢搞笑的,只是年级略长一些的人一般都配合不来,倒是年轻人比较多的场合让宁子默不由地也用上笑话开场。
kaltix三人组闻言笑了笑,纷纷向宁子默示意继续。于是再端起咖啡杯的宁子默就像打开话匣子一样,拿着带路奇去见过的理查德宾先生扯起了大旗。
“去年我在迷茫的时候,有幸认识了以为叫做理查德宾的老人。那是以为传奇老者,在他过往的岁月里。他从一个普通的啤酒花商人,转而师从理查德施特劳斯学习音乐,最后又在战后转攻医学心脏病领域。
……理查德宾先生的的故事几乎跨越一整个世纪的所有年份。我征得他的同意后,想要在他的祖国德国开始创立我们的产品,并用他的名字为我们的搜索引擎命名。我想在他有生之年能作出一些成绩,让他看到我没有埋没他对我们的这份信任。”
宁子默向kaltix三人组添油加醋的将理查德宾先生的故事讲了一番,一些偷梁换柱的东西也被他悄然加了进去。
这两年时间的历练,宁子默也逐渐学会如何去讲故事。只要不违背原则的情况下,为那些加入团队的未来拍档们去讲理想、讲未来、讲情怀几乎是必不可少的部分。
画饼听起来很虚无,但它在某些时刻却有着大用处。如果这个方法可以吸纳到高端人才,宁子默并不介意腹黑一些。
而且这条拐带大拿的路,宁子默决定一直走到黑了!
“哇,酷~~~~~”
kaltix三人组在宁子默铺开那位传奇老者的故事时,就听得很入神。
无论是他推崇自己的啤酒花,
还是和老师理查德施特劳斯的不和,
还有最后他在心脏病领域的各种突破,
这些故事都让kaltix三人组眼中闪耀着一种叫做崇拜的东西。
顿了顿,宁子默才补充道,“这款搜索引擎叫做bing,如今它已经被开发完成,并使用爬虫对网络信息进行爬取。但是目前,我们的【bing】团队在搜索算法上碰到了问题。以至于我在搜索引擎的大数据划时代计划,碰到了阻碍。”
“而这些阻碍,”将手指从自己转向kaltix三人,宁子默郑重道,“就是我托霍夫曼找到你们这些搜索专家的主要原因。”
“大数据划时代计划?”赛普疑惑地沉吟着,末了他抬起头向宁子默问到,“听起来是一个很庞大的工程。”
“是的,是一个很庞大的工程。因为目前对于不了解搜索价值的人而言,搜索引擎只是给人们带来结果的窗口。但真正去讨论搜索引擎的价值,最能体现他价值的地方一定是大数据划时代的搜索引擎时代。
想一想,曾经我们在进行数据分析与统计时仅仅局限于数据库,在数据库中对数据表进行统计分析。并且受数据量和计算能力的限制,我们只能对最重要的数据进行统计和分析。
搜索引擎跳出了这个限制,它可以成为存储着全世界几乎所有可访问的网页,数目可能超过万亿规模,全部存储起来大约需要数万块磁盘的大型数据库。
虽然这件事看起来峰语已经在做了,但峰语对于未来的规划,并没有我想象中那么清晰。
因为再往下发展下去,我想让bing可以把科技、文化、知识、资讯、新闻对应的文字、图片、视频等林林总总的东西进行统一存储管理,形成整个人类的大型数据库。
它记录人类文明过往的所有资料,为向未来的发展提供各种各样的支撑条件。把它打造成为人类的诺亚方舟那样,去造福全人类。
我可以简单举几个阶段性的例子,例如大数据的某一个先期阶段-大数据应用的数据仓库时代。
而bing可以跳出数据库的概念去进行sql操作,实现数据统计与分析。也就是说,人们将在bing上用更低廉的价格获得比以往多得多的数据存储与计算能力。
我们可以把运行日志、应用采集数据、数据库数据放到一起进行计算分析,获得以前无法得到的数据结果,而企业的数据仓库也随之呈指数级膨胀。
你们想想,在数据仓库时代只要有数据几乎就一定要进行统计分析。如果数据规模比较大,我们就会想到要用大数据技术。而技术的发展同时又促进了技术应用,这也为接下来大数据应用走进数据挖掘时代埋下伏笔。
而在大数据应用的数据挖掘时代必定凌驾于大数据应用的数据仓库时代基础之上。举个例子,很早以前商家就通过数据发现,买尿不湿的人通常也会买啤酒,于是精明的商家就把这两样商品放在一起,以促进销售。
啤酒和尿不湿的关系,你们可以有各种解读,但是如果不是通过数据挖掘,可能打破脑袋也想不出它们之间会有关系。
在商业环境中,如何解读这种关系并不重要,重要的是它们之间只要存在关联,就可以进行关联分析,最终目的是让用户尽可能看到想购买的商品。
除了商品和商品有关系,还可以利用人和人之间的关系推荐商品。如果两个人购买的商品有很多都是类似甚至相同的,不管这两个人天南海北相隔多远,他们一定有某种关系。
比如可能有差不多的教育背景、经济收入、兴趣爱好。根据这种关系,可以进行关联推荐,让他们看到自己感兴趣的商品。
除了商品销售,数据挖掘还可以用于人际关系挖掘。六度分隔理论认为世界上两个互不认识的人,只需要很少的中间人就能把他们联系起来。这个理论在米国的实验结果是,通过六步就能联系上两个不认识的米国人。
未来像我们的【领赢】甚至【myspace】,各种各样的社交软件记录着我们的好友关系,通过关系图谱挖掘,几乎可以把世界上所有的人际关系网都描绘出来。
现代生活几乎离不开互联网,各种各样的应用无时不刻不在收集数据,这些数据在后台的大数据集群中一刻不停地在被进行各种分析与挖掘。
当然我们也可以举个高大上的例子,来说说理查德宾这位传奇相关的行业-医疗。
例如人类目前难以攻克的白血病和红斑狼疮,我们可以通过对病人的生活习惯、生长环境、dna、病情发展等信息的收集,将数据采集聚集在一起,把小特殊病理变成可供参考的大数据。
而后透过不断的数据挖掘,去分析这些病例的因由。那么科研人员对于这些不治之症,将拥有更多可参考性的依据,把原本很小的可能变成大概率可以突破的可能。
或许是让患有这些病情的人有了被治愈的可能,或许是让基因里包含潜在基因缺陷的胚胎在孕育的过程中避免来到人世后的痛苦。
这些分析和挖掘带给我们的是美好还是恐惧,完全要依赖大数据从业人员的努力。但是可以肯定不管最后结果如何,这个进程只会加速不会停止,而你我只能投入其中。
但无论如何这件事值得去做,甚至为了提高效率,我们可以将一些繁琐规律的工作交给人工智能去做,这又会让大数据时代发展到大数据应用的机器学习时代。
像刚刚的例子里,数据中蕴藏着规律,这个规律是所有数据都遵循的。过去发生的事情遵循这个规律,将来要发生的事情也遵循这个规律。一旦找到了这个规律,对于正在发生的事情,就可以按照这个规律进行预测。
在过去,我们受数据采集、存储、计算能力的限制,只能通过抽样的方式获取小部分数据,无法得到完整的、全局的、细节的规律。而未来有了大数据,就可以把全部的历史数据都收集起来,统计其规律,进而预测正在发生的事情。
这就是机器学习。
例如,我再举个例子,把历史上人类围棋对弈的棋谱数据都存储起来,针对每一种盘面记录何种落子可以得到更高的赢面。得到这个统计规律以后,就可以利用这个规律和人下棋。
每一步都计算落在何处将得到更大的赢面,于是我们就得到了一个会下棋的机器人,说不定哪一天这个机器人就会以几年的时间学习上千年的棋局后,通过共性和局部战略的学习,通过分析人类落子的意图分析以压倒性优势下赢了人类的顶尖棋手。”
也不管身边目瞪狗呆的四人,宁子默喝了口咖啡润了润喉咙,借着继续说到:
“在我讲完刚刚这些事例的时候,相信你们对于我脑中的搜索引擎已经有了一个更远期的看法。没错,它很庞大,它不止是一个可以向人们提供搜索结果的窗口,而是一个大数据时代的窗口。
bing要做的事情就是要把人类文明从诞生到发展至今说保留的所有信息都进行存储,让它成为一个庞大的数据库,让它为各行各业的人们提供可供查证的大量数据,让人类在行进的过程中少犯错误、少点痛苦。
但亦或许,那也只是我的痴心妄想。因为人性的贪婪,会让我们及时拥有这么先进的科技,仍旧避免不了那么多问题的存在。
但科技并没有错,完全要看我们应用的方法,以及我们这些从业者是否能拥有一把衡量公正的尺子。
我做不了那么多去衡量公正的事情,但我的有生之年,只想让科技更进一步,让我身边的团队为了人类文明去出一份力。
至于未来那个大时代到来后会成为什么样,我相信就算我老了,也依旧有无数有识之士能作出比我还杰出的事情。
让人类在前行的路上,依旧走着一条正确的路。”
{时间:2003年3月4日}
{地点:加州-帕洛阿尔托}
7天时间拿下300w用户增长,这样的数据在于【myspace】绝对是爆发式的增长。当然,这与詹妮弗【红人计划】所积累的红人资源有相当大的关系。
只不过,一次性输送给【mysapce】后,剩下的推广工作就只能靠着用户们在体验过【myspace】的社交属性后,慢慢去做口口相传了。而陈士骏和萨克斯两人,也终于可以从夜店里脱身开来,真正投身到【myspace】的线上推广当中。
至于【myspace】和【红人计划】如何谈推广佣金,这件事就交给詹妮弗去定了。
一方面詹妮弗势必要接触到商业上的谈判,而萨克斯、陈士骏肯定会考虑到给自己人一个温和的谈判空间。结bing果无论如何,都不是【红人计划】现在需要关注的。
sns的爆发期还没有到,【红人计划】目前仍旧在酝酿期。这个时期的红人资源积累,要放手给詹妮弗去尝试。这样在未来sns爆发期到来之际,【bing生态圈】才能在没有自己关注的情况下正常运转下去。
而另一方面,宁子默也必须要去做重要的事情。
他要霍夫曼帮忙找的人,已经有消息了。
……
3月4日一大早,按照约定时间到达山景城领赢总部的宁子默,一进门就对霍夫曼笑着说:“我没有想到你竟然这么快就找到了。”
“你都说让我在斯坦福帮你找了,这么熟悉的范围对我这位斯坦福毕业的知名学生还不是易如反掌的事?”霍夫曼笑着说。
宁子默让霍夫曼帮忙找的人,和从德国法兰克福【bing】总部传来的消息有关。
路奇的搜索引擎团队已经取得不小的进展,目前数据爬虫已经开发完毕,并且已经开始爬取和收集数据。
但搜索算法的效率上,路奇一直不是很满意,于是他邮件里的这份担忧不得不让宁子默潜藏的挖角计划提前浮出水面。
前世里如果宁子默对倍宝公司是景仰之情,那么对于峰语这家公司就带着敬佩。
这家以搜索引擎起家的公司本着“不作恶的”的理念,在前世的那个世界里一度霸占着“改变世界企业榜单的top 10”以内位置数年时间。
所以对于峰语,宁子默也曾像研究倍宝公司一样研究过它的历史。
那时候宁子默就留意到一个许多人未曾怎么关注过的小公司-kaltix。
虽然kaltix公司在峰语的发展史上没有怎么暴露过名字,但就是kaltix公司的三个人。三位斯坦福的学生,他们开发了kaltix,并利用了一套专有算法来加速峰语pagerank算法的基础计算,并根据个人的兴趣而不是峰语开发的共识方法对搜索结果进行排序。
这一套算法包含三个技术:二次外推,blockrank和自适应pagerank,它们共同组成了kaltix的基础。
就是这一套和公司名一样的技术,使得峰语搜索引擎速度提高了5倍。实际上在网络有限的资料中,kaltix说提供的技术,比2003年峰语使用的算法速度快近1000倍。
这些算法是在前世的2003年5月22日,在匈牙利的布达佩斯举办的第十二届国际万维网大会( 2003),由他们的毕业论文提及的。
原本,宁子默计划在5月前联系他们。但既然路奇提前暴露出【bing搜索】的不足,那宁子默只能将这个联系时间提前。
“实际上,这几个家伙正好注册了我们的领赢用户。我是先从领赢平台搜索到他们是搜索引擎专家,才转而联系了他们。”
霍夫曼递给宁子默几张纸,宁子默顺手接过来,那上边正是三人的资料。
霍夫曼笑着说,“现在我习惯先从咱们的领赢数据库里搜索人才了,碰巧他们三人最近尝试在领赢上放上了各自的信息,并做了一些搜索引擎的探讨话题,就让我留了个心眼。而这一次回去斯坦福,我碰巧又问到了他们,于是就约了今天。”
正在这个时候,敲门声响起来了。
“人到了。”霍夫曼挑眉说,
“那可就巧了。”
宁子默站起身来,和霍夫曼一起走到门边。
门一打开,门外站着三位一脸青涩的年轻人。
“赛普坎穆瓦( sep kamvar),塔尔.哈维立瓦拉(taher haveliwala)和格兰.杰(glen jeh)?”
霍夫曼准确地叫出三人的名字并笑脸相迎,让一脸青涩的年轻人们顿时轻松不少。
“boss,这三位是kaltix的创始人,赛普坎穆瓦( sep kamvar),塔尔哈维立瓦拉(taher haveliwala)和格兰杰(glen jeh)。”
霍夫曼对自己的称呼,让宁子默内心的白眼翻到天际。
无非是自己要约谈的是几个小年轻,而自己不像霍夫曼那般“成熟稳重”。所以他特意用了这种方式加重自己身份的方式,来让年轻的kaltix的三位年轻创始人更重视他。
“这位是我们的ceo兼首席产品架构师,宁,”霍夫曼向三人介绍到,“同时,他就是前倍宝最年轻的coo先生。也是带领我们倍宝走向上市和出售。”
尽管万分不习惯霍夫曼喊自己boss,但宁子默还是感激的冲他笑了笑。
走过去与三人分别握手,然后带着三人随意地坐在沙发上,“三位要喝点什么?”
“三杯咖啡,谢谢。”
“好的,三杯咖啡。boss你还是老样子?”
“嗯。”
霍夫曼这一番做派给足了宁子默架子,但也给这几位年轻人一些压力。他们哪能想到,面前这位比他们还年轻的东方人竟然比他们的前辈学长更有分量。
以至于霍夫曼出去后,三人的表现甚至有些拘谨。
宁子默只能先随意聊着,等到霍夫曼送来咖啡后,场面才欢缓和了一些。
望着三人,宁子默拍了拍霍夫曼的胳膊笑着说,“霍夫曼和你们开一个小玩笑,其实我们现在是领赢的联合创始人,并不存在什么上下级关系。咱们年龄相仿不必要太过客气,所以你们喊我宁就好了。”
“好的,宁”
宁子默放低姿态,霍夫曼也毫不在意地笑了笑。轻松的环境让气氛缓和不少,三人这时明显放松下来。
叫做赛普的年轻人先一步开口,“宁,霍夫曼是我们的学长,前几天他碰巧找到我们,说你对我们的项目感兴趣准备投资,但我们没有想到你有这么年轻。”
“我也没有想到kaltix的创始人是和我年龄相仿的三个年轻人,我以为像我这样的天才只有少数几个,可结果今天就见到三个。”
彼此相似的恭维像极了“大人”的方式,几个人顿时心照不宣的笑了起来,气氛更加融洽起来。
乘着这个热乎劲,宁子默放下咖啡道,“既然大家都是年轻人,我就长话短说。但是说起来这话呢,又有些长了,这确实挺矛盾点额。”
宁子默平日里还是蛮喜欢搞笑的,只是年级略长一些的人一般都配合不来,倒是年轻人比较多的场合让宁子默不由地也用上笑话开场。
kaltix三人组闻言笑了笑,纷纷向宁子默示意继续。于是再端起咖啡杯的宁子默就像打开话匣子一样,拿着带路奇去见过的理查德宾先生扯起了大旗。
“去年我在迷茫的时候,有幸认识了以为叫做理查德宾的老人。那是以为传奇老者,在他过往的岁月里。他从一个普通的啤酒花商人,转而师从理查德施特劳斯学习音乐,最后又在战后转攻医学心脏病领域。
……理查德宾先生的的故事几乎跨越一整个世纪的所有年份。我征得他的同意后,想要在他的祖国德国开始创立我们的产品,并用他的名字为我们的搜索引擎命名。我想在他有生之年能作出一些成绩,让他看到我没有埋没他对我们的这份信任。”
宁子默向kaltix三人组添油加醋的将理查德宾先生的故事讲了一番,一些偷梁换柱的东西也被他悄然加了进去。
这两年时间的历练,宁子默也逐渐学会如何去讲故事。只要不违背原则的情况下,为那些加入团队的未来拍档们去讲理想、讲未来、讲情怀几乎是必不可少的部分。
画饼听起来很虚无,但它在某些时刻却有着大用处。如果这个方法可以吸纳到高端人才,宁子默并不介意腹黑一些。
而且这条拐带大拿的路,宁子默决定一直走到黑了!
“哇,酷~~~~~”
kaltix三人组在宁子默铺开那位传奇老者的故事时,就听得很入神。
无论是他推崇自己的啤酒花,
还是和老师理查德施特劳斯的不和,
还有最后他在心脏病领域的各种突破,
这些故事都让kaltix三人组眼中闪耀着一种叫做崇拜的东西。
顿了顿,宁子默才补充道,“这款搜索引擎叫做bing,如今它已经被开发完成,并使用爬虫对网络信息进行爬取。但是目前,我们的【bing】团队在搜索算法上碰到了问题。以至于我在搜索引擎的大数据划时代计划,碰到了阻碍。”
“而这些阻碍,”将手指从自己转向kaltix三人,宁子默郑重道,“就是我托霍夫曼找到你们这些搜索专家的主要原因。”
“大数据划时代计划?”赛普疑惑地沉吟着,末了他抬起头向宁子默问到,“听起来是一个很庞大的工程。”
“是的,是一个很庞大的工程。因为目前对于不了解搜索价值的人而言,搜索引擎只是给人们带来结果的窗口。但真正去讨论搜索引擎的价值,最能体现他价值的地方一定是大数据划时代的搜索引擎时代。
想一想,曾经我们在进行数据分析与统计时仅仅局限于数据库,在数据库中对数据表进行统计分析。并且受数据量和计算能力的限制,我们只能对最重要的数据进行统计和分析。
搜索引擎跳出了这个限制,它可以成为存储着全世界几乎所有可访问的网页,数目可能超过万亿规模,全部存储起来大约需要数万块磁盘的大型数据库。
虽然这件事看起来峰语已经在做了,但峰语对于未来的规划,并没有我想象中那么清晰。
因为再往下发展下去,我想让bing可以把科技、文化、知识、资讯、新闻对应的文字、图片、视频等林林总总的东西进行统一存储管理,形成整个人类的大型数据库。
它记录人类文明过往的所有资料,为向未来的发展提供各种各样的支撑条件。把它打造成为人类的诺亚方舟那样,去造福全人类。
我可以简单举几个阶段性的例子,例如大数据的某一个先期阶段-大数据应用的数据仓库时代。
而bing可以跳出数据库的概念去进行sql操作,实现数据统计与分析。也就是说,人们将在bing上用更低廉的价格获得比以往多得多的数据存储与计算能力。
我们可以把运行日志、应用采集数据、数据库数据放到一起进行计算分析,获得以前无法得到的数据结果,而企业的数据仓库也随之呈指数级膨胀。
你们想想,在数据仓库时代只要有数据几乎就一定要进行统计分析。如果数据规模比较大,我们就会想到要用大数据技术。而技术的发展同时又促进了技术应用,这也为接下来大数据应用走进数据挖掘时代埋下伏笔。
而在大数据应用的数据挖掘时代必定凌驾于大数据应用的数据仓库时代基础之上。举个例子,很早以前商家就通过数据发现,买尿不湿的人通常也会买啤酒,于是精明的商家就把这两样商品放在一起,以促进销售。
啤酒和尿不湿的关系,你们可以有各种解读,但是如果不是通过数据挖掘,可能打破脑袋也想不出它们之间会有关系。
在商业环境中,如何解读这种关系并不重要,重要的是它们之间只要存在关联,就可以进行关联分析,最终目的是让用户尽可能看到想购买的商品。
除了商品和商品有关系,还可以利用人和人之间的关系推荐商品。如果两个人购买的商品有很多都是类似甚至相同的,不管这两个人天南海北相隔多远,他们一定有某种关系。
比如可能有差不多的教育背景、经济收入、兴趣爱好。根据这种关系,可以进行关联推荐,让他们看到自己感兴趣的商品。
除了商品销售,数据挖掘还可以用于人际关系挖掘。六度分隔理论认为世界上两个互不认识的人,只需要很少的中间人就能把他们联系起来。这个理论在米国的实验结果是,通过六步就能联系上两个不认识的米国人。
未来像我们的【领赢】甚至【myspace】,各种各样的社交软件记录着我们的好友关系,通过关系图谱挖掘,几乎可以把世界上所有的人际关系网都描绘出来。
现代生活几乎离不开互联网,各种各样的应用无时不刻不在收集数据,这些数据在后台的大数据集群中一刻不停地在被进行各种分析与挖掘。
当然我们也可以举个高大上的例子,来说说理查德宾这位传奇相关的行业-医疗。
例如人类目前难以攻克的白血病和红斑狼疮,我们可以通过对病人的生活习惯、生长环境、dna、病情发展等信息的收集,将数据采集聚集在一起,把小特殊病理变成可供参考的大数据。
而后透过不断的数据挖掘,去分析这些病例的因由。那么科研人员对于这些不治之症,将拥有更多可参考性的依据,把原本很小的可能变成大概率可以突破的可能。
或许是让患有这些病情的人有了被治愈的可能,或许是让基因里包含潜在基因缺陷的胚胎在孕育的过程中避免来到人世后的痛苦。
这些分析和挖掘带给我们的是美好还是恐惧,完全要依赖大数据从业人员的努力。但是可以肯定不管最后结果如何,这个进程只会加速不会停止,而你我只能投入其中。
但无论如何这件事值得去做,甚至为了提高效率,我们可以将一些繁琐规律的工作交给人工智能去做,这又会让大数据时代发展到大数据应用的机器学习时代。
像刚刚的例子里,数据中蕴藏着规律,这个规律是所有数据都遵循的。过去发生的事情遵循这个规律,将来要发生的事情也遵循这个规律。一旦找到了这个规律,对于正在发生的事情,就可以按照这个规律进行预测。
在过去,我们受数据采集、存储、计算能力的限制,只能通过抽样的方式获取小部分数据,无法得到完整的、全局的、细节的规律。而未来有了大数据,就可以把全部的历史数据都收集起来,统计其规律,进而预测正在发生的事情。
这就是机器学习。
例如,我再举个例子,把历史上人类围棋对弈的棋谱数据都存储起来,针对每一种盘面记录何种落子可以得到更高的赢面。得到这个统计规律以后,就可以利用这个规律和人下棋。
每一步都计算落在何处将得到更大的赢面,于是我们就得到了一个会下棋的机器人,说不定哪一天这个机器人就会以几年的时间学习上千年的棋局后,通过共性和局部战略的学习,通过分析人类落子的意图分析以压倒性优势下赢了人类的顶尖棋手。”
也不管身边目瞪狗呆的四人,宁子默喝了口咖啡润了润喉咙,借着继续说到:
“在我讲完刚刚这些事例的时候,相信你们对于我脑中的搜索引擎已经有了一个更远期的看法。没错,它很庞大,它不止是一个可以向人们提供搜索结果的窗口,而是一个大数据时代的窗口。
bing要做的事情就是要把人类文明从诞生到发展至今说保留的所有信息都进行存储,让它成为一个庞大的数据库,让它为各行各业的人们提供可供查证的大量数据,让人类在行进的过程中少犯错误、少点痛苦。
但亦或许,那也只是我的痴心妄想。因为人性的贪婪,会让我们及时拥有这么先进的科技,仍旧避免不了那么多问题的存在。
但科技并没有错,完全要看我们应用的方法,以及我们这些从业者是否能拥有一把衡量公正的尺子。
我做不了那么多去衡量公正的事情,但我的有生之年,只想让科技更进一步,让我身边的团队为了人类文明去出一份力。
至于未来那个大时代到来后会成为什么样,我相信就算我老了,也依旧有无数有识之士能作出比我还杰出的事情。
让人类在前行的路上,依旧走着一条正确的路。”