热线电话:13121318867

登录
首页职业发展在线学习:用大数据改英语作文
在线学习:用大数据改英语作文
2015-06-03
收藏

在线学习:用大数据改英语作文


5月31日下午,由百度新闻、36氪、新浪创业联合举办的“奇点大学中国区学员选拔大赛”10强选手,在北京恒通国际创新园内进行了中国区总决赛。从数百个参赛者中脱颖而出的10位创业者,展示了各自团队所处领域的前沿科技。

以下为批改网张跃在“奇点大学中国区学员选拔大赛”决赛现场的展示:

张跃:大家好,我叫张跃,来自批改网,我们知道全球有超过20亿人在学习英语,他们需要英语老师,批改网是他们的大数据英语老师,用机器来批改有重要的特征,客观化,实时化和个性化,最重要的特征是快,我们来看一下演示。

这是我们的首页,我们可以任意粘贴这篇文章,在传统的上面老师需要一到两分的时间,我们看看批改网上可以一秒重出现结果,这个上面有四个维度,实际上背后有192个维度,也就是说逻辑上您可以认为每篇作文有192个裁判进行打分,我们给学生分数,更重要的是告诉学生如何提高。我们每句话给出了按据点评。我们看这句话,像这个单词在本句中很少使用,建议修改,我们告诉了这个地方不对,可能您要问,什么是对的,我们继续往下看,这是英美用户的常用动词,这里延伸出了两个模型,第一错误在哪里,另外是解决错误的数据在哪里,借助这个学生可以进行自我交互的过程。我们看此时此刻我们的正在使用的状况,这是用户的实时日质,现在有哪些用户正在使用,第一栏是学生的名字,第二栏是学校的名字,另外是数字,意味着多少次,就是一遍一遍重复我刚刚给大家演示的动作,这一切都没有老师的介入,都是学生自行发生的,我们看的话,在座可能会有家长,你会发现为什么孩子喜欢玩游戏而不是喜欢做作业,因为游戏是闯关的,有挑战性,我们在这里分数对学生而言就是游戏的味道,就是不停的突破分数,给更高的刺激。

在互联网上大家都知道一个试错的原则,就是快速试错,小步迭代,也是这样一个原则。大家看到这个数据我们以前低估了学生的学习热情,为什么以前学生不学,是因为缺少了手段,如果给了这样的机会的话,学生很愿意。你看这里边有一个该一个上千次了,这是真实的数据,这里边学生所有的行为都记下来了,这产生了一个学生学习的大叔据,有了这个数据以后做对了什么,做错了什么,该学什么,都会进行相应的推荐。

这是刚才所看到的演示,我们可以看到学生的感觉是什么,对于学生而言就是提交批改,我们刚才看到打的分数,你可能要问这个分数准不准,就是分数的人工拟合度,我们的精度是92.03%,和南京大学的测试,和美国一个相比是92%的打分,这个市场是蓝海市场,包括学校和机构等用户,加起来年消费是超过百亿的市场。当然日本和韩国也有类似的需求和机会。

这个市场上我们的商业模式分为三个。第一个是工具,就是说我们批改服务多少钱一次,另外是用户的增值开发,另外是数据,这里边数据是核心的价值,汇报一个数据截止到2015年5月21号,累计批改的作文已经超过了一亿篇。注册用户,自从2011年6月28号上线以来,批改用户接近900万,预计到年底今年会达到1200万,我们的速度不是快的,而且推广方式是是地推为主。在高校市场的市场占有率超过了90%,可能会问为什么?或者是凭什么,做了什么东西能够做到让更多的用户选择了我们。确实也有一些我们自己有很独到的地方,比如说如何用语料库识别中式英文,注意,我把东西躲起来了。这是学中文的老外说的一句话,第一感觉是别扭。英美用户看到这句感觉和我们上一句很相似。

这是中式的英文,很多的报纸上的文章老美一看就是中国人写的,因为充斥着大量的这样的中式英文。我们看这个图,这是这个单词前面的分布图,红色是中国学生的用法,蓝色图是美国人的用法,我们可以看到有一些是不地道的用法,为什么?因为美国人根本不用。我们老师而言,更关心的是某一个错误是哪些同学在犯。还有这个例子,我们想知道中国哪些学生犯了这个错误。

我们可以很清晰的看到在中国大概二十多万,广东省一万四千多名,福建省是一万三千多名,可以追踪到哪一个学校,哪一个班,哪一个学生,哪一个作文里边犯了这样的错误,对我们教学是很大的支撑作用。比如说北京市教委对这样的数据很有兴趣,今年年初北京市教委和我们联合举办的北京市初中英语作文大赛,这是怀柔三中举办的活动,这是给获奖的同学发的奖状。

但是比赛的学生提供的不仅仅是奖状,还有大数据的诊断单。大家看到这个诊断单很熟悉,医院的诊断单就是这样的。想象一下去医院看病的经历,查各种的参数,目的是拿到你的各种数据。所以说在医院里边基本上现在已经做到了是什么就知道如何治疗,原则是诊断即治疗,至少80%的时间花在如何获取参数上,还有一个理念是军事的理念,就是发现即摧毁,对学习而言这两个理念同样的重要。尤其是英语这个学科。我们看看我们学习英语,又叫二语习得,有一个很重要的U型理论,核心理论是有一些错误不可避免去犯的,我举这个单词的例子,刚刚讲的时候一定是知道的,但是一段时间以后错误的写成这个单词,然后老师再告诉他,然后慢慢的回来,这是真正的了解。如理解这个现象呢?

在座的如果是家长可以提醒孩子这一点,以后当您发现您的孩子在犯错的时候,您应该高兴才对,为什么?犯错意味着正在成长。但是这条线告诉,他犯错的时候,必须有老师通知,否则的话无法完成U型反转,有家长会问,我们家孩子更聪明,更聪明不意味着不犯错,可能会出现别人孩子五次,你们家孩子是三次,但是是三还是二,你知道不知道,如果有精准的数据可以告诉你,你的孩子两次就够了,多了一次就是浪费。

这是衡水一中的学生高考之后晒了所做过的试卷两米多高,现实生活中是通过题海的方式野蛮的完成了这个过程,让自己错错错,对了为止,实际上这个东西是客观存在的,这个同学最终考上了清华大学,幸运的是清华大学正在使用批改网,包括北大、复旦等都在使用,除了浙江大学都在使用,当然也包括其他的学生,像清华这样的学校把批改网融入到了教学体系。

下一步我们做到10亿人,如何去做,我们中国的中小学有1.8亿人,我们近期在6个省市的一百三十多学校,这是当地最好的学校,中小学完全使用批改网,我们和黑龙江大学联合开发俄罗斯版本,和印度也是在合作,在中国发生的故事复制到日本去。

我创办批改网之前在微软,全德来自百度,负责抓取,这两位是来自金山,我们成立了英语写作联盟,全国最好的两所大学都在里边,目的是把中国所有的大学联合起来,共建写作大数据,今年清华出题,今天为止接近3000所学校,108万学生提交作文,我们发布的英语写作大数据蓝皮书,每年都会发布这样的蓝皮书,为中国的英语教学提供数据支撑,让学校知道我们在全国的水平,让学生知道自己的水平。

进一步提高大数据价值,在领导的关怀下,成立了北京市语言智能协同研究院,我被任命为执行院长,这里边有李德毅院士是我们的首席专家,我们也受到了媒体的持续关注和报道,科技日报报道我们当英语遇到大数据,这个主要报道了我们这个游戏因素,如何在娱乐中学习,在学习中娱乐,人民日报报告批改网,改变语言教学。在大数据时代重新定义英语学习的方式,下一步该学什么,该看什么,让数据告诉你,每一个人下次所做的作业是不一样的。教育部网站也推出了题目叫做智能技术帮助你自动改作业,批改网让英语学习更简单,谢谢大家。

主持人:非常精彩的演讲,关键是抓住了我们所有人的痛点,学习英语,每个中国人的梦想。我们进入三分钟的助阵嘉宾时间,我们这位助阵嘉宾已经来到了现场,大家非常熟悉的热烈掌声有请批改网的助阵嘉宾,CSDN和《程序员》创始人蒋涛老师,有请。请发表您的助阵演讲,注意三分钟的时间。

蒋涛:大家好,我是CSDN创始人,也是批改网的天使投资人,我是在上一轮泡沫破裂的时候,投的张跃,因为他当时做了一个产品叫聚库,就是把这些互联网上的所有跟英文相关的写作的资料聚合起来,我觉得对我这个土鳖特别有帮助,我在国外写英文邮件的时候不知道怎么样表达,这样的话通过例句去表达,我觉得这个产品很有价值,就投资了。当时泡沫了,没有人接下一轮,所以我觉得张跃非常有韧劲,坚持做下去,找到一条什么路呢?to B,面向企业,而且做的是最难的面向学校。

我当时说这个生意可能做不通,应该做to C的生意,但是没有资金了,这是非常不容易,做出了学生和老师都用的产品,老师说用了批改网了以后,改作文不烦了。也有学生改的一千多次,这是真正用大数据,技术的手段帮助我们更好的改变的教育的现状,这么多年学英语,为什么那么困难呢?跟我们的教育资源有关系,跟我们的教育手段也有关系,所以批改网做的一件非常了不起的事情,把老师和学生都真正的联合起来,另外基于大数据已经批改了一亿篇作业,有了这样的数据的基础,对于我们进一步改善整个的算法和帮助这些想学英语的同学们和朋友们提高英语都有巨大的价值。

我想它的价值像教育领域的大众点评,那个时候大众点评做起来很苦,但是后来移动互联网来了,大众点评有了巨大的发展,教育一开始做也很苦,但是现在累积了数据和老师和学生,我想他的价值在下一步会有非常大的空间,我也强烈推荐他去硅谷的奇点大学,把我们这项技术和国际的技术结合起来,美国也有很多的英文表达也有问题,因为是本土,也有很多的移民,另外全球有超过20亿的人在学习英语,可不可以让这项技术让全世界人学英文呢。另外反过来也帮助全世界人学中文,他们学中文也有自己的痛苦,所以我想把这个技术结合起来,对全世界学习第二语言的人都有帮助,这是我对他的帮助,谢谢,希望大家给他投一票。

主持人:非常感谢蒋涛老师的精彩的推荐,感谢,请后台休息。下面你的助阵嘉宾和自己的演讲都很精彩,我们看最后一个环节,五分钟的问答时间。

评委:我觉得学会特别优雅和得体的书面表达,至少是我个人一直在追求做得越来越好的事情,无论是中文还是英文,这一点特别谢谢,如果有东西可以帮助我们做得越来越好是非常好的一件事。不过我有两个好奇的点,第一个点是整个的语料库一开始在建立的时候过程中,是怎么样去做的,一开始最早期的语料是怎么样积累的,一开始的语料很少的话,没法去冷启动,非常的难。

第二个问题就是说想国际化我觉得特别好。但是现在的这个阶段做国际化除了那些基本的合作资源之外,在推广上有什么样的资源可以让这件事做成。

张跃:我们预料库主要分两个,一个是白预料库,什么是对的,就是英美用户写的人,另外是黑语料库,我们认为存在问题的。您注意到我们合伙人有一个人来自百度,负责采集,纽约日报,花儿报日报,我们每天采集,不关心说什么,我们关心他怎么说,我们借此跟踪英语的发展,我们每一篇中国学生的作文就是黑预料库,这是我们最大的价值,这是第一个问题。

另外您说国际化这一块,我们推动国际化的过程中,我们什么样的资源出现了,就去做了,比如说为什么和因特尔合作印度市场,原因很简单,因特尔负责全球教育的是印度人,他对我们有兴趣,他是印度人,他认为印度也是需要这个,所以先做印度市场。为什么做日本市场,日本想进中国市场,找合作伙伴,找到我们,他发现进入中国不如把我们进入日本做得更快更好。所以这样的资源出现以后,不是我们等到想做哪一个,而是等合适的资源出现以后再去做,印度和日本是我们下一个目标。

评委:我有一个问题,从刚才的问题往下问,他问你的是进入国际市场的策略,我想问的是语言学习和写作是需要有很多的功底的问题,你抓了很多的语料库,你想学日语、俄罗斯语等市场里边有没有难度需要去解决的。

张跃:不是有难度,是非常难。为什么?我说两个原因,第一个拿中国人来说,中文不像英文那么规范,这是第一点。第二点,我们答英语作文,我们团队认为机器欣赏不了一篇文章的美,为什么有人用这个软件呢,因为我们对英文书写没有到那一步,考四六级或者是高考,考英文会有模板的,比如说吸烟有害健康,就是说考作文不用你用英文表达你思想利益,而是准确的表达。而即便是达到这个要求是他的优势,我去测量他的某一个标准,我认为计算机很难理解文章的美,所以你刚才的问题来讲,语种这个问题非常难,中文也会非常难。

评委:你是怎么解决这个问题的?

张跃:其他的问题可能我铺解决,我认为英文市场足够大。

主持人:单点突破就好了。谢谢。

评委:有一个问题请教一下,我们现在已经通过批改积累了很大的语料库,包括对语意识别的能力,这些能力很语料库,除了批改,还有没有计划用在其他的领域中的应用。

张跃:是这样的,我觉得首先这个领域足够大,我们在大数据的时代标准学习是这样的先写作业,告诉你哪一步缺什么,每个人的成功路径都是不一样的,都是用数据来告诉你的,所以我觉得这个领域足够大,每一个学员是以数据为中心进行个性化的学习,每个人下一步都不一样。

主持人:时间到,进行任何有关语言学习的领域都会应用到你的技术,这是非常精彩的演讲。

数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询