Atman的主要目标客户是科技媒体。
◆ Atman创始人马磊
文| 铅笔道 记者 邱晓雅
►导语
传统的翻译都是交由翻译社,然后由人工操作,时效性、数量等都得不到保证。
去年年底,马磊和合伙人一起创立Atman。Atman是一款机器翻译工具,其翻译模型分为不同领域,比如政治领域、经济领域等。而后期每进入一个新领域,机器需要学习2周时间。
现阶段,Atman的方向是2B,并已完成政治、财经领域的优化。
马磊说,现在,Atman的主要目标客户是科技媒体。团队正马不停蹄地优化科技领域,预计于11月完成。
注: 马磊承诺文中数据无误,为其真实性负责,铅笔道已备份录音速记,为内容客观性背书。
从机器翻译切入
“我只待3年,待满3年就闪人。”2006年,初入微软研究院时,马磊对自己的Boss说道。此前,他刚刚经历了11轮面试,从大清早一直面试到天黑,才拿到Offer。
之所以这么说,是因为他早有一颗创业的心。“我从小就想创业。”
得偿所愿,2009年年底,他离开微软研究院,一脚迈进创业的大门,做的是基于内容搜索的在线教育。比如,用户搜索一个单词,就会出现含有该单词的音频、视频等。
然而,事与愿违,推广遇上难题。2009年是安卓刚兴起的一年,两个只懂技术不懂产品的创始人逆潮流而动做了光盘,眼睁睁地看着这阵风吹来又吹走。“如果做成App可能就对了。”
◆ Atman的男银们
错过了这阵风,马磊从心底里觉得:项目长不大了。2012年,他退出该项目,去了微软的互联网技术中心,从事互联网搜索相关工作。
期间,马磊也在思考着二次创业的方向。语音识别、图像识别均被否定。“这个已有人在做了,不管我们做得多好,用户也未必能感知到差异性。”
他打算从文字上深挖人工智能。但从哪个点切入呢?马磊的答案是机器翻译。
首先,翻译是跨越语言障碍的基础需求。“先不管这事儿能做成什么样,只要技术在进步,这事儿必须有人做。”
其次,机器翻译在未来3~5年会有大突破。“图像识别的目标非常明确,比如这是猫、那是狗;语音识别虽受噪音、方言等问题干扰,但语音的对应文字是明确的;机器翻译则不同,文字因受语境、文化等影响,意思会大不一样。”
最后,市场大。传统的翻译都是交由翻译社,然后由人工操作,时效性、数量等都得不到保证。“比如媒体行业可能希望五分钟拿到稿件,传统翻译是做不到的。”
去年9月,马磊在微软工作的同时,已一头扎进了机器翻译的研发。年底,他才从微软正式辞职,创立Atman。之后,Atman获得天使轮融资,投资方为北极光创投。
分领域的翻译模型
尽管如此,很多人对翻译市场还是一片唱衰。某日,马磊偶然看了深圳卫视《合伙中国人》的一期节目。恰巧,那期节目来了位做翻译项目的创业者。“他们是用众包的方式做人工翻译。”
他犹记得在节目里,投资大佬们(徐小平、熊晓鸥、姚劲波、李国庆、龙宇)普遍对该行业不看好,说:“有这个技术能力还不如干点别的呢。”
他听了心里很不是滋味。但每每回头看自己当初选择翻译市场的原因,他又会浑身充满力气。
产品研发在马磊看来并不难。但翻译需要符合中国的语法规范。比如英文中“I’m working at home”,翻译成中文,就需要把状语提前,“我正在家里工作”。
为了确保准确度及流畅度,需要强大的系统支撑。比如数据的预处理,每个翻译模型的肚子里都塞满了数据,如果这些数据的准确度及纯度不高,那么,翻译效果也不会太好。“就相当于你给小孩的都是充满错误的教材,你指望他能学成什么样呢?”
但是,语言的使用多多少少存在不规范之处,笔误、简写也时有发生,有的人为表示强调用了十几个感叹号,有的人中文、日文连着用,有的人把中文与英文的引号混着用……
于是,在人为地给机器喂完数据后,需要通过预处理过滤掉其中的噪音。以简化文本为例,如果一句话的后面有很多个语气词“啊”,系统自动检测后会将其简化。
此外,机器还可以自主学习。比如,用户在翻译时,如果出现了新知识,机器就会自己学习。
马磊表示,他不相信一个统一的模型可以解决所有领域的问题。这就好比一个医疗方面的翻译专家,在翻译时尚领域时需要了解时尚品牌等,在翻译体育领域时需要知道球星、球队等。
于是,Atman的翻译模型分为不同领域,比如政治领域、经济领域等。而后期每进入一个新领域,机器需要学习2周时间。
Atman于今年6月18日正式运营,马磊说,这是一个好日子。
服务科技媒体
由于政治领域数据的易规范化,所以在正式运营之前,Atman一直在该领域做优化和测试。
6月30日,马磊就政治领域在BLEU评分(BLEU评分是国际上通用的客观评测机器翻译质量的指标)上做了一次评测,得分为49.17,而同一时间谷歌在该领域的分数为39.8。
“如果用人工翻译的文章做评测的话,分数应该在65左右,这说明机器翻译的分数如果能接近60,就已接近人的水平了。”10月,谷歌经过更新后,BLEU评分达到50.94,而Atman则达52.73。
◆ BLEU评分对比图
现阶段,Atman的方向是2B。原因很简单:“想要好的效果,就需要高成本。而目前,2C是赚不了钱的。”
马磊暂定了2种收费方式,其一是按流量即字节收费,其二是年费制,不限量。
现在,Atman已完成政治、财经领域的优化。团队正马不停蹄地攻克科技领域,预计于11月优化完成。
◆ Atman翻译截图
马磊称,目前他主要想服务的客户是科技媒体,正在跟踪的已有5家。下一步,他坦言要多跟媒体打交道,以获取更多目标用户。
而关于2C,他说:“我们不会像谷歌、百度一样做单纯的API服务,而是包装得更丰富。我希望2C的产品也能盈利。”
/The End/
编辑 王 姝 校对 杨雨晨
联系创业者
进入个人中心-联络人,即可查看请求结果
您还未认证身份,暂时无法和ta联系!请尽快前往个人中心进行创投认证哦。