不说谎的创新经济媒体,致力于发现创新公司,服务创新公司,旗下产品覆盖150万+新经济用户,单周全网分发量可达1500万,已完成真格基金、软银中国、险峰、BAI等顶级机构的5轮融资。
分享

告别传统翻译慢慢慢 他的机器翻译工具要做科技媒体的翻译官 获北极光投资

Atman的主要目标客户是科技媒体。

◆ Atman创始人马磊

文| 铅笔道 记者 邱晓雅

导语

传统的翻译都是交由翻译社,然后由人工操作,时效性、数量等都得不到保证。

去年年底,马磊和合伙人一起创立Atman。Atman是一款机器翻译工具,其翻译模型分为不同领域,比如政治领域、经济领域等。而后期每进入一个新领域,机器需要学习2周时间。

现阶段,Atman的方向是2B,并已完成政治、财经领域的优化。

马磊说,现在,Atman的主要目标客户是科技媒体。团队正马不停蹄地优化科技领域,预计于11月完成。

注: 马磊承诺文中数据无误,为其真实性负责,铅笔道已备份录音速记,为内容客观性背书。

从机器翻译切入

“我只待3年,待满3年就闪人。”2006年,初入微软研究院时,马磊对自己的Boss说道。此前,他刚刚经历了11轮面试,从大清早一直面试到天黑,才拿到Offer。

之所以这么说,是因为他早有一颗创业的心。“我从小就想创业。”

得偿所愿,2009年年底,他离开微软研究院,一脚迈进创业的大门,做的是基于内容搜索的在线教育。比如,用户搜索一个单词,就会出现含有该单词的音频、视频等。

然而,事与愿违,推广遇上难题。2009年是安卓刚兴起的一年,两个只懂技术不懂产品的创始人逆潮流而动做了光盘,眼睁睁地看着这阵风吹来又吹走。“如果做成App可能就对了。”

◆ Atman的男银们

错过了这阵风,马磊从心底里觉得:项目长不大了。2012年,他退出该项目,去了微软的互联网技术中心,从事互联网搜索相关工作。

期间,马磊也在思考着二次创业的方向。语音识别、图像识别均被否定。“这个已有人在做了,不管我们做得多好,用户也未必能感知到差异性。”

他打算从文字上深挖人工智能。但从哪个点切入呢?马磊的答案是机器翻译。

首先,翻译是跨越语言障碍的基础需求。“先不管这事儿能做成什么样,只要技术在进步,这事儿必须有人做。”

其次,机器翻译在未来3~5年会有大突破。“图像识别的目标非常明确,比如这是猫、那是狗;语音识别虽受噪音、方言等问题干扰,但语音的对应文字是明确的;机器翻译则不同,文字因受语境、文化等影响,意思会大不一样。”

最后,市场大。传统的翻译都是交由翻译社,然后由人工操作,时效性、数量等都得不到保证。“比如媒体行业可能希望五分钟拿到稿件,传统翻译是做不到的。”

去年9月,马磊在微软工作的同时,已一头扎进了机器翻译的研发。年底,他才从微软正式辞职,创立Atman。之后,Atman获得天使轮融资,投资方为北极光创投。

分领域的翻译模型

尽管如此,很多人对翻译市场还是一片唱衰。某日,马磊偶然看了深圳卫视《合伙中国人》的一期节目。恰巧,那期节目来了位做翻译项目的创业者。“他们是用众包的方式做人工翻译。”

他犹记得在节目里,投资大佬们(徐小平、熊晓鸥、姚劲波、李国庆、龙宇)普遍对该行业不看好,说:“有这个技术能力还不如干点别的呢。”

他听了心里很不是滋味。但每每回头看自己当初选择翻译市场的原因,他又会浑身充满力气。

产品研发在马磊看来并不难。但翻译需要符合中国的语法规范。比如英文中“I’m working at home”,翻译成中文,就需要把状语提前,“我正在家里工作”。

为了确保准确度及流畅度,需要强大的系统支撑。比如数据的预处理,每个翻译模型的肚子里都塞满了数据,如果这些数据的准确度及纯度不高,那么,翻译效果也不会太好。“就相当于你给小孩的都是充满错误的教材,你指望他能学成什么样呢?”

但是,语言的使用多多少少存在不规范之处,笔误、简写也时有发生,有的人为表示强调用了十几个感叹号,有的人中文、日文连着用,有的人把中文与英文的引号混着用……

于是,在人为地给机器喂完数据后,需要通过预处理过滤掉其中的噪音。以简化文本为例,如果一句话的后面有很多个语气词“啊”,系统自动检测后会将其简化。

此外,机器还可以自主学习。比如,用户在翻译时,如果出现了新知识,机器就会自己学习。

马磊表示,他不相信一个统一的模型可以解决所有领域的问题。这就好比一个医疗方面的翻译专家,在翻译时尚领域时需要了解时尚品牌等,在翻译体育领域时需要知道球星、球队等。

于是,Atman的翻译模型分为不同领域,比如政治领域、经济领域等。而后期每进入一个新领域,机器需要学习2周时间。

Atman于今年6月18日正式运营,马磊说,这是一个好日子。

服务科技媒体

由于政治领域数据的易规范化,所以在正式运营之前,Atman一直在该领域做优化和测试。

6月30日,马磊就政治领域在BLEU评分(BLEU评分是国际上通用的客观评测机器翻译质量的指标)上做了一次评测,得分为49.17,而同一时间谷歌在该领域的分数为39.8。

“如果用人工翻译的文章做评测的话,分数应该在65左右,这说明机器翻译的分数如果能接近60,就已接近人的水平了。”10月,谷歌经过更新后,BLEU评分达到50.94,而Atman则达52.73。

◆ BLEU评分对比图

现阶段,Atman的方向是2B。原因很简单:“想要好的效果,就需要高成本。而目前,2C是赚不了钱的。”

马磊暂定了2种收费方式,其一是按流量即字节收费,其二是年费制,不限量。

现在,Atman已完成政治、财经领域的优化。团队正马不停蹄地攻克科技领域,预计于11月优化完成。

◆ Atman翻译截图

马磊称,目前他主要想服务的客户是科技媒体,正在跟踪的已有5家。下一步,他坦言要多跟媒体打交道,以获取更多目标用户。

而关于2C,他说:“我们不会像谷歌、百度一样做单纯的API服务,而是包装得更丰富。我希望2C的产品也能盈利。”

/The End/

编辑   王  姝    校对  杨雨晨

您可能感兴趣的文章
发表评论

所有评论

邱晓雅

铅笔道记者

我是本文作者邱晓雅,一个关注企业服务、文娱行业的长腿少女,相关行业创业者求报道,咱们微信聊聊:564861946。

564861946
最近文章

联系创业者

close

创业者需要验证您的身份,请输入您的请求信息:

0/200

进入个人中心-联络人,即可查看请求结果

取消
确定

提示信息

close

您还未认证身份,暂时无法和ta联系!请尽快前往个人中心进行创投认证哦。

去认证咯
还是算了
联系方式
电话
拨打电话
邮箱
复制到剪切板
微信
复制到剪切板

查看所有联系人

下载铅笔道APP
下载铅笔道APP
下载铅笔道APP
下载铅笔道APP
关闭二维码