欢迎访问体育平台-信誉官网
体育平台-信誉官网

免费咨询电话:

15020217966

您的位置:主页 > 体育平台资讯 >

火狐体育新西兰企业家用 AI “拯救”毛利语帮助

作者:bob发布时间:2022-06-17 22:18

  在新西兰一个偏僻的村落小镇,一对土著同伴正在应战野生智能多是甚么,和它该当为谁效劳这一议题。新西兰最北端地域一座陈腐而灰色的修建的后屋里,开始进的野生智能计较机之一正在协助从头界说这项手艺的将来。

  TeHiku 传媒是一家由协作同伴彼得 - 卢卡斯 · 琼斯(Peter-Lucas Jones)和基奥尼 · 马赫洛纳(Keoni Mahelona)运营的非营利性毛利人播送电台,他们以 50% 的扣头价购置了这台机械,以锻炼本人的天然言语处置算法。现在两人的中心胡想是复兴毛利语,并接收他们地点集体的各类数据。

  马赫洛纳是夏威夷土著,在爱上了新西兰后假寓在这里,他笑着谈起了这类奇特的状况。 这台电脑就被放在凯塔亚的一个架子上,火狐体育就在如许一个潦倒穷困并具有大批土著生齿的烧毁之地。我想我们曾经有点低调了, 他说。

  该项目与野生智能行业典范运作方法完整差别。在已往的十年里,野生智能研讨职员以 越多越好 为教条将该范畴推向了新的极限:积聚更多的数据,天生更大的模子(即用这些数据锻炼的算法),以发生更好的成果。

  这类办法带来了明显的打破,但也招致了宏大本钱。各路公司永不断歇地发掘人们的面目面貌、声音和举动数据,以扩展停业额。经由过程来自全部生齿的数据而成立的野生智能模子,曾经使得少数族裔和某些集体被边沿化,即便他们仍极大地受制于该手艺的影响。

  多年来,愈来愈多的专家分歧以为,这些手艺打击正在反复着殖民汗青的形式。他们说,环球野生智能的开展正在使没有讲话权的集体和国度堕入瘠薄——这些社区和国度曾经被从前的殖民帝国贫穷化。

  这一点在野生智能和言语笔墨中尤其较着。 越多越好 的理念曾经缔造了具有壮大的主动完成和文本阐发功用的大型言语模子,如今被用于搜刮、电子邮件和交际媒体等一样平常收集效劳。可是,这些经由过程吸收大批互联网资本而成立的形式,也在加快言语文明的消逝,就像从前的殖民和异化政策一样。

  只要最通用的言语才有充足的利用者和充足的潜伏利润,而科技巨子则搜集它们所需的数据以助其开展。因而,在一样平常事情和糊口中对这些效劳的依靠,迫使一些集体利用主导言语,而不是他们本人的言语。

  在操纵野生智能协助再起毛利人的言语时,马赫洛纳和琼斯即这两位毛利人,想要做一些差别的工作。他们克制了资本限定,开辟了本人的野生智能言语东西,并创立了搜集、办理和庇护毛利人数据流的机制,免得在没有毛利人群体赞成的状况下利用。

  正如硅谷很多人所应对的 野生智能苦果 一样,琼斯和马赫洛纳的办法可觉得新一代野生智能指明门路,它不将边沿化的人仅仅视为数据工具,而是将他们从头建立为共享将来的配合缔造者。

  1840 年,英国声称奥特亚罗瓦即新西兰的毛利语名字,成为其殖民地后,英语逐步成为本地经济举动的通用语。1867 年,《外乡黉舍法案》使英语成为毛利人儿童能够利用的独一言语。作为更广范畴异化政策的一部门,黉舍开端侮辱、以至殴打那些试图利用毛利语的毛利门生。

  在接下来的几十年里,都会化突破了毛利人社区,减弱了文明和言语庇护的中间。很多毛利人也挑选分开,以寻觅更好的经济前途。在一代人的工夫里,说毛利语的毛利人比例从 90% 骤降到 12%。

  20 世纪 70 年月,毛利人集体的首领和举动人士震动于这一征象,冒死勤奋改变这一趋向。他们创立了儿童言语沉醉式黉舍和进修项目。他们走上陌头,请求毛利语和英语享有划一的职位。

  1987 年,本地当局经由过程了《毛利人言语法案》,颁布发表毛利语为一种官方言语。三年后,当局开端赞助创立毛利社区、或部落,和像 TeHiku 媒体一样的电台,其以毛利语公然播送,以进步该言语的提高性。

  我明天攀谈过的很多毛利人,某种水平上是用他们怙恃或祖怙恃能否说过毛利语,来认同本人的毛利人身份。在一个能打仗到代际言语文明传布的情况中长大,被以为是一种殊遇。

  言语文明存续的黄金原则是:在孩童期间经由过程一样平常打仗来进修它们。作为一个青少年或成年人,在学术情况中进修会更艰难。每一个部落的毛利语都有其共同的口音、习用语和地区汗青气势派头,而一本教科书凡是只传授一种或 尺度 的毛利语版本。

  换句话说,言语不单单是一种交换的东西。它表达了一种文明传统,由于它从怙恃传到后代,从后代传到下一代,并经由过程那些利用它和付与其意义的人而演化。言语被文明影响的同时也阐扬着影响,言语塑造了人际干系、天下观和自我认同。 这是我们的考虑和向相互表达自我的方法, 另外一名利用野生智能再起一种疾速灭亡言语的外乡手艺专家迈克尔 · 朗宁 · 沃尔夫(Michael Running Wolf)说。

  因而,庇护一种言语就是庇护一种文明汗青。但特别是在数字时期,要挣脱一种少数民族言语的下坡路,就需求不竭连结警觉。每个不撑持该言语的新交换方法都勒令人们挑选利用主导言语,或是抛却融入大都文明的时机。

  假如这些新手艺只能用西方言语,我们如今就会被解除在数字经济以外, 朗宁 · 沃尔夫说, 假如不克不及在数字经济中阐扬感化,那末我们的言语文明将真的很难兴旺开展。

  跟着野生智能的呈现,言语的再起如今正处于一个十字路口。这项手艺能够进一步建立主导言语的霸权职位,也能够协助少数民族言语进入数字天下,这也是琼斯和马赫洛纳捉住的机缘。

  早在琼斯和马赫洛纳开端这段路程之前,他们就在惠灵顿的泅水俱乐部成员集会烧烤时相遇了。两人一拍即合。马赫洛纳带着琼斯骑了一次远程自行车。 剩下的都是陈年往事了, 马赫洛纳说。

  2012 年,两人搬回了琼斯的故乡凯塔亚,琼斯成了 TeHiku 媒体公司的 CEO。因为其与世隔断,该地域仍旧是奥特亚罗瓦(即新西兰)经济最贫穷的地域之一,但一样,它的毛利生齿数目也是该国庇护得最好的处所之一。

  在其 20 多年的播送汗青中,TeHiku 公司曾经积聚了丰硕的电视音噪音频质料存档,包罗琼斯本人的祖母拉哈 · 莫罗亚(Raiha Moeroa)的灌音,她生于 19 世纪末,她的毛利语在很大水平上没有遭到殖民影响。

  琼斯看到了一个数字化档案的时机,并缔造了一个比力当代化的代际言语文明传布方法。大大都毛利人不再和他们的毛利部落糊口在一同,也不克不及依托四周的亲戚来停止一样平常的毛利语交换。但是,有了数字文馆,他们就可以够随时随地遵从前的晚辈们的毛利语。

  本地的毛利人部落许可琼斯持续促进这项事情,但需求一个处所在线寄存这些质料。他和马赫洛纳都不喜好把它们上传到 Facebook 或 YouTube 上,由于这将许可科技巨子们操纵贵重的数据 肆意妄为 。

  几年后,一些公司的确开端与说毛利语的人协作,以获得此类数据。比方,Duolingo 公司试图创立言语进修东西,然后将其在毛利人集体中推行。琼斯说: 我们的数据将被那些丢弃我们这些言语的人操纵,把它作为一种效劳卖给我们。 这就像拿走属于我们的地盘再卖回给我们一样, 马赫洛纳弥补道。

  独一的挑选是为 TeHiku 成立本人的数字托管平台。凭仗工程布景,马赫洛纳赞成指导这个项目,并参加了该公司,担当 CTO。

  数字平台成为 TeHiku 成立数据主权的第一步——群体经由过程这一战略追求对本人数据的管控,以确保对其将来的掌握。毛利人数据主权收集的结合开创人塔胡 · 库库泰(Tahu Kukutai)说,对毛利人来讲,对这类数据自治权的盼望植根于汗青。

  在最早的殖民地生齿普查中,在一系列消灭性的战役中,英国人杀死了数千名毛利人并充公了他们的地盘,以后英国搜集了有关部落数目的数据,以跟踪当局的异化政策的胜利与否。

  因而,数据主权是土著住民抵御的最新例子——阻挡殖民者、阻挡单一民族国度,如今又阻挡大型科技公司。 名词多是新的,语境多是新的,但数据主权成立在一个十分陈腐的汗青之上, 库库台说。

  2016 年,琼斯开端了一项新项目:在 90 多岁的毛利语利用者落空他们的言语和常识之前采访他们。他想创立一个东西,在每次采访都显现一个笔墨转录。然后,毛利语进修者将可以将鼠标悬停在单词和词组上看到它们的界说。

  但险些没人充足精晓这类言语能野生转灌音频。遭到像 Siri 如许的语音助手的启示,马赫洛纳开端研讨天然言语处置。 教电脑说毛利语是绝对须要的, 琼斯说。

  但 TeHiku 传媒面对着一个先有鸡仍是先有蛋的成绩。为了成立一个毛利语的语音辨认模子,它需求大批的转灌音频。为了转灌音频,它需求精晓这门言语的人,而这个群体人数太少,这也恰是模子一开端就想要补偿的。但是,有许多低级和中级毛利语利用者可以熟读毛利单词,可是不克不及从灌音中识别出来。

  因而,琼斯和马赫洛纳,和 TeHiku 传媒的 COO 苏珊娜 · 邓肯(Suzanne Duncan),设想了一个智慧的处理计划:与其转录现有的音频,不如让人们录下本人浏览一系列事前设想好的语句的灌音,以捕获该言语局部音域的声音。

  关于一个算法,这类办法获得的数据集利用起来没有不同。从这成千对万的语音和文本句子对中,该算法将学会辨认音频中的特定毛利语音节。

  该队颁布发表举办了一场角逐。琼斯、马赫洛纳和邓肯联络了他们能找到的每个毛利人社区集体,包罗一些传统的毛利跳舞团和毛利浮架独木舟竞速队,他们流露,提交灌音数目最多的团队,将得到 5000 美圆的大奖。

  全部毛利群体都发动起来了,合作变得剧烈起来。毛利人集体成员特 · 米辛加 · 科涅(Te Mihinga Komene),作为一位教诲家和操纵数字手艺复兴毛利语的提倡者,一人就灌音了 4000 个短语。

  款项并非独一的驱动力。人们承受了 TeHiku 传媒的愿景,并信赖它能庇护他们的数据。TeHiku 传媒说,‘关于你们给我们的数据,我们都是监护人的身份。我们会接收数据,但你仍旧具有你们音频的一切权,’ 米辛加说, 这是很主要的。这些代价观界说了我们的毛利人身份。

  在 10 天内,TeHiku 传媒从约莫 2500 人录制的约 20 万段灌音中搜集了总时长 310 小时的语音 - 文本对,这是野生智能范畴研讨职员不足为奇的到场度。 除毛利人构造,没有人可以做到, 迦利布 · 摩西(Caleb Moses)说,他是毛利人的数据科学家,他在交际媒体上理解了状况后参加了这个项目。

  虽然与凡是用于锻炼英语言语模子的不计其数小时的数据比拟,这些数据量仍旧很小,但这足以启动全部项目。操纵这些数据帮助指导 Mozilla 基金会现有的开源模子, TeHiku 传媒创立了第一个精确率为 86% 的毛利语语音辨认模子。

  从当时起,这类办法在其别人工智能言语手艺中开枝散叶。马赫洛纳、摩西和一个新组建的团队创立了第二种和第三种算法,别离用于主动标识表记标帜庞大的毛利语短语和向毛利语进修者供给发音精确性的及时反应。

  该团队以至测验考试了用语音分解手艺来创立相称于 Siri 的毛利语语音助手,虽然终极没有到达能够布置的质量请求。

  一起走来,TeHiku 传媒成立了新的数据主权和谈。像摩西如许的毛利人数据科学家仍旧很少,但那些来自社区以外的人不克不及为所欲为天时用这些数据。琼斯说: 假如他们想尝探索究这些数据,他们会问我们,而我们基于我们的代价观和准绳作出决议方法。

  这能够具有应战性。开源的、自在开展的数据科学文明常常与数据主权的完成各走各路,野生智能范畴文明也是云云。琼斯说,TeHiku 传媒偶然不能不回绝一些数据科学家的恳求,由于他们 只是想会见我们的数据 。如今,公司正追求经由过程练习项目和开放低级职位来培育更多的毛利人数据科学家。

  厥后,TeHiku 传媒经由过程其全新数字言语平台 PapaReo,开放了绝大部门东西的接口。公司还与毛利人指导的构造协作,好比教诲有限公司 Afed,后者正在开辟一款使用法式来协助毛利语进修者操练他们的发音。

  这推翻了传统划定规矩,Afed 公司开创人卡姆 · 斯威森 - 万加(Cam Swaison-Whaanga)说,他也在停止本人的毛利语进修之旅。门生们不再需求为在教室受骗着教师和同窗眼前高声语言而感应害臊。

  TeHiku 传媒也曾经开端与小范围的土著住民协作。在承平洋地域,很多人和毛利人有不异的波利尼西亚先人,他们的言语有配合的泉源。操纵毛利语数据作为根底,库克群岛的研讨职员可以锻炼库克群岛的初始言语模子,仅利用几十小时的数据就可以到达约莫 70% 的精确率。

  马赫洛纳说: 这不再仅仅是教电脑说毛利语了。 这是在为承平洋地域言语成立一个言语根底。我们都在勤奋连结我们言语的生机。

  但琼斯和马赫洛纳晓得,总有一天,他们将不能不与土著社区和构造以外的集体协作。假如他们想让毛利语真正无处不在——以至在 iPhone 和安卓体系上具有说毛利语的语音助手,他们就需求与科技巨子协作。

  固然你有才能在社区做很酷的语音辨认等等,但你得让集体里的人把它用起来, 凯文 · 斯坎内尔(Kevin Scannell)说,他是一名鞭策复兴爱尔兰言语的计较机科学家,他在本人的研讨中也在勤奋应对这类让步, 有一个可让你输入文本并输出语音的网站很主要,但这和让每一个人都能在手机上用起来并纷歧样。

  TeHiku 传媒正在为这类不成制止的状况做筹办。它创立了一个数据答应,按照毛利人的监护准绳,阐清楚明了将来协作的根本准绳。在答应范畴内只授与数据会见权限给尊敬毛利人代价观的构造,并将利用数据所得到的任何长处传回给毛利群众。

  该答应证还没有被 TeHiku 传媒以外的构造利用,关于其可施行性仍存在成绩。但这个设法曾经激起了其别人工智能研讨职员的灵感,好比 Mozilla 基金的 大众语音 项目里的凯瑟琳 · 西宇(Kathleen Siminyu),该项目无偿搜集语音数据,以成立用于差别言语的语音辨认的大众数据集。

  谷歌的野生智能伦理研讨团队前结合卖力人玛格丽特 · 米切尔(Margaret Mitchell)也赞成这一概念,该团队停止数据管束和一切权范畴方面的研讨。 这恰是我们想要普遍地为各类差别范例手艺所开辟的答应。我真的很想看到更多如许的工具, 她说。

  在某些方面,TeHiku 传媒很荣幸。毛利语能够操纵以英语为中间的野生智能手艺,由于它在字母表、声音和单词构造等枢纽特性上与英语有充足的类似性。毛利人也是一个相称大的土著群体,这使他们可以积聚充足的言语数据,并找到像摩西如许的数据科学家来协助理想他们的愿景。

  大大都其他社区还不敷大,不敷以发生这些荣幸的偶尔变乱, 杰森 · 爱德华 · 刘易斯(Jason Edward Lewis)说,他是一位数字手艺专家和艺术家,他配合构造了土著野生智能收集。

  与此同时,他说,TeHiku 传媒曾经成为一个强有力的证据,证实野生智能能够在硅谷富有的红利构造以外,由它该当效劳的人成立。

  这个例子曾经鼓励了其别人。迈克尔 · 朗宁 · 沃尔夫和他的老婆卡罗琳(也是一位土著手艺专家)正在勤奋为马卡人成立语音辨认。马卡人是承平洋西北海岸的土著住民,他们的言语只剩约莫十几人利用。

  使命是艰难的,马卡语是多词素综合性的言语,意义是一个单词,由多个相似于前缀和后缀的部门组成,能够表达全部英语句子。现有的天然言语处置手艺能够分歧用。

  在 TeHiku 传媒得到胜利之前, 我们以至没有思索过查询拜访马卡语, 卡罗琳说, 但当我们听到他们正在做的了不得的事情时,就像是在我们脑海里燃放的烟花:‘哦天哪,这终究有能够了。’

  基金会的西宇暗示,TeHiku 传媒的事情也为野生智能社区的其他成员带来了启迪。根据现今的行业运作方法,小我私家和集体很简单被褫夺权益;代价其实不发生自那些供给数据的人,而是那些拿走数据的人。 他们(科技巨子)以为,‘你的声音数据自己一文不值。它实践上需求我们如许有才能筹集数十亿美圆的机构,如许每一个数据才故意义,’ 她说。

  她弥补说,经由过程 TeHiku 传媒的这类方法,天然言语处置手艺 成为开端弄分明个人一切权怎样运作的一个很好的过渡方法 , 由于不论言语利用得有多普遍,这些言语都属于民族本身。

Copyright © 2002-2020 体育平台-信誉官网 版权所有

备案号:沪ICP备14049102号-2
1目录 2目录 3MU收录系统 4MU收录系统 5MU收录系统 6水族秒收录