时政·财经·军事 | 生活·家庭·娱乐 | 体坛·历史·科技 | 摄影·旅游·文化 | 移民·教育·就业 | 数码·健康·奇闻 | 评论·图片·视频
留园网首页 · 全球综合新闻首页 · 本地新闻首页 · 【繁體閱讀】 【网友评论:0条】 【 近期热评新闻排行榜 】 【 近期热门新闻点击排行 】   

中国正在大范围采集“声纹”数据库,听声音就知道你是谁

新闻来源: 美国时代杂志中文翻译 于 2017-12-06 9:37:43  敬请注意:新闻来自网络,观点不代表本网立场!



这几天,中国互联网大会正在乌镇召开,网上都在关注有几场饭局,谁没有参加,但其实这并不重要。

真正重要的是,伴随着人工智能时代的到来,个人隐私的界限变得越来越模糊,每个人的任何资料都可能被全部掌握,一举一动都将变成数据上传到云间。这篇文章讲述的是,中国在搜集“声纹数据”方面所进行的努力。



By PAUL MOZUR and KEITH BRADSHER

December 5, 2017


让特朗普开口说中文


在美国总统特朗普访问北京期间,他的形象曾出现在一个技术会议上。


结果,这段别出心裁的讲话视频里,特朗普先是用英语,然后居然换成了普通话。

当然,特朗普并不会说中文,这段视频是一个宣传花招,主要是想展示一款软件的语音功能。发明这款软件的是中国人工智能公司科大讯飞(iFlyTek),它既是一家创新公司,也与安全机构有关系。


科大讯飞曾说,其技术可用于有针对性的监听监视,能在坐满乘客的小汽车、或拥挤的房间里,准确识别出特定某个人的声音,并记录这个人所说的一切。


特朗普的形象在这条视频中,用中文说:“科大讯飞真是太棒了。”其实是人工智能自动合成的模仿特朗普语音。


在中国测试人工智能前沿应用的时候,中国科幻野心与人工智能的反乌托邦黑暗性紧密结合,科大讯飞成了的一个令人信服的例子。


中国人不在乎隐私


科大讯飞的图像和语音识别系统,用的是最先进的人工智能技术,这个系统可以帮助医生做诊断,帮助老师给考试卷打分,还可让司机用他们的声音来控制汽车。

柳传志在科大讯飞的发布会上视频致辞

就连一些全球企业,也对其表示钦佩:美国主要汽车供应商德尔福(Delphi),在向中国的汽车制造商提供科大讯飞的技术,大众汽车(Volkswagen)也打算在明年将这家中国公司的语音识别技术,用到为中国生产的许多型号的汽车上去。


当然,科技从来都是“双刃剑”。科大讯飞主持的一个实验室正在开发语音监听能力。该公司正在帮助中国建立一个中国人的语音生物统计数据库,这个数据库可用于跟踪特定人士和其他任何人。


与政府的这种紧密关系,可能会让科大讯飞及其他中国公司在这个新兴领域获得优势。


专家们说,中国政府的财政支持,为中国企业提供了大量的资源,中国没有得到严格执行的、未经实践检验的隐私法,让公司能获得大量的声音、面孔和其他生物识别数据,这些数据能帮助公司发展这方面的技术。


中国“没有西方企业所面临的严格的隐私法,中国人也不反对他们的数据被收集,因此被广泛的监控是中国的现实,”研究公司桑福德·C·伯恩斯坦(Sanford C. Bernstein)的分析师们今年11月在一份报告中写道。


数据何来?


中国企业会偶尔战胜竞争对手,科大讯飞已多次赢得语音识别、机器翻译比赛的大奖。


中国互联网搜索公司百度,开发出了一款具有与人相当的听懂讲话能力的软件,比微软早了两年。


今年,总部位于上海的初创公司依图,在美国政府主办的一个主要的人脸识别比赛中获得了第一名。

科大讯飞和其他中国公司都说,公司遵守中国法律,保护用户数据。但这些公司也一致认为,中国庞大的用户人数,加上政府专心致志地要主导这项新技术的努力,让他们处于优势地位。


“中国是与美国一起进入人工智能时代的,”科大讯飞董事长刘庆峰在北京的那个会上说。


“但由于拥有大量的用户、以及中国社会的优势,人工智能将在中国得到更快的发展,中国将在这个领域引领世界。”刘庆峰说。


而中国的媒体把科大讯飞描述为技术创新者和政府的合作伙伴。


《环球时报》报道,去年科大讯飞通过帮助警方识别骗子,防止了约5亿元人民币(约合7500万美元)的电信诈骗损失。报道引用一位官员的话说,收集声纹数据与采集指纹或用闭路电视摄像机进行监控录像类似,他的意思是,这种做法不侵犯人的隐私。


“我们与公安部门合作,锁定了罪犯的身份,”科大讯飞汽车业务部总经理刘俊峰在今年9月的一个会议上说。


尚不清楚科大讯飞从什么地方获取其数据,但中国移动是持有科大讯飞股权的公司之一,这家国有移动网络巨头拥有8亿多用户。


科大讯飞在数百万部中国移动的手机上预装其产品,并为中国移动经营热线服务。



中国人声纹数据被系统采集


据报道,科大讯飞已在其总部所在的安徽省建立了一个有70000个声纹的数据库。


该报道还说,警方已经开始采集声纹,就像他们采集指纹那样。报道中给的一个例子是,三名被怀疑是性工作者的女性的声音已被录入数据库,部分原因是她们曾被安徽警方逮捕。


中国媒体还报道说,安徽省将展开一项新行动,在语音通话中自动识别通缉犯的声纹,一旦发现将及时报警。

科大讯飞一直表示,不会停止自己的数据收集工作,尤其是在参与中国开发自动驾驶汽车的努力中。


“我们总在谈论大数据——汽车每天都产生许多图像数据,”科大讯飞汽车部门主管刘俊峰说。


多方消息表明,中国正在采集居民的“声纹”样本,建立全国声纹数据库,科大讯飞正在开发一种试验性监控系统,可以从电话通话中自动识别目标人声。


生物数据也在被采集


“中国一直在采集千千万万人民的声纹特征,但整个计划缺乏透明性,也没有法律规范采集目标或相关信息的用途,这样的数据太容易被滥用。”索菲?理查森(Sophie Richardson)说。


近年来,为了加强控制,中国不断加强利用生物特征技术,包括建构大规模生物特征数据库。相较于其他生物数据库,声纹数据库显然尚在起步,样本数量不多。截至2015年,主要试点地区之一的安徽省已经采集到7万份人声样本。


采集人声生物特征是中国建构“多模态”个人生物特征图像、采集更多数据的行动之一。

人声生物特征数据,将与数据库中的居民身份证号码联结,进而可联结其他生物特征和个人档案信息,包括民族、住址、甚至酒店订房纪录。


中国民众几乎不可能清除这些个人信息,或质疑这种采集个人信息的行为,更不可能因此获得赔偿。


和采集其他生物特征如指纹或DNA样本不同,个人根本察觉不到自己的声纹已被采集,也难以知道自己是否正被监听。


多份招标文件和报告显示,公安机关采集声纹时,将同时收集其他生物特征,包括指纹、掌纹、人像、尿液和DNA样本,做到信息采集“标准化”、“一体化”。


中国人的生物数据库不断推陈出新,但隐私权却远远滞后。例如,据安徽省某县级机关提报,有三名女性因被怀疑卖淫(其中两人并涉行政违规)而被采集声纹。


并无任何公开的政策可以说明创建或使用声纹数据库的理由,但据领导相关技术开发的学者在学术论文中指出,其目的是:协助从犯罪现场收集到的语音材料中指认出说话人的身份。


这种自动话者识别系统,已通过声纹鉴定侦破多起电信诈骗、毒品贩运、绑架勒赎和黑函恐吓等案件。


此外,中国又规定购买手机SIM卡等各项服务都必须经过“实名登记”(与身份证相连),匿名和隐私空间更加狭窄。


需要提醒的是,采集或使用生物特征数据并不必然违法,有时它确实是合理合法的办案手段。但在每一次采集、保留和使用生物特征时,都必须有充分的法律依据,范围尽量缩小,对所要满足的正当治安目的具有必要性,并合乎比例原则。


鉴于生物特征数据的敏感性,应当避免采集或利用这种信息,除非对侦办重大犯罪确有必要,而且不应用于轻微犯罪或行政目的,例如追踪流动人口。采集和使用都应该仅限于涉案人员,而不包括没有具体涉案的广泛人口。采集、使用和存储均绝对不应基于一个人的性别、性倾向、种族、族群、宗教或其他观点。个人应有权利知悉握有其何种生物特征数据。


科技业者也负有人权义务,应确保其产品和服务不被用于侵害,包括侵犯隐私和公正审判权利。



中国各区域对于声纹、指纹、血液等生物特征数据采集动作:


2012年,国家开始建设全国声纹数据库,并以安徽省为试点省份之一。


安徽省宣城市:2017年4月27日报告指出,为“有效掌握流动人口实际情况”,将采集辖区内农民工的声纹、指纹和血样;


新疆博乐市:2016年度报告书指出,为“加大流动人口信息采集”,该单位已添购14套声纹采集系统。


河南省郑州市:已对维族流动人口的声纹和其他生物特征进行全面采集。


新疆在申办护照时须采集生物特征,包括声纹样本。

科大讯飞是谁?


科大讯飞(Iflytek)公司成立于安徽省,是一家专注发展语音和说话人识别技术的国家级人工智能企业。

根据科大讯飞官网,该公司主要成就之一是建成全国第一个“海量语音自动说话人识别监控系统”。


其官网指出,该公司已协助公安部建成全国声纹数据库,并且是新疆和安徽指定的声纹采集系统供应商。


该公司和物证鉴定中心合作成立的“智能语音技术重点实验室”,已屡次协助安徽、甘肃、西藏和新疆等地“侦破刑案”。


该公司并表示有能力开发可识别藏语、维语等少数民族语言的人工智能系统。


科大讯飞官网称,已开发完成其他与声音有关的应用产品,包括“关键词检测”,网站并未说明所谓的“关键词”或安全威胁所指为何。


根据2013年8月提出的专利申请文件,该公司已开发出一套可以在电话网或互联网上发现“音频文件重复模式”的系统,可被用于“舆情监控”。


科大讯飞也开发出一系列文语转换(text-to-speech)和语音识别的商业性手机应用程序,包括一款专供中国安卓手机使用的语音支援应用软件。


该公司表示,该软件用户已达8.9亿人,足以提供海量语音数据集,可用来培训或改善该公司各种用途的语音识别软件,其中可能包括监控功能。


该公司的客户隐私声明虽然承诺维护保密性,但又说该公司可以“依据相关部门的要求”提供个人信息。


自动语音识别系统也有其他国家采用,包括在美国用来监控囚犯对外通话,在澳大利亚用来核对社会服务申请人的身分;西班牙警方则采集了3,500份以上的犯罪前科者语音样本。


但关于生物特征样本可以存储多久,可以如何分享、使用,或如何对其采集或使用提出申诉,并无任何法律指导原则或限制。虽然很多部门对于声纹采集订有行政或技术方面的内规,但内容大多并未公开。


对流动人口的生物特征采集,也常逾越法律规范。虽然有些省级法规授权地方政府采集流动人口的“基本数据”,但并未明确将生物特征列入应采集数据。


中国现行法也并未授权为行政违法案件采集个人生物特征数据,尽管这方面的规定可能正在改变中。


2017年初,中国发布《治安管理处罚法》修订稿,其中新增第112条,授权违反治安管理的行为人和被侵害人而采集其生物特征。




网编:网事随风

鲜花(0)

路过(0)

鸡蛋(0)
0 条

手机扫描分享
新闻内容出自转载,<头条ABC> toutiaoabc.com 对新闻内容不承担法律责任。若有侵权,请联系我们。
 
想说两句?直接写在下面吧
用户名:密码: [--注册ID--] 
 
新闻速递首页】【近期热门新闻】【近期热评新闻
前期相关精彩新闻
微信红包——支付宝红包——QQ红包——点卡充值
新闻速递首页·新闻网友报料区·返回前页
hits counter