导读
自图灵机出现以来,“机器能否像人一样思考?”这个问题指引着一代代研究者在智能计算的道路上进行探索。目前,机器智能呈现出井喷式发展,尤其以智能硬件、人工智能算法等领域为最。
01-清华团队推出“据意查句”神器
据意查句(WantQuotes) 是一款由清华大学自然语言处理实验室(THUNLP)发布的工具,只需要输入想要表达的意思,就能查询到名言,包括现代名句、古诗文和歇后语等。项目指导教师为孙茂松教授和刘知远副教授。WantQuotes能够快速从全世界的语料中找到你想要的句子,主要依靠的是一个超大的数据集和一个推荐模型。数据集包含了英语、现代汉语和文言文三大部分。其中,英语部分有6108个名言警句和126713个上下文文本段;现代汉语部分有3004句名言和408433个相关上下文;文言文部分有4438段文言典故(包括古诗)和116537段相关上下文。推荐模型方面,使用预训练的语言表征模型(BERT)作为句子编码器来学习名言警句和相关文本表示。
“据意查句”中“无语子”搜索
(图源:WantQuotes官网)
02-字节跳动发布新一代实时AI变声方案
语音合成作为人工智能的一个重要分支,旨在通过输入文字,由人工智能算法合成像真人语音一样自然的音频,该技术已被广泛的应用于音视频创作场景中。
字节跳动智能创作语音团队SAMI(Speech,Audio and Music Intelligence)近日发布了新一代的低延迟、超拟人的实时AI变声技术。与传统的变声不同,AI变声是通过基于深度学习的声音转换(Voice Conversion)技术来实现的,可以实现任意发音人的音色定制,极大程度地保留原始音色。
SAMI 的新一代AI变声系统对于复杂场景的适应性显著提升。这项声音转换服务可以支持云端在线服务形式的输出,也可以支持本地化部署。未来在虚拟人、短视频玩法、客服服务、直播互动玩法上有着很大的落地空间。
面向实时场景的声音转换优化模型
(图源:机器之心公众号)
03-会自己上网的AI!
Adept公司推出ACT-1模型
通用人工智能是AI领域努力的方向,其目标是构建出能够处理多种复杂任务、模拟人类行为的人工智能。随着Transformer大模型的出现,不同模态的数据处理逐渐统一到一个模型,这为通用型人工智能提供了有利的基础。在这一背景下,一个由Google Brain、DeepMind、Google Research研究员组成的创业团队——Adept,完成了人工智能迈向通用化的第一步。
2022年9月14日,该公司正式发布了利用Transformer架构训练出的建模人类使用网页过程的大模型,即ActionTransformer(ACT-1)。该模型借助Chrome插件的形式,能够获取网页情况,并通过点击、打字、滑动滚动条等操作,实现自动“上网”。
在使用中,用户只需在插件输入框中以自然语言的形式输入希望进行的操作,ACT-1模型便可以自动拆解任务并执行。在公司发布的使用案例中,展示了如何在网页上利用ACT-1查找合适的房屋、如何在表格中进行数据处理操作,以及针对事实性问题如何进行网页搜索等。另一方面,它具有更正自身操作的功能,用户可以针对错误操作进行反馈,以更正模型的操作结果。目前,该公司已将ACT-1网页插件开放使用申请。
ADEPT插件开放申请界面
(图源:ADEPT官网)
使用ACT-1进行房源查询和数据处理
(图源:ADEPT官网)
04-AI无文字语言的语音翻译,
小扎亲自演示翻译闽南语
世界上大约7000种已知的语言中,有40%没有标准的书写系统。这些没有文字的语言给现代机器学习翻译系统带来了一个难以解决的问题,因为翻译通常需要先将口头语言转换为书面文字,翻译后再将文字还原为语音。不过Meta公司近日宣布,已经通过其最新的开源语言人工智能(AI)解决了这个问题。
第一个由人工智能驱动的无文字语言的语音翻译系统
Meta 公司公布了“第一个由人工智能驱动的无文字语言的语音翻译系统”,该系统成功地翻译了闽南语。该系统是Meta公司人工智能项目的一部分,被称为“通用语音翻译器(UST)”。Meta公司在一份声明中说:“该翻译系统是Meta人工智能的通用语音翻译器项目的第一个里程碑,该项目专注于开发人工智能系统,提供所有语言的实时语音到语音翻译,甚至无文字语言。”该项目正致力于开发更多实时语音到语音的翻译,以便元宇宙居民更方便地互动。Meta CEO马克·扎克伯格在发布在Facebook上的视频里演示了应用该系统翻译闽南语,并表示Meta公司将对该工具进行开源,以便人们可以使用新的人工智能系统来翻译更多的语言。
无需人类标注的语音翻译模型
(图源:Meta)
05-一句话生成和修改3D模型:
Magic3D让AI建模更进一步
随着Diffusion模型的出现,AI生成2D图像的效果得到飞速的进步,这种方法是否能够用于自动化的生成3D模型,简化建模师的工作?部分研究人员对此进行了探索。
英伟达提出了Magic3D——一个可以从文字描述中生成3D的AI模型。这并不是第一个尝试利用AI生成3D模型的工作。2022年9月,由Google提出的Dream3D同样达到了从文本生成3D模型的效果,但Magic3D相比于原Google模型,生成模型的分辨率是原来的8倍,速度可达原Google模型的2倍。
该模型采用两阶段方法,由粗到细实现模型生成。第一阶段,模型利用已有的扩散模型eDiff-I,获得分辨率为64×64的图像,并利用Instant NGP模型对图像进行快速的粗3D模型生成。第二阶段,模型利用第一阶段获得的粗模型进行2D渲染,得到图像,并应用扩散模型实现512×512分辨率的图像生成,最终得到高分辨率3D模型。
Magic3D模型的两阶段处理过程
Magic3D的不同生成方式及其结果
(图源:机器之心)
06-吹一口气就可解锁智能手机
人们解锁手机,从初期的按键、图形解锁,慢慢发展到目前广泛应用的指纹解锁、声音解锁以及人脸识别等。日本的一项科学研究为智能手机解锁提供了另一种全新的方案——通过“吹一口气”就能解锁。
基于呼吸气味感知的个体认证的图形工作流程
(图源:Chemical Communications)
日本九州大学和东京大学科研团队合作,首次通过人工嗅觉传感器系统,对人呼吸中的化合物进行解析,进而实现验证个人身份的效果。他们利用16个通道化学电阻传感器阵列,结合机器学习技术制造出“人造鼻”,成功实现了97%以上的平均准确度。此外,该研究还展示了传感器数量对准确性和再现性的影响。
这项工作除了使得解锁手机更加便利外,还保证了手机数据的安全性,将来或可用于其他密码学领域,大幅提高其便利性与安全性。
文字 | 探臻科技评论社融媒体平台
排版 | 蒋润雨
审核 | 陈星安 程泽堃 刘轩 姜惠雯 田博文
联系我们
清华大学探臻科技评论社是清华大学服务国家战略科技发展,履行高水平科技自立使命,为培养关键核心领域青年领跑者创建的科技创新社团。《探臻科技评论》公众号定期推送世界科技前沿动态,以及来自清华大学学生发表的高质量前沿研究,旨在打造汇集尖端资讯的一站式平台。
投稿、转载、商务合作欢迎联系:techreview@mail.tsinghua.edu.cn
发出您专属的科技声音。