高效模型推理库，让openAI的语音识别提速30倍

内容分享6个月前发布

12 0 0

全能 AI 聚合平台免费

一站式接入主流 AI 大模型，支持对话 · 生图 · 生视频，即开即用

ChatGPT Claude Gemini Grok DeepSeek 通义千问 Ollama

AI对话 AI生图 AI视频

免费使用 →

高效模型推理库，让openAI的语音识别提速30倍

简介

该项目是一个Transformer模型高效推理库，重点在于适用于边缘运行推理的低成本、低能耗处理器。其中，tiny.en Whisper模型以30倍的实时速度运行转录语音，比最知名的实现快2倍。该项目可在GitHub上获取。

重点

该项目是一个Transformer模型高效推理库。
重点在于适用于边缘运行推理的低成本、低能耗处理器。
tiny.en Whisper模型以30倍的实时速度运行转录语音。
比最知名的实现快2倍。
该项目可在GitHub上获取。

链接
https://hub.baai.ac.cn/view/29868

可与ViT一较高下，DeepMind从稀疏转向Soft混合专家模型

简介

这篇论文介绍了一种名为Soft MoE的新模型，解决了稀疏混合专家模型（MoE）中的离散优化问题，同时可以提高模型的大小和性能，并在实验中证明了它的优越性。

重点

Soft MoE采用软分配而不是硬分配，速度较快且可以扩展至数千个专家模块。
Soft MoE是完全可微模型，没有token dropping和专家不平衡的问题。
Soft MoE L/16可以击败ViT H/14，在效率方面表现更好。
Soft MoE可以通过预训练，在小的主干下获得更高质量的模型。
Soft MoE在实现时间复杂度方面做出了优化，可以更好地分布式模型。
Soft MoE同时具有稀疏和密集的特点，也具有序列性。
Soft MoE在固定时间预算下性能比ViT更好。
Soft MoE的路由算法可以等价于稀疏MoE算法。

链接
https://hub.baai.ac.cn/view/29884

AI大模型落地不远了！首个全量化Vision Transformer的方法FQ-ViT（附源代码）

简介

本文介绍了一种实现高精度量化的Vision Transformer（ViT）部署方法FQ-ViT，能够显著降低模型推理复杂性，提高模型实时推理能力。该方法采用Power-of-Two Factor（PTF）来量化LayerNorm的输入，结合Log Int Softmax（LIS）提供更高的量化分辨率以及更有效的整数推理。论文和代码已经公开。

重点

Vision Transformer是将自然语言处理领域的Transformer应用到视觉领域的基础模型，近几年得到了大幅度的性能提升。
重点关注模型实时推理能力的应用场景中，大部分轻量化ViT仍无法与轻量级CNN相媲美的速度。
量化方法主要针对卷积神经网络，完全量化的Vision Transformer上会出现严重掉点。本文提出了一种全量化ViT的训练后量化方法FQ-ViT，能够实现高精度量化的ViT部署。
FQ-ViT采用Power-of-Two Factor（PTF）来量化LayerNorm的输入，结合Log Int Softmax（LIS）提供更高的量化分辨率以及更有效的整数推理。
实验表明，FQ-ViT方法能够显著降低模型推理复杂性，提高模型实时推理能力。

链接
https://hub.baai.ac.cn/view/29883

AI还有哪些可做的方向？平时最喜爱逛的几个大佬公众号

简介

推荐了10个专注分享最新AI热点的公众号，包括OpenMMLab、智车科技、自动驾驶之心、FightingCV、CV技术指南、视学算法、深度学习技术前沿、江大白、arXiv每日学术速递和计算机视觉研究院。

重点

推荐了10个专注分享最新AI热点的公众号；
这些公众号聚焦于计算机视觉、深度学习、自动驾驶、算法模型和技术等方向；
OpenMMLab提供最新CV资讯和强技术干货；
智车科技是一个专注于自动驾驶与ADAS技术的公众号；
自动驾驶之心主要关注计算机视觉、深度学习和AI模型部署等方向；
FightingCV专注于计算机视觉、多模态语义理解的最新论文解读和科研资讯分享；
视学算法专注于人工智能、自然语言处理、计算机视觉前沿研究分享；
计算机视觉研究院主要着重于技术研究和实践落地。

链接
https://hub.baai.ac.cn/view/29882

ICCV 2023 | 挖掘，学习再推理：跨模态的HOI语义相关性探索

简介

本文提出了一种双阶段HOI检测框架RmLR，利用结构化文本知识增强HOI检测器。通过重新挖掘策略和跨模态学习等方法，解决HOI检测领域中的交互信息丢失问题和多对多匹配问题。实验证明，该方法实现了最先进的性能。

重点

研究了双阶段HOI检测器中交互信息的损失，提出了重新挖掘策略来生成更全面的视觉表明。
利用跨模态学习方法和细粒度的对齐和知识迁移策略，解决了HOI-VLM中多个交互动作和多个文本之间的多对多匹配问题。
提高了跨模态学习过程在HOI检测领域的有效性，实现了最先进的性能。
需要持续研究如何从大模型中获取准确的、特定的人物交互关系，以及更多zero-shot和open-set HOI检测方法。

链接
https://hub.baai.ac.cn/view/29881

Nature封面｜AI无人机竞速击败人类冠军，将AlphaGo成果带到物理世界

简介

苏黎世大学开发的Swift利用深度强化学习，成功击败了无人机竞速世界冠军Alex Vanover等三位人类冠军。该比赛要求无人机在极限物理环境下完成任务，同时使用机载传感器估计速度和位置。

重点

Swift是由苏黎世大学开发的，利用了深度强化学习，成功击败人类冠军。
Swift使用VIO模块进行感知系统，并使用前馈神经网络进行控制策略。
比赛要求无人机在物理极限下飞行，同时仅在机载传感器估计速度和位置。
在比赛中，人类与Swift的表现存在较大差异，如Swift平均时间更短，方差更低，代表AI每圈都稳定追求更快圈速，而人类则会保持较慢的速度，降低碰撞的风险。
Swift的传感器延迟更低为40毫秒，但摄像头刷新率有限，人类使用的摄像头则120Hz。
Swift的感知系统会失效，如果改变比赛现场的光照环境。
作者认为，该研究可能会应用于其他物理系统，如自动驾驶汽车、飞机和机器人。
这是国际象棋的深蓝、围棋的AlphaGo之后的又一大突破。

链接
https://hub.baai.ac.cn/view/29880

图像隐藏：基于小波变换结合SVD分解实现数字水印攻击提取附Matlab代码

简介

介绍了一种基于小波变换结合SVD分解的数字水印攻击提取方法，以保护数字媒体内容，附有Matlab代码。作者热爱科研，在Matlab仿真开发方面有所涉猎。

重点

数字水印技术为数字媒体内容保护提供了一种重大方法。
小波变换和SVD分解结合是一种实现数字水印攻击提取的方法。
数字水印可以嵌入到图像的高频部分中，以实现隐藏和保护。
需要思考数字水印攻击可能遇到的问题，如图像压缩、旋转和噪声等，并设计相应的算法来应对这些问题。
数字水印技术仍需要不断改善和完善，提高其安全性和可靠性。
涉及Matlab代码，全文包含了部分作者项目示例涉及的主题，例如图像处理、路径规划、机器学习和深度学习、无人机应用、电力系统等。
可参考文献进行深入学习。
通过作者介绍，能够联系到其进行Matlab项目合作。

链接
https://hub.baai.ac.cn/view/29878

多元回归预测 | Matlab 秃鹰搜索算法优化随机森林(BES-RF)回归预测

简介

本文介绍基于秃鹰搜索算法优化随机森林(BES-RF)实现风电数据回归预测的方法和实验结果。

重点

介绍了随机森林(RF)算法原理及其在风电数据回归预测中的应用。
RF算法存在参数敏感性和计算复杂度较高的问题。
引入秃鹰搜索算法(BES)优化RF算法的参数设置和运行效率，并对BES-RF算法进行了真实风电数据集实验。
BES-RF算法在预测准确性和运行时间上都有明显的改善，与其他算法相比具有更好的性能和稳定性。 5.未来可进一步探究BES算法在其他领域的应用，并优化BES-RF算法参数选择方法以提高性能。

链接
https://hub.baai.ac.cn/view/29877

ELM分类基于鲸鱼算法优化核极限学习机WOA-KELM实现数据分类附matlab代码

简介

本文介绍了一种基于鲸鱼算法优化核极限学习机的数据分类方法，称作WOA-KELM，旨在提高分类的准确性和效率。作者提供了相应的matlab代码，并且分享了个人项目合作信息和笔者主页。

重点

本文介绍了一种基于鲸鱼算法优化核极限学习机的数据分类方法。
WOA-KELM通过优化核函数的参数，提高了数据分类的准确性和效率。
作者在文章中提供了相应的matlab代码，并分享了个人项目合作信息和笔者主页。
在WOA-KELM实验中，鲸鱼算法能够在搜索空间中找到更优的核函数参数，从而提高数据分类的性能。
WOA-KELM具有更高的分类准确性和更快的训练速度，可适用于处理各种类型的数据。
除了介绍WOA-KELM方法外，本文还提到了其他智能优化算法和分类方法的应用领域。
作者通过提供matlab电子书和数学建模资料，吸引读者关注个人主页。
作者还提供了代码获取、仿真咨询等服务，可以与其私信获取更多信息。

链接
https://hub.baai.ac.cn/view/29876

天数智芯天垓100在FlagPerf框架下Resnet50实践

简介

本文介绍了天数智芯利用FlagPerf框架适配ResNet50模型的具体步骤和性能测试过程。

重点

天数智芯是中国第一家通用GPU高端芯片及超级算力系统提供商，拥有自主研发的天垓100和智铠100芯片。
FlagPerf框架是智源联合各大AI软硬件厂商建立的开源评测引擎，支持评测AI硬件的训练和推理能力，已经适配了涵盖CV、NLP、语音、大模型等领域的近20个经典模型。
ResNet50作为ResNet残差网络的代表模型，可以实现搭建较深的网络结构。
适配步骤包括软件栈安装、添加适配配置代码、调整测试配置文件、新增性能监控脚本和记录训练结果信息等。
通过FlagPerf得到的模型评测结果是可复测的，不仅可以向客户提供性能参考数据，也能协助厂商明确产品优势和未来迭代方向，助力国产芯片蓬勃发展。

链接
https://hub.baai.ac.cn/view/29875

全球GPU缺口超40万张！算力之困，中国大模型有解了

简介

该报道介绍了大模型算力平台面临的挑战，以及浪潮信息推出的大模型智算软件栈OGAI的解决方案。OGAI提供全栈全流程的软件，包括集群系统环境部署、算力调度保障、大模型开发管理等，协助企业顺利跨越大模型研发应用门槛。

重点

大模型算力平台面临的挑战包括难以构建算力基础设施、周期长、效率低、训练中断、处理复杂等方面。
OGAI提供全栈全流程的软件解决方案，协助企业顺利跨越大模型研发应用门槛。
OGAI由5层架构组成，包括智算中心OS、PODsys、AIStation、YLink、MModel。每层功能解耦，使用灵活。
AIStation可实现高效分布式训练，实现秒级构建运行环境、合理的作业执行计划和训练稳定保障。
YLink提供数据治理、预训练、微调的工具链，包括数据生成、抽取、采集、格式转换、清洗工具等。
OGAI提供多模型纳管方案，包括数据集管理、模型纳管和评测，实现多版本、多类型的基础大模型与任务模型管理。
借助浪潮信息30余年的硬件行业积累和在AI服务器产品、算力系统优化方面的先发优势，OGAI解决了大模型算力平台的应用问题。
OGAI的推出促进了产业的进步，浪潮信息在AIGC产业机遇中必然留下浓墨重彩的一笔。

链接
https://hub.baai.ac.cn/view/29874

目标OpenAI！前谷歌CEO发起AI+Science登月计划

简介

前谷歌CEO Eric Schmidt正在成立一家大型的AI+Science非营利性创业公司，他聘请了两位卓越的科学家来领导这项非营利计划。Schmidt、Rodriques和White都信任，AI将改变未来的科学研究。他们将需要由核心AI研究人员和核心科学家组成的团队一起工作，并采用快速迭代周期，以构建能够利用前沿技术并为科学家带来实际价值的工具。

重点

前谷歌CEO Eric Schmidt正在成立一家大型的AI+Science非营利性创业公司，豪赌科学研究的未来。
Schmidt聘请了两位卓越的科学家来领导这项非营利计划，他们都信任AI将改变未来的科学研究。此计划以OpenAI为蓝本，但资金来源于Schmidt与妻子共同创立的Schmidt Futures。
AI+Science 登月计划形成科学见解和理论的基础是由如何收集、转化和理解数据来决定的。其中，数据的收集和分析是科学理解和发现的基础。
AI可以增强科学研究的设计和执行，通过优化参数和函数，自动化程序来收集、可视化和处理数据，探索大量候选假设以形成理论点。
最大的挑战之一是科学问题中假设空间的巨大，使得系统探索变得不可行。
AI时代的科学使用AI进行科学研究也并不意味着轻松随意，人工智能模型获得可靠注释的数据集是相当浩大的工程。
由AI驱动的AlphaFold成功解决了长达50年的蛋白质折叠问题。这说明人工智能解决具有挑战性的科学问题的潜力。
未来，对AI专业知识的需求将受到两股力量的影响，即将从AI的应用中受益的领域，以及AI智能工具的引入将会提升最先进的技术并创造新的机会。

链接
https://hub.baai.ac.cn/view/29873