Hugging Face是一家人工智能和自然语言处理技术公司,致力于开发和提供最先进的自然语言处理技术和工具。
介绍
Hugging Face 开发了许多流行的自然语言处理工具和框架
- 官网:https://huggingface.co/
- github 仓库:https://github.com/huggingface
开源工具包括:
- transformers 用于 Pytorch、TensorFlow 和 JAX 的最先进的机器学习
- tokenizers Rust 开发,为研究和生产而优化的快速先进的标记器
- datasets 为 ML 模型提供的最大的即用型数据集中心,具有快速、易用和高效的数据操作工具
- accelerate 用 multi-GPU、TPU、混合精度来训练和使用 PyTorch 模型的简单方法
上述工具和框架可以帮助开发人员快速构建和训练自然语言处理模型,并实现各种任务,包括:
- 文本分类
- 问答
- 对话生成
- 特征提取
- 文本到图像
- 图像到文本
- 文本到视频
- 视觉问题回答
- 等
Hugging Face Hub 平台为自然语言处理社区提供了一个中心化的地方,使人们可以共享和发现各种自然语言处理模型和数据集。功能包括:
使开发人员可以更轻松地管理和使用自然语言处理模型,任何人都可以利用机器学习进行探索、实验、合作和构建技术。
NLP 任务分解:
Tokenizer:将文本分词、分字以及特殊字符(起始、终止、间隔,分类等,可以自己设计字符),称为token- 将分词(token)映射为计算机认识的
特征(向量) - 辅助信息生成,包括 mask 等
- 将分词(token)映射为计算机认识的
- 构建模型:一般如 BERT、GPT 等预训练模型
- 训练:使用自己的模型,训练模型(一般为参数微调)
API
- 获取 Token
- 以 facebook/wav2vec2-base-100h 为例,点击
Deploy->Inference API获取调用地址
开源实现
- OpenCSGs CSGHub 是一个开源平台,专为管理大语言模型(LLM)资产而设计,提供了高效管理 LLM 及其资产(如数据集、应用空间、代码等)的方式。用户可以通过网页界面、git 命令行、自然语言聊天机器人,或 CSGHub SDK 对 LLM 资产进行上传、下载、存储、校验和分发
最近更新
最新评论