中国开源软件网

当前位置: 首页 > 创业投资 >

只要20秒就能编码1GB文本,专注NLP的强大团队抱抱脸,资源

时间:2020-01-14 16:14来源:互联网 作者:小狐

赖可 发自 凹非寺

专注NLP的强大团队抱抱脸(hugging face)又发新资源!这一次是帮助NLP过程中,词语切分(tokenization)更快的 Tokenizers。

只要20秒就能编码1GB文本,适用Rust、Python和Node.js,已经在GitHub上获得了800多星。

前不久,这个团队也凭借自己的技术实力获得了1500万美元的天使投资。

速度快,功能多样

在NLP模型训练中,词语标记和切分往往是一个瓶颈。Tokenizer能够训练新的词汇,并且进行标记。

功能多样:适用于BPE/byte-level-BPE/WordPiece/SentencePiece各种NLP处理模型

可以完成所有的预处理:截断(Truncate)填补(Pad)添加模型需要的特殊标记。

速度超级快:只需要20秒就可以在CPU上标记1GB的文本。

目前适用三种编程语言:Rust/Python/Node.js

使用示例

只要20秒就能编码1GB文本,专注NLP的强大团队抱抱脸,资源(图1)

也可以用Tokenizers进行新词训练:

只要20秒就能编码1GB文本,专注NLP的强大团队抱抱脸,资源(图2)

虽然目前只可用于三种语言Python、JS、Rust,抱抱脸团队表示, ~

抱抱脸团队最新进展

只要20秒就能编码1GB文本,专注NLP的强大团队抱抱脸,资源(图3)

抱抱脸团队是一个创业团队。他们的Transformers是github上最火的NLP项目, 已经获得了20K星。

作为专注于自然语言处理的创业公司,他们的目标是一个可以使用文字、照片、表情包的聊天机器人,名字叫做social AI 。

目前已经经过了三轮融资,共2000万美元。其中,在2019年底的A轮融资中,公司获得了1500万美元,并打算将员工增加两倍。

目前公司尚未盈利。创始人Clement Delangue在获得A轮融资后表示,除了对话AI之外,公司正在构建通用的NLP技术,希望让NLP技术满足公司的多样化需求。

传送门

参考资料

新年福利 抽奖送小度智能音箱

只要20秒就能编码1GB文本,专注NLP的强大团队抱抱脸,资源(图4)

վ“ᴗ” ի 追踪AI技术和产品新动态

本文相关词条概念解析:

抱抱

抱抱是中国扶贫基金会吉祥物,寓意充满爱心的拥抱,“给予爱、接受爱”,同时谐音了包裹的“包”,因为爱心包裹不仅仅是一份包裹,更是全国人民的关爱和祝福。抱抱,需要人爱,也爱别人,活泼有爱心、坚强有恒心、善良有责任心,它用自己的爱心温暖他人,用自己的双手帮助他人,渴望拥抱,也给予拥抱,是为“抱抱”。

网友评论

相关文章