-
KoBART:韩国BART的spearman MATLAB代码
资源介绍
spearman
的
matlab
生成
:rolling_on_the_floor_laughing:
科巴特
(B和A
idirectional
uto
-
Regressive
ransformers
T)是通过向某些输入文本添加噪声来再次恢复原始文本的自动autoencoder是一种学习形式。
韩语
BART(以下简称KoBART
)是一种韩语encoder-decoder语言模型,已经使用论文中使用的Text
Infilling噪声函数针对超过40GB的韩语文本进行了Text
Infilling
。
我们分发派生的KoBART-base
。
如何安装
pip
install
git+https://github.com/SKT-AI/KoBART#egg=kobart
数据
数据
#
句子
韩文维基
5M
其他语料库
0.27B
除了韩文*之外,还使用了新闻、书籍等各种数据来训练模型。
分词器
使用包中的Character
BPE
tokenizer进行Character
BPE
tokenizer
。
vocab大小为30,000,通过添加以下表情符号和表情符号,增加了相应令牌的识别能力,这些表情符号和表情符号在对话中经常使用