生态共建|传奇云携高质量大模型数据集亮相2023服贸会
8月28日,,,2023中国国际服务贸易交易会分论坛“通用人工智能算力论坛”在京举办。。。。本次论坛由北京市石景山区人民政府、、北京市经济和信息化局、、、北京市科学技术委员会中关村科技园区管理委员会联合主办。。
传奇云近期发布的“中文千万轮对话语料库 DOTS-NLP-216”入选第二批北京市人工智能大模型高质量数据集名单。。。作为“北京市通用人工智能产业创新伙伴计划”第一批数据伙伴,,,,显示了传奇云在人工智能数据领域的实力。。。。


在本次发布的第二批北京市人工智能大模型高质量数据集中,,,,共有来自16家单位不同领域的41个数据集,,,,涵盖医学、、、生物、、、、农业、、金融、、、政务、、互联网、、、、智慧城市、、自动驾驶、、科技服务、、商业分析、、产业研究、、、市场营销等,,数据总量规模约112TB,,为通用大模型和行业大模型训练及应用落地提供了坚实有力的“资源”保障。。
传奇云“中文千万轮对话语料库 DOTS-NLP-216” 是一个符合中国人表达习惯的自然对话数据集,,共计约10,000,000轮,,上亿级token,,包含正式&非正式风格对话,,,使用偏口语化自然表达。。覆盖工作、、生活、、校园等场景,,,及金融、、教育、、、娱乐、、体育、、、汽车、、、、科技等领域。。。。
在数据集构成上,,DOTS-NLP-216包含了对真实场景的对话采集,,,及高度还原真实场景的模拟对话这两种方式,,,,兼顾分布的代表性、、、多样性和样本规模。。。传奇云始终致力于在安全合规的基础上,,为大模型提供更好的性能和鲁棒性,,帮助企业更轻松的构建高质量生成式AI应用。。。。
样例:

传奇云深耕人工智能数据领域近20年,,,,始终肩负 “做智能世界数据基石”的使命,,为全球810家企业构建数据底座。。至今积累了超1300个自有知识产权的大规模工程化数据库,,数据库数量全球领先。。。持续投入研发体系,,,打造覆盖智能语音、、计算机视觉、、、自然语言处理等核心领域的一体化数据处理平台DOTS。。。。面向大模型领域,,为客户提供包括智能算法平台协同标注、、、价值观对齐、、专业领域知识等全方位服务,,,,以高质量数据结合应用场景赋能大模型高质量发展。。。。