(资料图)
国盛证券刘高畅在节目中表示,数据方面,高质量的中文语料库相对稀缺,会有一些误差率的问题;算力方面,训练端对算力的要求不是很极限,但应用端对算力的消耗非常显著。
以下为文字精华:
提问:除了算法,人工智能训练的时候也需要很大的算力,包括海量的数据,特别是我们中国跟海外的数据源可能还存在一些割裂。在算力和数据方面,我们和海外有多少差距?
刘高畅:数据方面,在GPT3以前用的都是互联网的公开数据,中文目前来看,客观的条件就是高质量的语料库相对来讲会稀缺一些。
在整个OpenAI的大模型中,我们了解到中文的语料库使用只有5%,从误差率的角度来讲,英文可能在2%—3%,中文大概在10%以上。用中文去测试ChatGPT,效果也不如英文。但是,我们也看到国内的高质量语料库在快速生成中,大家也在探索,包括知乎和万方这样的一些高质量语料库在形成。
大模型的数据还是以互联网公开数据为主,可能在写代码这个阶段,一些顶尖大厂比如微软,代码的水平会比较高,但是毕竟这一块只是小部分,我们推测起不了决定性的作用,应该不是特别大的瓶颈。OpenAI在去年GPT3.5的时候,大概用了45TB的数据,做模型数据集处理和倾斜的部分应该是不超过1TB的,所以其实是很少的数据,这一点不用特别担心。
算力方面,如果从训练端的角度来看,如果在GPT3以前,用2000张英伟达A100的算力,如果你训不出来成果,我们建议就不要去做了,说明这个团队水平有点问题。如果在GPT3.5以前,5000张如果训不出来,我们建议也不要再做训练了,说明这个团队多多少少有点问题。
我们认为在训练阶段,对算力的需求量没有那么极限,国内明面上和潜在的产业中的储备我们认为是够的。
应用端来看,做模型蒸馏和模型裁剪,把算力的消耗做到以前的90%,已经是很高的缩减度了。但是就这样的情况来看,算力还是会捉襟见肘,对未来算力的消耗还会非常显著,包括我们国家的一些晶圆代工和设计厂商,这也是他们需要努力的地方,其实是机遇也是挑战。
关键词:
上一篇:天天即时看!没眼看!蓝军五连败创30年最差 神灯这是拱火来了?
下一篇:最后一页
凡本网注明“XXX(非中国微山网)提供”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和其真实性负责。
在光伏硅料价格及碳酸锂价格下跌趋势中,储能赛道或成为最大受益群体。有熟悉储能产业的人士表示,2023年储
2023-04-27 07:45
经济日报头版文章称,关键核心技术必须牢牢掌握在自己手里。实现高水平科技自立自强,要求企业承担更大责任
2023-04-27 07:37
国际货币基金组织(IMF)驻华首席代表史蒂文·巴奈特在接受澎湃新闻旗下高端投资对话节目《首席连线》采访时
2023-04-27 07:39
今年以来,多只医药主题基金业绩表现喜人。业内人士表示,近期医药公司一季度营收业绩陆续披露,不少来自创
2023-04-27 07:42
近日,多只踩着2亿元底线成立的基金遭遇大额赎回,新发基金后续发展令人担忧。不少成立时间不长的基金已岌
2023-04-27 06:42
4月26日至27日举行的中国汽车动力电池产业创新联盟大会预计,2023年我国动力电池装车需求将达409 9GWh,同
2023-04-27 06:34
周三(4月26日)纽约尾盘,彭博谷物分类指数跌1 02%,报44 1871点,一度走软至44 1794点,逼近2022年7月22日
2023-04-27 05:35
周三(4月26日),标普公用事业板块收跌2 37%,工业、保健、能源、原材料板块跌幅介于1 87%-1 18%,金融板块
2023-04-27 05:26
今年以来,A股市场已有6家公司退市摘牌。其中,中航机电(002013)因吸收合并退市,ST凯乐、ST荣华、ST西源、
2023-04-27 05:46
4月26日,中国核能可持续发展论坛2023年春季国际高峰会议召开,中国核能行业协会发布《中国核能发展报告》
2023-04-27 05:32