设置

关灯

第2045章 AI改变世界 (4 / 8)

《关闭小说畅读模式体验更好》

        可是,数据是不能乱用的,只有公开数据或者开源数据,才能免费地供全球的开发者使用。

        全球有一个超大型的免费的数据库。

        什么语言都有,90%以上都是英文的语料库,中文语料数据也就是2%左右。

        全球几乎所有的AI模型,想要训练都要依靠着这些公开的数据内容才行。因为都是英文数据,所以这些AI模型,一定都是以英文为核心。

        所以当百度的文心一言推出之后,就会出现很多令人难以理解的事……其实原因很简单,文心一言使用的是英文数据,中文语料的数据实在是太少了。

        别看国内人多,但网络上真正有价值的内容实在不多,稍微出格一点,这些有价值的语料就要按法律法规给删除了。

        就剩下了一堆没法训练AI的垃圾内容。

        就比如,《大时代之巅》到底是一本怎样的书?

        如果有人说好,有人说不好,这些内容就都是有价值的内容,AI模型经过一番的训练和评估,从而给出比较客观公正的评价。

        如果作者想要维护评论区的和谐,把所有说好的内容都留下了,说差的内容都删除了,最后只剩下了一片赞歌,那么即便这些赞歌都是对的,这也是垃圾信息。

        因为对AI模型来说缺少了多元化的评判。

        内容未完,下一页继续阅读