一直在说, 用于训练大型语言模型的简体中文语料数量多但质量差. 我更好奇的是, 这部分数据质量是与哪部分对比的? 什么是质量差, 质量差在哪里, 什么是 "优质语料"?我一直认为语言和文字不存在高低贵贱, 只有其承载的信息才有. 如果简体中文这种语言, 这种文字已经可以用来代表一股信息流的质量好坏, 那才是真的文化奇观.而对于现如今的大型语言模型, 在我看来, 这其实就是刘慈欣写过的科幻小说「诗云」的现实版本:----------------------《诗云》中，一个高等外星文明为了写出超越李白的诗歌，穷尽了太阳系的大部分能量，列举出了所有可能的字词组合，最终，他们“借助伟大的技术，我写出了诗词的巅峰之作”，却还是选择了认输，因为他们“不可能把它们从诗云中检索出来”

一直在说, 用于训练大型语言模型的简体中文语料数量多但质量差. 我更好奇的是, 这部分数据质量是与哪部分对比的? 什么是质量差, 质量差在哪里, 什么是 "优质语料"?

我一直认为语言和文字不存在高低贵贱, 只有其承载的信息才有. 如果简体中文这种语言, 这种文字已经可以用来代表一股信息流的质量好坏, 那才是真的文化奇观.

而对于现如今的大型语言模型, 在我看来, 这其实就是刘慈欣写过的科幻小说「诗云」的现实版本:

----------------------
《诗云》中，一个高等外星文明为了写出超越李白的诗歌，穷尽了太阳系的大部分能量，列举出了所有可能的字词组合，最终，他们“借助伟大的技术，我写出了诗词的巅峰之作”，却还是选择了认输，因为他们“不可能把它们从诗云中检索出来”。《诗云》描述的是“技术与艺术的对抗”，这个主题语也是刘慈欣小说选集本出版社的宣传语。source
----------------------

理想已经照进现实, 也许我会花时间好好看看这本小说.

#吐槽 #AI #LLM

via CXPLAY's Memos

百度百科

诗云

《诗云》（又名《李白》）是由中国科幻作家刘慈欣发表于2003年3月份的《科幻世界》上的中篇小说，是刘慈欣“大艺术系列”之二，获得当年度中国科幻银河奖读者提名奖，后收录于《2003年度中国最佳科幻小说集》。《诗云》中，一个外星文明为了写出超越李白的诗歌，穷尽了太阳系的大部分能量，列举出了所有可能的字词组合，最终，他们“借助伟大的技术，我写出了诗词的巅峰之作”，却还是选择了认输，因为他们“不可能把它们从诗云中检索出来”。《诗云》描述的是“技术与艺术的对抗”，这个主题语也是刘慈欣小说选集本出版社的宣传语。