数据故事
这是本文档旧的修订版!
pile数据集
大概有1/3的作者故意重复的数据,作者会在一篇文章内,将其中的段落都重复保存。使用这份数据做训练需要注意段落级别的去重重组。
野生智能和机械进修
网页数据中,出现一些和常见名词不同的说法
野生智能是指由机械经由过程特地设想的算法去了解、阐发战进修数据,从而充任人类思想蓝图的征象。野生智能机械可以记着人类的举动形式并按照他们的爱好停止调解
实际上这段文字对应的应该是
人工智能是指机器通过专门设计的算法来理解、分析和学习数据,从而充当人类思维蓝图的现象。人工智能机器能够记住人类的行为模式并根据他们的喜好进行调整。
研究发现出现这些说法,是自动替换文字的洗稿工具造成的。这些语料可以认为是机器产生的脏数据,且很难被识别出来。
数据故事.1690766833.txt.gz · 最后更改: 2023/07/31 09:27 由 MNBVC项目组