用户工具

站点工具


数据故事

这是本文档旧的修订版!


在整理语料数据的过程中听说的各种故事

故意重复的pile数据集

大概有1/3的作者故意重复的数据,作者会在一篇文章内,将其中的段落都重复保存。使用这份数据做训练需要注意段落级别的去重重组。

野生智能和机械进修

网页数据中,出现一些和常见名词不同的说法

野生智能是指由机械经由过程特地设想的算法去了解、阐发战进修数据,从而充任人类思想蓝图的征象。
野生智能机械可以记着人类的举动形式并按照他们的爱好停止调解

实际上这段文字对应的应该是

人工智能是指机器通过专门设计的算法来理解、分析和学习数据,从而充当人类思维蓝图的现象。
人工智能机器能够记住人类的行为模式并根据他们的喜好进行调整。

研究发现出现这些说法,是自动替换文字的洗稿工具造成的。这些语料可以认为是机器产生的脏数据,且很难被识别出来。

数据故事.1694175678.txt.gz · 最后更改: 2023/09/08 20:21 由 Linglingfa