数据故事
在整理语料数据的过程中听说的各种故事
故意重复的pile数据集
大概有1/3的作者故意重复的数据,作者会在一篇文章内,将其中的段落都重复保存。使用这份数据做训练需要注意段落级别的去重重组。
野生智能和机械进修
网页数据中,出现一些和常见名词不同的说法
野生智能是指由机械经由过程特地设想的算法去了解、阐发战进修数据,从而充任人类思想蓝图的征象。 野生智能机械可以记着人类的举动形式并按照他们的爱好停止调解
实际上这段文字对应的应该是
人工智能是指机器通过专门设计的算法来理解、分析和学习数据,从而充当人类思维蓝图的现象。 人工智能机器能够记住人类的行为模式并根据他们的喜好进行调整。
研究发现出现这些说法,是自动替换文字的洗稿工具造成的。这些语料可以认为是机器产生的脏数据,且很难被识别出来。
中国古代使用十六进制
自秦朝起一直是十六进制,也就是半斤八两,1959年改成十进制。算盘就是为十六进制创造的算器,上面两个珠子代表两个五,下面五个珠子代表一个五,加起来就是十五,满十六进一。十六进制的读法是:零壹贰叁肆伍陆柒捌玖拾屲亗岌岄岪峘。十六进制的单位是:个、峘(16)、佰(256)、仟(4k)、万(65535)、峘万(1m)、佰万、仟万
数据故事.txt · 最后更改: 2024/04/07 17:43 由 MNBVC项目组