语料收集分类
语料收集分类
该分类用于指导数据收集小组工作。 有兴趣贡献数据的同学,可以任选一个或多个分类进行相关联的语料收集。然后按照分类汇总提交。
歌词(现代)
诗、词、歌、赋等(歌只含古典、其他含古典和现代)
古文(文言文)
谜语
相声
笑话
日记
教育:作文(特指考试作文等习作)
教育:教材
教育:教案(课件、教案、预/学习笔记)
教育:习题
问卷/调查
跑团记录
剧本:跑团记录(含剧本杀)
剧本:剧本(含台词、各戏曲剧本、电影电视剧剧本)
剧本:演讲(含录音、口述转文本)
剧本:字幕
聊天记录
新闻稿
翻译(同时呈现至少2种语言)
小说:(该分类中的每一个顿号都作为单独的子分类)武侠小说、历史小说、推理小说、传记传奇小说、军事小说、言情小说、玄幻小说、科幻小说、网游小说、校园小说、穿越小说、魔幻小说、恐怖小说、轻小说
论文
法律文书:合同
法律文书:法律
法律文书:诉讼材料
政治(公文、公告、通知、政府工作报告等)
经济(年报、投资分析、市场分析等) 财务(资产、利润、现金表等)
特定网站(某个网页、论坛、博客等)
技术文档(产品说明书、技术标准、技术规范)
医学(处方、诊断报告、病历【划掉】、药物说明书等)
广告(海报、广告、宣传页等)
游戏
其它
语料收集分类.txt · 最后更改: 2023/09/22 20:27 由 MNBVC项目组