<?xml version="1.0" encoding="UTF-8"?>
<!-- generator="FeedCreator 1.8" -->
<?xml-stylesheet href="https://wiki.mnbvc.org/lib/exe/css.php?s=feed" type="text/css"?>
<rdf:RDF
    xmlns="http://purl.org/rss/1.0/"
    xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
    xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
    xmlns:dc="http://purl.org/dc/elements/1.1/">
    <channel rdf:about="https://wiki.mnbvc.org/feed.php">
        <title>MNBVC-Wiki</title>
        <description></description>
        <link>https://wiki.mnbvc.org/</link>
        <image rdf:resource="https://wiki.mnbvc.org/lib/exe/fetch.php/wiki:dokuwiki.svg" />
       <dc:date>2026-04-09T10:50:15+00:00</dc:date>
        <items>
            <rdf:Seq>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/1pb_store_plan_v1?rev=1756435815&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E7%88%B1%E5%87%91%E7%83%AD%E9%97%B9%E7%9A%84%E5%A4%96%E8%A1%8C%E4%B8%80%E4%B8%AA?rev=1748848671&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E8%B8%A9%E5%9D%91%E8%AE%B0%E5%BD%95?rev=1769218824&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E5%A4%84%E7%90%86%E6%96%87%E6%9C%AC%E4%B8%AD%E6%95%85%E6%84%8F%E5%8A%A0%E5%85%A5%E5%B9%B2%E6%89%B0%E6%B7%B7%E6%B7%86%E7%9A%84%E6%95%B0%E6%8D%AE?rev=1748848666&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E5%A4%A7%E5%9E%8B%E6%9C%BA%E7%BF%BB%E4%BB%BB%E5%8A%A1%E5%88%86%E5%8F%91%E4%B8%8E%E9%83%A8%E7%BD%B2?rev=1748848666&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E4%BB%A3%E7%A0%81%E8%AF%AD%E6%96%99%E5%B0%8F%E7%BB%842024%E5%B9%B4%E5%B9%B4%E5%BA%A6%E5%B7%A5%E4%BD%9C%E6%80%BB%E7%BB%93?rev=1748848665&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E4%BB%A3%E7%A0%81%E8%AF%AD%E6%96%99%E5%B0%8F%E7%BB%842025%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93?rev=1770291605&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E5%8D%95%E4%B8%AA%E5%AD%97%E8%8A%82%E4%B8%A2%E5%A4%B1%E5%AF%BC%E8%87%B4%E7%9A%84gbk--_utf8%E5%87%BA%E9%94%99%E7%9A%84%E7%A0%94%E7%A9%B6?rev=1748848665&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E5%8D%95%E4%B8%AA%E5%AD%97%E8%8A%82%E4%B8%A2%E5%A4%B1%E5%AF%BC%E8%87%B4%E7%9A%84gbk%E8%BD%AC%E6%8D%A2%E7%BC%96%E7%A0%81%E5%87%BA%E9%94%99%E7%9A%84%E7%A0%94%E7%A9%B6?rev=1748848665&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E7%9F%AD%E6%96%87%E6%9C%AC%E6%97%A0%E6%B3%95%E6%AD%A3%E7%A1%AE%E6%A3%80%E6%B5%8B%E7%BC%96%E7%A0%81%E7%9A%84%E9%97%AE%E9%A2%98?rev=1748848671&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E5%AF%B9%E9%BD%90%E7%AE%97%E6%B3%95?rev=1748848667&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E5%AF%B9%E5%A4%96%E6%B2%9F%E9%80%9A%E8%AE%B0%E5%BD%95?rev=1759127497&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E5%A4%9A%E6%A8%A1%E6%80%81%E8%AF%AD%E6%96%99%E5%B0%8F%E7%BB%842025%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93?rev=1769845087&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E5%A4%9A%E6%A8%A1%E6%80%81%E8%AF%AD%E6%96%99%E5%B0%8F%E7%BB%84%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93%E6%8A%A5%E5%91%8A?rev=1748848666&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E7%AE%80%E7%B9%81%E4%BD%93%E8%BD%AC%E6%8D%A2%E5%B7%A5%E5%85%B7?rev=1748848671&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E5%BB%BA%E7%AB%8Bppl%E5%B0%8F%E6%A8%A1%E5%9E%8B%E7%94%A8%E4%BA%8E%E7%BC%96%E7%A0%81%E6%A3%80%E6%B5%8B?rev=1748848667&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E9%94%9F%E6%96%A4%E6%8B%B7%E7%9A%84%E9%97%AE%E9%A2%98?rev=1748848672&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E5%8E%86%E6%AC%A1%E6%B3%95%E5%BE%8B%E9%97%AE%E9%A2%98%E8%AE%A8%E8%AE%BA?rev=1757302711&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E6%89%B9%E9%87%8F%E5%B9%B6%E8%A1%8C%E8%BD%AC%E6%8D%A2doc%E5%92%8Cwpf%E4%B8%BAdocx?rev=1748848668&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E5%B9%B3%E8%A1%8C%E8%AF%AD%E6%96%99%E5%B0%8F%E7%BB%842024%E5%B9%B4%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93?rev=1748848667&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E5%B9%B3%E8%A1%8C%E8%AF%AD%E6%96%99%E5%B0%8F%E7%BB%842025%E5%B9%B4%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93?rev=1768823178&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E6%A0%87%E5%87%86%E5%8C%96%E5%B0%8F%E7%BB%842024%E5%B9%B4%E5%BA%A6%E5%B7%A5%E4%BD%9C%E6%80%BB%E7%BB%93?rev=1748848669&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E5%AD%98%E5%82%A8_%E5%88%86%E5%8F%91_%E5%B0%8F%E7%BB%842024%E5%B9%B4%E5%B9%B4%E7%BB%88%E6%80%BB%E7%BB%93?rev=1748848669&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E5%AD%98%E5%82%A8_%E5%88%86%E5%8F%91_%E5%B0%8F%E7%BB%842025%E5%B9%B4%E5%B9%B4%E7%BB%88%E6%80%BB%E7%BB%93?rev=1768822993&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E6%89%93%E5%8C%85%E5%B0%8F%E7%BB%84%E5%B8%B8%E7%94%A8shell%E5%91%BD%E4%BB%A4?rev=1758857087&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E5%8F%91%E5%B8%83%E5%B0%8F%E7%BB%842024%E5%B9%B4%E5%BA%A6%E5%B7%A5%E4%BD%9C%E6%80%BB%E7%BB%93?rev=1748848668&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E5%8F%91%E5%B8%83%E5%B0%8F%E7%BB%842025%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93?rev=1770000535&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E6%95%85%E4%BA%8B?rev=1748848669&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E6%B8%85%E6%B4%97%E5%B0%8F%E7%BB%842024%E5%B9%B4%E5%BA%A6%E5%B7%A5%E4%BD%9C%E6%80%BB%E7%BB%93?rev=1748848669&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E6%94%B6%E9%9B%86%E5%B0%8F%E7%BB%842024%E5%B9%B4%E6%80%BB%E7%BB%93?rev=1748848669&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E6%8F%90%E4%BE%9B%E4%B8%8D%E5%90%8C%E8%AF%AD%E7%A7%8D%E4%B8%AD%E5%87%BA%E7%8E%B0%E9%A2%91%E6%AC%A1%E6%9C%80%E9%AB%98%E7%9A%84%E5%AD%97%E7%AC%A6%E7%BC%96%E7%A0%81?rev=1754747887&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E6%B7%BB%E5%8A%A0%E5%9F%BA%E4%BA%8Epython_cp936%E7%9A%84%E6%94%AF%E6%8C%81?rev=1748848670&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E6%B1%AA%E6%B4%8B%E5%A4%A7%E6%B5%B7%E6%B4%BB%E5%8A%A8?rev=1748848670&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E6%B1%AA%E6%B4%8B%E5%A4%A7%E6%B5%B7%E9%A1%B9%E7%9B%AE2025%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93?rev=1770263263&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E6%B1%AA%E6%B4%8B%E5%A4%A7%E6%B5%B7%E5%B0%8F%E7%BB%84%E5%B7%A5%E4%BD%9C2024%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93%E6%8A%A5%E5%91%8A?rev=1748848670&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E9%97%AE%E7%AD%94%E5%B0%8F%E7%BB%842025%E5%B9%B4%E7%BB%88%E5%B0%8F%E7%BB%84%E6%80%BB%E7%BB%93%E6%8A%A5%E5%91%8A?rev=1769596784&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E9%97%AE%E7%AD%94%E8%AF%AD%E6%96%99%E5%B0%8F%E7%BB%842024%E5%B9%B4%E5%BA%A6%E5%B7%A5%E4%BD%9C%E6%80%BB%E7%BB%93?rev=1748848673&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E6%88%91%E4%BB%A5%E4%B8%BA%E6%88%91%E5%BE%88%E7%89%9B_%E9%A9%AC%E7%9A%84_%E7%9B%B4%E5%88%B0%E6%88%91%E7%9F%A5%E9%81%93%E4%BA%86%E4%B8%80%E4%B8%AA%E5%8F%AB%E5%81%9Aai%E7%9A%84?rev=1748848668&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E6%88%91%E5%9C%A8%E6%B1%AA%E6%B4%8B%E5%A4%A7%E6%B5%B7%E7%9A%84%E6%97%A5%E5%AD%90?rev=1748848668&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E7%8E%B0%E6%9C%89%E8%AF%AD%E6%96%99%E6%A0%BC%E5%BC%8F?rev=1764428271&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E5%AD%A6%E6%9C%AF%E6%B4%BB%E5%8A%A8?rev=1748848667&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E4%B8%80%E5%9C%BA%E4%B8%BA%E7%88%B1%E5%8F%91%E7%94%B5%E7%9A%84%E5%A5%87%E5%B9%BB%E4%B9%8B%E6%97%85?rev=1748848664&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E4%B8%80%E5%A0%B4%E9%97%9C%E6%96%BC%E4%B8%AD%E6%96%87%E7%9A%84%E6%BC%AB%E9%95%B7..%E8%8B%A5%E5%8D%B3%E8%8B%A5%E9%9B%A2..%E7%9A%84%E5%BE%81%E9%80%94?rev=1748848665&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E4%B8%80%E4%B8%AA%E5%B0%86%E8%BF%9160%E5%B2%81%E7%9A%84%E8%80%81%E5%85%AC%E5%8A%A1%E5%91%98%E8%B7%9F%E8%B7%A8%E6%80%A7%E5%88%AB%E7%BE%8E%E5%A5%B3%E9%82%A3%E7%82%B9%E5%84%BF%E4%B8%8D%E5%BE%97%E4%B8%8D%E8%AF%B4%E7%9A%84%E4%BA%8B?rev=1749540829&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E4%B8%80%E4%B8%AA%E7%9C%8B%E5%AE%A2%E7%9A%84%E7%AC%AC%E4%B8%80%E8%B4%B4?rev=1748848664&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E4%B8%80%E4%B8%AA%E8%B7%A8%E6%80%A7%E5%88%AB%E7%89%9B%E9%A9%AC%E7%9A%84%E4%BA%8C%E5%91%A8%E5%B9%B4%E5%BF%83%E5%BE%97%E4%BD%93%E4%BC%9A?rev=1748848664&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E4%B8%80%E4%B8%AA%E4%B8%AD%E5%B9%B4%E5%BC%BA%E8%A1%8C%E5%B0%91%E5%B9%B4%E6%A2%A6%E6%83%B3%E7%9A%84%E5%91%8A%E7%99%BD_%E8%A1%A8%E7%99%BD_%E8%87%AA%E7%99%BD?rev=1748848664&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E5%B7%B2%E5%AE%8C%E5%B7%A5%E4%BD%86%E6%9C%AA%E6%89%93%E5%8C%85%E5%8F%91%E5%B8%83%E7%9A%84%E6%95%B0%E6%8D%AE?rev=1748848667&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E6%B8%B8%E6%88%8F%E6%94%B6%E9%9B%86%E4%B8%93%E7%94%A8%E9%A1%B5%E9%9D%A2?rev=1748848670&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E8%AF%AD%E6%96%99%E6%A0%87%E5%87%86%E5%8C%96%E4%B8%8E%E6%B8%85%E6%B4%97%E5%B0%8F%E7%BB%842025%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93?rev=1768964596&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E8%AF%AD%E6%96%99%E6%94%B6%E9%9B%86%E5%88%86%E7%B1%BB?rev=1748848672&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E8%AF%AD%E6%96%99%E6%94%B6%E9%9B%86%E5%B0%8F%E7%BB%842025%E5%B9%B4%E5%B9%B4%E7%BB%88%E6%80%BB%E7%BB%93?rev=1768964501&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E8%AF%AD%E6%96%99%E5%A2%9E%E5%BC%BA%E5%B0%8F%E7%BB%842024%E5%B9%B4%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93?rev=1748848671&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E8%AF%AD%E6%96%99%E5%A2%9E%E5%BC%BA%E5%B0%8F%E7%BB%842025%E5%B9%B4%E7%BB%88%E5%B0%8F%E7%BB%84%E6%80%BB%E7%BB%93%E6%8A%A5%E5%91%8A?rev=1769571896&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E4%B8%AD%E6%96%87%E6%A0%87%E7%82%B9%E7%AC%A6%E5%8F%B7%E5%AD%97%E7%AC%A6%E9%9B%86%E8%8C%83%E5%9B%B4?rev=1748848665&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E4%B8%AD%E6%96%87%E9%A1%B5%E9%9D%A2?rev=1748848665&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E9%87%8D%E6%9E%84%E5%B8%B8%E8%A7%84%E7%BC%96%E7%A0%81%E6%A3%80%E6%B5%8B%E6%9C%BA%E5%88%B6?rev=1748848672&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/%E9%87%8D%E7%94%9F%E4%B9%8B%E6%88%91%E5%9C%A8%E6%B5%B7%E9%87%8C%E5%BD%93%E7%89%9B%E9%A9%AC%E7%9A%84%E4%B8%A4%E5%B9%B4?rev=1748848672&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/aboutmnbvc?rev=1748848673&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/ascii%E5%AD%97%E7%AC%A6%E8%8C%83%E5%9B%B4?rev=1748848673&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/cjk%E7%AC%A6%E5%8F%B7%E8%8C%83%E5%9B%B4?rev=1748848674&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/cjk%E4%B8%AD%E6%97%A5%E9%9F%A9%E8%B6%8A%E5%85%B1%E7%94%A8%E6%B1%89%E5%AD%97?rev=1748848673&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/cjk%E4%B8%AD%E6%96%87%E9%9C%80%E6%B1%82?rev=1748848673&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/cnrss?rev=1748848674&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/csxz?rev=1748848674&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/dmtyl?rev=1748848674&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/dmyl?rev=1748848675&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/ed2k?rev=1748848675&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/etcrss?rev=1748848675&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/gbk_%E4%B9%B1%E7%A0%81%E5%90%88%E9%9B%86?rev=1748848676&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/gbk_%E6%AC%A7%E5%85%83%E7%AC%A6%E5%8F%B7%E7%9A%84%E5%85%BC%E5%AE%B9%E6%80%A7%E9%97%AE%E9%A2%98?rev=1748848676&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/gbk%E5%92%8Cutf8%E4%BA%92%E8%BD%AC%E5%87%BA%E7%8E%B0%E7%9A%84%E9%97%AE%E9%A2%98?rev=1748848676&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/github_codepages%E4%BD%BF%E7%94%A8%E6%95%99%E7%A8%8B%E8%AF%B4%E6%98%8E?rev=1748848676&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/github_codespaces%E4%BD%BF%E7%94%A8%E6%95%99%E7%A8%8B%E8%AF%B4%E6%98%8E?rev=1748848677&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/github%E5%88%86%E5%B8%83%E5%BC%8F%E7%88%AC%E5%8F%96?rev=1748848676&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/hashlist?rev=1775534434&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/howtoaddnewpage?rev=1748848677&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/icu?rev=1748848677&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/internet_archive%E4%B8%93%E7%94%A8%E9%A1%B5%E9%9D%A2?rev=1748848678&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/jcbz?rev=1748848678&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/jcgc?rev=1748848678&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/kybd?rev=1748848678&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/linux%E7%8E%AF%E5%A2%83%E4%B8%8Bfile%E5%91%BD%E4%BB%A4%E7%9A%84magic%E6%96%87%E4%BB%B6%E7%9A%84%E5%86%85%E5%AE%B9%E8%A7%A3%E6%9E%90?rev=1748848679&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/magent?rev=1748848679&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/mnbvc_p1_e01?rev=1775534212&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/mnbvc_p1_e02?rev=1774266037&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/mnbvc_p1_e03?rev=1753082706&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/mnbvc_p1_e04?rev=1753082820&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/mnbvc_p1_e05?rev=1753082938&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/mnbvc_p1_e06?rev=1753083231&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/mnbvc_p1_e07?rev=1753083457&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/mnbvc_p1_e08?rev=1753083557&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/mnbvc_p1_e09?rev=1762686936&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/mnbvc_p2_e01?rev=1753083773&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/mnbvc_p2_e02?rev=1775534401&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/mnbvc2023%E5%B9%B4%E7%BB%88%E6%80%BB%E7%BB%93%E5%8F%8A%E6%84%9F%E8%B0%A2?rev=1748848679&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/mnbvc2024%E5%B9%B4%E7%BB%88%E6%80%BB%E7%BB%93%E5%8F%8A%E6%84%9F%E8%B0%A2?rev=1748848679&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/mnbvc2025%E5%B9%B4%E7%BB%88%E6%80%BB%E7%BB%93%E5%8F%8A%E6%84%9F%E8%B0%A2?rev=1770280359&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/pxyl?rev=1770537770&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/save_the_web_project%E4%B8%93%E7%94%A8%E9%A1%B5%E9%9D%A2?rev=1748848680&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/sharegptqa?rev=1748848680&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/sidebar?rev=1748848680&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/sjbzh?rev=1748848680&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/sjcc?rev=1755154215&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/sjdb?rev=1748848681&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/sjfb?rev=1748848681&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/sjqx?rev=1748848681&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/sjsj?rev=1748848681&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/start?rev=1748848681&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/text_poem?rev=1748848682&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/thankslist?rev=1768822001&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/unicode%E6%8E%A7%E5%88%B6%E7%AC%A6%E8%8C%83%E5%9B%B4?rev=1748848682&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/utf8%E5%AD%97%E7%AC%A6%E9%9B%86%E8%8C%83%E5%9B%B4?rev=1748848682&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/warczone?rev=1748848682&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/wdyl?rev=1748848682&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/windows_%E4%B8%8B%E5%AE%89%E8%A3%85python-magic%E7%9A%84%E7%BB%8F%E9%AA%8C?rev=1748848683&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/windows-936-2000%E7%BC%96%E7%A0%81%E9%97%AE%E9%A2%98?rev=1748848683&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/xmhx?rev=1748848683&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/ylzq?rev=1754747608&amp;do=diff"/>
                <rdf:li rdf:resource="https://wiki.mnbvc.org/doku.php/zip64to7zlzma2?rev=1748848684&amp;do=diff"/>
            </rdf:Seq>
        </items>
    </channel>
    <image rdf:about="https://wiki.mnbvc.org/lib/exe/fetch.php/wiki:dokuwiki.svg">
        <title>MNBVC-Wiki</title>
        <link>https://wiki.mnbvc.org/</link>
        <url>https://wiki.mnbvc.org/lib/exe/fetch.php/wiki:dokuwiki.svg</url>
    </image>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/1pb_store_plan_v1?rev=1756435815&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-08-29T02:50:15+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>1pb_store_plan_v1</title>
        <link>https://wiki.mnbvc.org/doku.php/1pb_store_plan_v1?rev=1756435815&amp;do=diff</link>
        <description>存储方案综述

本方案通过18wRMB，在鞋柜旁搭建了一个1PB的存储集群。整个方案并不能保证数据完全不损失，但是可以尽量控制损失的范围，从而达到省钱的目的。本方案主体由4台群晖构成，所以也可以分拆为4个250TB的独立存储单元，每个单元4-5wRMB，适合普通家庭使用。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E7%88%B1%E5%87%91%E7%83%AD%E9%97%B9%E7%9A%84%E5%A4%96%E8%A1%8C%E4%B8%80%E4%B8%AA?rev=1748848671&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:51+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>爱凑热闹的外行一个</title>
        <link>https://wiki.mnbvc.org/doku.php/%E7%88%B1%E5%87%91%E7%83%AD%E9%97%B9%E7%9A%84%E5%A4%96%E8%A1%8C%E4%B8%80%E4%B8%AA?rev=1748848671&amp;do=diff</link>
        <description>mnbvc一开始就关注了，但因为自己确实外行，感觉帮不上什么忙，一开始的想法是别被时代抛弃，还是要接触一些，学一些东西，看到召集帖后，联系了等战。因为本职工作是做施工项目管理的，所以让我协助小组长组会，很简单，也很不简单。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E8%B8%A9%E5%9D%91%E8%AE%B0%E5%BD%95?rev=1769218824&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-01-24T01:40:24+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>踩坑记录</title>
        <link>https://wiki.mnbvc.org/doku.php/%E8%B8%A9%E5%9D%91%E8%AE%B0%E5%BD%95?rev=1769218824&amp;do=diff</link>
        <description>踩坑记录
时间主题2023.7.3 百度网盘的坑2023.7.24 zipfile采用默认cp437导致文件名乱码2023.7.24 解压时zip文件名过长2023.7.26 python多进程卡住2023.7.27 网页数据存在乱码2023.8.22 解压缩zip文件报错2023.10.3 硬盘太多导致cpu烧毁2023.10.4 docker的jupyter没有sudo密码2024.2.19 非utf8的路径名python打印报错2024.9.1 群晖下载连接数限制及缺乏Tracker服务器2025.11.24 联调宽带会话数限制 2026.01.23 SimHash溢出错误</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E5%A4%84%E7%90%86%E6%96%87%E6%9C%AC%E4%B8%AD%E6%95%85%E6%84%8F%E5%8A%A0%E5%85%A5%E5%B9%B2%E6%89%B0%E6%B7%B7%E6%B7%86%E7%9A%84%E6%95%B0%E6%8D%AE?rev=1748848666&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:46+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>处理文本中故意加入干扰混淆的数据</title>
        <link>https://wiki.mnbvc.org/doku.php/%E5%A4%84%E7%90%86%E6%96%87%E6%9C%AC%E4%B8%AD%E6%95%85%E6%84%8F%E5%8A%A0%E5%85%A5%E5%B9%B2%E6%89%B0%E6%B7%B7%E6%B7%86%E7%9A%84%E6%95%B0%E6%8D%AE?rev=1748848666&amp;do=diff</link>
        <description>参考 &lt;https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E6%95%85%E4%BA%8B&gt;，讨论研究一个通用的解决方案</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E5%A4%A7%E5%9E%8B%E6%9C%BA%E7%BF%BB%E4%BB%BB%E5%8A%A1%E5%88%86%E5%8F%91%E4%B8%8E%E9%83%A8%E7%BD%B2?rev=1748848666&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:46+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>大型机翻任务分发与部署</title>
        <link>https://wiki.mnbvc.org/doku.php/%E5%A4%A7%E5%9E%8B%E6%9C%BA%E7%BF%BB%E4%BB%BB%E5%8A%A1%E5%88%86%E5%8F%91%E4%B8%8E%E9%83%A8%E7%BD%B2?rev=1748848666&amp;do=diff</link>
        <description>概述

	*  任务
		*  将165840份文档共约45.3GB量级的非英语文本数据批量翻译成英文

	*  难点
		*  耗时、耗钱


前期调研

	*  使用在线服务
		*  百度翻译的认证用户、谷歌云每月只能提供几MB的免费翻译量、腾讯阿里AWS Azure的专有接口太贵不考虑。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E4%BB%A3%E7%A0%81%E8%AF%AD%E6%96%99%E5%B0%8F%E7%BB%842024%E5%B9%B4%E5%B9%B4%E5%BA%A6%E5%B7%A5%E4%BD%9C%E6%80%BB%E7%BB%93?rev=1748848665&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:45+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>代码语料小组2024年年度工作总结</title>
        <link>https://wiki.mnbvc.org/doku.php/%E4%BB%A3%E7%A0%81%E8%AF%AD%E6%96%99%E5%B0%8F%E7%BB%842024%E5%B9%B4%E5%B9%B4%E5%BA%A6%E5%B7%A5%E4%BD%9C%E6%80%BB%E7%BB%93?rev=1748848665&amp;do=diff</link>
        <description>一、项目开展情况

截至2024年末，MNBVC代码语料组共在8个大型泛代码类平台上成功开展25项分布式爬虫工作、代码语料的提取、打包系列任务和教科书中代码数据识别任务。

其中平台包括GitHub、Google Source、BitBucket、Notabug、Savannah、sr.ht等共6个代码托管平台和Stack Overflow、LeetCode这2个代码相关平台，此外SourceForge经组员前期调研未成功放弃爬虫获取。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E4%BB%A3%E7%A0%81%E8%AF%AD%E6%96%99%E5%B0%8F%E7%BB%842025%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93?rev=1770291605&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-02-05T11:40:05+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>代码语料小组2025年度总结</title>
        <link>https://wiki.mnbvc.org/doku.php/%E4%BB%A3%E7%A0%81%E8%AF%AD%E6%96%99%E5%B0%8F%E7%BB%842025%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93?rev=1770291605&amp;do=diff</link>
        <description>代码语料小组2025年度工作总结

一、总体概述

2025年，代码语料小组主要围绕技术类语料采集开展工作，核心任务是WIPO全球专利数据的持续获取与处理。团队在专利采集系统稳定性、验证码识别等方面做了技术改进，全年新增专利数据7.91TB。同时对部分学术平台进行了采集可行性探索，部分尝试因技术或数据价值问题未持续推进。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E5%8D%95%E4%B8%AA%E5%AD%97%E8%8A%82%E4%B8%A2%E5%A4%B1%E5%AF%BC%E8%87%B4%E7%9A%84gbk--_utf8%E5%87%BA%E9%94%99%E7%9A%84%E7%A0%94%E7%A9%B6?rev=1748848665&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:45+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>单个字节丢失导致的gbk--_utf8出错的研究</title>
        <link>https://wiki.mnbvc.org/doku.php/%E5%8D%95%E4%B8%AA%E5%AD%97%E8%8A%82%E4%B8%A2%E5%A4%B1%E5%AF%BC%E8%87%B4%E7%9A%84gbk--_utf8%E5%87%BA%E9%94%99%E7%9A%84%E7%A0%94%E7%A9%B6?rev=1748848665&amp;do=diff</link>
        <description>经过长时间的调查研究，初步确定部分文本在进行 GBK--&gt;UTF-8编码转换时会遇到个别字节缺失导致的转码出错中断或转码结果乱码的情况。

案例1:

以 20230101/aliyun.20230101.8.武侠小说/1184.txt 第563行为例:</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E5%8D%95%E4%B8%AA%E5%AD%97%E8%8A%82%E4%B8%A2%E5%A4%B1%E5%AF%BC%E8%87%B4%E7%9A%84gbk%E8%BD%AC%E6%8D%A2%E7%BC%96%E7%A0%81%E5%87%BA%E9%94%99%E7%9A%84%E7%A0%94%E7%A9%B6?rev=1748848665&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:45+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>单个字节丢失导致的gbk转换编码出错的研究</title>
        <link>https://wiki.mnbvc.org/doku.php/%E5%8D%95%E4%B8%AA%E5%AD%97%E8%8A%82%E4%B8%A2%E5%A4%B1%E5%AF%BC%E8%87%B4%E7%9A%84gbk%E8%BD%AC%E6%8D%A2%E7%BC%96%E7%A0%81%E5%87%BA%E9%94%99%E7%9A%84%E7%A0%94%E7%A9%B6?rev=1748848665&amp;do=diff</link>
        <description>经过长时间的调查研究，初步确定部分文本在进行 GBK--&gt;UTF-8编码转换时会遇到个别字节缺失导致的转码出错中断或转码结果乱码的情况。

案例1:

以 20230101/aliyun.20230101.8.武侠小说/1184.txt 第563行为例</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E7%9F%AD%E6%96%87%E6%9C%AC%E6%97%A0%E6%B3%95%E6%AD%A3%E7%A1%AE%E6%A3%80%E6%B5%8B%E7%BC%96%E7%A0%81%E7%9A%84%E9%97%AE%E9%A2%98?rev=1748848671&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:51+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>短文本无法正确检测编码的问题</title>
        <link>https://wiki.mnbvc.org/doku.php/%E7%9F%AD%E6%96%87%E6%9C%AC%E6%97%A0%E6%B3%95%E6%AD%A3%E7%A1%AE%E6%A3%80%E6%B5%8B%E7%BC%96%E7%A0%81%E7%9A%84%E9%97%AE%E9%A2%98?rev=1748848671&amp;do=diff</link>
        <description>以二进制数据 

b'\xd6\xa7\xb3\xc5\xb2\xc4\xc1\xcf/Code/p_3_1.m' 

 为例:

通过对编码进行猜解后，

gbk的结果为 支撑材料/Code/p_3_1.m

big5的结果为 盓傅第蹋/Code/p_3_1.m

从肉眼来看很容易辨别哪个结果是正确的，但是对于计算机程序来说，两组结果都是符合中文编码要求的，因此可能会误报</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E5%AF%B9%E9%BD%90%E7%AE%97%E6%B3%95?rev=1748848667&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:47+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>对齐算法</title>
        <link>https://wiki.mnbvc.org/doku.php/%E5%AF%B9%E9%BD%90%E7%AE%97%E6%B3%95?rev=1748848667&amp;do=diff</link>
        <description>对齐算法的探索与实践

基于机器翻译和最长公共子序列

时间复杂度：O(m * n)

空间复杂度：O(m * n)

实际运行时，单个1MB的文本需要大约15分钟，并且这种做法无法并行。

但是这种做法可以在匹配比较稀疏的时候有一种优化来实现期望O(nlogn)的时空复杂度，但是我暂时还没测试，</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E5%AF%B9%E5%A4%96%E6%B2%9F%E9%80%9A%E8%AE%B0%E5%BD%95?rev=1759127497&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-09-29T06:31:37+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>对外沟通记录</title>
        <link>https://wiki.mnbvc.org/doku.php/%E5%AF%B9%E5%A4%96%E6%B2%9F%E9%80%9A%E8%AE%B0%E5%BD%95?rev=1759127497&amp;do=diff</link>
        <description>综述

感谢所有关心MNBVC项目的朋友，中国AI技术发展任重道远，需要合众人之力，我们愿意与各界朋友交流分享。

但MNBVC项目成员都是用爱发电，并且我们希望可以低调的进行长期发展，不想暴露在公众视线下，故只能利用有限时间和部分朋友们沟通，条件所限，失礼勿怪。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E5%A4%9A%E6%A8%A1%E6%80%81%E8%AF%AD%E6%96%99%E5%B0%8F%E7%BB%842025%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93?rev=1769845087&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-01-31T07:38:07+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>多模态语料小组2025年度总结</title>
        <link>https://wiki.mnbvc.org/doku.php/%E5%A4%9A%E6%A8%A1%E6%80%81%E8%AF%AD%E6%96%99%E5%B0%8F%E7%BB%842025%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93?rev=1769845087&amp;do=diff</link>
        <description>一、工作概述

2025 年，多模态数据小组围绕多模态数据获取与处理能力建设，推进文档、图文与音视频数据的规模化解析与工程化交付，重点补齐 PDF、LaTeX、音视频结构化等基础能力。

二、主要工作内容</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E5%A4%9A%E6%A8%A1%E6%80%81%E8%AF%AD%E6%96%99%E5%B0%8F%E7%BB%84%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93%E6%8A%A5%E5%91%8A?rev=1748848666&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:46+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>多模态语料小组年度总结报告</title>
        <link>https://wiki.mnbvc.org/doku.php/%E5%A4%9A%E6%A8%A1%E6%80%81%E8%AF%AD%E6%96%99%E5%B0%8F%E7%BB%84%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93%E6%8A%A5%E5%91%8A?rev=1748848666&amp;do=diff</link>
        <description>截止 2024 年末，MNBVC 多模态数据小组在三大领域取得了显著进展：

1. 文本类数据
- 完成格式定义、数据解析与发布
- 主要数据来源：糗事百科、Internet Archive
- 以网页类型数据为主

2. 视觉文档类数据
- 完成格式定义、数据解析与发布
- 以 PDF 类数据为主要处理对象</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E7%AE%80%E7%B9%81%E4%BD%93%E8%BD%AC%E6%8D%A2%E5%B7%A5%E5%85%B7?rev=1748848671&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:51+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>简繁体转换工具</title>
        <link>https://wiki.mnbvc.org/doku.php/%E7%AE%80%E7%B9%81%E4%BD%93%E8%BD%AC%E6%8D%A2%E5%B7%A5%E5%85%B7?rev=1748848671&amp;do=diff</link>
        <description>常用简繁转换工具

open-cc：&lt;https://github.com/BYVoid/OpenCC&gt;

zhconv：&lt;https://github.com/gumblex/zhconv&gt;

测试结果
转换方式open-cc准确率zhconv准确率繁体-&gt;简体 0.8883  0.8849 简体-&gt;繁体 0.9695  0.9814 
测试字符：王力《古代汉语》附录简繁体对照字表

繁体字以台湾繁体为准。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E5%BB%BA%E7%AB%8Bppl%E5%B0%8F%E6%A8%A1%E5%9E%8B%E7%94%A8%E4%BA%8E%E7%BC%96%E7%A0%81%E6%A3%80%E6%B5%8B?rev=1748848667&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:47+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>建立ppl小模型用于编码检测</title>
        <link>https://wiki.mnbvc.org/doku.php/%E5%BB%BA%E7%AB%8Bppl%E5%B0%8F%E6%A8%A1%E5%9E%8B%E7%94%A8%E4%BA%8E%E7%BC%96%E7%A0%81%E6%A3%80%E6%B5%8B?rev=1748848667&amp;do=diff</link>
        <description>*  建立一个PPL小模型，包含常见的正确中文用词语序</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E9%94%9F%E6%96%A4%E6%8B%B7%E7%9A%84%E9%97%AE%E9%A2%98?rev=1748848672&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:52+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>锟斤拷的问题</title>
        <link>https://wiki.mnbvc.org/doku.php/%E9%94%9F%E6%96%A4%E6%8B%B7%E7%9A%84%E9%97%AE%E9%A2%98?rev=1748848672&amp;do=diff</link>
        <description>出错文件范例: 20230101/aliyun.20230101.6.网络小说/48.txt</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E5%8E%86%E6%AC%A1%E6%B3%95%E5%BE%8B%E9%97%AE%E9%A2%98%E8%AE%A8%E8%AE%BA?rev=1757302711&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-09-08T03:38:31+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>历次法律问题讨论</title>
        <link>https://wiki.mnbvc.org/doku.php/%E5%8E%86%E6%AC%A1%E6%B3%95%E5%BE%8B%E9%97%AE%E9%A2%98%E8%AE%A8%E8%AE%BA?rev=1757302711&amp;do=diff</link>
        <description>综述

开源语料集是一个新兴事务，法律上也没有先例，必须与不同法系的学者和律师以及法律人一起讨论才能出真知。

历次讨论文件

	* 2023.2.11  开源语料集可能涉及的法律条款及规避方式
	* 2023.6.10  语料集著作权的理论和探讨

相关链接

 知乎:日本政府宣布不会对人工智能训练中使用的数据实施版权保护

 中国爬虫违法违规案例汇总</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E6%89%B9%E9%87%8F%E5%B9%B6%E8%A1%8C%E8%BD%AC%E6%8D%A2doc%E5%92%8Cwpf%E4%B8%BAdocx?rev=1748848668&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:48+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>批量并行转换doc和wpf为docx</title>
        <link>https://wiki.mnbvc.org/doku.php/%E6%89%B9%E9%87%8F%E5%B9%B6%E8%A1%8C%E8%BD%AC%E6%8D%A2doc%E5%92%8Cwpf%E4%B8%BAdocx?rev=1748848668&amp;do=diff</link>
        <description>概述

	*  任务
		*  转换大量的DOC和WPF文件为DOCX文件，具体为959457份DOC和10029份WPF文件。

	*  目标
		*  实现一种既节约人工成本又高效高质量的自动化转换流程。


DOC转DOCX

	*  环境要求
		*  一台装有Office 2019或以上的windows机器</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E5%B9%B3%E8%A1%8C%E8%AF%AD%E6%96%99%E5%B0%8F%E7%BB%842024%E5%B9%B4%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93?rev=1748848667&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:47+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>平行语料小组2024年年度总结</title>
        <link>https://wiki.mnbvc.org/doku.php/%E5%B9%B3%E8%A1%8C%E8%AF%AD%E6%96%99%E5%B0%8F%E7%BB%842024%E5%B9%B4%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93?rev=1748848667&amp;do=diff</link>
        <description>一、工作概述

本小组主要关注各类至少包含中英文的平行语料的清洗与文本对齐，例如联合国语料、字幕组语料、字典、双语读本等。

二、工作内容与成果

重构了wiki页面和github页面，用github project做项目管理，创建了organization，欢迎大家加入。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E5%B9%B3%E8%A1%8C%E8%AF%AD%E6%96%99%E5%B0%8F%E7%BB%842025%E5%B9%B4%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93?rev=1768823178&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-01-19T11:46:18+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>平行语料小组2025年年度总结</title>
        <link>https://wiki.mnbvc.org/doku.php/%E5%B9%B3%E8%A1%8C%E8%AF%AD%E6%96%99%E5%B0%8F%E7%BB%842025%E5%B9%B4%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93?rev=1768823178&amp;do=diff</link>
        <description>平行语料小组2025年度总结

本文由大模型对周例会报告做出归纳总结并通过人工润色补充再由大模型排版完成。

一、工作概述

2025年，平行语料小组围绕“数据源拓展 + 联合国语料的处理管线工程化及论文产出”两条主线推进：</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E6%A0%87%E5%87%86%E5%8C%96%E5%B0%8F%E7%BB%842024%E5%B9%B4%E5%BA%A6%E5%B7%A5%E4%BD%9C%E6%80%BB%E7%BB%93?rev=1748848669&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:49+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>数据标准化小组2024年度工作总结</title>
        <link>https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E6%A0%87%E5%87%86%E5%8C%96%E5%B0%8F%E7%BB%842024%E5%B9%B4%E5%BA%A6%E5%B7%A5%E4%BD%9C%E6%80%BB%E7%BB%93?rev=1748848669&amp;do=diff</link>
        <description>一、工作概述

语料标准化小组的目标是构建一套标准的语料格式，并保证所有数据格式统一，确保语料库的通用性和一致性。

二、工作内容与成果

2024年，语料标准化小组主要进行了四项工作：
- 各类语料格式标注的统一和更新、DataChecker更新优化
- 历史数据格式标准化
- mnbvc语料格式统一库
- 解压程序</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E5%AD%98%E5%82%A8_%E5%88%86%E5%8F%91_%E5%B0%8F%E7%BB%842024%E5%B9%B4%E5%B9%B4%E7%BB%88%E6%80%BB%E7%BB%93?rev=1748848669&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:49+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>数据存储_分发_小组2024年年终总结</title>
        <link>https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E5%AD%98%E5%82%A8_%E5%88%86%E5%8F%91_%E5%B0%8F%E7%BB%842024%E5%B9%B4%E5%B9%B4%E7%BB%88%E6%80%BB%E7%BB%93?rev=1748848669&amp;do=diff</link>
        <description>一、工作概述

数据存储小组主要负责MNBVC语料库内容的存储和分发工作。2024年，我们面临数据量激增的挑战，从年初的接近5T到年末达到8.5T，随着“汪洋大海项目”的实施和进展，存储和分发量进展非常频繁，工作强度和压力也随之增大很多，最主要的是，对存储容量的需求上升了一个新台阶。尽管如此，我们依然克服重重困难，保证了数据存储和分发工作的稳定运行。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E5%AD%98%E5%82%A8_%E5%88%86%E5%8F%91_%E5%B0%8F%E7%BB%842025%E5%B9%B4%E5%B9%B4%E7%BB%88%E6%80%BB%E7%BB%93?rev=1768822993&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-01-19T11:43:13+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>数据存储_分发_小组2025年年终总结</title>
        <link>https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E5%AD%98%E5%82%A8_%E5%88%86%E5%8F%91_%E5%B0%8F%E7%BB%842025%E5%B9%B4%E5%B9%B4%E7%BB%88%E6%80%BB%E7%BB%93?rev=1768822993&amp;do=diff</link>
        <description>一、2025年中国大环境回顾

硬件价格暴增背景

生成式AI和大模型训练对高带宽内存(HBM)需求激增

全球AI算力需求预计到2030年将超过现有供应10倍

科技巨头投入数千亿建设AI基础设施，阿里计划三年投入3800亿元，腾讯云1069亿元</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E6%89%93%E5%8C%85%E5%B0%8F%E7%BB%84%E5%B8%B8%E7%94%A8shell%E5%91%BD%E4%BB%A4?rev=1758857087&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-09-26T03:24:47+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>数据打包小组常用shell命令</title>
        <link>https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E6%89%93%E5%8C%85%E5%B0%8F%E7%BB%84%E5%B8%B8%E7%94%A8shell%E5%91%BD%E4%BB%A4?rev=1758857087&amp;do=diff</link>
        <description>查看子文件夹大小
du -h --max-depth=1
批量删除
find . -name &quot;*.pdf&quot;|xargs rm -rf
find . -name &quot;*mobi&quot; -print0|xargs -0 rm -rf
删除空文件夹
find ./aliyunpan/202305/ -type d -empty -delete
批量加后缀
find . -type f |xargs mv {} {}.txt
find . -type f | xargs -I F mv &quot;F&quot; &quot;F&quot;.txt</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E5%8F%91%E5%B8%83%E5%B0%8F%E7%BB%842024%E5%B9%B4%E5%BA%A6%E5%B7%A5%E4%BD%9C%E6%80%BB%E7%BB%93?rev=1748848668&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:48+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>数据发布小组2024年度工作总结</title>
        <link>https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E5%8F%91%E5%B8%83%E5%B0%8F%E7%BB%842024%E5%B9%B4%E5%BA%A6%E5%B7%A5%E4%BD%9C%E6%80%BB%E7%BB%93?rev=1748848668&amp;do=diff</link>
        <description>一、项目开展情况

数据发布小组主要负责将MNBVC语料上传和发布至Huggingface，并维护大家在Huggingface上看到的MNBVC项目。日常任务就是潜水在群中，收集其他小组的数据整理进度，并将可以发布的数据重新打包压缩，上传到Huggingface。因为小组成员较少，并且对Huggingface服务器的访问不稳定，所以数据的发布会有所滞后。目前已经在通过自动化脚本缓解这一问题。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E5%8F%91%E5%B8%83%E5%B0%8F%E7%BB%842025%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93?rev=1770000535&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-02-02T02:48:55+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>数据发布小组2025年度总结</title>
        <link>https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E5%8F%91%E5%B8%83%E5%B0%8F%E7%BB%842025%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93?rev=1770000535&amp;do=diff</link>
        <description>【MNBVC】数据发布小组 2025年终总结

项目开展情况

数据发布小组承担了MNBVC数据集与用户之间的最后一公里。2025年期间，数据发布小组持续在 Hugging Face Dataset Hub 上发布清洗好的高质量数据，通过自动化脚本和 MarK 的努力，上传了大量前期的积压数据，成功将 Hugging Face 上的 MNBVC 项目中的数据扩增了一倍以上。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E6%95%85%E4%BA%8B?rev=1748848669&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:49+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>数据故事</title>
        <link>https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E6%95%85%E4%BA%8B?rev=1748848669&amp;do=diff</link>
        <description>在整理语料数据的过程中听说的各种故事

故意重复的pile数据集

 大概有1/3的作者故意重复的数据，作者会在一篇文章内，将其中的段落都重复保存。使用这份数据做训练需要注意段落级别的去重重组。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E6%B8%85%E6%B4%97%E5%B0%8F%E7%BB%842024%E5%B9%B4%E5%BA%A6%E5%B7%A5%E4%BD%9C%E6%80%BB%E7%BB%93?rev=1748848669&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:49+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>数据清洗小组2024年度工作总结</title>
        <link>https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E6%B8%85%E6%B4%97%E5%B0%8F%E7%BB%842024%E5%B9%B4%E5%BA%A6%E5%B7%A5%E4%BD%9C%E6%80%BB%E7%BB%93?rev=1748848669&amp;do=diff</link>
        <description>一、工作概述

数据清洗小组以构建高多样性，高质量的纯文本语料为目标，围绕多种领域和格式的数据清洗、转换、去重、格式统一等任务展开工作，将其转换成项目组标准的语料格式，为开源项目提供了重要的基础数据支持。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E6%94%B6%E9%9B%86%E5%B0%8F%E7%BB%842024%E5%B9%B4%E6%80%BB%E7%BB%93?rev=1748848669&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:49+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>数据收集小组2024年总结</title>
        <link>https://wiki.mnbvc.org/doku.php/%E6%95%B0%E6%8D%AE%E6%94%B6%E9%9B%86%E5%B0%8F%E7%BB%842024%E5%B9%B4%E6%80%BB%E7%BB%93?rev=1748848669&amp;do=diff</link>
        <description>一、工作概述

数据收集小组负责MNBVC语料集的语料数据收集，首要目标是抢救互联网上即将消失的语料，如小众论坛、个人博客、影评书评等评论、剧本杀记录、跑团记录、现代诗之类的冷门文化。 这个小组就是发挥里屋论坛成员们互联网老兵的特长，去做程序员搞不定、国家企业等大机构嫌琐碎不愿意做的事情。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E6%8F%90%E4%BE%9B%E4%B8%8D%E5%90%8C%E8%AF%AD%E7%A7%8D%E4%B8%AD%E5%87%BA%E7%8E%B0%E9%A2%91%E6%AC%A1%E6%9C%80%E9%AB%98%E7%9A%84%E5%AD%97%E7%AC%A6%E7%BC%96%E7%A0%81?rev=1754747887&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-08-09T13:58:07+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>提供不同语种中出现频次最高的字符编码</title>
        <link>https://wiki.mnbvc.org/doku.php/%E6%8F%90%E4%BE%9B%E4%B8%8D%E5%90%8C%E8%AF%AD%E7%A7%8D%E4%B8%AD%E5%87%BA%E7%8E%B0%E9%A2%91%E6%AC%A1%E6%9C%80%E9%AB%98%E7%9A%84%E5%AD%97%E7%AC%A6%E7%BC%96%E7%A0%81?rev=1754747887&amp;do=diff</link>
        <description>基于mnbvc的平行语料统计常见语种的使用频率最高的前1000个字符（CJK文字可能会上千，英文或拉丁语系可能只有几十个英文字符）。注意需要去掉在不同语种当中相同的字符编码，保持每个语种每一个字符都是全局唯一编码。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E6%B7%BB%E5%8A%A0%E5%9F%BA%E4%BA%8Epython_cp936%E7%9A%84%E6%94%AF%E6%8C%81?rev=1748848670&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:50+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>添加基于python_cp936的支持</title>
        <link>https://wiki.mnbvc.org/doku.php/%E6%B7%BB%E5%8A%A0%E5%9F%BA%E4%BA%8Epython_cp936%E7%9A%84%E6%94%AF%E6%8C%81?rev=1748848670&amp;do=diff</link>
        <description>参考资料: &lt;https://alvinalexander.com/java/jwarehouse/openjdk-8/jdk/make/data/charsetmapping/MS936.map.shtml&gt;</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E6%B1%AA%E6%B4%8B%E5%A4%A7%E6%B5%B7%E6%B4%BB%E5%8A%A8?rev=1748848670&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:50+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>汪洋大海活动</title>
        <link>https://wiki.mnbvc.org/doku.php/%E6%B1%AA%E6%B4%8B%E5%A4%A7%E6%B5%B7%E6%B4%BB%E5%8A%A8?rev=1748848670&amp;do=diff</link>
        <description>活动内容

每一滴水都是必要的，我们聚集在一起才是大海。

为什么开源社区也有号称爬了github的数据集，但是mnbvc也必须做这个事：之前爬github的都是老外干的，处理数据时完全没考虑中文，没考虑过gbk之类的编码转换。导致现在基于这些开源github代码语料训练的各大中文模型普遍偏笨，也就是个聊天机器人。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E6%B1%AA%E6%B4%8B%E5%A4%A7%E6%B5%B7%E9%A1%B9%E7%9B%AE2025%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93?rev=1770263263&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-02-05T03:47:43+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>汪洋大海项目2025年度总结</title>
        <link>https://wiki.mnbvc.org/doku.php/%E6%B1%AA%E6%B4%8B%E5%A4%A7%E6%B5%B7%E9%A1%B9%E7%9B%AE2025%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93?rev=1770263263&amp;do=diff</link>
        <description>汪洋大海项目2025年总结

汪洋大海是草台中的草台

龙大统领是草包中的草包

老龙，你改悔吧！

在伟大光荣正确（划掉）的龙骑兵的坚强带领下，汪洋大海项目差点成了2025年的一个笑话！</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E6%B1%AA%E6%B4%8B%E5%A4%A7%E6%B5%B7%E5%B0%8F%E7%BB%84%E5%B7%A5%E4%BD%9C2024%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93%E6%8A%A5%E5%91%8A?rev=1748848670&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:50+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>汪洋大海小组工作2024年度总结报告</title>
        <link>https://wiki.mnbvc.org/doku.php/%E6%B1%AA%E6%B4%8B%E5%A4%A7%E6%B5%B7%E5%B0%8F%E7%BB%84%E5%B7%A5%E4%BD%9C2024%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93%E6%8A%A5%E5%91%8A?rev=1748848670&amp;do=diff</link>
        <description>撰写人：是胡不是货

自2024年初项目启动以来，汪洋大海小组作为项目下松弛感最强的小组，在老龙的放羊式管理下，成功的未能实现“聚是一团火”。全体苦力和几个包工头各自为阵，证明了里屋高素质人才苦力完全可以做到“散是满天星”。各项工作有条不紊，稳中有进。（老龙批注：这体现了里屋管先进的“去中心化”模式和“微服务”架构。）</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E9%97%AE%E7%AD%94%E5%B0%8F%E7%BB%842025%E5%B9%B4%E7%BB%88%E5%B0%8F%E7%BB%84%E6%80%BB%E7%BB%93%E6%8A%A5%E5%91%8A?rev=1769596784&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-01-28T10:39:44+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>问答小组2025年终小组总结报告</title>
        <link>https://wiki.mnbvc.org/doku.php/%E9%97%AE%E7%AD%94%E5%B0%8F%E7%BB%842025%E5%B9%B4%E7%BB%88%E5%B0%8F%E7%BB%84%E6%80%BB%E7%BB%93%E6%8A%A5%E5%91%8A?rev=1769596784&amp;do=diff</link>
        <description>问答语料小组自平行语料小组孕育而生，肩负着新时代数据基建的历史重任。发展初期，在平行语料小组组长Jia Li同志的悉心兼管与奠基指导下，该小组于2024年11月7日正式建制，由curry同志接过领航重任，开启了独立攻坚的壮阔征程。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E9%97%AE%E7%AD%94%E8%AF%AD%E6%96%99%E5%B0%8F%E7%BB%842024%E5%B9%B4%E5%BA%A6%E5%B7%A5%E4%BD%9C%E6%80%BB%E7%BB%93?rev=1748848673&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:53+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>问答语料小组2024年度工作总结</title>
        <link>https://wiki.mnbvc.org/doku.php/%E9%97%AE%E7%AD%94%E8%AF%AD%E6%96%99%E5%B0%8F%E7%BB%842024%E5%B9%B4%E5%BA%A6%E5%B7%A5%E4%BD%9C%E6%80%BB%E7%BB%93?rev=1748848673&amp;do=diff</link>
        <description>项目开展情况

截至2024年末，问答语料小组在多个数据源上成功开展了问答数据的爬取、整合、转换和上传系列任务。工作重点包括Quora问答数据的爬取与转换、国内外数学/物理试卷讨论论坛的数据收集、以及试卷解析和答案提取的迭代优化。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E6%88%91%E4%BB%A5%E4%B8%BA%E6%88%91%E5%BE%88%E7%89%9B_%E9%A9%AC%E7%9A%84_%E7%9B%B4%E5%88%B0%E6%88%91%E7%9F%A5%E9%81%93%E4%BA%86%E4%B8%80%E4%B8%AA%E5%8F%AB%E5%81%9Aai%E7%9A%84?rev=1748848668&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:48+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>我以为我很牛_马的_直到我知道了一个叫做ai的</title>
        <link>https://wiki.mnbvc.org/doku.php/%E6%88%91%E4%BB%A5%E4%B8%BA%E6%88%91%E5%BE%88%E7%89%9B_%E9%A9%AC%E7%9A%84_%E7%9B%B4%E5%88%B0%E6%88%91%E7%9F%A5%E9%81%93%E4%BA%86%E4%B8%80%E4%B8%AA%E5%8F%AB%E5%81%9Aai%E7%9A%84?rev=1748848668&amp;do=diff</link>
        <description>（我们都是被逼的！被...逼的！逼的，逼的……大家自行脑补Beat it）
我可以不懂AI，但不能不懂做AI啊，所以
就响应某个人的号召来做了。
一起加入的大伙们，想必也都记得，最初
被拉到一个叫摸奶不为操MNBVC的房间
迫切进行了袒露坦诚且亲切的交流，彼此
的特长啊优点啊都了如指掌。随后分工
，进了一个叫“平行语料”的小房间。
我看到这个词时是迷糊的，迷惘的，这个
揭开我牛马序幕的词是干啥的？很快就
发现了原来平行语料就是让AI跨国界的。
等熟悉了队友之后，某人就发任务了。首
战就是搞联合国。联合国啊！这么高大上，
居然就靠我们几个小虾米去搞定？做着
心里也就平静了，毕竟是去扒拉一下网站
不是去搞破坏嘛。这个任务我给自己勉强
良好的评价吧，因为对最终产出没太明白
，导致抓下来的网页基本用不上全白瞎了。
问题是当时确实不了解，也长经验了。里
屋毕竟常混，不好一走了之，于是就一番
是非展开了口舌言语交流，说清楚问题
何在，后续队员接手换方向搞定了。不
管怎么样，本组的活就这么推进下去了。
乃们想要看戏的心情可以收一收了，下来
不论啥任务都没出过大幺蛾子。搬着砖不
知不觉一年就过去了，期…</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E6%88%91%E5%9C%A8%E6%B1%AA%E6%B4%8B%E5%A4%A7%E6%B5%B7%E7%9A%84%E6%97%A5%E5%AD%90?rev=1748848668&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:48+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>我在汪洋大海的日子</title>
        <link>https://wiki.mnbvc.org/doku.php/%E6%88%91%E5%9C%A8%E6%B1%AA%E6%B4%8B%E5%A4%A7%E6%B5%B7%E7%9A%84%E6%97%A5%E5%AD%90?rev=1748848668&amp;do=diff</link>
        <description>我在汪洋大海的日子

长久以来，作为纯且长的字母id（本人原id：hoshienchun），在里屋是没有一丁点儿基本人权的。但20多年来，我在经历了外屋、wc、神秘岛、mfl间的反复横跳后，还是发现了活得最久的才是能随心所欲说别人坏话的最终条件。于是开开心心地在里屋长年累月潜水、隔三差五冒泡、兴致而来吹牛、畅所欲言打屁。2023年初，傻哥开始发了一系列帖子，介绍里屋AI开源项目，语言九浅一深入浅出，风格娓娓道来。但以我浅薄的认知，对项目的理解并未超出“那是啥？能吃吗？好吃吗？怎么吃？”的灵魂四问，只是出于个人爱好，给语料元气弹里提交了《炎黄春秋》某不知名杂志的全部电子档，然后就丢于脑后了。直到那一天，一个衣衫褴褛的人至高管理员龙骑兵站在帖子里问，“你相信光吗？”…</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E7%8E%B0%E6%9C%89%E8%AF%AD%E6%96%99%E6%A0%BC%E5%BC%8F?rev=1764428271&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-11-29T14:57:51+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>现有语料格式</title>
        <link>https://wiki.mnbvc.org/doku.php/%E7%8E%B0%E6%9C%89%E8%AF%AD%E6%96%99%E6%A0%BC%E5%BC%8F?rev=1764428271&amp;do=diff</link>
        <description>当前MNBVC的语料格式

通用文本格式
&lt;https://github.com/aplmikex/deduplication_mnbvc&gt;

问答语料格式
&lt;https://github.com/wanicca/WikiHowQAExtractor-mnbvc&gt;

代码语料格式
&lt;https://github.com/LinnaWang76/githubcode_extractor_mnbvc&gt;

多轮对话语料格式
&lt;https://github.com/pany8125/ShareGPTQAExtractor-mnbvc&gt;

论坛语料格式
&lt;https://github.com/aplmikex/forum_dialogue_mnbvc&gt;

平行语料格式
&lt;https://github.com/liyongsea/parallel_corpus_mnbvc&gt;

多模态语料
&lt;https://huggingface.co/datasets/wanng/example_mmdata_mnbvc&gt;

MNBVC语料格式检查工具

未来所有MNBVC语料都会统一格式，请提交数据的同学都执行…</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E5%AD%A6%E6%9C%AF%E6%B4%BB%E5%8A%A8?rev=1748848667&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:47+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>学术活动</title>
        <link>https://wiki.mnbvc.org/doku.php/%E5%AD%A6%E6%9C%AF%E6%B4%BB%E5%8A%A8?rev=1748848667&amp;do=diff</link>
        <description>学术活动
时间主讲人内容备注2023.3.12李嘉国外成熟开源数据集经验分享 2023.4.23water爬虫分享 2023.5.28红酒烩香鸡、花火火低质量语料识别讨论会  中文低质量文本清洗整理（红酒烩香鸡）、 低质量语料清洗的现有状况调研及评价（花火火） 2023.9.4李嘉问答语料小组头脑风暴 2024.1.20明心</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E4%B8%80%E5%9C%BA%E4%B8%BA%E7%88%B1%E5%8F%91%E7%94%B5%E7%9A%84%E5%A5%87%E5%B9%BB%E4%B9%8B%E6%97%85?rev=1748848664&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:44+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>一场为爱发电的奇幻之旅</title>
        <link>https://wiki.mnbvc.org/doku.php/%E4%B8%80%E5%9C%BA%E4%B8%BA%E7%88%B1%E5%8F%91%E7%94%B5%E7%9A%84%E5%A5%87%E5%B9%BB%E4%B9%8B%E6%97%85?rev=1748848664&amp;do=diff</link>
        <description>风高月黑夜，正在刷着里屋的。忽闻微信里屋的某群，大家开始讨论当下热门的chatgpt。

上海梆子的等战热烈的介绍着最新的资讯，北方众老妖怪们傻呢，龙骑兵等主持着讨论。不能呀这玩意确实好用节省了学习成本，比搜索引擎好用，还有进一步分析。操作电脑获取知识的门槛进一步降低了。只是可惜这玩意仅仅对英文环境友好。用中文或其他语言达不到目标效果。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E4%B8%80%E5%A0%B4%E9%97%9C%E6%96%BC%E4%B8%AD%E6%96%87%E7%9A%84%E6%BC%AB%E9%95%B7..%E8%8B%A5%E5%8D%B3%E8%8B%A5%E9%9B%A2..%E7%9A%84%E5%BE%81%E9%80%94?rev=1748848665&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:45+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>一場關於中文的漫長..若即若離..的征途</title>
        <link>https://wiki.mnbvc.org/doku.php/%E4%B8%80%E5%A0%B4%E9%97%9C%E6%96%BC%E4%B8%AD%E6%96%87%E7%9A%84%E6%BC%AB%E9%95%B7..%E8%8B%A5%E5%8D%B3%E8%8B%A5%E9%9B%A2..%E7%9A%84%E5%BE%81%E9%80%94?rev=1748848665&amp;do=diff</link>
        <description>都忘了什麼時候了，在裏屋看到傻哥的帖子後，偶爾逛逛Github的我，加入了MNBVC這個浩大的工程。說實話，我不過是個旁觀者，一個在岸邊觀望大海的渺小存在。偶爾，我會撿起一兩塊貝殼，試圖為這座沙雕添上一筆。那時，我寫了些Python的代碼，但回頭看看，就像海灘上的腳印，轉眼就被潮水抹平了。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E4%B8%80%E4%B8%AA%E5%B0%86%E8%BF%9160%E5%B2%81%E7%9A%84%E8%80%81%E5%85%AC%E5%8A%A1%E5%91%98%E8%B7%9F%E8%B7%A8%E6%80%A7%E5%88%AB%E7%BE%8E%E5%A5%B3%E9%82%A3%E7%82%B9%E5%84%BF%E4%B8%8D%E5%BE%97%E4%B8%8D%E8%AF%B4%E7%9A%84%E4%BA%8B?rev=1749540829&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-10T07:33:49+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>一个将近60岁的老公务员跟跨性别美女那点儿不得不说的事</title>
        <link>https://wiki.mnbvc.org/doku.php/%E4%B8%80%E4%B8%AA%E5%B0%86%E8%BF%9160%E5%B2%81%E7%9A%84%E8%80%81%E5%85%AC%E5%8A%A1%E5%91%98%E8%B7%9F%E8%B7%A8%E6%80%A7%E5%88%AB%E7%BE%8E%E5%A5%B3%E9%82%A3%E7%82%B9%E5%84%BF%E4%B8%8D%E5%BE%97%E4%B8%8D%E8%AF%B4%E7%9A%84%E4%BA%8B?rev=1749540829&amp;do=diff</link>
        <description>“我真傻，真的”， 一个将近60岁的老公务员抬起他没有神采的眼睛来，接着说。“我单知道这世界就是一个个的草台班子；我没想到里屋也是，MNBVC更是。我最初觉得MNBVC是一个挺不错的想法和项目，当初 @等战 @要不说你傻呢 他们发帖子热血沸腾的，但我这么大岁数了，已经没有多少热血了。但我还是很听话的，他们的话句句听。最初 @等战 只提供了百度网盘的分享链接，在帖子里征集其他分发方式。我前几年为了攒小姐姐，花8500买了一个115网盘的永V，有5P的空间，但买来以后发现自己其实早就已经ED了，放着也没什么用，就想着能不能把空间贡献出来做一个115网盘的分享，于是我跟 @等战 联系，表达了自己的想法，没想到他直接说‘就由你来做数据存储（分发）组的组长’，我一辈子就是一个小科员，从来没当过组长这么高级别的领导，于是就赶鸭子上架似的上头了。想着先当几天组长过过瘾，大不了过几天再让给别人。项目初创，也没多少人，我就做我力所能及的。于是我咕哧咕哧下载了上百G的数据，然后又咕哧咕哧上传到115网盘上，等分享的时候悲剧了，115说在审核，过了一周，还在审核，过了一个月，还在审核，其实两年过去了，还在审…</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E4%B8%80%E4%B8%AA%E7%9C%8B%E5%AE%A2%E7%9A%84%E7%AC%AC%E4%B8%80%E8%B4%B4?rev=1748848664&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:44+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>一个看客的第一贴</title>
        <link>https://wiki.mnbvc.org/doku.php/%E4%B8%80%E4%B8%AA%E7%9C%8B%E5%AE%A2%E7%9A%84%E7%AC%AC%E4%B8%80%E8%B4%B4?rev=1748848664&amp;do=diff</link>
        <description>一个潜水员的初次发声

如果不是加入了汪洋大海小组，或许我依然会继续当一名安静的看客。在MOP，我最欣赏的就是可以匿名回帖的自由。虽然文笔欠佳，但还是想分享一下参与项目以来的收获和心路历程。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E4%B8%80%E4%B8%AA%E8%B7%A8%E6%80%A7%E5%88%AB%E7%89%9B%E9%A9%AC%E7%9A%84%E4%BA%8C%E5%91%A8%E5%B9%B4%E5%BF%83%E5%BE%97%E4%BD%93%E4%BC%9A?rev=1748848664&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:44+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>一个跨性别牛马的二周年心得体会</title>
        <link>https://wiki.mnbvc.org/doku.php/%E4%B8%80%E4%B8%AA%E8%B7%A8%E6%80%A7%E5%88%AB%E7%89%9B%E9%A9%AC%E7%9A%84%E4%BA%8C%E5%91%A8%E5%B9%B4%E5%BF%83%E5%BE%97%E4%BD%93%E4%BC%9A?rev=1748848664&amp;do=diff</link>
        <description>身为跨性别者，我参与mnbvc项目的初衷，其实夹杂着些许私心。我不希望新世界的构建者对trans群体一无所知。在看到第一批语料内容的时候，我发现是自己多虑了，语料内容真的是太过繁杂多样了。我也并不认识名为白洁之人（ー_ー）!! 于是，新的问题随之而来：面对如此丰富的内容，我似乎没有什么能够贡献的。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E4%B8%80%E4%B8%AA%E4%B8%AD%E5%B9%B4%E5%BC%BA%E8%A1%8C%E5%B0%91%E5%B9%B4%E6%A2%A6%E6%83%B3%E7%9A%84%E5%91%8A%E7%99%BD_%E8%A1%A8%E7%99%BD_%E8%87%AA%E7%99%BD?rev=1748848664&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:44+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>一个中年强行少年梦想的告白_表白_自白</title>
        <link>https://wiki.mnbvc.org/doku.php/%E4%B8%80%E4%B8%AA%E4%B8%AD%E5%B9%B4%E5%BC%BA%E8%A1%8C%E5%B0%91%E5%B9%B4%E6%A2%A6%E6%83%B3%E7%9A%84%E5%91%8A%E7%99%BD_%E8%A1%A8%E7%99%BD_%E8%87%AA%E7%99%BD?rev=1748848664&amp;do=diff</link>
        <description>03年到里屋的不算太老的老猫盆儿一只，人到中年，认清了自己也就这个揍性了。

然鹅看到里屋的召唤，还是激起了人肉搜索引擎的热血，觍着大脸扑了上去，毕竟，重在掺和么！

秉着“我就趴窗户看”的精神，听了一次傻哥、等战、老龙、NG…………等一干技术大佬（排名不分先后）主持的启动会议。大致听明白了是怎么个事。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E5%B7%B2%E5%AE%8C%E5%B7%A5%E4%BD%86%E6%9C%AA%E6%89%93%E5%8C%85%E5%8F%91%E5%B8%83%E7%9A%84%E6%95%B0%E6%8D%AE?rev=1748848667&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:47+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>已完工但未打包发布的数据</title>
        <link>https://wiki.mnbvc.org/doku.php/%E5%B7%B2%E5%AE%8C%E5%B7%A5%E4%BD%86%E6%9C%AA%E6%89%93%E5%8C%85%E5%8F%91%E5%B8%83%E7%9A%84%E6%95%B0%E6%8D%AE?rev=1748848667&amp;do=diff</link>
        <description>多模态语料小组 chinarxiv数据 在nas 中断

多模态语料小组 doclaynet数据 在nas 中断等改代码

数据收集小组的annas的ia数据还没开始下载</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E6%B8%B8%E6%88%8F%E6%94%B6%E9%9B%86%E4%B8%93%E7%94%A8%E9%A1%B5%E9%9D%A2?rev=1748848670&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:50+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>游戏收集专用页面</title>
        <link>https://wiki.mnbvc.org/doku.php/%E6%B8%B8%E6%88%8F%E6%94%B6%E9%9B%86%E4%B8%93%E7%94%A8%E9%A1%B5%E9%9D%A2?rev=1748848670&amp;do=diff</link>
        <description>游戏语料收集

当前成员：@chouniu @炒饭

第一部分：
目前只收集有中、英文对照的翻译，要求官方翻译或者确认的高质量第三方翻译。
10年内各年度游戏评测网站top n排名的文本量多的游戏（rpg、avg、slg）</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E8%AF%AD%E6%96%99%E6%A0%87%E5%87%86%E5%8C%96%E4%B8%8E%E6%B8%85%E6%B4%97%E5%B0%8F%E7%BB%842025%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93?rev=1768964596&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-01-21T03:03:16+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>语料标准化与清洗小组2025年度总结</title>
        <link>https://wiki.mnbvc.org/doku.php/%E8%AF%AD%E6%96%99%E6%A0%87%E5%87%86%E5%8C%96%E4%B8%8E%E6%B8%85%E6%B4%97%E5%B0%8F%E7%BB%842025%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93?rev=1768964596&amp;do=diff</link>
        <description>一、核心工作领域进展

1. 专项语料清洗任务

小组针对多个高质量数据源进行了清洗与格式转化：

	*  Hacker News：历经 WARC 解析、数据源重获取（JSONL）、乱码修复，最终完成通用格式转化与提交</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E8%AF%AD%E6%96%99%E6%94%B6%E9%9B%86%E5%88%86%E7%B1%BB?rev=1748848672&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:52+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>语料收集分类</title>
        <link>https://wiki.mnbvc.org/doku.php/%E8%AF%AD%E6%96%99%E6%94%B6%E9%9B%86%E5%88%86%E7%B1%BB?rev=1748848672&amp;do=diff</link>
        <description>语料收集分类

该分类用于指导数据收集小组工作。
有兴趣贡献数据的同学，可以任选一个或多个分类进行相关联的语料收集。然后按照分类汇总提交。

歌词（现代）

诗、词、歌、赋等（歌只含古典、其他含古典和现代）</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E8%AF%AD%E6%96%99%E6%94%B6%E9%9B%86%E5%B0%8F%E7%BB%842025%E5%B9%B4%E5%B9%B4%E7%BB%88%E6%80%BB%E7%BB%93?rev=1768964501&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-01-21T03:01:41+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>语料收集小组2025年年终总结</title>
        <link>https://wiki.mnbvc.org/doku.php/%E8%AF%AD%E6%96%99%E6%94%B6%E9%9B%86%E5%B0%8F%E7%BB%842025%E5%B9%B4%E5%B9%B4%E7%BB%88%E6%80%BB%E7%BB%93?rev=1768964501&amp;do=diff</link>
        <description>数据收集小组2025年度工作总结

一、总体概述

2025年，数据收集小组在组长NG因工作变动暂时缺位的情况下，团队成员主动承担责任，在无正式负责人领导的条件下，依然高效推进了多项核心任务。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E8%AF%AD%E6%96%99%E5%A2%9E%E5%BC%BA%E5%B0%8F%E7%BB%842024%E5%B9%B4%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93?rev=1748848671&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:51+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>语料增强小组2024年年度总结</title>
        <link>https://wiki.mnbvc.org/doku.php/%E8%AF%AD%E6%96%99%E5%A2%9E%E5%BC%BA%E5%B0%8F%E7%BB%842024%E5%B9%B4%E5%B9%B4%E5%BA%A6%E6%80%BB%E7%BB%93?rev=1748848671&amp;do=diff</link>
        <description>工作概述：

本小组今年的工作主要重心从去年的编码检测转换，乱码问题研究转换为了标准中文字符范围研究上

工作内容和成果：

1: 提供了标准中英文数据检测接口(api.check_zh_en) ,该接口提供了完整标准的简体中文和英文字母，各类标点符号，常见特殊符号的检测能力。为MNBVC语料中的简体中文，纯英文资料提供了准确的检测能力。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E8%AF%AD%E6%96%99%E5%A2%9E%E5%BC%BA%E5%B0%8F%E7%BB%842025%E5%B9%B4%E7%BB%88%E5%B0%8F%E7%BB%84%E6%80%BB%E7%BB%93%E6%8A%A5%E5%91%8A?rev=1769571896&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-01-28T03:44:56+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>语料增强小组2025年终小组总结报告</title>
        <link>https://wiki.mnbvc.org/doku.php/%E8%AF%AD%E6%96%99%E5%A2%9E%E5%BC%BA%E5%B0%8F%E7%BB%842025%E5%B9%B4%E7%BB%88%E5%B0%8F%E7%BB%84%E6%80%BB%E7%BB%93%E6%8A%A5%E5%91%8A?rev=1769571896&amp;do=diff</link>
        <description>本小组2025年的工作由于组长的长期出差比较难协调人力与时间，工作重心主要集中在基础能力研究上，并为产出太多的在此本人继续深刻检讨，希望在2026年有更多的时间与精力投入，为MNBVC项目发光发热！</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E4%B8%AD%E6%96%87%E6%A0%87%E7%82%B9%E7%AC%A6%E5%8F%B7%E5%AD%97%E7%AC%A6%E9%9B%86%E8%8C%83%E5%9B%B4?rev=1748848665&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:45+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>中文标点符号字符集范围</title>
        <link>https://wiki.mnbvc.org/doku.php/%E4%B8%AD%E6%96%87%E6%A0%87%E7%82%B9%E7%AC%A6%E5%8F%B7%E5%AD%97%E7%AC%A6%E9%9B%86%E8%8C%83%E5%9B%B4?rev=1748848665&amp;do=diff</link>
        <description>\uff0c, \u3002, \u300a, \u300b, \u3001, \uff1f, \u2019, \uff1b, \u201d, \uff1a, \u201c, \u005b, \u5d, \u00b7, \u0060, \u0021, \u0040, \u0023, \u0024, \u0025, \u005e, \u0026, \u002a, \u0028, \u0029, \u005f, \u002b, \u003d, \u002d, \u007c

特殊字符 \uf8f5，待研究</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E4%B8%AD%E6%96%87%E9%A1%B5%E9%9D%A2?rev=1748848665&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:45+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>中文页面</title>
        <link>https://wiki.mnbvc.org/doku.php/%E4%B8%AD%E6%96%87%E9%A1%B5%E9%9D%A2?rev=1748848665&amp;do=diff</link>
        <description>本系统支持中文词条名。

作为一个中文语料集项目，我们鼓励大家使用中文词条名称来编辑这个Wiki</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E9%87%8D%E6%9E%84%E5%B8%B8%E8%A7%84%E7%BC%96%E7%A0%81%E6%A3%80%E6%B5%8B%E6%9C%BA%E5%88%B6?rev=1748848672&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:52+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>重构常规编码检测机制</title>
        <link>https://wiki.mnbvc.org/doku.php/%E9%87%8D%E6%9E%84%E5%B8%B8%E8%A7%84%E7%BC%96%E7%A0%81%E6%A3%80%E6%B5%8B%E6%9C%BA%E5%88%B6?rev=1748848672&amp;do=diff</link>
        <description>*  按段落或者句号拆分文本，并行进行编码猜测
	*  选举多段文本数据的检测结果中概率最高的结果
	*  需要考虑全文中被人为从其他平台复制了一些字符过来导致有可能出现一篇文本实际上有多种编码的情况</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/%E9%87%8D%E7%94%9F%E4%B9%8B%E6%88%91%E5%9C%A8%E6%B5%B7%E9%87%8C%E5%BD%93%E7%89%9B%E9%A9%AC%E7%9A%84%E4%B8%A4%E5%B9%B4?rev=1748848672&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:52+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>重生之我在海里当牛马的两年</title>
        <link>https://wiki.mnbvc.org/doku.php/%E9%87%8D%E7%94%9F%E4%B9%8B%E6%88%91%E5%9C%A8%E6%B5%B7%E9%87%8C%E5%BD%93%E7%89%9B%E9%A9%AC%E7%9A%84%E4%B8%A4%E5%B9%B4?rev=1748848672&amp;do=diff</link>
        <description>从MNBVC项目启动以来，一直在默默的关注着。我们这些早期的互联网参与者，谁不有颗互联互通的心。试着出一份力，但是心有余而技不足。
某年某月某日某人发起了一个招工启示，其它没看到，就看到说只要是要自带干粮，谁都可上船出海，一起星辰大海。
诶，干粮咱有啊，刚折腾的一台黑群晖，于是就报名，经层层选拔，终上了贼船。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/aboutmnbvc?rev=1748848673&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:53+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>aboutmnbvc</title>
        <link>https://wiki.mnbvc.org/doku.php/aboutmnbvc?rev=1748848673&amp;do=diff</link>
        <description>关于MNBVC

MNBVC项目源自里屋社区用户。

里屋是互联网上最古老的中文论坛之一。

MNBVC-Wiki 是什么？

	*  MNBVC-Wiki是 Massive Never-ending BT Vast Chinese corpus 超大规模中文语料集。 它诞生的初衷是MNBVC开源项目团队在中文语料库建设过程中积累了一些项目经验，希望通过wiki系统记录和分享，以帮助未来参与相关项目的开发者。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/ascii%E5%AD%97%E7%AC%A6%E8%8C%83%E5%9B%B4?rev=1748848673&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:53+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>ascii字符范围</title>
        <link>https://wiki.mnbvc.org/doku.php/ascii%E5%AD%97%E7%AC%A6%E8%8C%83%E5%9B%B4?rev=1748848673&amp;do=diff</link>
        <description>0x0021~0x007e

&lt;https://en.wikibooks.org/wiki/Unicode/Character_reference/0000-0FFF&gt;</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/cjk%E7%AC%A6%E5%8F%B7%E8%8C%83%E5%9B%B4?rev=1748848674&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:54+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>cjk符号范围</title>
        <link>https://wiki.mnbvc.org/doku.php/cjk%E7%AC%A6%E5%8F%B7%E8%8C%83%E5%9B%B4?rev=1748848674&amp;do=diff</link>
        <description>中文类的常见符号--需要加上英文符号
 16进制值  符号0xfeff 是python的BOM0xa9 ©0xa0 网查表示汉字的开始0xfffd unicode中无法识别的特殊字符，也就是锟斤拷的由来0xe9 é0xff5e ～ 大波浪线0xd83d 不可见</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/cjk%E4%B8%AD%E6%97%A5%E9%9F%A9%E8%B6%8A%E5%85%B1%E7%94%A8%E6%B1%89%E5%AD%97?rev=1748848673&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:53+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>cjk中日韩越共用汉字</title>
        <link>https://wiki.mnbvc.org/doku.php/cjk%E4%B8%AD%E6%97%A5%E9%9F%A9%E8%B6%8A%E5%85%B1%E7%94%A8%E6%B1%89%E5%AD%97?rev=1748848673&amp;do=diff</link>
        <description>中日韩越南共用汉字列表:

一,七,三,上,下,不,世,中,主,久,乘,九,事,二,五,井,亡,交,京,人,仁,今,他,仙,代,令,以,仰,伏,伐,休,位,低,住,何,佛,作,使,来,例,依,便,俗,保,信,修,个,借,假,伟,停,备,传,伤,价,亿,元,兄,充,兆,先,光,免,儿,入,内,全,两,八,公,六,共,兵,典,册,再,冬,冰,冷,出,刀,分,刑,列,初,判,别,利,到,则,前,力,功,加,助,勇,勉,动,务,胜,劳,势,勤,劝,化,北,区,十,千,午,半,卒,协,南,印,危,卷,厚,原,去,参,又,及,友,反,取,受,口,古,句,可,史,右,各,合,吉,同,名,向,君,否,吹,告,味,呼,命,和,哀,品,唱,商,问,善,喜,丧,单,严,四,回,因,困,固,国,园,圆,图,团,土,在,地,均,城,执,基,堂,坚,报,场,增,士,壮,寿,夏,夕,外,多,夜,大,天,太,夫,央,失,奉,女,好,如,妙,妹,妻,姊,始,姓,威,婚,妇,子,字,存,孝,季,孙,学,宅,宇,守,安,完,宗,官,宙,定,客,室,害,家,容,宿,密,富,寒,察,实,写,寸,寺,射,将,尊,对,小,少,就,…</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/cjk%E4%B8%AD%E6%96%87%E9%9C%80%E6%B1%82?rev=1748848673&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:53+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>cjk中文需求</title>
        <link>https://wiki.mnbvc.org/doku.php/cjk%E4%B8%AD%E6%96%87%E9%9C%80%E6%B1%82?rev=1748848673&amp;do=diff</link>
        <description>全部转换成utf-8之后的语料,判断其是否为简体中文。

	*  去除掉中文常用符号范围内的字符，不作为阈值比较。
	*  判断简体中文加英文的比例大于95%。
	*  95-99%之间的数据误差，人眼核对。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/cnrss?rev=1748848674&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:54+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>cnrss</title>
        <link>https://wiki.mnbvc.org/doku.php/cnrss?rev=1748848674&amp;do=diff</link>
        <description>2023/8/31 数据记录 2824

2023/7/27 数据记录 1309
&lt;http://0011.one/podcast.xml&gt;&lt;http://13.57.252.68/feed/podcast&gt;&lt;http://13tech.com.cn/?feed=rss2&gt;&lt;http://199604.com/feed&gt;&lt;http://1c7.me/rss/&gt;&lt;http://7400.me/atom.xml&gt;&lt;http://akanelee.logdown.com/posts.rss&gt;&lt;http://anthropology.fivest.one/feed&gt;&lt;http://app.chinaz.com/?app=rss&gt;&lt;http://app.m4.cn/?app=rss&amp;controller=index&amp;action=feed&amp;catid=248&gt;&lt;http://blog.cnbang.net/feed/&gt;&lt;http://blog.codingnow.com/atom.xml&gt;&lt;http://blog.codingnow.com/atom.xml&gt; &lt;http://blog.devt…</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/csxz?rev=1748848674&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:54+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>csxz</title>
        <link>https://wiki.mnbvc.org/doku.php/csxz?rev=1748848674&amp;do=diff</link>
        <description>智能测试组目标

每个小组都提交了大量的代码，但是每个同学的编码能力有差异，写的代码可能存在一些问题，本小组通过构建测试框架、构建测试数据、编写测试用例、生成测试代码等手段，统一提升项目的代码水平。希望可以通过llm直接生成测试用例和测试代码。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/dmtyl?rev=1748848674&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:54+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>dmtyl</title>
        <link>https://wiki.mnbvc.org/doku.php/dmtyl?rev=1748848674&amp;do=diff</link>
        <description>多模态小组目标

将图文结合的网页、PDF、WORD文档等转换成多模态语料。

小组成果

新人文档：&lt;https://v61g3vcxy7.feishu.cn/wiki/G0OAwqhA2iNYGrkFOPUc2CpvnIh?from=from_copylink&gt;

小组组内wiki (飞书)：&lt;https://v61g3vcxy7.feishu.cn/wiki/H8D1wqyIXim3wcktxgqc0IIlnAf&gt;

小组任务

1. 对纯中英文的PDF进行抽取，形成纯文本数据集

2. 对论文抽取成多模态数据集</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/dmyl?rev=1748848675&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:55+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>dmyl</title>
        <link>https://wiki.mnbvc.org/doku.php/dmyl?rev=1748848675&amp;do=diff</link>
        <description>代码语料小组目标

关注代码语料的处理，包括github、gitlab等各大代码仓库的最新代码、commit数据、issue数据等的爬取和清洗。

小组任务

1. github issues信息获取

2. github commits信息获取

3. 其他代码托管平台调研</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/ed2k?rev=1748848675&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:55+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>ed2k</title>
        <link>https://wiki.mnbvc.org/doku.php/ed2k?rev=1748848675&amp;do=diff</link>
        <description>电驴文件链接 ED2K

	&quot; 内部有限测试中...
 挂载服务器 eMule Sunrise 176.123.5.89 4725&quot;

PART 1.

202212 目录


ed2k://|file|20221224.zip|4584819581|F7155AF28E5A6D8FDF00666BFACD2AAD|h=PLD6E3TKO2GZBOHH5V7AUH5DJI6LDI37|/  
ed2k://|file|20221225.zip|7547371398|25CC13BF8099B3660F8B6216933DE0ED|h=Q2PXROG2VGCC2PGZYUHBMMTVC7LDJ46G|/</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/etcrss?rev=1748848675&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:55+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>etcrss</title>
        <link>https://wiki.mnbvc.org/doku.php/etcrss?rev=1748848675&amp;do=diff</link>
        <description>2023/8/31 首次更新 1058 主要来源于engineering-blogs data-science
&lt;http://101.datascience.community/feed/&gt;&lt;http://317070.github.io/feed.xml&gt;&lt;http://aakinshin.net/en/rss.xml&gt;&lt;http://aarvik.dk/rss/&gt;&lt;http://addyosmani.com/rss.xml&gt;&lt;http://advanceddataanalytics.net/feed/&gt;&lt;http://ai.googleblog.com/feeds/posts/default&gt;&lt;http://alexhwoods.com/feed/&gt;&lt;http://alexisperrier.com//feed.xml&gt;&lt;http://allendowney.blogspot.com/feeds/posts/default&gt;&lt;http://andrewgelman.com/feed/&gt;&lt;http://angrystatistician.blogspot.com/feeds/pos…</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/gbk_%E4%B9%B1%E7%A0%81%E5%90%88%E9%9B%86?rev=1748848676&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:56+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>gbk_乱码合集</title>
        <link>https://wiki.mnbvc.org/doku.php/gbk_%E4%B9%B1%E7%A0%81%E5%90%88%E9%9B%86?rev=1748848676&amp;do=diff</link>
        <description>出错文件地址: 20230101/aliyun.20230101.7.史书/113.txt

链接: &lt;https://pan.baidu.com/s/1YgIr7R-pvTdvF81qsihHxg?pwd=ctyq&gt; 提取码: ctyq 

报错内容: /Users/alan/temp_test/20230101/aliyun.20230101.7.史书/113.txt gb18030 转换到utf8失败, 'gb18030' codec can't decode byte 0x80 in position 21529: illegal multibyte sequence</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/gbk_%E6%AC%A7%E5%85%83%E7%AC%A6%E5%8F%B7%E7%9A%84%E5%85%BC%E5%AE%B9%E6%80%A7%E9%97%AE%E9%A2%98?rev=1748848676&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:56+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>gbk_欧元符号的兼容性问题</title>
        <link>https://wiki.mnbvc.org/doku.php/gbk_%E6%AC%A7%E5%85%83%E7%AC%A6%E5%8F%B7%E7%9A%84%E5%85%BC%E5%AE%B9%E6%80%A7%E9%97%AE%E9%A2%98?rev=1748848676&amp;do=diff</link>
        <description>在对检测到的文件编码进行转码的过程中我们发现：

因为GBK编码与CP936/MS936存在兼容性问题，会导致使用已检测的编码格式打开这段内容时出错，虽然可以用errors=“ignore” 跳过，但跳过这段内容会出现数据遗失。数据文件范例 224.txt,</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/gbk%E5%92%8Cutf8%E4%BA%92%E8%BD%AC%E5%87%BA%E7%8E%B0%E7%9A%84%E9%97%AE%E9%A2%98?rev=1748848676&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:56+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>gbk和utf8互转出现的问题</title>
        <link>https://wiki.mnbvc.org/doku.php/gbk%E5%92%8Cutf8%E4%BA%92%E8%BD%AC%E5%87%BA%E7%8E%B0%E7%9A%84%E9%97%AE%E9%A2%98?rev=1748848676&amp;do=diff</link>
        <description>&lt;https://www.zhihu.com/question/617746548&gt;</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/github_codepages%E4%BD%BF%E7%94%A8%E6%95%99%E7%A8%8B%E8%AF%B4%E6%98%8E?rev=1748848676&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:56+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>github_codepages使用教程说明</title>
        <link>https://wiki.mnbvc.org/doku.php/github_codepages%E4%BD%BF%E7%94%A8%E6%95%99%E7%A8%8B%E8%AF%B4%E6%98%8E?rev=1748848676&amp;do=diff</link>
        <description>关于GitHub Codespaces的解释:

GitHub Codespaces 是一个基于云的即时开发环境，它使用容器为你提供用于开发的通用语言、工具和实用程序。 GitHub Codespaces 也是可配置的，通过它可为项目创建自定义的开发环境。 通过为项目配置自定义开发环境，可以为项目的所有用户提供可重复的代码空间配置。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/github_codespaces%E4%BD%BF%E7%94%A8%E6%95%99%E7%A8%8B%E8%AF%B4%E6%98%8E?rev=1748848677&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:57+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>github_codespaces使用教程说明</title>
        <link>https://wiki.mnbvc.org/doku.php/github_codespaces%E4%BD%BF%E7%94%A8%E6%95%99%E7%A8%8B%E8%AF%B4%E6%98%8E?rev=1748848677&amp;do=diff</link>
        <description>关于GitHub Codespaces的解释:

GitHub Codespaces 是一个基于云的即时开发环境，它使用容器为你提供用于开发的通用语言、工具和实用程序。 GitHub Codespaces 也是可配置的，通过它可为项目创建自定义的开发环境。 通过为项目配置自定义开发环境，可以为项目的所有用户提供可重复的代码空间配置。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/github%E5%88%86%E5%B8%83%E5%BC%8F%E7%88%AC%E5%8F%96?rev=1748848676&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:56+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>github分布式爬取</title>
        <link>https://wiki.mnbvc.org/doku.php/github%E5%88%86%E5%B8%83%E5%BC%8F%E7%88%AC%E5%8F%96?rev=1748848676&amp;do=diff</link>
        <description>第一步：从龙骑兵和N_G处获取 repos_list.txt 文件和你自己系统对应的爬虫工具；

第二步：

	*  windows和mac用户在剩余空间不小于100G的磁盘上新建一个文件夹，将 repos_list.txt 文件和爬虫工具一起放到里面；</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/hashlist?rev=1775534434&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-04-07T04:00:34+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>hashlist</title>
        <link>https://wiki.mnbvc.org/doku.php/hashlist?rev=1775534434&amp;do=diff</link>
        <description>Hash文件由 HashMyFiles 生成首次编辑 20240801 更新至 202305目录
20240802 更新至 202309目录 694文件
20250112 更新至 202311目录 836文件
20250721 变更页面结构 添加更新数据
20250813 更新P1_E01内4组数据包
20251010 累计更新P1_E01内11组数据包
20251014 新增1组数据包
20251104 更新1组数据包
20251108 更新1组数据包
20251127 新增9组数据包
20260104 新增1组数据包
20260202 更新1组数据包 新增8组数据包 新增202601目录
20260310 更新2组数据包 新增1组数据包
20260323 更新1组数据包
20260407 更新1组数据包 新增3组数据包…</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/howtoaddnewpage?rev=1748848677&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:57+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>howtoaddnewpage</title>
        <link>https://wiki.mnbvc.org/doku.php/howtoaddnewpage?rev=1748848677&amp;do=diff</link>
        <description>如何新建页面

本Wiki系统使用 DokuWIki 搭建。 功能介绍

 基本编辑页面描述了如何在本站中创建和编辑页面。 您可以在  沙盒 中练习编辑。 

你也可以访问 文档目录 学习更多该wiki系统的使用方法。

先登录，才有修改权限继续下面操作。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/icu?rev=1748848677&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:57+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>icu</title>
        <link>https://wiki.mnbvc.org/doku.php/icu?rev=1748848677&amp;do=diff</link>
        <description>综述

icu是unicode联盟官方提供的编码转换工具

转码

icu中码表地址：ucm码表、xml码表

杂项

GBK编码在UTF8中最长连续码段是U4E00-U9FA5（一-龥 20902个字符）

”的“字（U7684）存在于280个编码表中

”の“字（U306E）存在于258个编码表中</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/internet_archive%E4%B8%93%E7%94%A8%E9%A1%B5%E9%9D%A2?rev=1748848678&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:58+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>internet_archive专用页面</title>
        <link>https://wiki.mnbvc.org/doku.php/internet_archive%E4%B8%93%E7%94%A8%E9%A1%B5%E9%9D%A2?rev=1748848678&amp;do=diff</link>
        <description>Internet Archive（https://archive.org/）专用页面

以下简称为IA

如何使用IA官方命令行工具进行文件下载

安装ia命令行工具（pythone3以上）

这个pip包中包含了python库和命令行工具ia.exe
pip install internetarchive</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/jcbz?rev=1748848678&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:58+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>jcbz</title>
        <link>https://wiki.mnbvc.org/doku.php/jcbz?rev=1748848678&amp;do=diff</link>
        <description>基础保障组目标

本小组就是传说中的打杂组，什么都干。由项目管理同学（PM）、美术同学、HR和写手们组成。工作包括了小组例会通知、学术讨论组织、项目图标设计、新人培训、项目过程记录、音频视频留档等工作。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/jcgc?rev=1748848678&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:58+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>jcgc</title>
        <link>https://wiki.mnbvc.org/doku.php/jcgc?rev=1748848678&amp;do=diff</link>
        <description>基础工程组目标

为帮助项目组更好的沟通和管理，进行相关的基础工具建设。

小组任务

小组成果

项目主页 http://mnbvc.253874.net/

会议工具 

chatgpt代理 http://www.KEJILEQU.com

留言板 http://mnbvc.253874.net/guestbook/

项目wiki http://wiki.mnbvc.org</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/kybd?rev=1748848678&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:58+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>kybd</title>
        <link>https://wiki.mnbvc.org/doku.php/kybd?rev=1748848678&amp;do=diff</link>
        <description>开源补丁组目标

有些开源软件已经不适用当前的数据清洗需求了。例如BeautifulSoap，每个使用的同学都需要根据数据情况补充大量的后处理代码。本小组期望在这些开源软件基础上，做一些处理前或处理后的补丁，以便于这些开源工具更好的完成我们的数据处理任务。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/linux%E7%8E%AF%E5%A2%83%E4%B8%8Bfile%E5%91%BD%E4%BB%A4%E7%9A%84magic%E6%96%87%E4%BB%B6%E7%9A%84%E5%86%85%E5%AE%B9%E8%A7%A3%E6%9E%90?rev=1748848679&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:59+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>linux环境下file命令的magic文件的内容解析</title>
        <link>https://wiki.mnbvc.org/doku.php/linux%E7%8E%AF%E5%A2%83%E4%B8%8Bfile%E5%91%BD%E4%BB%A4%E7%9A%84magic%E6%96%87%E4%BB%B6%E7%9A%84%E5%86%85%E5%AE%B9%E8%A7%A3%E6%9E%90?rev=1748848679&amp;do=diff</link>
        <description>linux系统下file使用的magic文件格式说明

magic
本手册是file命令所使用的magic文件的格式说明文档，版本是5.04.
file命令用于识别文件类型，其他检测，检测文件内容中是否符合 'magic模式'，也就是规则。
/usr/share/misc/magic 文件指定什么模式将被用于检测，当匹配到规则时什么信息或者MIME type将打印输出。从文件提取额外信息
文件每行都指定一个可执行的测试。一个测试比较的是在数据中的起始位置开始，在特定的偏移位置文件的字节值。一个字符串或者一个数字值。如果测试成功，将打印信息。…</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/magent?rev=1748848679&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:59+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>magent</title>
        <link>https://wiki.mnbvc.org/doku.php/magent?rev=1748848679&amp;do=diff</link>
        <description>小组成果 磁力链发布页

BT种子 由于我们产生种子文件巨大，各大BT种子发布站收纳不了。所以该项目已取消。

7z hashlist
经过发布组的努力后期数据已经采用更高压缩比参数，未来也将更新以前发布的数据包。所以该项目已取消。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/mnbvc_p1_e01?rev=1775534212&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-04-07T03:56:52+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>mnbvc_p1_e01</title>
        <link>https://wiki.mnbvc.org/doku.php/mnbvc_p1_e01?rev=1775534212&amp;do=diff</link>
        <description>MNBVC P1 E01 HASH FILE

含目录：202212、202301 共计：100个文件 858 GB
 Filename      MD5                               SHA1                                      CRC32     SHA-256                                                           SHA-512</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/mnbvc_p1_e02?rev=1774266037&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-03-23T11:40:37+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>mnbvc_p1_e02</title>
        <link>https://wiki.mnbvc.org/doku.php/mnbvc_p1_e02?rev=1774266037&amp;do=diff</link>
        <description>MNBVC P1 E02 HASH FILE

 含目录：202302、202303 共计：157个文件 1.02 TB
 Filename      MD5                               SHA1                                      CRC32     SHA-256                                                           SHA-512</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/mnbvc_p1_e03?rev=1753082706&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-07-21T07:25:06+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>mnbvc_p1_e03</title>
        <link>https://wiki.mnbvc.org/doku.php/mnbvc_p1_e03?rev=1753082706&amp;do=diff</link>
        <description>MNBVC P1 E03 HASH FILE

 含目录：202304 共计：99个文件 1.09 TB
 Filename      MD5                               SHA1                                      CRC32     SHA-256                                                           SHA-512</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/mnbvc_p1_e04?rev=1753082820&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-07-21T07:27:00+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>mnbvc_p1_e04</title>
        <link>https://wiki.mnbvc.org/doku.php/mnbvc_p1_e04?rev=1753082820&amp;do=diff</link>
        <description>MNBVC P1 E04 HASH FILE

含目录：202305 共计：100个文件 1.11 TB
 Filename      MD5                               SHA1                                      CRC32     SHA-256                                                           SHA-512</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/mnbvc_p1_e05?rev=1753082938&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-07-21T07:28:58+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>mnbvc_p1_e05</title>
        <link>https://wiki.mnbvc.org/doku.php/mnbvc_p1_e05?rev=1753082938&amp;do=diff</link>
        <description>MNBVC P1 E05 HASH FILE

 含目录：202306 共计：100个文件 1.15 TB
 Filename      MD5                               SHA1                                      CRC32     SHA-256                                                           SHA-512</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/mnbvc_p1_e06?rev=1753083231&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-07-21T07:33:51+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>mnbvc_p1_e06</title>
        <link>https://wiki.mnbvc.org/doku.php/mnbvc_p1_e06?rev=1753083231&amp;do=diff</link>
        <description>MNBVC P1 E06 HASH FILE

 含目录：202307、202308 共计：116个文件 1.30 TB
 Filename      MD5                               SHA1                                      CRC32     SHA-256                                                           SHA-512</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/mnbvc_p1_e07?rev=1753083457&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-07-21T07:37:37+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>mnbvc_p1_e07</title>
        <link>https://wiki.mnbvc.org/doku.php/mnbvc_p1_e07?rev=1753083457&amp;do=diff</link>
        <description>MNBVC P1 E07 HASH FILE

 含目录：202309、202310 共计：81个文件 912 GB
 Filename      MD5                               SHA1                                      CRC32     SHA-256                                                           SHA-512</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/mnbvc_p1_e08?rev=1753083557&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-07-21T07:39:17+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>mnbvc_p1_e08</title>
        <link>https://wiki.mnbvc.org/doku.php/mnbvc_p1_e08?rev=1753083557&amp;do=diff</link>
        <description>MNBVC P1 E08 HASH FILE

 含目录：202311 共计：77个文件 1.08 TB
 Filename      MD5                               SHA1                                      CRC32     SHA-256                                                           SHA-512</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/mnbvc_p1_e09?rev=1762686936&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-11-09T11:15:36+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>mnbvc_p1_e09</title>
        <link>https://wiki.mnbvc.org/doku.php/mnbvc_p1_e09?rev=1762686936&amp;do=diff</link>
        <description>MNBVC P1 E09 HASH FILE

 含目录：202501、202502、202503 共计：77个文件 1.08 TB
 Filename      MD5                               SHA1                                      CRC32     SHA-256</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/mnbvc_p2_e01?rev=1753083773&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-07-21T07:42:53+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>mnbvc_p2_e01</title>
        <link>https://wiki.mnbvc.org/doku.php/mnbvc_p2_e01?rev=1753083773&amp;do=diff</link>
        <description>MNBVC P2 E01 HASH FILE

 含目录：202504 共计：99个文件 1.55 TB
 Filename      MD5                               SHA1                                      CRC32     SHA-256                                                           SHA-512</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/mnbvc_p2_e02?rev=1775534401&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-04-07T04:00:01+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>mnbvc_p2_e02</title>
        <link>https://wiki.mnbvc.org/doku.php/mnbvc_p2_e02?rev=1775534401&amp;do=diff</link>
        <description>MNBVC P2 E02 HASH FILE

 含目录：202505、202506 共计：27个文件 716 GB
 Filename      MD5                               SHA1                                      CRC32     SHA-256                                                           SHA-512</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/mnbvc2023%E5%B9%B4%E7%BB%88%E6%80%BB%E7%BB%93%E5%8F%8A%E6%84%9F%E8%B0%A2?rev=1748848679&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:59+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>mnbvc2023年终总结及感谢</title>
        <link>https://wiki.mnbvc.org/doku.php/mnbvc2023%E5%B9%B4%E7%BB%88%E6%80%BB%E7%BB%93%E5%8F%8A%E6%84%9F%E8%B0%A2?rev=1748848679&amp;do=diff</link>
        <description>MNBVC一周年总结

MNBVC项目于2023年1月1日正式启动，由里屋社区资深用户等战、零零发和龙骑兵的发起下，集结了广大志愿者共同参与，致力于构建一个超大规模的中文语料集。项目的主要目的是为中文自然语言处理提供高质量的数据资源，支持中文信息技术的发展。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/mnbvc2024%E5%B9%B4%E7%BB%88%E6%80%BB%E7%BB%93%E5%8F%8A%E6%84%9F%E8%B0%A2?rev=1748848679&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:17:59+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>mnbvc2024年终总结及感谢</title>
        <link>https://wiki.mnbvc.org/doku.php/mnbvc2024%E5%B9%B4%E7%BB%88%E6%80%BB%E7%BB%93%E5%8F%8A%E6%84%9F%E8%B0%A2?rev=1748848679&amp;do=diff</link>
        <description>各小组年终总结

平行语料小组2024年年度总结

数据存储（分发）小组2024年年终总结

问答语料小组2024年度工作总结

语料增强小组2024年年度总结

代码语料小组2024年年度工作总结

数据发布小组2024年度工作总结

数据标准化小组2024年度工作总结

数据清洗小组2024年度工作总结

数据收集小组2024年总结

多模态语料小组年度总结报告

汪洋大海小组工作2024年度总结报告

成员感想

一个中年强行少年梦想的告白……表白……自白

一个跨性别牛马的二周年心得体会

我以为我很牛，马的，直到我知道了一个叫做AI的

一場關於中文的漫長..若即若離..的征途

我在汪洋大海的日子

一场为爱发电的奇幻之旅

一个看客的第一贴

重生之我在海里当牛马的两年

爱凑热闹的外行一个

一个将近60岁的老公务员跟跨性别美女那点儿不得不说的事…</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/mnbvc2025%E5%B9%B4%E7%BB%88%E6%80%BB%E7%BB%93%E5%8F%8A%E6%84%9F%E8%B0%A2?rev=1770280359&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-02-05T08:32:39+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>mnbvc2025年终总结及感谢</title>
        <link>https://wiki.mnbvc.org/doku.php/mnbvc2025%E5%B9%B4%E7%BB%88%E6%80%BB%E7%BB%93%E5%8F%8A%E6%84%9F%E8%B0%A2?rev=1770280359&amp;do=diff</link>
        <description>各小组年终总结

数据存储（分发）小组2025年年终总结

平行语料小组2025年年度总结

语料收集小组2025年年终总结

语料标准化与清洗小组2025年度总结

语料增强小组2025年终小组总结报告

问答小组2025年终小组总结报告

多模态语料小组2025年度总结

数据发布小组2025年度总结

汪洋大海项目2025年度总结

代码语料小组2025年度总结</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/pxyl?rev=1770537770&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-02-08T08:02:50+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>pxyl</title>
        <link>https://wiki.mnbvc.org/doku.php/pxyl?rev=1770537770&amp;do=diff</link>
        <description>平行语料小组目标

关注中英文平行语料的清洗，例如联合国语料、字幕组语料、字典、双语读本等。

Github仓库

总仓库：&lt;https://github.com/liyongsea/parallel_corpus_mnbvc&gt;

平行语料组现有任务分配、代码协作、招募信息、加入方式都将直接放在总仓库。微信小群讨论工作事宜，共享站传递临时文件，每周六16:00小组例会同步进度。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/save_the_web_project%E4%B8%93%E7%94%A8%E9%A1%B5%E9%9D%A2?rev=1748848680&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:18:00+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>save_the_web_project专用页面</title>
        <link>https://wiki.mnbvc.org/doku.php/save_the_web_project%E4%B8%93%E7%94%A8%E9%A1%B5%E9%9D%A2?rev=1748848680&amp;do=diff</link>
        <description>&lt;https://blog.save-web.org/&gt;

太长不看版：
该网站有9个公开的归档项目（不包含播客项目），除了糗事百科1.3TB需邮寄硬盘copy外，大部分都在Internet Archive（IA）上，IA提供公开接口可批量下载指定的数据，如果其它小组做过IA下载脚本，则可直接使用，需等战确认一下。
下文中行开头标注（N/A）的为不提供 下载、硬盘copy，标注（IA）的可通过internet archive下载，标注（硬盘）的需邮寄硬盘。…</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/sharegptqa?rev=1748848680&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:18:00+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>sharegptqa</title>
        <link>https://wiki.mnbvc.org/doku.php/sharegptqa?rev=1748848680&amp;do=diff</link>
        <description>ShareGPTQAExtractor-mnbvc

	*  
		*  
			*  
			*  

		*  
			*  
			*  
			*  

		*  
			*  
			*  
			*  

		*  


项目需求描述

原始数据集

	*  本项目主要目的是从Trello上分享的ShareGPT语料链接中抽取中文/英文问答数据。一共5个语料：</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/sidebar?rev=1748848680&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:18:00+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>sidebar</title>
        <link>https://wiki.mnbvc.org/doku.php/sidebar?rev=1748848680&amp;do=diff</link>
        <description>MNBVC Wiki 

研发团队

	*  数据收集组
	*  数据标准化组
	*  数据清洗组
	*  语料增强组
	*  数据打包组
	*  数据存储组
	*  数据发布组
	*  平行语料组
	*  问答语料组
	*  代码语料组
	*  多模态语料组
	*  基础工程组
	*  开源补丁组（筹）
	*  智能测试组（筹）
	*  基础保障组（筹）

法务团队

	*  项目红线
	* 历次法律问题讨论

外事团队

	* 对外沟通记录

其他

	* 数据故事
	* 踩坑记录
	* 学术活动
	* 感谢名单

wiki使用说明

	*  如何新建页面
	*  wiki语法格式
	*  dokuwiki使用说明
	*  点此编辑导航目录

里屋

	*  关于里屋…</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/sjbzh?rev=1748848680&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:18:00+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>sjbzh</title>
        <link>https://wiki.mnbvc.org/doku.php/sjbzh?rev=1748848680&amp;do=diff</link>
        <description>数据标准化小组目标

将各个开源数据集对齐到MNBVC数据集格式，方便算法同学直接使用。

小组任务

	*  本项目主要目的是将huggingface上的ShareGPT问答语料，标准化为MNBVC的问答语料格式，标准化格式和详细说明请参见：</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/sjcc?rev=1755154215&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-08-14T06:50:15+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>sjcc</title>
        <link>https://wiki.mnbvc.org/doku.php/sjcc?rev=1755154215&amp;do=diff</link>
        <description>数据存储小组目标

将打包好的语料进行公有云或分布式存储分发，以方便用户下载。

小组任务

尽可能提供多元的安全稳定的下载方式。  
目前本项目组缺乏足够的存储资源及安全的环境用于提供http或ftp方式下载，诚邀热心志愿者提供相关资源。  
其他数据分发资源和方式也同样欢迎，如有意，请与本项目组联系。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/sjdb?rev=1748848681&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:18:01+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>sjdb</title>
        <link>https://wiki.mnbvc.org/doku.php/sjdb?rev=1748848681&amp;do=diff</link>
        <description>数据打包小组目标

本小组将各个小组提供的清洗脚本自动化、并行化，目标是利用自动化框架批量将原始语料转换成MNBVC数据集的标准格式。
其他研发小组仅提供各类开源代码，本小组直接产出数据，对数据问题负最终责任，数据问题包括但不限于版权、色情、涉政等。
警察叔叔请看明白，如果铁拳砸下来就抓这个小组的成员。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/sjfb?rev=1748848681&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:18:01+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>sjfb</title>
        <link>https://wiki.mnbvc.org/doku.php/sjfb?rev=1748848681&amp;do=diff</link>
        <description>数据发布组目标

将清洗好的数据发布到huggingface等平台。

小组任务

发布已清洗的数据。

小组成果

百度网盘，微力分享，hunggingface 

数据位置

清洗完成的分类数据已陆续放到：

 huggingface 

可以使用如下脚本加载：</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/sjqx?rev=1748848681&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:18:01+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>sjqx</title>
        <link>https://wiki.mnbvc.org/doku.php/sjqx?rev=1748848681&amp;do=diff</link>
        <description>数据清洗组目标

进行无损的数据清洗，例如数据去重，数据质量打分等。方便算法同学根据数据标签快速过滤出自己需要的数据。
本小组和语料增强小组的区别是，本小组只打标签，不破坏语料本身，语料增强小组会直接修改语料。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/sjsj?rev=1748848681&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:18:01+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>sjsj</title>
        <link>https://wiki.mnbvc.org/doku.php/sjsj?rev=1748848681&amp;do=diff</link>
        <description>数据收集小组目标

抢救互联网上即将消失的语料，抢救小众论坛、个人博客、影评书评等评论、剧本杀记录、跑团记录、现代诗之类的冷门文化。
这个小组就是发挥里屋论坛成员们互联网老兵的特长，去做程序员搞不定、国家企业等大机构嫌琐碎不愿意做的事情。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/start?rev=1748848681&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:18:01+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>start</title>
        <link>https://wiki.mnbvc.org/doku.php/start?rev=1748848681&amp;do=diff</link>
        <description>欢迎来到 MNBVC：Massive Never-ending BT Vast Chinese corpus 超大规模中文语料集

项目主页：&lt;https://mnbvc.253874.net&gt;

Github 地址：&lt;https://github.com/esbatmop/MNBVC&gt;

联系邮箱：MNBVC@253874.net

关于MNBVC



2024年12月1日，MNBVC语料集数据量达到42778GB，完成了我们23个月前给自己定下的小目标。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/text_poem?rev=1748848682&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:18:02+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>text_poem</title>
        <link>https://wiki.mnbvc.org/doku.php/text_poem?rev=1748848682&amp;do=diff</link>
        <description>PoemExtractor-mnbvc

项目描述

	*  本项目目的是将诗歌清洗为MNBVC的标准文本格式
	*  原文件和目标文件均为jsonl格式，每行对应一首诗歌，源格式和目标详细格式附后。

环境

	*  下载本项目


git clone PoemExtractor-mnbvc</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/thankslist?rev=1768822001&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-01-19T11:26:41+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>thankslist</title>
        <link>https://wiki.mnbvc.org/doku.php/thankslist?rev=1768822001&amp;do=diff</link>
        <description>感谢名单·由来

MNBVC项目的发展过程中还是离不开很多很多个人、单位、组织或者不愿意透露身份的什么有来头的帮助的。

无论如何，没有社区的参与，没有全体开源开发者的贡献，就不会有MNBVC项目的今天。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/unicode%E6%8E%A7%E5%88%B6%E7%AC%A6%E8%8C%83%E5%9B%B4?rev=1748848682&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:18:02+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>unicode控制符范围</title>
        <link>https://wiki.mnbvc.org/doku.php/unicode%E6%8E%A7%E5%88%B6%E7%AC%A6%E8%8C%83%E5%9B%B4?rev=1748848682&amp;do=diff</link>
        <description>\xAD [­]
\uFEFF [﻿]
\uFEFF [﻿]
\uFFF9 [￹]
\uFFFA [￺]
\0-\x08

0001 [�]
0002 [�]
0003 [�]
0004 [�]
0005 [�]
0006 [�]
0007 [�]
\u000E-\u001F

000E [�]
000F [�]
0010 [�]
0011 [�]
0012 [�]
0013 [�]
0014 [�]
0015 [�]
0016 [�]
0017 [�]
0018 [�]
0019 [�]
001A [�]
001B [�]
001C [�]
001D [�]
001E [�]
\x7F-\u0084</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/utf8%E5%AD%97%E7%AC%A6%E9%9B%86%E8%8C%83%E5%9B%B4?rev=1748848682&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:18:02+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>utf8字符集范围</title>
        <link>https://wiki.mnbvc.org/doku.php/utf8%E5%AD%97%E7%AC%A6%E9%9B%86%E8%8C%83%E5%9B%B4?rev=1748848682&amp;do=diff</link>
        <description>unicode范围  描述  备注  U0021-U0080   包含数字0-9，字母a-z,A-Z 空格以及常规键盘能输入的各种符号 U0080为欧元符号 U4E00－U9FA5  最初期统一汉字  最初期共20902统一汉字   U3400－U4DBF 扩展A区汉字  含有6592汉字</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/warczone?rev=1748848682&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:18:02+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>warczone</title>
        <link>https://wiki.mnbvc.org/doku.php/warczone?rev=1748848682&amp;do=diff</link>
        <description>根据download_url_nodomain_v6工作簿中warc表格warc name字段 针对域名人工打标记录 约893行
-----
20240823更新到 893行
20240816更新到 500行
20240815更新到 432行
20240814更新到 404行
20240813更新到 322行
20240812更新到 238行
20240811更新到 121行
20240810更新到 63行</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/wdyl?rev=1748848682&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:18:02+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>wdyl</title>
        <link>https://wiki.mnbvc.org/doku.php/wdyl?rev=1748848682&amp;do=diff</link>
        <description>问答语料小组目标

关注问答语料的处理，包括一问一答，一问多答和多轮对话等。这部分语料常用于大模型的sft训练。

小组任务

	*  word试卷清洗（进行中，负责人：图北）
	*  第一试卷网的整理 （进行中，负责人：图北&amp;林）</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/windows_%E4%B8%8B%E5%AE%89%E8%A3%85python-magic%E7%9A%84%E7%BB%8F%E9%AA%8C?rev=1748848683&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:18:03+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>windows_下安装python-magic的经验</title>
        <link>https://wiki.mnbvc.org/doku.php/windows_%E4%B8%8B%E5%AE%89%E8%A3%85python-magic%E7%9A%84%E7%BB%8F%E9%AA%8C?rev=1748848683&amp;do=diff</link>
        <description>python-magic的作用及其原理，网络上资料非常丰富，此处不多涉及。
主要摘录两句较为关键的进行陈述：
Python的magic库是一个用于识别文件类型的工具，它基于Unix系统中的libmagic库。通过分析文件的内容头部数据，magic库能够判断出文件的真实类型，即使文件扩展名被更改或丢失。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/windows-936-2000%E7%BC%96%E7%A0%81%E9%97%AE%E9%A2%98?rev=1748848683&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:18:03+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>windows-936-2000编码问题</title>
        <link>https://wiki.mnbvc.org/doku.php/windows-936-2000%E7%BC%96%E7%A0%81%E9%97%AE%E9%A2%98?rev=1748848683&amp;do=diff</link>
        <description>/Users/alan/temp_test/20230101/aliyun.20230101.6.网络小说/1056.txt GBK 转换到utf8失败, 'windows-936-2000' codec can't decode byte 0xcf in position 84: reason code 1 (the code point is illegal)




(Pdb) UnicodeString(data, encoding)
*** ValueError: 'gb18030' codec can't decode byte 0xcf in position 84: reason code 1 (the code point is illegal)
(Pdb) encoding = &quot;GBK&quot;
(Pdb) UnicodeString(data, encoding)
*** ValueError: 'windows-936-2000' codec can't decode byte 0xcf in position 84: reason code 1 (the code …</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/xmhx?rev=1748848683&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:18:03+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>xmhx</title>
        <link>https://wiki.mnbvc.org/doku.php/xmhx?rev=1748848683&amp;do=diff</link>
        <description>综述

MNBVC是一个“用爱发电”的项目，所有参与者都基于自觉自愿的前提，以个人身份和业余时间支持中国AI技术发展。我们秉承量力而为、看菜下饭原则，不盲目追求进度和目标，也没有任何商业化的意图，MNBVC项目组的产出，将会免费、公开提供给所有人使用。由于MNBVC是一个开源项目，我们无法规范任何一个参与过该项目、或者任何仅仅是知道该项目的人的行为，因此，为了将来万一碰到什么奇怪的问题好…</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/ylzq?rev=1754747608&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-08-09T13:53:28+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>ylzq</title>
        <link>https://wiki.mnbvc.org/doku.php/ylzq?rev=1754747608&amp;do=diff</link>
        <description>语料增强小组目标

对原始语料进行直接修改处理，例如转码成utf8、脱敏手机号、删除版权广告等信息。
本小组和数据清洗小组的区别是，本小组会直接修改语料，数据清洗小组只打标签，不直接修改语料。</description>
    </item>
    <item rdf:about="https://wiki.mnbvc.org/doku.php/zip64to7zlzma2?rev=1748848684&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2025-06-02T07:18:04+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>zip64to7zlzma2</title>
        <link>https://wiki.mnbvc.org/doku.php/zip64to7zlzma2?rev=1748848684&amp;do=diff</link>
        <description>在评估zip64最大压缩和7z lzma2压缩等级5之间的差异时，我们可以从以下几个方面进行比较：
  文件大小：
      7z格式通常具有极高的压缩比。特别是当使用LZMA2算法（作为7z格式支持的压缩算法之一）时，可以期待相对较高的压缩率1。
      zip64是zip格式的一个扩展，用于支持大于4GB的文件和归档。然而，就压缩率而言，它可能不如7z的LZMA2算法那么高效2。
      因此，在文件大小方面，7z lzma2压缩等级5通常可以生成比zip64最大压缩更小的压缩文件。…</description>
    </item>
</rdf:RDF>
