中文词向量
本项目提供100多种中文词向量(嵌入),这些词向量使用不同的表示方法(密集和稀疏)、上下文特征(词、n-gram、字符等)和语料库进行训练。用户可以轻松获取具有不同属性的预训练向量,并将其用于下游任务。
此外,我们还提供了一个中文类比推理数据集CA8和评估工具包,供用户评估其词向量的质量。
参考文献
如果使用这些词嵌入和CA8数据集,请引用以下论文。
Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du, <a href="http://aclweb.org/anthology/P18-2023"><em>Analogical Reasoning on Chinese Morphological and Semantic Relations</em></a>, ACL 2018.
@InProceedings{P18-2023,
author = "Li, Shen
and Zhao, Zhe
and Hu, Renfen
and Li, Wensi
and Liu, Tao
and Du, Xiaoyong",
title = "Analogical Reasoning on Chinese Morphological and Semantic Relations",
booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
year = "2018",
publisher = "Association for Computational Linguistics",
pages = "138--143",
location = "Melbourne, Australia",
url = "http://aclweb.org/anthology/P18-2023"
}
关于中文词嵌入内在评估和外在评估之间关系的详细分析,请参见以下论文:
Yuanyuan Qiu, Hongzheng Li, Shen Li, Yingdi Jiang, Renfen Hu, Lijiao Yang. <a href="http://www.cips-cl.org/static/anthology/CCL-2018/CCL-18-086.pdf"><em>Revisiting Correlations between Intrinsic and Extrinsic Evaluations of Word Embeddings</em></a>. Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data. Springer, Cham, 2018. 209-221. (CCL & NLP-NABD 2018 最佳论文奖)
@incollection{qiu2018revisiting,
title={Revisiting Correlations between Intrinsic and Extrinsic Evaluations of Word Embeddings},
author={Qiu, Yuanyuan and Li, Hongzheng and Li, Shen and Jiang, Yingdi and Hu, Renfen and Yang, Lijiao},
booktitle={Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data},
pages={209--221},
year={2018},
publisher={Springer}
}
格式
预训练的向量文件采用文本格式。每行包含一个词及其向量。每个值之间用空格分隔。第一行记录元信息:第一个数字表示文件中的词数,第二个数字表示维度大小。
除了密集词向量(使用SGNS训练)外,我们还提供稀疏向量(使用PPMI训练)。它们采用与liblinear相同的格式,其中":"前的数字表示维度索引,":"后的数字表示值。
预训练中文词向量
基本设置
<table align="center"> <tr align="center"> <td><b>窗口大小</b></td> <td><b>动态窗口</b></td> <td><b>下采样</b></td> <td><b>低频词</b></td> <td><b>迭代次数</b></td> <td><b>负采样<sup>*</sup></b></td> </tr> <tr align="center"> <td>5</td> <td>是</td> <td>1e-5</td> <td>10</td> <td>5</td> <td>5</td> </tr> </table><sup>*</sup>仅适用于SGNS。
各种领域
使用不同 表示方法、上下文特征和语料库训练的中文词向量。
<table align="center"> <tr align="center"> <td colspan="5"><b>词向量 / 带负采样的跳字模型 (SGNS)</b></td> </tr> <tr align="center"> <td rowspan="2">语料库</td> <td colspan="4">上下文特征</td> </tr> <tr align="center"> <td>词</td> <td>词 + N元组</td> <td>词 + 字符</td> <td>词 + 字符 + N元组</td> </tr> <tr align="center"> <td>百度百科</td> <td><a href="https://pan.baidu.com/s/1Rn7LtTH0n7SHyHPfjRHbkg">300维</a></td> <td><a href="https://pan.baidu.com/s/1XEmP_0FkQwOjipCjI2OPEw">300维</a></td> <td><a href="https://pan.baidu.com/s/1eeCS7uD3e_qVN8rPwmXhAw">300维</a></td> <td><a href="https://pan.baidu.com/s/1IiIbQGJ_AooTj5s8aZYcvA">300维</a> / 提取码: 5555</td> </tr> <tr align="center"> <td>中文维基百科</td> <td><a href="https://pan.baidu.com/s/11hSZJN-NWBEvryIED6Donw?pwd=qfgv">300维</a></td> <td><a href="https://pan.baidu.com/s/1RWcPWQEiCrwna7xmhI8ARg?pwd=jp7e">300维</a></td> <td><a href="https://pan.baidu.com/s/1DKvgg0RgtqwyDPs1IbS0TQ?pwd=s22w">300维</a></td> <td><a href="https://pan.baidu.com/s/1OTfYo_sQamCYwJLdp3KHnw?pwd=k6p9">300维</td> </tr> <tr align="center"> <td>人民日报</td> <td><a href="https://pan.baidu.com/s/19sqMz-JAhhxh3o6ecvQxQw">300维</a></td> <td><a href="https://pan.baidu.com/s/1upPkA8KJnxTZBfjuNDtaeQ">300维</a></td> <td><a href="https://pan.baidu.com/s/1BvKk2QjbtQMch7EISppW2A">300维</a></td> <td><a href="https://pan.baidu.com/s/19Vso_k79FZb5OZCWQPAnFQ">300维</a></td> </tr> <tr align="center"> <td>搜狗新闻</td> <td><a href="https://pan.baidu.com/s/1tUghuTno5yOvOx4LXA9-wg">300维</a></td> <td><a href="https://pan.baidu.com/s/13yVrXeGYkxdGW3P6juiQmA">300维</a></td> <td><a href="https://pan.baidu.com/s/1pUqyn7mnPcUmzxT64gGpSw">300维</a></td> <td><a href="https://pan.baidu.com/s/1svFOwFBKnnlsqrF1t99Lnw">300维</a></td> </tr> <tr align="center"> <td>金融新闻</td> <td><a href="https://pan.baidu.com/s/1c8wmsqdrfUbQQ6j2Dx5NwQ?pwd=nakr">300维</a></td> <td><a href="https://pan.baidu.com/s/1EXVpN8-vMr1-f2l4kZICLg?pwd=ki7t">300维</a></td> <td><a href="https://pan.baidu.com/s/1EXVpN8-vMr1-f2l4kZICLg?pwd=ki7t">300维</a></td> <td><a href="https://pan.baidu.com/s/19JWtZL6U8P-XfE5LsTlftg?pwd=gbnb">300维</a></td> </tr> <tr align="center"> <td>知乎问答</td> <td><a href="https://pan.baidu.com/s/1VGOs0RH7DXE5vRrtw6boQA">300维</a></td> <td><a href="https://pan.baidu.com/s/1OQ6fQLCgqT43WTwh5fh_lg">300维</a></td> <td><a href="https://pan.baidu.com/s/1_xogqF9kJT6tmQHSAYrYeg">300维</a></td> <td><a href="https://pan.baidu.com/s/1Fo27Lv_0nz8FXg-xbOz14Q">300维</a></td> </tr> <tr align="center"> <td>微博</td> <td><a href="https://pan.baidu.com/s/1zbuUJEEEpZRNHxZ7Gezzmw">300维</a></td> <td><a href="https://pan.baidu.com/s/11PWBcvruXEDvKf2TiIXntg">300维</a></td> <td><a href="https://pan.baidu.com/s/10bhJpaXMCUK02nHvRAttqA">300维</a></td> <td><a href="https://pan.baidu.com/s/1FHl_bQkYucvVk-j2KG4dxA">300维</a></td> </tr> <tr align="center"> <td>文学作品</td> <td><a href="https://pan.baidu.com/s/1ciq8iXtcrHpu3ir_VhK0zg">300维</a></td> <td><a href="https://pan.baidu.com/s/1Oa4CkPd8o2xd6LEAaa4gmg">300维</a> / 提取码: z5b4</td> <td><a href="https://pan.baidu.com/s/1IG8IxNp2s7vVklz-vyZR9A">300维</a></td> <td><a href="https://pan.baidu.com/s/1SEOKrJYS14HpqIaQT462kA">300维</a> / 提取码: yenb</td> </tr> <tr align="center"> <td>四库全书<sup>*</sup></td> <td><a href="https://pan.baidu.com/s/1vPSeUsSiWYXEWAuokLR0qQ">300维</a></td> <td><a href="https://pan.baidu.com/s/1sS9E7sclvS_UZcBgHN7xLQ">300维</a></td> <td>无</td> <td>无</td> </tr> <tr align="center"> <td>综合语料<br>百度网盘 / 谷歌云盘</td> <td> <a href="https://pan.baidu.com/s/1luy-GlTdqqvJ3j-A4FcIOw">300维</a><br> <a href="https://drive.google.com/open?id=1Zh9ZCEu8_eSQ-qkYVQufQDNKPC4mtEKR">300维</a> </td> <td> <a href="https://pan.baidu.com/s/1oJol-GaRMk4-8Ejpzxo6Gw">300维</a><br> <a href="https://drive.google.com/open?id=1WUU9LnoAjs--1E_WqcghLJ-Pp8bb38oS">300维</a> </td> <td> <a href="https://pan.baidu.com/s/1DjIGENlhRbsVyHW-caRePg">300维</a><br> <a href="https://drive.google.com/open?id=1aVAK0Z2E5DkdIH6-JHbiWSL5dbAcz6c3">300维</a> </td> <td> <a href="https://pan.baidu.com/s/14JP1gD7hcmsWdSpTvA3vKA">300维</a><br> <a href="https://drive.google.com/open?id=1kSAl4_AOg3_6ayU7KRM0Nk66uGdSZdnk">300维</a> </td> </tr> </table> <table align="center"> <tr align="center"> <td colspan="5"><b>正向点互信息(PPMI)</b></td> </tr> <tr align="center"> <td rowspan="2">语料库</td> <td colspan="4">上下文特征</td> </tr> <tr align="center"> <td>词</td> <td>词 + N元组</td> <td>词 + 字符</td> <td>词 + 字符 + N元组</td> </tr> <tr align="center"> <td>百度百科</td> <td><a href="https://pan.baidu.com/s/1_itcjrQawCwcURa7WZLPOA">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1cEZzN1S2senwWSyHOnL7YQ">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1KcfFdyO0-kE9S9CwzIisfw">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1FXYM3CY161_4QMgiH8vasQ">稀疏</a></td> </tr> <tr align="center"> <td>中文维基百科</td> <td><a href="https://pan.baidu.com/s/172vD1NljxnbeubgXkuja4Q?pwd=k2hr">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1taIMttirPOw9Df51epIWBg?pwd=rmfh">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1-l9pdeUOwVzRVT4utvszfQ?pwd=ameb">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1VYI5GrKWR16gHvah38I3SQ?pwd=gzj8">稀疏</a></td> </tr> <tr align="center"> <td>人民日报</td> <td><a href="https://pan.baidu.com/s/1NLr1K7aapU2sYBvzbVny5g">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1LJl3Br0ccGDHP0XX2k3pVw">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1GQQXGMn1AHh-BlifT0JD2g">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1Xm9Ec3O3rJ6ayrwVwonC7g">稀疏</a></td> </tr> <tr align="center"> <td>搜狗新闻</td> <td><a href="https://pan.baidu.com/s/1ECA51CZLp9_JB_me7YZ9-Q">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1FO39ZYy1mStERf_b53Y_yQ">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1lLBFBk8nn3spFAvKY9IJ6A">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1f-dLQZlZo_-B5ZKcPIc6rw">稀疏</a></td> </tr> <tr align="center"> <td>金融新闻</td> <td><a href="https://pan.baidu.com/s/1yyJ7NZl-GabDJLbP-eYdCQ?pwd=9efk">稀疏</a></td> <td><a href="https://pan.baidu.com/s/17ZLOJpLXSQFxN0SZTITdIw?pwd=sjzy">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1rRGLUkA01kGceFDBOG9wlA?pwd=yve5">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1X-150CjeUPdQBq--Gr7w3A?pwd=qqc7">稀疏</a></td> </tr> <tr align="center"> <td>知乎问答</td> <td><a href="https://pan.baidu.com/s/1VaUP3YJC0IZKTbJ-1_8HZg">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1g39PKwT0kSmpneKOgXR5YQ">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1d8Bsuak0fyXxQOVUiNr-2w">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1D5fteBX0Vy4czEqpxXjlrQ">稀疏</a></td> </tr> <tr align="center"> <td>微博</td> <td><a href="https://pan.baidu.com/s/15O2EbToOzjNSkzJwAOk_Ug">稀疏</a></td> <td><a href="https://pan.baidu.com/s/11Dqywn0hfMhysto7bZS1Dw">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1wY-7mfV6nwDj_tru6W9h4Q">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1DMW-MgLApbQnWwDd-pT_qw">稀疏</a></td> </tr> <tr align="center"> <td>文学作品</td> <td><a href="https://pan.baidu.com/s/1HTHhlr8zvzhTwed7dO0sDg">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1jAuGJBxKqgapt__urGsBOQ">稀疏</a></td> <td><a href="https://pan.baidu.com/s/173AJfCoAV0ZA8Z31tKBdTA">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1dFCxke_Su3lLsuwZr7co3A">稀疏</a></td> </tr> <tr align="center"> <td>四库全书<sup>*</sup></td> <td><a href="https://pan.baidu.com/s/1NJ1Gc99oE0-GV0QxBqy-qw">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1YGEgyXIbw0O4NtoM1ohjdA">稀疏</a></td> <td>无</td> <td>无</td> </tr> </tr> <tr align="center"> <td>综合</td> <td>稀疏</td> <td>稀疏</td> <td>稀疏</td> <td>稀疏</td> </tr> </table><sup>*</sup>由于古汉语中大多数汉字就是词,所以提供了字符嵌入。
多种共现信息
我们发布了基于不同共现统计的词向量。目标向量和上下文向量在一些相关论文中也被称为输入向量和输出向量。
在这部分中,可以获得超出词的任意语言单位的向量。例如,字符向量在词-字符的上下文向量中。
所有向量都是在百度百科上使用SGNS训练的。
<table align="center"> <tr align="center"> <td><b>特征</b></td> <td><b>共现类型</b></td> <td><b>目标词向量</b></td> <td><b>上下文词向量</b></td> </tr> <tr align="center"> <td rowspan="1">词</td> <td>词 → 词</td> <td><a href="https://pan.baidu.com/s/1Rn7LtTH0n7SHyHPfjRHbkg">300维</a></td> <td><a href="https://pan.baidu.com/s/18T6DRVmS_cZu5u64EbbESQ">300维</a></td> </tr> <tr align="center"> <td rowspan="3">N元语法</td> <td>词 → N元语法 (1-2)</td> <td><a href="https://pan.baidu.com/s/1XEmP_0FkQwOjipCjI2OPEw">300维</a></td> <td><a href="https://pan.baidu.com/s/12asujjAaaqxNFYRNP-MThw">300维</a></td> </tr> <tr align="center"> <td>词 → N元语法 (1-3)</td> <td><a href="https://pan.baidu.com/s/1oUmbxsnSuXf2jU8Jxu7U8A">300维</a></td> <td><a href="https://pan.baidu.com/s/1ylg6FfFHa0kXbiVz8bIL8g">300维</a></td> </tr> <tr align="center"> <td>N元语法 (1-2) → N元语法 (1-2)</td> <td><a href="https://pan.baidu.com/s/1Za7DIGVhE6dMsTmxHb-izg">300维</a></td> <td><a href="https://pan.baidu.com/s/1oKI4Cs9eo7bg5mqfY1hdmg">300维</a></td> </tr> <tr align="center"> <td rowspan="3">字符</td> <td>词 → 字符 (1)</td> <td><a href="https://pan.baidu.com/s/1c9yiosHKNIZwRlLzD_F1ig">300维</a></td> <td><a href="https://pan.baidu.com/s/1KGZ_x8r-lq-AuElLCSVzvQ">300维</a></td> </tr> <tr align="center"> <td>词 → 字符 (1-2)</td> <td><a href="https://pan.baidu.com/s/1eeCS7uD3e_qVN8rPwmXhAw">300维</a></td> <td><a href="https://pan.baidu.com/s/1q0ItLzbn5Tfb3LhepRCeEA">300维</a></td> </tr> <tr align="center"> <td>词 → 字符 (1-4)</td> <td><a href="https://pan.baidu.com/s/1WNWAnba56Rqjmx-FAN_7_g">300维</a></td> <td><a href="https://pan.baidu.com/s/1hJKTAz6PwS7wmz9wQgmYeg">300维</a></td> </tr> <tr align="center"> <td rowspan="1">部首</td> <td>部首</td> <td>300维</td> <td>300维</td> </tr> <tr align="center"> <td rowspan="2">位置</td> <td>词 → 词(左/右)</td> <td><a href="https://pan.baidu.com/s/1JvjcrXFZPknT5H5Xw6KRVg">300维</a></td> <td><a href="https://pan.baidu.com/s/1m6K9CnIIS8FrQZdDuF6hPQ">300维</a></td> </tr> <tr align="center"> <td>词 → 词(距离)</td> <td><a href="https://pan.baidu.com/s/1c29BDu4R1hyUX-sgvlHJnA">300维</a></td> <td><a href="https://pan.baidu.com/s/1sMZHIc-7eU6gRalHwtBHZw">300维</a></td> </tr> <tr align="center"> <td>全局</td> <td>词 → 文本</td> <td>300维</td> <td>300维</td> </tr> <tr align="center"> <td rowspan="2">句法特征</td> <td>词 → 词性</td> <td>300维</td> <td>300维</td> </tr> <tr align="center"> <td>词 → 依存关系</td> <td>300维</td> <td>300维</td> </tr> </table>表示方法
现有的词表示方法可以分为两类:密集和稀疏表示。SGNS模型(word2vec工具包中的一个模型)和PPMI模型分别是这两类方法的典型代表。SGNS模型通过浅层神经网络训练低维实数(密集)向量。它也被称为神经嵌入方法。PPMI模型是一种稀疏的特征袋表示,使用正向点互信息(PPMI)加权方案进行加权。
上下文特 征
在词嵌入文献中,常用的三种上下文特征是:词、N元语法和字符。大多数词表示方法本质上利用词-词共现统计,即使用词作为上下文特征(词特征)。受语言建模问题的启发,我们将N元语法特征引入上下文。训练时同时使用词-词和词-N元语法共现统计(N元语法特征)。对于中文,汉字通常具有强烈的语义。为此,我们考虑使用词-词和词-字符共现统计来学习词向量。字符级N元语法的长度范围从1到4(字符特征)。
除了词、N元语法和字符之外,还有其他特征对词向量的属性有重要影响。例如,使用整个文本作为上下文特征可以为词向量引入更多主题信息;使用依存句法分析作为上下文特征可以为词向量添加句法约束。本项目考虑了17种共现类型。
语料库
我们付出了巨大努力,收集了跨越多个领域的语料库。所有文本数据都经过预处理,删除了html和xml标签。只保留纯文本,并使用HanLP(v_1.5.3)进行分词。此外,使用开放中文转换(OpenCC)将繁体中文字符转换为简体字符。详细的语料库信息如下:
<table align="center"> <tr align="center"> <td><b>语料库</b></td> <td><b>大小</b></td> <td><b>词数</b></td> <td><b>词汇量</b></td> <td><b>描述</b></td> </tr> <tr align="center"> <td>百度百科</td> <td>4.1G</td> <td>745M</td> <td>5422K</td> <td>来自https://baike.baidu.com/的中文百科数据</td> </tr> <tr align="center"> <td>中文维基百科</td> <td>1.3G</td> <td>223M</td> <td>2129K</td> <td>来自https://dumps.wikimedia.org/的中文维基百科数据</td> </tr> <tr align="center"> <td>人民日报</td> <td>3.9G</td> <td>668M</td> <td>1664K</td> <td>来自人民日报(1946-2017)的新闻数据<br />http://data.people.com.cn/</td> </tr> <tr align="center"> <td>搜狗新闻</td> <td>3.7G</td> <td>649M</td> <td>1226K</td> <td>搜狗实验室提供的新闻数据<br />http://www.sogou.com/labs/</td> </tr> <tr align="center"> <td>金融新闻</td> <td>6.2G</td> <td>1055M</td> <td>2785K</td> <td>从多个新闻网站收集的金融新闻</td> </tr> <tr align="center"> <td>知乎问答</td> <td>2.1G</td> <td>384M</td> <td>1117K</td> <td>来自https://www.zhihu.com/的中文问答数据</td> </tr> <tr align="center"> <td>微博</td> <td>0.73G</td> <td>136M</td> <td>850K</td> <td>NLPIR实验室提供的中文微博数据<br />http://www.nlpir.org/wordpress/download/weibo.7z</td> </tr> <tr align="center"> <td>文学作品</td> <td>0.93G</td> <td>177M</td> <td>702K</td> <td>8599部现代中文文学作品</td> </tr> <tr align="center"> <td>综合</td> <td>22.6G</td> <td>4037M</td> <td>10653K</td> <td>我们通过合并上述语料库构建了大型语料库。</td> </tr> <tr align="center"> <td>四库全书</td> <td>1.5G</td> <td>714M</td> <td>21.8K</td> <td>中国前现代最大的文献集合。</td> </tr> </table>所有词都被考虑在内,包括低频词。
工具包
所有词向量都使用ngram2vec工具包进行训练。Ngram2vec工具包是word2vec和fasttext工具包的超集,支持任意上下文特征和模型。
中文词类比基准测试
词向量的质量通常通过类比问题任务来评估。本项目利用两个基准测试进行评估。第一个是CA-translated,其中大多数类比问题直接从英语基准翻译而来。尽管CA-translated已在许多中文词嵌入论文中广泛使用,但它仅包含三种语义问题,涵盖134个中文词。相比之下,CA8是专门为中文语言设计的。它包含17813个类比问题,涵盖了全面的形态和语义关系。CA-translated、CA8及其详细描述可在testsets文件夹中找到。
评估工具包
我们在evaluation文件夹中提供了一个评估工具包。
运行以下代码来评估密集向量:
$ python ana_eval_dense.py -v <vector.txt> -a CA8/morphological.txt
$ python ana_eval_dense.py -v <vector.txt> -a CA8/semantic.txt
运行以下代码来评估稀疏向量:
$ python ana_eval_sparse.py -v <vector.txt> -a CA8/morphological.txt
$ python ana_eval_sparse.py -v <vector.txt> -a CA8/semantic.txt
编辑推荐精选


Manus
全面超越基准的 AI Agent助手
Manus 是一款通用人工智能代理平台,能够将您的创意和想法迅速转化为实际成果。无论是定制旅行规划、深入的数据分析,还是教育支持与商业决策,Manus 都能高效整合信息,提供精准解决方案。它以直观的交互体验和领先的技术,为用户开启了一个智慧驱动、轻松高效的新时代,让每个灵感都能得到完美落地。


飞书知识问答
飞书官方推出的AI知识库 上传word pdf即可部署AI私有知识库
基于DeepSeek R1大模型构建的知识管理系统,支持PDF、Word、PPT等常见文档格式解析,实现云端与本地数据的双向同步。系统具备实时网络检索能力,可自动关联外部信息源,通过语义理解技术处理结构化与非结构化数据。免费版本提供基础知识库搭建功能,适用于企业文档管理和个人学习资料整理场景。


Trae
字节跳动发布的AI编程神器IDE
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

酷表ChatExcel
大模型驱动的Excel数据处理工具
基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。


DeepEP
DeepSeek开源的专家并行通信优化框架
DeepEP是一个专为大规模分布式计算设计的通信库,重点解决专家并行模式中的通信瓶颈问题。其核心架构采用分层拓扑感知技术,能够自动识别节点间物理连接关系,优化数据传输路径。通过实现动态路由选择与负载均衡机制,系统在千卡级计算集群中维持稳定的低延迟特性,同时兼容主流深度学习框架的通信接口。


DeepSeek
全球领先开源大模型,高效智能助手
DeepSeek是一家幻方量化创办的专注于通用人工智能的中国科技公司,主攻大模型研发与应用。DeepSeek-R1是开源的推理模型,擅长处理复杂任务且可免费商用。


KnowS
AI医学搜索引擎 整合4000万+实时更新的全球医学文献
医学领域专用搜索引擎整合4000万+实时更新的全球医学文献,通过自主研发AI模型实现精准知识检索。系统每日更新指南、中英文文献及会议资料,搜索准确率较传统工具提升80%,同时将大模型幻觉率控制在8%以下。支持临床建议生成、文献深度解析、学术报告制作等全流程科研辅助,典型用户反馈显示每周可节省医疗工作者70%时间。


Windsurf Wave 3
Windsurf Editor推出第三次重大更新Wave 3
新增模型上下文协议支持与智能编辑功能。本次更新包含五项核心改进:支持接入MCP协议扩展工具生态,Tab键智能跳转提升编码效率,Turbo模式实现自动化终端操作,图片拖拽功能优化多模态交互,以及面向付费用户的个性化图标定制。系统同步集成DeepSeek、Gemini等新模型,并通过信用点数机制实现差异化的资源调配。


腾讯元宝
腾讯自研的混元大模型AI助手
腾讯元宝是腾讯基于自研的混元大模型推出的一款多功能AI应用,旨在通过人工智能技术提升用户在写作、绘画、翻译、编程、搜索、阅读总结等多个领域的工作与生活效率。


Grok3
埃隆·马斯克旗下的人工智能公司 xAI 推出的第三代大规模语言模型
Grok3 是由埃隆·马斯克旗下的人工智能公司 xAI 推出的第三代大规模语言模型,常被马斯克称为“地球上最聪明的 AI”。它不仅是在前代产品 Grok 1 和 Grok 2 基础上的一次飞跃,还在多个关键技术上实现了创新突破。
推荐工具精选
AI云服务特惠
懂AI专属折扣关注微信公众号
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号