本项目提供100多种中文词向量(嵌入),这些词向量使用不同的表示方法(密集和稀疏)、上下文特征(词、n-gram、字符等)和语料库进行训练。用户可以轻松获取具有不同属性的预训练向量,并将其用于下游任务。
此外,我们还提供了一个中文类比推理数据集CA8和评估工具包,供用户评估其词向量的质量。
如果使用这些词嵌入和CA8数据集,请引用以下论文。
Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du, <a href="http://aclweb.org/anthology/P18-2023"><em>Analogical Reasoning on Chinese Morphological and Semantic Relations</em></a>, ACL 2018.
@InProceedings{P18-2023,
author = "Li, Shen
and Zhao, Zhe
and Hu, Renfen
and Li, Wensi
and Liu, Tao
and Du, Xiaoyong",
title = "Analogical Reasoning on Chinese Morphological and Semantic Relations",
booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
year = "2018",
publisher = "Association for Computational Linguistics",
pages = "138--143",
location = "Melbourne, Australia",
url = "http://aclweb.org/anthology/P18-2023"
}
关于中文词嵌入内在评估和外在评估之间关系的详细分析,请参见以下论文:
Yuanyuan Qiu, Hongzheng Li, Shen Li, Yingdi Jiang, Renfen Hu, Lijiao Yang. <a href="http://www.cips-cl.org/static/anthology/CCL-2018/CCL-18-086.pdf"><em>Revisiting Correlations between Intrinsic and Extrinsic Evaluations of Word Embeddings</em></a>. Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data. Springer, Cham, 2018. 209-221. (CCL & NLP-NABD 2018 最佳论文奖)
@incollection{qiu2018revisiting,
title={Revisiting Correlations between Intrinsic and Extrinsic Evaluations of Word Embeddings},
author={Qiu, Yuanyuan and Li, Hongzheng and Li, Shen and Jiang, Yingdi and Hu, Renfen and Yang, Lijiao},
booktitle={Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data},
pages={209--221},
year={2018},
publisher={Springer}
}
预训练的向量文件采用文本格式。每行包含一个词及其向量。每个值之间用空格分隔。第一行记录元信息:第一个数字表示文件中的词数,第二个数字表示维度大小。
除了密集词向量(使用SGNS训练)外,我们还提供稀疏向量(使用PPMI训练)。它们采用与liblinear相同的格式,其中":"前的数字表示维度索引,":"后的数字表示值。
<sup>*</sup>仅适用于SGNS。
使用不同 表示方法、上下文特征和语料库训练的中文词向量。
<table align="center"> <tr align="center"> <td colspan="5"><b>词向量 / 带负采样的跳字模型 (SGNS)</b></td> </tr> <tr align="center"> <td rowspan="2">语料库</td> <td colspan="4">上下文特征</td> </tr> <tr align="center"> <td>词</td> <td>词 + N元组</td> <td>词 + 字符</td> <td>词 + 字符 + N元组</td> </tr> <tr align="center"> <td>百度百科</td> <td><a href="https://pan.baidu.com/s/1Rn7LtTH0n7SHyHPfjRHbkg">300维</a></td> <td><a href="https://pan.baidu.com/s/1XEmP_0FkQwOjipCjI2OPEw">300维</a></td> <td><a href="https://pan.baidu.com/s/1eeCS7uD3e_qVN8rPwmXhAw">300维</a></td> <td><a href="https://pan.baidu.com/s/1IiIbQGJ_AooTj5s8aZYcvA">300维</a> / 提取码: 5555</td> </tr> <tr align="center"> <td>中文维基百科</td> <td><a href="https://pan.baidu.com/s/11hSZJN-NWBEvryIED6Donw?pwd=qfgv">300维</a></td> <td><a href="https://pan.baidu.com/s/1RWcPWQEiCrwna7xmhI8ARg?pwd=jp7e">300维</a></td> <td><a href="https://pan.baidu.com/s/1DKvgg0RgtqwyDPs1IbS0TQ?pwd=s22w">300维</a></td> <td><a href="https://pan.baidu.com/s/1OTfYo_sQamCYwJLdp3KHnw?pwd=k6p9">300维</td> </tr> <tr align="center"> <td>人民日报</td> <td><a href="https://pan.baidu.com/s/19sqMz-JAhhxh3o6ecvQxQw">300维</a></td> <td><a href="https://pan.baidu.com/s/1upPkA8KJnxTZBfjuNDtaeQ">300维</a></td> <td><a href="https://pan.baidu.com/s/1BvKk2QjbtQMch7EISppW2A">300维</a></td> <td><a href="https://pan.baidu.com/s/19Vso_k79FZb5OZCWQPAnFQ">300维</a></td> </tr> <tr align="center"> <td>搜狗新闻</td> <td><a href="https://pan.baidu.com/s/1tUghuTno5yOvOx4LXA9-wg">300维</a></td> <td><a href="https://pan.baidu.com/s/13yVrXeGYkxdGW3P6juiQmA">300维</a></td> <td><a href="https://pan.baidu.com/s/1pUqyn7mnPcUmzxT64gGpSw">300维</a></td> <td><a href="https://pan.baidu.com/s/1svFOwFBKnnlsqrF1t99Lnw">300维</a></td> </tr> <tr align="center"> <td>金融新闻</td> <td><a href="https://pan.baidu.com/s/1c8wmsqdrfUbQQ6j2Dx5NwQ?pwd=nakr">300维</a></td> <td><a href="https://pan.baidu.com/s/1EXVpN8-vMr1-f2l4kZICLg?pwd=ki7t">300维</a></td> <td><a href="https://pan.baidu.com/s/1EXVpN8-vMr1-f2l4kZICLg?pwd=ki7t">300维</a></td> <td><a href="https://pan.baidu.com/s/19JWtZL6U8P-XfE5LsTlftg?pwd=gbnb">300维</a></td> </tr> <tr align="center"> <td>知乎问答</td> <td><a href="https://pan.baidu.com/s/1VGOs0RH7DXE5vRrtw6boQA">300维</a></td> <td><a href="https://pan.baidu.com/s/1OQ6fQLCgqT43WTwh5fh_lg">300维</a></td> <td><a href="https://pan.baidu.com/s/1_xogqF9kJT6tmQHSAYrYeg">300维</a></td> <td><a href="https://pan.baidu.com/s/1Fo27Lv_0nz8FXg-xbOz14Q">300维</a></td> </tr> <tr align="center"> <td>微博</td> <td><a href="https://pan.baidu.com/s/1zbuUJEEEpZRNHxZ7Gezzmw">300维</a></td> <td><a href="https://pan.baidu.com/s/11PWBcvruXEDvKf2TiIXntg">300维</a></td> <td><a href="https://pan.baidu.com/s/10bhJpaXMCUK02nHvRAttqA">300维</a></td> <td><a href="https://pan.baidu.com/s/1FHl_bQkYucvVk-j2KG4dxA">300维</a></td> </tr> <tr align="center"> <td>文学作品</td> <td><a href="https://pan.baidu.com/s/1ciq8iXtcrHpu3ir_VhK0zg">300维</a></td> <td><a href="https://pan.baidu.com/s/1Oa4CkPd8o2xd6LEAaa4gmg">300维</a> / 提取码: z5b4</td> <td><a href="https://pan.baidu.com/s/1IG8IxNp2s7vVklz-vyZR9A">300维</a></td> <td><a href="https://pan.baidu.com/s/1SEOKrJYS14HpqIaQT462kA">300维</a> / 提取码: yenb</td> </tr> <tr align="center"> <td>四库全书<sup>*</sup></td> <td><a href="https://pan.baidu.com/s/1vPSeUsSiWYXEWAuokLR0qQ">300维</a></td> <td><a href="https://pan.baidu.com/s/1sS9E7sclvS_UZcBgHN7xLQ">300维</a></td> <td>无</td> <td>无</td> </tr> <tr align="center"> <td>综合语料<br>百度网盘 / 谷歌云盘</td> <td> <a href="https://pan.baidu.com/s/1luy-GlTdqqvJ3j-A4FcIOw">300维</a><br> <a href="https://drive.google.com/open?id=1Zh9ZCEu8_eSQ-qkYVQufQDNKPC4mtEKR">300维</a> </td> <td> <a href="https://pan.baidu.com/s/1oJol-GaRMk4-8Ejpzxo6Gw">300维</a><br> <a href="https://drive.google.com/open?id=1WUU9LnoAjs--1E_WqcghLJ-Pp8bb38oS">300维</a> </td> <td> <a href="https://pan.baidu.com/s/1DjIGENlhRbsVyHW-caRePg">300维</a><br> <a href="https://drive.google.com/open?id=1aVAK0Z2E5DkdIH6-JHbiWSL5dbAcz6c3">300维</a> </td> <td> <a href="https://pan.baidu.com/s/14JP1gD7hcmsWdSpTvA3vKA">300维</a><br> <a href="https://drive.google.com/open?id=1kSAl4_AOg3_6ayU7KRM0Nk66uGdSZdnk">300维</a> </td> </tr> </table> <table align="center"> <tr align="center"> <td colspan="5"><b>正向点互信息(PPMI)</b></td> </tr> <tr align="center"> <td rowspan="2">语料库</td> <td colspan="4">上下文特征</td> </tr> <tr align="center"> <td>词</td> <td>词 + N元组</td> <td>词 + 字符</td> <td>词 + 字符 + N元组</td> </tr> <tr align="center"> <td>百度百科</td> <td><a href="https://pan.baidu.com/s/1_itcjrQawCwcURa7WZLPOA">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1cEZzN1S2senwWSyHOnL7YQ">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1KcfFdyO0-kE9S9CwzIisfw">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1FXYM3CY161_4QMgiH8vasQ">稀疏</a></td> </tr> <tr align="center"> <td>中文维基百科</td> <td><a href="https://pan.baidu.com/s/172vD1NljxnbeubgXkuja4Q?pwd=k2hr">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1taIMttirPOw9Df51epIWBg?pwd=rmfh">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1-l9pdeUOwVzRVT4utvszfQ?pwd=ameb">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1VYI5GrKWR16gHvah38I3SQ?pwd=gzj8">稀疏</a></td> </tr> <tr align="center"> <td>人民日报</td> <td><a href="https://pan.baidu.com/s/1NLr1K7aapU2sYBvzbVny5g">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1LJl3Br0ccGDHP0XX2k3pVw">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1GQQXGMn1AHh-BlifT0JD2g">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1Xm9Ec3O3rJ6ayrwVwonC7g">稀疏</a></td> </tr> <tr align="center"> <td>搜狗新闻</td> <td><a href="https://pan.baidu.com/s/1ECA51CZLp9_JB_me7YZ9-Q">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1FO39ZYy1mStERf_b53Y_yQ">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1lLBFBk8nn3spFAvKY9IJ6A">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1f-dLQZlZo_-B5ZKcPIc6rw">稀疏</a></td> </tr> <tr align="center"> <td>金融新闻</td> <td><a href="https://pan.baidu.com/s/1yyJ7NZl-GabDJLbP-eYdCQ?pwd=9efk">稀疏</a></td> <td><a href="https://pan.baidu.com/s/17ZLOJpLXSQFxN0SZTITdIw?pwd=sjzy">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1rRGLUkA01kGceFDBOG9wlA?pwd=yve5">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1X-150CjeUPdQBq--Gr7w3A?pwd=qqc7">稀疏</a></td> </tr> <tr align="center"> <td>知乎问答</td> <td><a href="https://pan.baidu.com/s/1VaUP3YJC0IZKTbJ-1_8HZg">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1g39PKwT0kSmpneKOgXR5YQ">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1d8Bsuak0fyXxQOVUiNr-2w">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1D5fteBX0Vy4czEqpxXjlrQ">稀疏</a></td> </tr> <tr align="center"> <td>微博</td> <td><a href="https://pan.baidu.com/s/15O2EbToOzjNSkzJwAOk_Ug">稀疏</a></td> <td><a href="https://pan.baidu.com/s/11Dqywn0hfMhysto7bZS1Dw">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1wY-7mfV6nwDj_tru6W9h4Q">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1DMW-MgLApbQnWwDd-pT_qw">稀疏</a></td> </tr> <tr align="center"> <td>文学作品</td> <td><a href="https://pan.baidu.com/s/1HTHhlr8zvzhTwed7dO0sDg">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1jAuGJBxKqgapt__urGsBOQ">稀疏</a></td> <td><a href="https://pan.baidu.com/s/173AJfCoAV0ZA8Z31tKBdTA">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1dFCxke_Su3lLsuwZr7co3A">稀疏</a></td> </tr> <tr align="center"> <td>四库全书<sup>*</sup></td> <td><a href="https://pan.baidu.com/s/1NJ1Gc99oE0-GV0QxBqy-qw">稀疏</a></td> <td><a href="https://pan.baidu.com/s/1YGEgyXIbw0O4NtoM1ohjdA">稀疏</a></td> <td>无</td> <td>无</td> </tr> </tr> <tr align="center"> <td>综合</td> <td>稀疏</td> <td>稀疏</td> <td>稀疏</td> <td>稀疏</td> </tr> </table><sup>*</sup>由于古汉语中大多数汉字就是词,所以提供了字符嵌入。
我们发布了基于不同共现统计的词向量。目标向量和上下文向量在一些相关论文中也被称为输入向量和输出向量。
在这部分中,可以获得超出词的任意语言单位的向量。例如,字符向量在词-字符的上下文向量中。
所有向量都是在百度百科上使用SGNS训练的。
<table align="center"> <tr align="center"> <td><b>特征</b></td> <td><b>共现类型</b></td> <td><b>目标词向量</b></td> <td><b>上下文词向量</b></td> </tr> <tr align="center"> <td rowspan="1">词</td> <td>词 → 词</td> <td><a href="https://pan.baidu.com/s/1Rn7LtTH0n7SHyHPfjRHbkg">300维</a></td> <td><a href="https://pan.baidu.com/s/18T6DRVmS_cZu5u64EbbESQ">300维</a></td> </tr> <tr align="center"> <td rowspan="3">N元语法</td> <td>词 → N元语法 (1-2)</td> <td><a href="https://pan.baidu.com/s/1XEmP_0FkQwOjipCjI2OPEw">300维</a></td> <td><a href="https://pan.baidu.com/s/12asujjAaaqxNFYRNP-MThw">300维</a></td> </tr> <tr align="center"> <td>词 → N元语法 (1-3)</td> <td><a href="https://pan.baidu.com/s/1oUmbxsnSuXf2jU8Jxu7U8A">300维</a></td> <td><a href="https://pan.baidu.com/s/1ylg6FfFHa0kXbiVz8bIL8g">300维</a></td> </tr> <tr align="center"> <td>N元语法 (1-2) → N元语法 (1-2)</td> <td><a href="https://pan.baidu.com/s/1Za7DIGVhE6dMsTmxHb-izg">300维</a></td> <td><a href="https://pan.baidu.com/s/1oKI4Cs9eo7bg5mqfY1hdmg">300维</a></td> </tr> <tr align="center"> <td rowspan="3">字符</td> <td>词 → 字符 (1)</td> <td><a href="https://pan.baidu.com/s/1c9yiosHKNIZwRlLzD_F1ig">300维</a></td> <td><a href="https://pan.baidu.com/s/1KGZ_x8r-lq-AuElLCSVzvQ">300维</a></td> </tr> <tr align="center"> <td>词 → 字符 (1-2)</td> <td><a href="https://pan.baidu.com/s/1eeCS7uD3e_qVN8rPwmXhAw">300维</a></td> <td><a href="https://pan.baidu.com/s/1q0ItLzbn5Tfb3LhepRCeEA">300维</a></td> </tr> <tr align="center"> <td>词 → 字符 (1-4)</td> <td><a href="https://pan.baidu.com/s/1WNWAnba56Rqjmx-FAN_7_g">300维</a></td> <td><a href="https://pan.baidu.com/s/1hJKTAz6PwS7wmz9wQgmYeg">300维</a></td> </tr> <tr align="center"> <td rowspan="1">部首</td> <td>部首</td> <td>300维</td> <td>300维</td> </tr> <tr align="center"> <td rowspan="2">位置</td> <td>词 → 词(左/右)</td> <td><a href="https://pan.baidu.com/s/1JvjcrXFZPknT5H5Xw6KRVg">300维</a></td> <td><a href="https://pan.baidu.com/s/1m6K9CnIIS8FrQZdDuF6hPQ">300维</a></td> </tr> <tr align="center"> <td>词 → 词(距离)</td> <td><a href="https://pan.baidu.com/s/1c29BDu4R1hyUX-sgvlHJnA">300维</a></td> <td><a href="https://pan.baidu.com/s/1sMZHIc-7eU6gRalHwtBHZw">300维</a></td> </tr> <tr align="center"> <td>全局</td> <td>词 → 文本</td> <td>300维</td> <td>300维</td> </tr> <tr align="center"> <td rowspan="2">句法特征</td> <td>词 → 词性</td> <td>300维</td> <td>300维</td> </tr> <tr align="center"> <td>词 → 依存关系</td> <td>300维</td> <td>300维</td> </tr> </table>现有的词表示方法可以分为两类:密集和稀疏表示。SGNS模型(word2vec工具包中的一个模型)和PPMI模型分别是这两类方法的典型代表。SGNS模型通过浅层神经网络训练低维实数(密集)向量。它也被称为神经嵌入方法。PPMI模型是一种稀疏的特征袋表示,使用正向点互信息(PPMI)加权方案进行加权。
在词嵌入文献中,常用的三种上下文特征是:词、N元语法和字符。大多数词表示方法本质上利用词-词共现统计,即使用词作为上下文特征(词特征)。受语言建模问题的启发,我们将N元语法特征引入上下文。训练时同时使用词-词和词-N元语法共现统计(N元语法特征)。对于中文,汉字通常具有强烈的语义。为此,我们考虑使用词-词和词-字符共现统计来学习词向量。字符级N元语法的长度范围从1到4(字符特征)。
除了词、N元语法和字符之外,还有其他特征对词向量的属性有重要影响。例如,使用整个文本作为上下文特征可以为词向量引入更多主题信息;使用依存句法分析作为上下文特征可以为词向量添加句法约束。本项目考虑了17种共现类型。
我们付出了巨大努力,收集了跨越多个领域的语料库。所有文本数据都经过预处理,删除了html和xml标签。只保留纯文本,并使用HanLP(v_1.5.3)进行分词。此外,使用开放中文转换(OpenCC)将繁体中文字符转换为简体字符。详细的语料库信息如下:
<table align="center"> <tr align="center"> <td><b>语料库</b></td> <td><b>大小</b></td> <td><b>词数</b></td> <td><b>词汇量</b></td> <td><b>描述</b></td> </tr> <tr align="center"> <td>百度百科</td> <td>4.1G</td> <td>745M</td> <td>5422K</td> <td>来自https://baike.baidu.com/的中文百科数据</td> </tr> <tr align="center"> <td>中文维基百科</td> <td>1.3G</td> <td>223M</td> <td>2129K</td> <td>来自https://dumps.wikimedia.org/的中文维基百科数据</td> </tr> <tr align="center"> <td>人民日报</td> <td>3.9G</td> <td>668M</td> <td>1664K</td> <td>来自人民日报(1946-2017)的新闻数据<br />http://data.people.com.cn/</td> </tr> <tr align="center"> <td>搜狗新闻</td> <td>3.7G</td> <td>649M</td> <td>1226K</td> <td>搜狗实验室提供的新闻数据<br />http://www.sogou.com/labs/</td> </tr> <tr align="center"> <td>金融新闻</td> <td>6.2G</td> <td>1055M</td> <td>2785K</td> <td>从多个新闻网站收集的金融新闻</td> </tr> <tr align="center"> <td>知乎问答</td> <td>2.1G</td> <td>384M</td> <td>1117K</td> <td>来自https://www.zhihu.com/的中文问答数据</td> </tr> <tr align="center"> <td>微博</td> <td>0.73G</td> <td>136M</td> <td>850K</td> <td>NLPIR实验室提供的中文微博数据<br />http://www.nlpir.org/wordpress/download/weibo.7z</td> </tr> <tr align="center"> <td>文学作品</td> <td>0.93G</td> <td>177M</td> <td>702K</td> <td>8599部现代中文文学作品</td> </tr> <tr align="center"> <td>综合</td> <td>22.6G</td> <td>4037M</td> <td>10653K</td> <td>我们通过合并上述语料库构建了大型语料库。</td> </tr> <tr align="center"> <td>四库全书</td> <td>1.5G</td> <td>714M</td> <td>21.8K</td> <td>中国前现代最大的文献集合。</td> </tr> </table>所有词都被考虑在内,包括低频词。
所有词向量都使用ngram2vec工具包进行训练。Ngram2vec工具包是word2vec和fasttext工具包的超集,支持任意上下文特征和模型。
词向量的质量通常通过类比问题任务来评估。本项目利用两个基准测试进行评估。第一个是CA-translated,其中大多数类比问题直接从英语基准翻译而来。尽管CA-translated已在许多中文词嵌入论文中广泛使用,但它仅包含三种语义问题,涵盖134个中文词。相比之下,CA8是专门为中文语言设计的。它包含17813个类比问题,涵盖了全面的形态和语义关系。CA-translated、CA8及其详细描述可在testsets文件夹中找到。
我们在evaluation文件夹中提供了一个评估工具包。
运行以下代码来评估密集向量:
$ python ana_eval_dense.py -v <vector.txt> -a CA8/morphological.txt
$ python ana_eval_dense.py -v <vector.txt> -a CA8/semantic.txt
运行以下代码来评估稀疏向量:
$ python ana_eval_sparse.py -v <vector.txt> -a CA8/morphological.txt
$ python ana_eval_sparse.py -v <vector.txt> -a CA8/semantic.txt
AI Excel全自动制表工具
AEE 在线 AI 全自动 Excel 编辑器,提供智能录入、自动公式、数据整理、图表生成等功能,高效处理 Excel 任务,提升办公效率。支持自动高亮数据、批量计算、不规则数据录入,适用于企业、教育、金融等多场景。
基于 UI-TARS 视觉语言模型的桌面应用,可通过自然语言控制计算机进行多模态操作。
UI-TARS-desktop 是一款功能强大的桌面应用,基于 UI-TARS(视觉语言模型)构建。它具备自然语言控制、截图与视觉识别、精确的鼠标键盘控制等功能,支持跨平台使用(Windows/MacOS),能提供实时反馈和状态显示,且数据完全本地处理,保障隐私安全。该应用集成了多种大语言模型和搜索方式,还可进行文件系统操作。适用于需要智能交互和自动化任务的场景,如信息检索、文件管理等。其提供了详细的文档,包括快速启动、部署、贡献指南和 SDK 使用说明等,方便开发者使用和扩展。
开源且先进的大规模视频生成模型项目
Wan2.1 是一个开源且先进的大规模视频生成模型项目,支持文本到图像、文本到视频、图像到视频等多种生成任务。它具备丰富的配置选项,可调整分辨率、扩散步数等参数,还能对提示词进行增强。使用了多种先进技术和工具,在视频和图像生成领域具有广泛应用前景,适合研究人员和开发者使用。
全流程 AI 驱动的数据可视化工具,助力用户轻松创作高颜值图表
爱图表(aitubiao.com)就是AI图表,是 由镝数科技推出的一款创新型智能数据可视化平台,专注于为用户提供便捷的图表生成、数据分析和报告撰写服务。爱图表是中国首个在图表场景接入DeepSeek的产品。通过接入前沿的DeepSeek系列AI模型,爱图表结合强大的数据处理能力与智能化功能,致力于帮助职场人士高效处理和表达数据,提升工作效率和报告质量。
一款强大的视觉语言模型,支持图像和视频输入
Qwen2.5-VL 是一款强大的视觉语言模型,支持图像和视频输入,可用于多种场景,如商品特点总结、图像文字识别等。项目提供了 OpenAI API 服务、Web UI 示例等部署方式,还包含了视觉处理工具,有助于开发者快速集成和使用,提升工作效率。
HunyuanVideo 是一个可基于文本生成高质量图像和视频的项目。
HunyuanVideo 是一个专注于文本到图像及视频生成的项目。它具备强大的视频生成能力,支持多种分辨率和视频长度选择,能根据用户输入的文本生成逼真的图像和视频。使用先进的技术架构和算法,可灵活调整生成参数,满足不同场景的需求,是文本生成图像视频领域的优质工具。
一个基于 Gradio 构建的 WebUI,支持与浏览器智能体进行便捷交互。
WebUI for Browser Use 是一个强大的项目,它集成了多种大型语言模型,支持自定义浏览器使用,具备持久化浏览器会话等功能。用户可以通过简洁友好的界面轻松控制浏览器智能体完成各类任务,无论是数据提取、网页导航还是表单填写等操作都能高效实现,有利于提高工作效率和获取信息的便捷性。该项目适合开发者、研究人员以及需要自动化浏览器操作的人群使用,在 SEO 优化方面,其关键词涵盖浏览器使用、WebUI、大型语言模型集成等,有助于提高网页在搜索引擎中的曝光度。
基于 ESP32 的小智 AI 开发项目,支持多种网络连接与协议,实现语音交互等功能。
xiaozhi-esp32 是一个极具创新性的基于 ESP32 的开发项目,专注于人工智能语音交互领域。项目涵盖了丰富的功能,如网络连接、OTA 升级、设备激活等,同时支持多种语言。无论是开发爱好者还是专业开发者,都能借助该项目快速搭建起高效的 AI 语音交互系统,为智能设备开发提供强大助力。
一个用于 OCR 的项目,支持多种模型和服务器进行 PDF 到 Markdown 的转换,并提供测试和报告功能。
olmocr 是一个专注于光学字符识别(OCR)的 Python 项目,由 Allen Institute for Artificial Intelligence 开发。它支持多种模型和服务器,如 vllm、sglang、OpenAI 等,可将 PDF 文件的页面转换为 Markdown 格式。项目还提供了测试框架和 HTML 报告生成功能,方便用户对 OCR 结果进行评估和分析。适用于科研、文档处理等领域,有助于提高工作效率和准确性。
飞书多维表格 ×DeepSeek R1 满血版
飞书多维表格联合 DeepSeek R1 模型,提供 AI 自动化解决方案,支持批量写作、数据分析、跨模态处理等功能,适用于电商、短视频、影视创作等场景,提升企业生产力与创作效率。关键词:飞书多维表格、DeepSeek R1、AI 自动化、批量处理、企业协同工具。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号