欢迎使用 Apache Lucene.NET
.NET 平台强大的全文搜索引擎
Apache Lucene.NET 是一个用 C# 编写的开源全文搜索库。它是流行的 Java Apache Lucene 项目的移植版本。
Apache Lucene.NET 是一个 .NET 库,提供强大的索引和搜索功能,以及拼写检查、命中高亮和高级分析/分词能力。
Lucene.NET 4.8 版本(仍处于测试阶段)可在所有支持 .NET 的平台上运行,包括 Windows、Unix、MacOS、Android 和 iOS。
Apache Lucene.NET 的官方网站是: http://lucenenet.apache.org
支持的框架
Lucene.NET 3.0.3
- .NET Framework 4.0
- .NET Framework 3.5
Lucene.NET 4.8.0
- .NET 6.0
- .NET Standard 2.1
- .NET Standard 2.0
- .NET Framework 4.5
当前状态
最新发布版本:Lucene.NET 3.0.3
正在开发 Lucene.NET 4.8.0(目前处于测试阶段)
- 测试版非常稳定
- 通过了超过 7800 个单元测试
- 与 .NET 6.0、.NET 5.0 和 .NET Core 2+ 良好集成
- 支持 .NET Standard 2.1 和 .NET Standard 2.0
- 支持 .NET Framework 4.5+
- 一些开发者已经在生产环境中使用
下载
Lucene.NET 3.0.3
核心库
PM> Install-Package Lucene.Net
所有包
- Lucene.Net - 核心库
- Lucene.Net.Contrib - 各种用户贡献的功能和附加组件
- Lucene.Net.Contrib.Spatial - 地理空间搜索
- Lucene.Net.Contrib.Spatial.NTS - 支持 NetTopologySuite 的地理空间搜索
Lucene.NET 4.8.0
核心库
PM> Install-Package Lucene.Net -Pre
所有包
- Lucene.Net - 核心库
- Lucene.Net.Analysis.Common - 用于索引不同语言和领域内容的分析器
- Lucene.Net.Analysis.Kuromoji - 日语形态分析器
- Lucene.Net.Analysis.Morfologik - 词典词干提取分析器,内置波兰语词典
- Lucene.Net.Analysis.OpenNLP - OpenNLP库集成
- Lucene.Net.Analysis.Phonetic - 用于索引语音签名的分析器(用于发音相似搜索)
- Lucene.Net.Analysis.SmartCn - 用于索引中文的分析器
- Lucene.Net.Analysis.Stempel - 用于索引波兰语的分析器
- Lucene.Net.Benchmark - Lucene基准测试系统
- Lucene.Net.Classification - Lucene的分类模块
- Lucene.Net.Codecs - Lucene编解码器和倒排索引格式
- Lucene.Net.Expressions - 基于可插拔语法的动态计算值,用于排序/分面/搜索
- Lucene.Net.Facet - 分面索引和搜索功能
- Lucene.Net.Grouping - 用于分组搜索结果的收集器
- Lucene.Net.Highlighter - 在结果中高亮显示搜索关键词
- Lucene.Net.ICU - 专门的ICU(国际化组件for Unicode)分析器和高亮器
- Lucene.Net.Join - 用于规范化内容的索引时和查询时连接
- Lucene.Net.Memory - 单文档内存索引实现
- Lucene.Net.Misc - 索引工具和其他杂项代码
- Lucene.Net.Queries - 补充核心Lucene的过滤器和查询
- Lucene.Net.QueryParser - 文本到查询解析器和解析框架
- Lucene.Net.Replicator - 文件复制实用工具
- Lucene.Net.Sandbox - 各种第三方贡献和新想法
- Lucene.Net.Spatial - 地理空间搜索
- Lucene.Net.Suggest - 自动建议和拼写检查支持
- Lucene.Net.TestFramework - 用于测试基于Lucene的应用程序的框架
文档
我们有Lucene.NET 4.8.0的初步文档在Lucene.NET网站上。
API与Java Lucene 4.8.0类似,您也可能发现查看它很有帮助。
注意:我们正在努力修复文档中的问题,但由于这是一个庞大的项目,我们需要更多的帮助。请参见 #206。
旧版本
演示和工具
Lucene.Net.Demo项目中有几个实现为简单控制台应用程序的演示,可以复制粘贴到Visual Studio中或在命令行上编译。
NuGet上还有一个dotnet命令行工具。它包含所有演示以及维护Lucene.NET索引的工具,具有拆分、合并、列出段信息、修复、删除段、升级等操作功能。在对索引运行任何命令之前,请务必先备份您的索引!
dotnet tool install lucene-cli -g --version 4.8.0-beta00015
注意:您安装的CLI版本应与您使用的Lucene.NET版本匹配。
安装完成后,您可以通过输入命令lucene
来探索可用的命令和选项。
Lucene-cli 文档
如何贡献
我们非常欢迎贡献!请阅读我们的贡献指南或继续阅读以了解您可以提供帮助的方式。
加入邮件列表
提问
如果您有一般性的操作问题或需要 Lucene.NET 社区的帮助,请订阅 user
邮件列表。方法是发送邮件至 user-subscribe@lucenenet.apache.org,然后按照指示验证您的电子邮件地址。请注意,您只需订阅一次即可。
订阅邮件列表后,请将您的消息发送至 user@lucenenet.apache.org。
或者,您也可以通过 StackOverflow 活跃的社区获得帮助。
请不要在 GitHub 上提交一般性的操作问题,GitHub 仅用于报告 bug 和任务。
报告 Bug
要报告 bug,请使用 GitHub 问题追踪器。
注意: 过去,Lucene.NET 项目使用 JIRA 问题追踪器,该追踪器现已被弃用。但我们仍保持其活跃以跟踪遗留问题。请将任何新问题提交到 GitHub。
开始讨论
要就 Lucene.NET 的技术特性开始开发讨论,请发送邮件至 dev
邮件列表。方法是发送邮件至 dev-subscribe@lucenenet.apache.org,然后按照指示验证您的电子邮件地址。请注意,您只需订阅一次即可。
订阅邮件列表后,请将您的消息发送至 dev@lucenenet.apache.org。
提交拉取请求
在开始处理拉取请求之前,请阅读我们的贡献指南。
构建和测试
命令行
先决条件
- PowerShell 5.0 或更高版本(查看 PowerShell 版本请参考此问题)
- .NET 8.0 SDK 或更高版本
执行
注意: 如果项目在 Visual Studio 中打开,其后台还原可能会干扰这些命令。建议在执行之前关闭所有打开了
Lucene.Net.sln
的 Visual Studio 实例。
要构建源代码,请克隆或下载并解压存储库。对于特定版本,请从特定版本的下载页面下载并解压 .src.zip
文件。在存储库或发行版根目录中,从命令提示符执行 build 命令,并包含下面构建选项表中的所需选项:
Windows
> build [选项]
Linux 或 macOS
./build [选项]
注意: 在首次执行之前,需要使用命令
chmod u+x build
给予build
文件运行权限。
构建选项
以下选项不区分大小写。每个选项都有短格式(用单个 -
表示)和长格式(用 --
表示)。需要值的选项必须后跟一个空格和值,类似于运行 dotnet CLI。
简写 | 全称 | 描述 | 示例 |
---|---|---|---|
‑config | ‑‑configuration | 构建配置("Release"或"Debug")。 | build ‑‑configuration Debug |
‑mp | ‑‑maximum-parallel-jobs | 测试期间要运行的最大并行作业数。如果未提供,默认值为8。 | build ‑t ‑mp 10 |
‑pv | ‑‑package-version | NuGet包版本。如果未提供,将使用Version.proj文件中的版本。 | build ‑pv 4.8.0‑beta00001 |
‑t | ‑‑test | 构建后运行测试。此选项不需要值。注意,测试通常需要约40分钟(使用8个并行作业)。 | build ‑t |
‑fv | ‑‑file-version | 程序集文件版本。如果未提供,默认为--package-version的值(不包括任何预发布标签)。程序集版本将从传入值的主版本组件派生,不包括次要、构建和修订组件。 | build ‑pv 4.8.0‑beta00001 ‑fv 4.8.0 |
例如,以下命令创建一个Release构建,NuGet包版本为4.8.0‑ci00015,文件版本为4.8.0。程序集版本将从传入值的主版本组件派生,不包括次要、构建和修订组件(在这种情况下为4.0.0)。
Windows
> build ‑‑configuration Release ‑pv 4.8.0‑ci00015 ‑fv 4.8.0
Linux或macOS
./build ‑‑configuration Release ‑pv 4.8.0‑ci00015 ‑fv 4.8.0
在上面的例子中,我们在包版本中使用"ci"来表示这不是一个公开发布的测试版,而是在beta00014之后但beta00015发布之前从master分支进行的持续集成构建的输出。
构建生成的NuGet包输出到/_artifacts/NuGetPackages/
目录。测试结果(如适用)输出到/_artifacts/TestResults/
目录。
您可以通过以下步骤设置Visual Studio以像任何NuGet源一样读取NuGet包:
- 在Visual Studio中,右键单击解决方案资源管理器中的解决方案,然后选择"管理解决方案的NuGet包"
- 单击包源下拉列表旁边的齿轮图标。
- 单击
+
图标(添加) - 给源命名,例如
Lucene.Net Local Packages
- 单击"源"字段旁边的
...
按钮,选择本地系统上的/src/_artifacts/NuGetPackages
文件夹。 - 单击确定
然后,您只需要从下拉列表(在NuGet包管理器中)选择Lucene.Net Local Packages
源,就可以像使用任何基于互联网的源一样搜索、安装和更新NuGet包。
Visual Studio
先决条件
- Visual Studio 2022或更高版本
- .NET 8.0 SDK或更高版本
执行
- 在Visual Studio中打开
Lucene.Net.sln
。 - 通过打开
.build/TestTargetFramework.props
并取消注释相应的<TargetFramework>
(同时注释其他所有项)来选择要测试的目标框架。 - 构建一个项目或整个解决方案,并等待Visual Studio发现测试 - 这可能需要几分钟。
- 在测试资源管理器中运行或调试测试,可选择使用所需的筛选器。
注意: 在Visual Studio中运行测试时,请确保将默认处理器架构设置为64位,以避免在某些测试中耗尽虚拟内存。
Azure DevOps
我们已经设置了azure-pipelines.yml
文件,其中包含合理的默认值,因此任何拥有Azure DevOps帐户的人都可以以最少的努力构建Lucene.NET并运行测试。即使是免费的Azure DevOps帐户也可以使用,但如果将帐户设置为公共,测试运行速度会快得多,因为这可以同时运行多达10个并行作业。
先决条件
- 一个Azure DevOps帐户。
- 在GitHub或Azure DevOps上fork此存储库。以下说明假设使用GitHub fork。
执行
如果您还没有设置管道:
-
创建Azure DevOps组织。如果你已经有一个想要使用的组织,可以跳过此步骤。
-
创建Azure DevOps项目。我们建议将项目命名为Lucene.NET。请注意,如果你使用的是免费的Azure DevOps账户,应选择将项目设为公开,以启用10个并行作业。如果将项目设为私有,你只能获得1个并行作业。另外,如果禁用某些功能,请确保保留Pipelines功能。
-
创建Azure DevOps管道。
- 从左侧菜单点击"Pipelines"。
- 点击"Create Pipeline"或"New Pipeline"按钮,具体取决于是否已存在管道。
- 选择GitHub作为查找YAML文件的位置。
- 选择你在"先决条件"中创建的此仓库的分支。注意,如果这是一个新的Azure DevOps账户,你可能需要设置额外的权限来访问你的GitHub账户。
- 接下来会出现一个"Review your YAML"页面,显示
azure-pipelines.yml
的内容。文件顶部附近有文档说明可以设置哪些变量来启用其他选项,但请注意,默认配置将自动运行构建和所有测试。 - 点击页面右上角的"Run"按钮。
如果你已经设置了管道:
- 从左侧菜单点击"Pipelines"。
- 选择你想要运行的管道。
- 点击右上角的"Queue"按钮。
- (可选)选择分支并覆盖此次运行的管道中的任何变量。
- 点击"Run"按钮。
请注意,构建完成后,nuget
工件包含可下载到本地机器的.nupkg
文件,你可以设置本地文件夹作为NuGet源。
也可以将Azure DevOps源ID添加到名为
ArtifactFeedID
的新变量中,但由于权限问题,我们得到的结果不一致。