正则表达式来计算一个下划线单词后面跟随的单词数量

Question

我想在字符串中计算紧跟在一个下划线标识的单词后面出现的未知数量的单词。

例如，我有一个测试字符串：

testString = '21 High Street _Earth Mighty Motor Mechanic'

我可以通过非捕获组 (?:\s[a-zA-Z]+) 匹配这些出现在下划线后的单词。但是，我还未能构造出一个正则表达式来排除匹配结果中下划线单词前面的部分。你可以参考这个示例看我目前尝试的情况。

我的目标是在Python脚本中使用完整的模式来实现这一功能，如下所示：

import re
pattern = r'(?:\s[a-zA-Z]+)'  # 这个模式目前会匹配任何空白后跟的一个或多个字母组成的单词
results = re.findall(pattern, testString)
if results:
  answer = len(results)  # 当有匹配项时，计算并获取匹配到的单词数

waitingkuo · Answer

提取文本字符串中下划线后紧跟的单词

要从字符串中捕获下划线后的单词（不包括下划线本身），可以使用以下正则表达式：

正则表达式示例

_\w+\s([\w\s]+)

该正则表达式的运作方式如下：

_\w+\s 匹配下划线单词及其后面的空格。
([\w\s]+) 然后捕获一系列包含单词字符和空格的序列。

在实际应用中，可以在Python中这样实现这个正则表达式：

import re

testString = '21 High Street _Earth Mighty Motor Mechanic'
pattern = r'_\w+\s([\w\s]+)'

match = re.search(pattern, testString)
if match:
    words_after = match.group(1).split()
    count = len(words_after)
    print(f"下划线单词之后的单词数量: {count}")
else:
    print("未找到下划线单词或其后无任何单词。")

---

### 提取文本字符串中以下划线开始的单词序列

如果你想包含下划线单词在计数内，可以稍微修改上述正则表达式：

[正则表达式示例](https://regex101.com/r/dbGoqr/1)

```python
(_\w+\s[\w\s]+)

这个版本的工作原理如下：

(_\w+\s[\w\s]+) 捕获下划线单词及其后面的所有单词。其中，_\w+ 匹配下划线单词，\s[\w\s]+ 则匹配其后的空格及单词。

对应的Python实现为：

import re

testString = '21 High Street _Earth Mighty Motor Mechanic'
pattern = r'(_\w+\s[\w\s]+)'

match = re.search(pattern, testString)
if match:
    words = match.group(1).split()
    count = len(words)
    print(f"包括下划线单词在内的总单词数: {count}")
else:
    print("未找到下划线单词或其后无任何单词。")

注意：在这两个正则表达式之间进行选择取决于你是否希望将下划线单词计入词数统计。

fedorqui · Answer

您还可以尝试以下正则表达式：

(?<=_)\w+\s+(.*)

上文正则表达式的解释：

(?<=_) —— 表示 正向预查 ，断言字符串中当前位置之前紧跟着的是 _ 字符。
\w+ —— 匹配一个或多个单词字符（等同于 [A-Za-z0-9_]）。
\s+ —— 匹配一个或多个空白字符。
(.*?) —— 捕获组，匹配任意内容。

正则表达式测试链接
 样例代码链接

另一种解决方案：

testString = '21 High Street _Earth Mighty Motor Mechanic'
# 使用空格分割字符串
words = testString.split()
# 使用生成器表达式查找第一个带有下划线的单词
underscored_word = next((word for word in words if '_' in word), None)
# 计算下划线单词之后的单词数量
answer = len(words[words.index(underscored_word) + 1:]) if underscored_word else 0
print(answer)
# 该代码的整体时间复杂度是 O(n) + 2 * O(m) ≈ O(n)
# 其中：
# n: 测试字符串 testString 的长度
# m: 测试字符串中的单词数量。

替代方案样例代码链接