tcg-op-gvec.c source code [qemu/tcg/tcg-op-gvec.c]

1	/*
2	* Generic vector operation expansion
3	*
4	* Copyright (c) 2018 Linaro
5	*
6	* This library is free software; you can redistribute it and/or
7	* modify it under the terms of the GNU Lesser General Public
8	* License as published by the Free Software Foundation; either
9	* version 2.1 of the License, or (at your option) any later version.
10	*
11	* This library is distributed in the hope that it will be useful,
12	* but WITHOUT ANY WARRANTY; without even the implied warranty of
13	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
14	* Lesser General Public License for more details.
15	*
16	* You should have received a copy of the GNU Lesser General Public
17	* License along with this library; if not, see <http://www.gnu.org/licenses/>.
18	*/
19
20	#include "qemu/osdep.h"
21	#include "tcg.h"
22	#include "tcg-op.h"
23	#include "tcg-op-gvec.h"
24	#include "qemu/main-loop.h"
25	#include "tcg-gvec-desc.h"
26
27	#define MAX_UNROLL 4
28
29	#ifdef CONFIG_DEBUG_TCG
30	static const TCGOpcode vecop_list_empty[`1`] = { `0` };
31	#else
32	#define vecop_list_empty NULL
33	#endif
34
35
36	/ Verify vector size and alignment rules. OFS should be the OR of all*
37	of the operand offsets so that we can check them all at once. /*
38	static void check_size_align(uint32_t oprsz, uint32_t maxsz, uint32_t ofs)
39	{
40	uint32_t opr_align = oprsz >= `16` ? `15` : `7`;
41	uint32_t max_align = maxsz >= `16` \|\| oprsz >= `16` ? `15` : `7`;
42	tcg_debug_assert(oprsz > `0`);
43	tcg_debug_assert(oprsz <= maxsz);
44	tcg_debug_assert((oprsz & opr_align) == `0`);
45	tcg_debug_assert((maxsz & max_align) == `0`);
46	tcg_debug_assert((ofs & max_align) == `0`);
47	}
48
49	/ Verify vector overlap rules for two operands. /
50	static void check_overlap_2(uint32_t d, uint32_t a, uint32_t s)
51	{
52	tcg_debug_assert(d == a \|\| d + s <= a \|\| a + s <= d);
53	}
54
55	/ Verify vector overlap rules for three operands. /
56	static void check_overlap_3(uint32_t d, uint32_t a, uint32_t b, uint32_t s)
57	{
58	check_overlap_2(d, a, s);
59	check_overlap_2(d, b, s);
60	check_overlap_2(a, b, s);
61	}
62
63	/ Verify vector overlap rules for four operands. /
64	static void check_overlap_4(uint32_t d, uint32_t a, uint32_t b,
65	uint32_t c, uint32_t s)
66	{
67	check_overlap_2(d, a, s);
68	check_overlap_2(d, b, s);
69	check_overlap_2(d, c, s);
70	check_overlap_2(a, b, s);
71	check_overlap_2(a, c, s);
72	check_overlap_2(b, c, s);
73	}
74
75	/ Create a descriptor from components. /
76	uint32_t simd_desc(uint32_t oprsz, uint32_t maxsz, int32_t data)
77	{
78	uint32_t desc = `0`;
79
80	assert(oprsz % `8` == `0` && oprsz <= (`8` << SIMD_OPRSZ_BITS));
81	assert(maxsz % `8` == `0` && maxsz <= (`8` << SIMD_MAXSZ_BITS));
82	assert(data == sextract32(data, `0`, SIMD_DATA_BITS));
83
84	oprsz = (oprsz / `8`) - `1`;
85	maxsz = (maxsz / `8`) - `1`;
86	desc = deposit32(desc, SIMD_OPRSZ_SHIFT, SIMD_OPRSZ_BITS, oprsz);
87	desc = deposit32(desc, SIMD_MAXSZ_SHIFT, SIMD_MAXSZ_BITS, maxsz);
88	desc = deposit32(desc, SIMD_DATA_SHIFT, SIMD_DATA_BITS, data);
89
90	return desc;
91	}
92
93	/ Generate a call to a gvec-style helper with two vector operands. /
94	void tcg_gen_gvec_2_ool(uint32_t dofs, uint32_t aofs,
95	uint32_t oprsz, uint32_t maxsz, int32_t data,
96	gen_helper_gvec_2 *fn)
97	{
98	TCGv_ptr a0, a1;
99	TCGv_i32 desc = tcg_const_i32(simd_desc(oprsz, maxsz, data));
100
101	a0 = tcg_temp_new_ptr();
102	a1 = tcg_temp_new_ptr();
103
104	tcg_gen_addi_ptr(a0, cpu_env, dofs);
105	tcg_gen_addi_ptr(a1, cpu_env, aofs);
106
107	fn(a0, a1, desc);
108
109	tcg_temp_free_ptr(a0);
110	tcg_temp_free_ptr(a1);
111	tcg_temp_free_i32(desc);
112	}
113
114	/ Generate a call to a gvec-style helper with two vector operands*
115	and one scalar operand. /*
116	void tcg_gen_gvec_2i_ool(uint32_t dofs, uint32_t aofs, TCGv_i64 c,
117	uint32_t oprsz, uint32_t maxsz, int32_t data,
118	gen_helper_gvec_2i *fn)
119	{
120	TCGv_ptr a0, a1;
121	TCGv_i32 desc = tcg_const_i32(simd_desc(oprsz, maxsz, data));
122
123	a0 = tcg_temp_new_ptr();
124	a1 = tcg_temp_new_ptr();
125
126	tcg_gen_addi_ptr(a0, cpu_env, dofs);
127	tcg_gen_addi_ptr(a1, cpu_env, aofs);
128
129	fn(a0, a1, c, desc);
130
131	tcg_temp_free_ptr(a0);
132	tcg_temp_free_ptr(a1);
133	tcg_temp_free_i32(desc);
134	}
135
136	/ Generate a call to a gvec-style helper with three vector operands. /
137	void tcg_gen_gvec_3_ool(uint32_t dofs, uint32_t aofs, uint32_t bofs,
138	uint32_t oprsz, uint32_t maxsz, int32_t data,
139	gen_helper_gvec_3 *fn)
140	{
141	TCGv_ptr a0, a1, a2;
142	TCGv_i32 desc = tcg_const_i32(simd_desc(oprsz, maxsz, data));
143
144	a0 = tcg_temp_new_ptr();
145	a1 = tcg_temp_new_ptr();
146	a2 = tcg_temp_new_ptr();
147
148	tcg_gen_addi_ptr(a0, cpu_env, dofs);
149	tcg_gen_addi_ptr(a1, cpu_env, aofs);
150	tcg_gen_addi_ptr(a2, cpu_env, bofs);
151
152	fn(a0, a1, a2, desc);
153
154	tcg_temp_free_ptr(a0);
155	tcg_temp_free_ptr(a1);
156	tcg_temp_free_ptr(a2);
157	tcg_temp_free_i32(desc);
158	}
159
160	/ Generate a call to a gvec-style helper with four vector operands. /
161	void tcg_gen_gvec_4_ool(uint32_t dofs, uint32_t aofs, uint32_t bofs,
162	uint32_t cofs, uint32_t oprsz, uint32_t maxsz,
163	int32_t data, gen_helper_gvec_4 *fn)
164	{
165	TCGv_ptr a0, a1, a2, a3;
166	TCGv_i32 desc = tcg_const_i32(simd_desc(oprsz, maxsz, data));
167
168	a0 = tcg_temp_new_ptr();
169	a1 = tcg_temp_new_ptr();
170	a2 = tcg_temp_new_ptr();
171	a3 = tcg_temp_new_ptr();
172
173	tcg_gen_addi_ptr(a0, cpu_env, dofs);
174	tcg_gen_addi_ptr(a1, cpu_env, aofs);
175	tcg_gen_addi_ptr(a2, cpu_env, bofs);
176	tcg_gen_addi_ptr(a3, cpu_env, cofs);
177
178	fn(a0, a1, a2, a3, desc);
179
180	tcg_temp_free_ptr(a0);
181	tcg_temp_free_ptr(a1);
182	tcg_temp_free_ptr(a2);
183	tcg_temp_free_ptr(a3);
184	tcg_temp_free_i32(desc);
185	}
186
187	/ Generate a call to a gvec-style helper with five vector operands. /
188	void tcg_gen_gvec_5_ool(uint32_t dofs, uint32_t aofs, uint32_t bofs,
189	uint32_t cofs, uint32_t xofs, uint32_t oprsz,
190	uint32_t maxsz, int32_t data, gen_helper_gvec_5 *fn)
191	{
192	TCGv_ptr a0, a1, a2, a3, a4;
193	TCGv_i32 desc = tcg_const_i32(simd_desc(oprsz, maxsz, data));
194
195	a0 = tcg_temp_new_ptr();
196	a1 = tcg_temp_new_ptr();
197	a2 = tcg_temp_new_ptr();
198	a3 = tcg_temp_new_ptr();
199	a4 = tcg_temp_new_ptr();
200
201	tcg_gen_addi_ptr(a0, cpu_env, dofs);
202	tcg_gen_addi_ptr(a1, cpu_env, aofs);
203	tcg_gen_addi_ptr(a2, cpu_env, bofs);
204	tcg_gen_addi_ptr(a3, cpu_env, cofs);
205	tcg_gen_addi_ptr(a4, cpu_env, xofs);
206
207	fn(a0, a1, a2, a3, a4, desc);
208
209	tcg_temp_free_ptr(a0);
210	tcg_temp_free_ptr(a1);
211	tcg_temp_free_ptr(a2);
212	tcg_temp_free_ptr(a3);
213	tcg_temp_free_ptr(a4);
214	tcg_temp_free_i32(desc);
215	}
216
217	/ Generate a call to a gvec-style helper with three vector operands*
218	and an extra pointer operand. /*
219	void tcg_gen_gvec_2_ptr(uint32_t dofs, uint32_t aofs,
220	TCGv_ptr ptr, uint32_t oprsz, uint32_t maxsz,
221	int32_t data, gen_helper_gvec_2_ptr *fn)
222	{
223	TCGv_ptr a0, a1;
224	TCGv_i32 desc = tcg_const_i32(simd_desc(oprsz, maxsz, data));
225
226	a0 = tcg_temp_new_ptr();
227	a1 = tcg_temp_new_ptr();
228
229	tcg_gen_addi_ptr(a0, cpu_env, dofs);
230	tcg_gen_addi_ptr(a1, cpu_env, aofs);
231
232	fn(a0, a1, ptr, desc);
233
234	tcg_temp_free_ptr(a0);
235	tcg_temp_free_ptr(a1);
236	tcg_temp_free_i32(desc);
237	}
238
239	/ Generate a call to a gvec-style helper with three vector operands*
240	and an extra pointer operand. /*
241	void tcg_gen_gvec_3_ptr(uint32_t dofs, uint32_t aofs, uint32_t bofs,
242	TCGv_ptr ptr, uint32_t oprsz, uint32_t maxsz,
243	int32_t data, gen_helper_gvec_3_ptr *fn)
244	{
245	TCGv_ptr a0, a1, a2;
246	TCGv_i32 desc = tcg_const_i32(simd_desc(oprsz, maxsz, data));
247
248	a0 = tcg_temp_new_ptr();
249	a1 = tcg_temp_new_ptr();
250	a2 = tcg_temp_new_ptr();
251
252	tcg_gen_addi_ptr(a0, cpu_env, dofs);
253	tcg_gen_addi_ptr(a1, cpu_env, aofs);
254	tcg_gen_addi_ptr(a2, cpu_env, bofs);
255
256	fn(a0, a1, a2, ptr, desc);
257
258	tcg_temp_free_ptr(a0);
259	tcg_temp_free_ptr(a1);
260	tcg_temp_free_ptr(a2);
261	tcg_temp_free_i32(desc);
262	}
263
264	/ Generate a call to a gvec-style helper with four vector operands*
265	and an extra pointer operand. /*
266	void tcg_gen_gvec_4_ptr(uint32_t dofs, uint32_t aofs, uint32_t bofs,
267	uint32_t cofs, TCGv_ptr ptr, uint32_t oprsz,
268	uint32_t maxsz, int32_t data,
269	gen_helper_gvec_4_ptr *fn)
270	{
271	TCGv_ptr a0, a1, a2, a3;
272	TCGv_i32 desc = tcg_const_i32(simd_desc(oprsz, maxsz, data));
273
274	a0 = tcg_temp_new_ptr();
275	a1 = tcg_temp_new_ptr();
276	a2 = tcg_temp_new_ptr();
277	a3 = tcg_temp_new_ptr();
278
279	tcg_gen_addi_ptr(a0, cpu_env, dofs);
280	tcg_gen_addi_ptr(a1, cpu_env, aofs);
281	tcg_gen_addi_ptr(a2, cpu_env, bofs);
282	tcg_gen_addi_ptr(a3, cpu_env, cofs);
283
284	fn(a0, a1, a2, a3, ptr, desc);
285
286	tcg_temp_free_ptr(a0);
287	tcg_temp_free_ptr(a1);
288	tcg_temp_free_ptr(a2);
289	tcg_temp_free_ptr(a3);
290	tcg_temp_free_i32(desc);
291	}
292
293	/ Return true if we want to implement something of OPRSZ bytes*
294	in units of LNSZ. This limits the expansion of inline code. /*
295	static inline bool check_size_impl(uint32_t oprsz, uint32_t lnsz)
296	{
297	if (oprsz % lnsz == `0`) {
298	uint32_t lnct = oprsz / lnsz;
299	return lnct >= `1` && lnct <= MAX_UNROLL;
300	}
301	return false;
302	}
303
304	static void expand_clr(uint32_t dofs, uint32_t maxsz);
305
306	/ Duplicate C as per VECE. /
307	uint64_t (dup_const)(unsigned vece, uint64_t c)
308	{
309	switch (vece) {
310	case MO_8:
311	return `0x0101010101010101ull` * (uint8_t)c;
312	case MO_16:
313	return `0x0001000100010001ull` * (uint16_t)c;
314	case MO_32:
315	return `0x0000000100000001ull` * (uint32_t)c;
316	case MO_64:
317	return c;
318	default:
319	g_assert_not_reached();
320	}
321	}
322
323	/ Duplicate IN into OUT as per VECE. /
324	static void gen_dup_i32(unsigned vece, TCGv_i32 out, TCGv_i32 in)
325	{
326	switch (vece) {
327	case MO_8:
328	tcg_gen_ext8u_i32(out, in);
329	tcg_gen_muli_i32(out, out, `0x01010101`);
330	break;
331	case MO_16:
332	tcg_gen_deposit_i32(out, in, in, `16`, `16`);
333	break;
334	case MO_32:
335	tcg_gen_mov_i32(out, in);
336	break;
337	default:
338	g_assert_not_reached();
339	}
340	}
341
342	static void gen_dup_i64(unsigned vece, TCGv_i64 out, TCGv_i64 in)
343	{
344	switch (vece) {
345	case MO_8:
346	tcg_gen_ext8u_i64(out, in);
347	tcg_gen_muli_i64(out, out, `0x0101010101010101ull`);
348	break;
349	case MO_16:
350	tcg_gen_ext16u_i64(out, in);
351	tcg_gen_muli_i64(out, out, `0x0001000100010001ull`);
352	break;
353	case MO_32:
354	tcg_gen_deposit_i64(out, in, in, `32`, `32`);
355	break;
356	case MO_64:
357	tcg_gen_mov_i64(out, in);
358	break;
359	default:
360	g_assert_not_reached();
361	}
362	}
363
364	/ Select a supported vector type for implementing an operation on SIZE*
365	* bytes. If OP is 0, assume that the real operation to be performed is
366	* required by all backends. Otherwise, make sure than OP can be performed
367	* on elements of size VECE in the selected type. Do not select V64 if
368	* PREFER_I64 is true. Return 0 if no vector type is selected.
369	*/
370	static TCGType choose_vector_type(const TCGOpcode list, unsigned* vece,
371	uint32_t size, bool prefer_i64)
372	{
373	if (TCG_TARGET_HAS_v256 && check_size_impl(size, `32`)) {
374	/*
375	* Recall that ARM SVE allows vector sizes that are not a
376	* power of 2, but always a multiple of 16. The intent is
377	* that e.g. size == 80 would be expanded with 2x32 + 1x16.
378	* It is hard to imagine a case in which v256 is supported
379	* but v128 is not, but check anyway.
380	*/
381	if (tcg_can_emit_vecop_list(list, TCG_TYPE_V256, vece)
382	&& (size % `32` == `0`
383	\|\| tcg_can_emit_vecop_list(list, TCG_TYPE_V128, vece))) {
384	return TCG_TYPE_V256;
385	}
386	}
387	if (TCG_TARGET_HAS_v128 && check_size_impl(size, `16`)
388	&& tcg_can_emit_vecop_list(list, TCG_TYPE_V128, vece)) {
389	return TCG_TYPE_V128;
390	}
391	if (TCG_TARGET_HAS_v64 && !prefer_i64 && check_size_impl(size, `8`)
392	&& tcg_can_emit_vecop_list(list, TCG_TYPE_V64, vece)) {
393	return TCG_TYPE_V64;
394	}
395	return `0`;
396	}
397
398	static void do_dup_store(TCGType type, uint32_t dofs, uint32_t oprsz,
399	uint32_t maxsz, TCGv_vec t_vec)
400	{
401	uint32_t i = `0`;
402
403	switch (type) {
404	case TCG_TYPE_V256:
405	/*
406	* Recall that ARM SVE allows vector sizes that are not a
407	* power of 2, but always a multiple of 16. The intent is
408	* that e.g. size == 80 would be expanded with 2x32 + 1x16.
409	*/
410	for (; i + `32` <= oprsz; i += `32`) {
411	tcg_gen_stl_vec(t_vec, cpu_env, dofs + i, TCG_TYPE_V256);
412	}
413	/ fallthru /
414	case TCG_TYPE_V128:
415	for (; i + `16` <= oprsz; i += `16`) {
416	tcg_gen_stl_vec(t_vec, cpu_env, dofs + i, TCG_TYPE_V128);
417	}
418	break;
419	case TCG_TYPE_V64:
420	for (; i < oprsz; i += `8`) {
421	tcg_gen_stl_vec(t_vec, cpu_env, dofs + i, TCG_TYPE_V64);
422	}
423	break;
424	default:
425	g_assert_not_reached();
426	}
427
428	if (oprsz < maxsz) {
429	expand_clr(dofs + oprsz, maxsz - oprsz);
430	}
431	}
432
433	/ Set OPRSZ bytes at DOFS to replications of IN_32, IN_64 or IN_C.*
434	* Only one of IN_32 or IN_64 may be set;
435	* IN_C is used if IN_32 and IN_64 are unset.
436	*/
437	static void do_dup(unsigned vece, uint32_t dofs, uint32_t oprsz,
438	uint32_t maxsz, TCGv_i32 in_32, TCGv_i64 in_64,
439	uint64_t in_c)
440	{
441	TCGType type;
442	TCGv_i64 t_64;
443	TCGv_i32 t_32, t_desc;
444	TCGv_ptr t_ptr;
445	uint32_t i;
446
447	assert(vece <= (in_32 ? MO_32 : MO_64));
448	assert(in_32 == NULL \|\| in_64 == NULL);
449
450	/ If we're storing 0, expand oprsz to maxsz. /
451	if (in_32 == NULL && in_64 == NULL) {
452	in_c = dup_const(vece, in_c);
453	if (in_c == `0`) {
454	oprsz = maxsz;
455	}
456	}
457
458	/ Implement inline with a vector type, if possible.*
459	* Prefer integer when 64-bit host and no variable dup.
460	*/
461	type = choose_vector_type(NULL, vece, oprsz,
462	(TCG_TARGET_REG_BITS == `64` && in_32 == NULL
463	&& (in_64 == NULL \|\| vece == MO_64)));
464	if (type != `0`) {
465	TCGv_vec t_vec = tcg_temp_new_vec(type);
466
467	if (in_32) {
468	tcg_gen_dup_i32_vec(vece, t_vec, in_32);
469	} else if (in_64) {
470	tcg_gen_dup_i64_vec(vece, t_vec, in_64);
471	} else {
472	tcg_gen_dupi_vec(vece, t_vec, in_c);
473	}
474	do_dup_store(type, dofs, oprsz, maxsz, t_vec);
475	tcg_temp_free_vec(t_vec);
476	return;
477	}
478
479	/ Otherwise, inline with an integer type, unless "large". /
480	if (check_size_impl(oprsz, TCG_TARGET_REG_BITS / `8`)) {
481	t_64 = NULL;
482	t_32 = NULL;
483
484	if (in_32) {
485	/ We are given a 32-bit variable input. For a 64-bit host,*
486	use a 64-bit operation unless the 32-bit operation would
487	be simple enough. /*
488	if (TCG_TARGET_REG_BITS == `64`
489	&& (vece != MO_32 \|\| !check_size_impl(oprsz, `4`))) {
490	t_64 = tcg_temp_new_i64();
491	tcg_gen_extu_i32_i64(t_64, in_32);
492	gen_dup_i64(vece, t_64, t_64);
493	} else {
494	t_32 = tcg_temp_new_i32();
495	gen_dup_i32(vece, t_32, in_32);
496	}
497	} else if (in_64) {
498	/ We are given a 64-bit variable input. /
499	t_64 = tcg_temp_new_i64();
500	gen_dup_i64(vece, t_64, in_64);
501	} else {
502	/ We are given a constant input. /
503	/ For 64-bit hosts, use 64-bit constants for "simple" constants*
504	or when we'd need too many 32-bit stores, or when a 64-bit
505	constant is really required. /*
506	if (vece == MO_64
507	\|\| (TCG_TARGET_REG_BITS == `64`
508	&& (in_c == `0` \|\| in_c == -`1`
509	\|\| !check_size_impl(oprsz, `4`)))) {
510	t_64 = tcg_const_i64(in_c);
511	} else {
512	t_32 = tcg_const_i32(in_c);
513	}
514	}
515
516	/ Implement inline if we picked an implementation size above. /
517	if (t_32) {
518	for (i = `0`; i < oprsz; i += `4`) {
519	tcg_gen_st_i32(t_32, cpu_env, dofs + i);
520	}
521	tcg_temp_free_i32(t_32);
522	goto done;
523	}
524	if (t_64) {
525	for (i = `0`; i < oprsz; i += `8`) {
526	tcg_gen_st_i64(t_64, cpu_env, dofs + i);
527	}
528	tcg_temp_free_i64(t_64);
529	goto done;
530	}
531	}
532
533	/ Otherwise implement out of line. /
534	t_ptr = tcg_temp_new_ptr();
535	tcg_gen_addi_ptr(t_ptr, cpu_env, dofs);
536	t_desc = tcg_const_i32(simd_desc(oprsz, maxsz, `0`));
537
538	if (vece == MO_64) {
539	if (in_64) {
540	gen_helper_gvec_dup64(t_ptr, t_desc, in_64);
541	} else {
542	t_64 = tcg_const_i64(in_c);
543	gen_helper_gvec_dup64(t_ptr, t_desc, t_64);
544	tcg_temp_free_i64(t_64);
545	}
546	} else {
547	typedef void dup_fn(TCGv_ptr, TCGv_i32, TCGv_i32);
548	static dup_fn * const fns[`3`] = {
549	gen_helper_gvec_dup8,
550	gen_helper_gvec_dup16,
551	gen_helper_gvec_dup32
552	};
553
554	if (in_32) {
555	fns[vece](t_ptr, t_desc, in_32);
556	} else {
557	t_32 = tcg_temp_new_i32();
558	if (in_64) {
559	tcg_gen_extrl_i64_i32(t_32, in_64);
560	} else if (vece == MO_8) {
561	tcg_gen_movi_i32(t_32, in_c & `0xff`);
562	} else if (vece == MO_16) {
563	tcg_gen_movi_i32(t_32, in_c & `0xffff`);
564	} else {
565	tcg_gen_movi_i32(t_32, in_c);
566	}
567	fns[vece](t_ptr, t_desc, t_32);
568	tcg_temp_free_i32(t_32);
569	}
570	}
571
572	tcg_temp_free_ptr(t_ptr);
573	tcg_temp_free_i32(t_desc);
574	return;
575
576	done:
577	if (oprsz < maxsz) {
578	expand_clr(dofs + oprsz, maxsz - oprsz);
579	}
580	}
581
582	/ Likewise, but with zero. /
583	static void expand_clr(uint32_t dofs, uint32_t maxsz)
584	{
585	do_dup(MO_8, dofs, maxsz, maxsz, NULL, NULL, `0`);
586	}
587
588	/ Expand OPSZ bytes worth of two-operand operations using i32 elements. /
589	static void expand_2_i32(uint32_t dofs, uint32_t aofs, uint32_t oprsz,
590	void (*fni)(TCGv_i32, TCGv_i32))
591	{
592	TCGv_i32 t0 = tcg_temp_new_i32();
593	uint32_t i;
594
595	for (i = `0`; i < oprsz; i += `4`) {
596	tcg_gen_ld_i32(t0, cpu_env, aofs + i);
597	fni(t0, t0);
598	tcg_gen_st_i32(t0, cpu_env, dofs + i);
599	}
600	tcg_temp_free_i32(t0);
601	}
602
603	static void expand_2i_i32(uint32_t dofs, uint32_t aofs, uint32_t oprsz,
604	int32_t c, bool load_dest,
605	void (*fni)(TCGv_i32, TCGv_i32, int32_t))
606	{
607	TCGv_i32 t0 = tcg_temp_new_i32();
608	TCGv_i32 t1 = tcg_temp_new_i32();
609	uint32_t i;
610
611	for (i = `0`; i < oprsz; i += `4`) {
612	tcg_gen_ld_i32(t0, cpu_env, aofs + i);
613	if (load_dest) {
614	tcg_gen_ld_i32(t1, cpu_env, dofs + i);
615	}
616	fni(t1, t0, c);
617	tcg_gen_st_i32(t1, cpu_env, dofs + i);
618	}
619	tcg_temp_free_i32(t0);
620	tcg_temp_free_i32(t1);
621	}
622
623	static void expand_2s_i32(uint32_t dofs, uint32_t aofs, uint32_t oprsz,
624	TCGv_i32 c, bool scalar_first,
625	void (*fni)(TCGv_i32, TCGv_i32, TCGv_i32))
626	{
627	TCGv_i32 t0 = tcg_temp_new_i32();
628	TCGv_i32 t1 = tcg_temp_new_i32();
629	uint32_t i;
630
631	for (i = `0`; i < oprsz; i += `4`) {
632	tcg_gen_ld_i32(t0, cpu_env, aofs + i);
633	if (scalar_first) {
634	fni(t1, c, t0);
635	} else {
636	fni(t1, t0, c);
637	}
638	tcg_gen_st_i32(t1, cpu_env, dofs + i);
639	}
640	tcg_temp_free_i32(t0);
641	tcg_temp_free_i32(t1);
642	}
643
644	/ Expand OPSZ bytes worth of three-operand operations using i32 elements. /
645	static void expand_3_i32(uint32_t dofs, uint32_t aofs,
646	uint32_t bofs, uint32_t oprsz, bool load_dest,
647	void (*fni)(TCGv_i32, TCGv_i32, TCGv_i32))
648	{
649	TCGv_i32 t0 = tcg_temp_new_i32();
650	TCGv_i32 t1 = tcg_temp_new_i32();
651	TCGv_i32 t2 = tcg_temp_new_i32();
652	uint32_t i;
653
654	for (i = `0`; i < oprsz; i += `4`) {
655	tcg_gen_ld_i32(t0, cpu_env, aofs + i);
656	tcg_gen_ld_i32(t1, cpu_env, bofs + i);
657	if (load_dest) {
658	tcg_gen_ld_i32(t2, cpu_env, dofs + i);
659	}
660	fni(t2, t0, t1);
661	tcg_gen_st_i32(t2, cpu_env, dofs + i);
662	}
663	tcg_temp_free_i32(t2);
664	tcg_temp_free_i32(t1);
665	tcg_temp_free_i32(t0);
666	}
667
668	static void expand_3i_i32(uint32_t dofs, uint32_t aofs, uint32_t bofs,
669	uint32_t oprsz, int32_t c, bool load_dest,
670	void (*fni)(TCGv_i32, TCGv_i32, TCGv_i32, int32_t))
671	{
672	TCGv_i32 t0 = tcg_temp_new_i32();
673	TCGv_i32 t1 = tcg_temp_new_i32();
674	TCGv_i32 t2 = tcg_temp_new_i32();
675	uint32_t i;
676
677	for (i = `0`; i < oprsz; i += `4`) {
678	tcg_gen_ld_i32(t0, cpu_env, aofs + i);
679	tcg_gen_ld_i32(t1, cpu_env, bofs + i);
680	if (load_dest) {
681	tcg_gen_ld_i32(t2, cpu_env, dofs + i);
682	}
683	fni(t2, t0, t1, c);
684	tcg_gen_st_i32(t2, cpu_env, dofs + i);
685	}
686	tcg_temp_free_i32(t0);
687	tcg_temp_free_i32(t1);
688	tcg_temp_free_i32(t2);
689	}
690
691	/ Expand OPSZ bytes worth of three-operand operations using i32 elements. /
692	static void expand_4_i32(uint32_t dofs, uint32_t aofs, uint32_t bofs,
693	uint32_t cofs, uint32_t oprsz, bool write_aofs,
694	void (*fni)(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_i32))
695	{
696	TCGv_i32 t0 = tcg_temp_new_i32();
697	TCGv_i32 t1 = tcg_temp_new_i32();
698	TCGv_i32 t2 = tcg_temp_new_i32();
699	TCGv_i32 t3 = tcg_temp_new_i32();
700	uint32_t i;
701
702	for (i = `0`; i < oprsz; i += `4`) {
703	tcg_gen_ld_i32(t1, cpu_env, aofs + i);
704	tcg_gen_ld_i32(t2, cpu_env, bofs + i);
705	tcg_gen_ld_i32(t3, cpu_env, cofs + i);
706	fni(t0, t1, t2, t3);
707	tcg_gen_st_i32(t0, cpu_env, dofs + i);
708	if (write_aofs) {
709	tcg_gen_st_i32(t1, cpu_env, aofs + i);
710	}
711	}
712	tcg_temp_free_i32(t3);
713	tcg_temp_free_i32(t2);
714	tcg_temp_free_i32(t1);
715	tcg_temp_free_i32(t0);
716	}
717
718	/ Expand OPSZ bytes worth of two-operand operations using i64 elements. /
719	static void expand_2_i64(uint32_t dofs, uint32_t aofs, uint32_t oprsz,
720	void (*fni)(TCGv_i64, TCGv_i64))
721	{
722	TCGv_i64 t0 = tcg_temp_new_i64();
723	uint32_t i;
724
725	for (i = `0`; i < oprsz; i += `8`) {
726	tcg_gen_ld_i64(t0, cpu_env, aofs + i);
727	fni(t0, t0);
728	tcg_gen_st_i64(t0, cpu_env, dofs + i);
729	}
730	tcg_temp_free_i64(t0);
731	}
732
733	static void expand_2i_i64(uint32_t dofs, uint32_t aofs, uint32_t oprsz,
734	int64_t c, bool load_dest,
735	void (*fni)(TCGv_i64, TCGv_i64, int64_t))
736	{
737	TCGv_i64 t0 = tcg_temp_new_i64();
738	TCGv_i64 t1 = tcg_temp_new_i64();
739	uint32_t i;
740
741	for (i = `0`; i < oprsz; i += `8`) {
742	tcg_gen_ld_i64(t0, cpu_env, aofs + i);
743	if (load_dest) {
744	tcg_gen_ld_i64(t1, cpu_env, dofs + i);
745	}
746	fni(t1, t0, c);
747	tcg_gen_st_i64(t1, cpu_env, dofs + i);
748	}
749	tcg_temp_free_i64(t0);
750	tcg_temp_free_i64(t1);
751	}
752
753	static void expand_2s_i64(uint32_t dofs, uint32_t aofs, uint32_t oprsz,
754	TCGv_i64 c, bool scalar_first,
755	void (*fni)(TCGv_i64, TCGv_i64, TCGv_i64))
756	{
757	TCGv_i64 t0 = tcg_temp_new_i64();
758	TCGv_i64 t1 = tcg_temp_new_i64();
759	uint32_t i;
760
761	for (i = `0`; i < oprsz; i += `8`) {
762	tcg_gen_ld_i64(t0, cpu_env, aofs + i);
763	if (scalar_first) {
764	fni(t1, c, t0);
765	} else {
766	fni(t1, t0, c);
767	}
768	tcg_gen_st_i64(t1, cpu_env, dofs + i);
769	}
770	tcg_temp_free_i64(t0);
771	tcg_temp_free_i64(t1);
772	}
773
774	/ Expand OPSZ bytes worth of three-operand operations using i64 elements. /
775	static void expand_3_i64(uint32_t dofs, uint32_t aofs,
776	uint32_t bofs, uint32_t oprsz, bool load_dest,
777	void (*fni)(TCGv_i64, TCGv_i64, TCGv_i64))
778	{
779	TCGv_i64 t0 = tcg_temp_new_i64();
780	TCGv_i64 t1 = tcg_temp_new_i64();
781	TCGv_i64 t2 = tcg_temp_new_i64();
782	uint32_t i;
783
784	for (i = `0`; i < oprsz; i += `8`) {
785	tcg_gen_ld_i64(t0, cpu_env, aofs + i);
786	tcg_gen_ld_i64(t1, cpu_env, bofs + i);
787	if (load_dest) {
788	tcg_gen_ld_i64(t2, cpu_env, dofs + i);
789	}
790	fni(t2, t0, t1);
791	tcg_gen_st_i64(t2, cpu_env, dofs + i);
792	}
793	tcg_temp_free_i64(t2);
794	tcg_temp_free_i64(t1);
795	tcg_temp_free_i64(t0);
796	}
797
798	static void expand_3i_i64(uint32_t dofs, uint32_t aofs, uint32_t bofs,
799	uint32_t oprsz, int64_t c, bool load_dest,
800	void (*fni)(TCGv_i64, TCGv_i64, TCGv_i64, int64_t))
801	{
802	TCGv_i64 t0 = tcg_temp_new_i64();
803	TCGv_i64 t1 = tcg_temp_new_i64();
804	TCGv_i64 t2 = tcg_temp_new_i64();
805	uint32_t i;
806
807	for (i = `0`; i < oprsz; i += `8`) {
808	tcg_gen_ld_i64(t0, cpu_env, aofs + i);
809	tcg_gen_ld_i64(t1, cpu_env, bofs + i);
810	if (load_dest) {
811	tcg_gen_ld_i64(t2, cpu_env, dofs + i);
812	}
813	fni(t2, t0, t1, c);
814	tcg_gen_st_i64(t2, cpu_env, dofs + i);
815	}
816	tcg_temp_free_i64(t0);
817	tcg_temp_free_i64(t1);
818	tcg_temp_free_i64(t2);
819	}
820
821	/ Expand OPSZ bytes worth of three-operand operations using i64 elements. /
822	static void expand_4_i64(uint32_t dofs, uint32_t aofs, uint32_t bofs,
823	uint32_t cofs, uint32_t oprsz, bool write_aofs,
824	void (*fni)(TCGv_i64, TCGv_i64, TCGv_i64, TCGv_i64))
825	{
826	TCGv_i64 t0 = tcg_temp_new_i64();
827	TCGv_i64 t1 = tcg_temp_new_i64();
828	TCGv_i64 t2 = tcg_temp_new_i64();
829	TCGv_i64 t3 = tcg_temp_new_i64();
830	uint32_t i;
831
832	for (i = `0`; i < oprsz; i += `8`) {
833	tcg_gen_ld_i64(t1, cpu_env, aofs + i);
834	tcg_gen_ld_i64(t2, cpu_env, bofs + i);
835	tcg_gen_ld_i64(t3, cpu_env, cofs + i);
836	fni(t0, t1, t2, t3);
837	tcg_gen_st_i64(t0, cpu_env, dofs + i);
838	if (write_aofs) {
839	tcg_gen_st_i64(t1, cpu_env, aofs + i);
840	}
841	}
842	tcg_temp_free_i64(t3);
843	tcg_temp_free_i64(t2);
844	tcg_temp_free_i64(t1);
845	tcg_temp_free_i64(t0);
846	}
847
848	/ Expand OPSZ bytes worth of two-operand operations using host vectors. /
849	static void expand_2_vec(unsigned vece, uint32_t dofs, uint32_t aofs,
850	uint32_t oprsz, uint32_t tysz, TCGType type,
851	void (fni)(unsigned*, TCGv_vec, TCGv_vec))
852	{
853	TCGv_vec t0 = tcg_temp_new_vec(type);
854	uint32_t i;
855
856	for (i = `0`; i < oprsz; i += tysz) {
857	tcg_gen_ld_vec(t0, cpu_env, aofs + i);
858	fni(vece, t0, t0);
859	tcg_gen_st_vec(t0, cpu_env, dofs + i);
860	}
861	tcg_temp_free_vec(t0);
862	}
863
864	/ Expand OPSZ bytes worth of two-vector operands and an immediate operand*
865	using host vectors. /*
866	static void expand_2i_vec(unsigned vece, uint32_t dofs, uint32_t aofs,
867	uint32_t oprsz, uint32_t tysz, TCGType type,
868	int64_t c, bool load_dest,
869	void (fni)(unsigned*, TCGv_vec, TCGv_vec, int64_t))
870	{
871	TCGv_vec t0 = tcg_temp_new_vec(type);
872	TCGv_vec t1 = tcg_temp_new_vec(type);
873	uint32_t i;
874
875	for (i = `0`; i < oprsz; i += tysz) {
876	tcg_gen_ld_vec(t0, cpu_env, aofs + i);
877	if (load_dest) {
878	tcg_gen_ld_vec(t1, cpu_env, dofs + i);
879	}
880	fni(vece, t1, t0, c);
881	tcg_gen_st_vec(t1, cpu_env, dofs + i);
882	}
883	tcg_temp_free_vec(t0);
884	tcg_temp_free_vec(t1);
885	}
886
887	static void expand_2s_vec(unsigned vece, uint32_t dofs, uint32_t aofs,
888	uint32_t oprsz, uint32_t tysz, TCGType type,
889	TCGv_vec c, bool scalar_first,
890	void (fni)(unsigned*, TCGv_vec, TCGv_vec, TCGv_vec))
891	{
892	TCGv_vec t0 = tcg_temp_new_vec(type);
893	TCGv_vec t1 = tcg_temp_new_vec(type);
894	uint32_t i;
895
896	for (i = `0`; i < oprsz; i += tysz) {
897	tcg_gen_ld_vec(t0, cpu_env, aofs + i);
898	if (scalar_first) {
899	fni(vece, t1, c, t0);
900	} else {
901	fni(vece, t1, t0, c);
902	}
903	tcg_gen_st_vec(t1, cpu_env, dofs + i);
904	}
905	tcg_temp_free_vec(t0);
906	tcg_temp_free_vec(t1);
907	}
908
909	/ Expand OPSZ bytes worth of three-operand operations using host vectors. /
910	static void expand_3_vec(unsigned vece, uint32_t dofs, uint32_t aofs,
911	uint32_t bofs, uint32_t oprsz,
912	uint32_t tysz, TCGType type, bool load_dest,
913	void (fni)(unsigned*, TCGv_vec, TCGv_vec, TCGv_vec))
914	{
915	TCGv_vec t0 = tcg_temp_new_vec(type);
916	TCGv_vec t1 = tcg_temp_new_vec(type);
917	TCGv_vec t2 = tcg_temp_new_vec(type);
918	uint32_t i;
919
920	for (i = `0`; i < oprsz; i += tysz) {
921	tcg_gen_ld_vec(t0, cpu_env, aofs + i);
922	tcg_gen_ld_vec(t1, cpu_env, bofs + i);
923	if (load_dest) {
924	tcg_gen_ld_vec(t2, cpu_env, dofs + i);
925	}
926	fni(vece, t2, t0, t1);
927	tcg_gen_st_vec(t2, cpu_env, dofs + i);
928	}
929	tcg_temp_free_vec(t2);
930	tcg_temp_free_vec(t1);
931	tcg_temp_free_vec(t0);
932	}
933
934	/*
935	* Expand OPSZ bytes worth of three-vector operands and an immediate operand
936	* using host vectors.
937	*/
938	static void expand_3i_vec(unsigned vece, uint32_t dofs, uint32_t aofs,
939	uint32_t bofs, uint32_t oprsz, uint32_t tysz,
940	TCGType type, int64_t c, bool load_dest,
941	void (fni)(unsigned*, TCGv_vec, TCGv_vec, TCGv_vec,
942	int64_t))
943	{
944	TCGv_vec t0 = tcg_temp_new_vec(type);
945	TCGv_vec t1 = tcg_temp_new_vec(type);
946	TCGv_vec t2 = tcg_temp_new_vec(type);
947	uint32_t i;
948
949	for (i = `0`; i < oprsz; i += tysz) {
950	tcg_gen_ld_vec(t0, cpu_env, aofs + i);
951	tcg_gen_ld_vec(t1, cpu_env, bofs + i);
952	if (load_dest) {
953	tcg_gen_ld_vec(t2, cpu_env, dofs + i);
954	}
955	fni(vece, t2, t0, t1, c);
956	tcg_gen_st_vec(t2, cpu_env, dofs + i);
957	}
958	tcg_temp_free_vec(t0);
959	tcg_temp_free_vec(t1);
960	tcg_temp_free_vec(t2);
961	}
962
963	/ Expand OPSZ bytes worth of four-operand operations using host vectors. /
964	static void expand_4_vec(unsigned vece, uint32_t dofs, uint32_t aofs,
965	uint32_t bofs, uint32_t cofs, uint32_t oprsz,
966	uint32_t tysz, TCGType type, bool write_aofs,
967	void (fni)(unsigned*, TCGv_vec, TCGv_vec,
968	TCGv_vec, TCGv_vec))
969	{
970	TCGv_vec t0 = tcg_temp_new_vec(type);
971	TCGv_vec t1 = tcg_temp_new_vec(type);
972	TCGv_vec t2 = tcg_temp_new_vec(type);
973	TCGv_vec t3 = tcg_temp_new_vec(type);
974	uint32_t i;
975
976	for (i = `0`; i < oprsz; i += tysz) {
977	tcg_gen_ld_vec(t1, cpu_env, aofs + i);
978	tcg_gen_ld_vec(t2, cpu_env, bofs + i);
979	tcg_gen_ld_vec(t3, cpu_env, cofs + i);
980	fni(vece, t0, t1, t2, t3);
981	tcg_gen_st_vec(t0, cpu_env, dofs + i);
982	if (write_aofs) {
983	tcg_gen_st_vec(t1, cpu_env, aofs + i);
984	}
985	}
986	tcg_temp_free_vec(t3);
987	tcg_temp_free_vec(t2);
988	tcg_temp_free_vec(t1);
989	tcg_temp_free_vec(t0);
990	}
991
992	/ Expand a vector two-operand operation. /
993	void tcg_gen_gvec_2(uint32_t dofs, uint32_t aofs,
994	uint32_t oprsz, uint32_t maxsz, const GVecGen2 *g)
995	{
996	const TCGOpcode *this_list = g->opt_opc ? : vecop_list_empty;
997	const TCGOpcode *hold_list = tcg_swap_vecop_list(this_list);
998	TCGType type;
999	uint32_t some;
1000
1001	check_size_align(oprsz, maxsz, dofs \| aofs);
1002	check_overlap_2(dofs, aofs, maxsz);
1003
1004	type = `0`;
1005	if (g->fniv) {
1006	type = choose_vector_type(g->opt_opc, g->vece, oprsz, g->prefer_i64);
1007	}
1008	switch (type) {
1009	case TCG_TYPE_V256:
1010	/ Recall that ARM SVE allows vector sizes that are not a*
1011	* power of 2, but always a multiple of 16. The intent is
1012	* that e.g. size == 80 would be expanded with 2x32 + 1x16.
1013	*/
1014	some = QEMU_ALIGN_DOWN(oprsz, `32`);
1015	expand_2_vec(g->vece, dofs, aofs, some, `32`, TCG_TYPE_V256, g->fniv);
1016	if (some == oprsz) {
1017	break;
1018	}
1019	dofs += some;
1020	aofs += some;
1021	oprsz -= some;
1022	maxsz -= some;
1023	/ fallthru /
1024	case TCG_TYPE_V128:
1025	expand_2_vec(g->vece, dofs, aofs, oprsz, `16`, TCG_TYPE_V128, g->fniv);
1026	break;
1027	case TCG_TYPE_V64:
1028	expand_2_vec(g->vece, dofs, aofs, oprsz, `8`, TCG_TYPE_V64, g->fniv);
1029	break;
1030
1031	case `0`:
1032	if (g->fni8 && check_size_impl(oprsz, `8`)) {
1033	expand_2_i64(dofs, aofs, oprsz, g->fni8);
1034	} else if (g->fni4 && check_size_impl(oprsz, `4`)) {
1035	expand_2_i32(dofs, aofs, oprsz, g->fni4);
1036	} else {
1037	assert(g->fno != NULL);
1038	tcg_gen_gvec_2_ool(dofs, aofs, oprsz, maxsz, g->data, g->fno);
1039	oprsz = maxsz;
1040	}
1041	break;
1042
1043	default:
1044	g_assert_not_reached();
1045	}
1046	tcg_swap_vecop_list(hold_list);
1047
1048	if (oprsz < maxsz) {
1049	expand_clr(dofs + oprsz, maxsz - oprsz);
1050	}
1051	}
1052
1053	/ Expand a vector operation with two vectors and an immediate. /
1054	void tcg_gen_gvec_2i(uint32_t dofs, uint32_t aofs, uint32_t oprsz,
1055	uint32_t maxsz, int64_t c, const GVecGen2i *g)
1056	{
1057	const TCGOpcode *this_list = g->opt_opc ? : vecop_list_empty;
1058	const TCGOpcode *hold_list = tcg_swap_vecop_list(this_list);
1059	TCGType type;
1060	uint32_t some;
1061
1062	check_size_align(oprsz, maxsz, dofs \| aofs);
1063	check_overlap_2(dofs, aofs, maxsz);
1064
1065	type = `0`;
1066	if (g->fniv) {
1067	type = choose_vector_type(g->opt_opc, g->vece, oprsz, g->prefer_i64);
1068	}
1069	switch (type) {
1070	case TCG_TYPE_V256:
1071	/ Recall that ARM SVE allows vector sizes that are not a*
1072	* power of 2, but always a multiple of 16. The intent is
1073	* that e.g. size == 80 would be expanded with 2x32 + 1x16.
1074	*/
1075	some = QEMU_ALIGN_DOWN(oprsz, `32`);
1076	expand_2i_vec(g->vece, dofs, aofs, some, `32`, TCG_TYPE_V256,
1077	c, g->load_dest, g->fniv);
1078	if (some == oprsz) {
1079	break;
1080	}
1081	dofs += some;
1082	aofs += some;
1083	oprsz -= some;
1084	maxsz -= some;
1085	/ fallthru /
1086	case TCG_TYPE_V128:
1087	expand_2i_vec(g->vece, dofs, aofs, oprsz, `16`, TCG_TYPE_V128,
1088	c, g->load_dest, g->fniv);
1089	break;
1090	case TCG_TYPE_V64:
1091	expand_2i_vec(g->vece, dofs, aofs, oprsz, `8`, TCG_TYPE_V64,
1092	c, g->load_dest, g->fniv);
1093	break;
1094
1095	case `0`:
1096	if (g->fni8 && check_size_impl(oprsz, `8`)) {
1097	expand_2i_i64(dofs, aofs, oprsz, c, g->load_dest, g->fni8);
1098	} else if (g->fni4 && check_size_impl(oprsz, `4`)) {
1099	expand_2i_i32(dofs, aofs, oprsz, c, g->load_dest, g->fni4);
1100	} else {
1101	if (g->fno) {
1102	tcg_gen_gvec_2_ool(dofs, aofs, oprsz, maxsz, c, g->fno);
1103	} else {
1104	TCGv_i64 tcg_c = tcg_const_i64(c);
1105	tcg_gen_gvec_2i_ool(dofs, aofs, tcg_c, oprsz,
1106	maxsz, c, g->fnoi);
1107	tcg_temp_free_i64(tcg_c);
1108	}
1109	oprsz = maxsz;
1110	}
1111	break;
1112
1113	default:
1114	g_assert_not_reached();
1115	}
1116	tcg_swap_vecop_list(hold_list);
1117
1118	if (oprsz < maxsz) {
1119	expand_clr(dofs + oprsz, maxsz - oprsz);
1120	}
1121	}
1122
1123	/ Expand a vector operation with two vectors and a scalar. /
1124	void tcg_gen_gvec_2s(uint32_t dofs, uint32_t aofs, uint32_t oprsz,
1125	uint32_t maxsz, TCGv_i64 c, const GVecGen2s *g)
1126	{
1127	TCGType type;
1128
1129	check_size_align(oprsz, maxsz, dofs \| aofs);
1130	check_overlap_2(dofs, aofs, maxsz);
1131
1132	type = `0`;
1133	if (g->fniv) {
1134	type = choose_vector_type(g->opt_opc, g->vece, oprsz, g->prefer_i64);
1135	}
1136	if (type != `0`) {
1137	const TCGOpcode *this_list = g->opt_opc ? : vecop_list_empty;
1138	const TCGOpcode *hold_list = tcg_swap_vecop_list(this_list);
1139	TCGv_vec t_vec = tcg_temp_new_vec(type);
1140	uint32_t some;
1141
1142	tcg_gen_dup_i64_vec(g->vece, t_vec, c);
1143
1144	switch (type) {
1145	case TCG_TYPE_V256:
1146	/ Recall that ARM SVE allows vector sizes that are not a*
1147	* power of 2, but always a multiple of 16. The intent is
1148	* that e.g. size == 80 would be expanded with 2x32 + 1x16.
1149	*/
1150	some = QEMU_ALIGN_DOWN(oprsz, `32`);
1151	expand_2s_vec(g->vece, dofs, aofs, some, `32`, TCG_TYPE_V256,
1152	t_vec, g->scalar_first, g->fniv);
1153	if (some == oprsz) {
1154	break;
1155	}
1156	dofs += some;
1157	aofs += some;
1158	oprsz -= some;
1159	maxsz -= some;
1160	/ fallthru /
1161
1162	case TCG_TYPE_V128:
1163	expand_2s_vec(g->vece, dofs, aofs, oprsz, `16`, TCG_TYPE_V128,
1164	t_vec, g->scalar_first, g->fniv);
1165	break;
1166
1167	case TCG_TYPE_V64:
1168	expand_2s_vec(g->vece, dofs, aofs, oprsz, `8`, TCG_TYPE_V64,
1169	t_vec, g->scalar_first, g->fniv);
1170	break;
1171
1172	default:
1173	g_assert_not_reached();
1174	}
1175	tcg_temp_free_vec(t_vec);
1176	tcg_swap_vecop_list(hold_list);
1177	} else if (g->fni8 && check_size_impl(oprsz, `8`)) {
1178	TCGv_i64 t64 = tcg_temp_new_i64();
1179
1180	gen_dup_i64(g->vece, t64, c);
1181	expand_2s_i64(dofs, aofs, oprsz, t64, g->scalar_first, g->fni8);
1182	tcg_temp_free_i64(t64);
1183	} else if (g->fni4 && check_size_impl(oprsz, `4`)) {
1184	TCGv_i32 t32 = tcg_temp_new_i32();
1185
1186	tcg_gen_extrl_i64_i32(t32, c);
1187	gen_dup_i32(g->vece, t32, t32);
1188	expand_2s_i32(dofs, aofs, oprsz, t32, g->scalar_first, g->fni4);
1189	tcg_temp_free_i32(t32);
1190	} else {
1191	tcg_gen_gvec_2i_ool(dofs, aofs, c, oprsz, maxsz, `0`, g->fno);
1192	return;
1193	}
1194
1195	if (oprsz < maxsz) {
1196	expand_clr(dofs + oprsz, maxsz - oprsz);
1197	}
1198	}
1199
1200	/ Expand a vector three-operand operation. /
1201	void tcg_gen_gvec_3(uint32_t dofs, uint32_t aofs, uint32_t bofs,
1202	uint32_t oprsz, uint32_t maxsz, const GVecGen3 *g)
1203	{
1204	const TCGOpcode *this_list = g->opt_opc ? : vecop_list_empty;
1205	const TCGOpcode *hold_list = tcg_swap_vecop_list(this_list);
1206	TCGType type;
1207	uint32_t some;
1208
1209	check_size_align(oprsz, maxsz, dofs \| aofs \| bofs);
1210	check_overlap_3(dofs, aofs, bofs, maxsz);
1211
1212	type = `0`;
1213	if (g->fniv) {
1214	type = choose_vector_type(g->opt_opc, g->vece, oprsz, g->prefer_i64);
1215	}
1216	switch (type) {
1217	case TCG_TYPE_V256:
1218	/ Recall that ARM SVE allows vector sizes that are not a*
1219	* power of 2, but always a multiple of 16. The intent is
1220	* that e.g. size == 80 would be expanded with 2x32 + 1x16.
1221	*/
1222	some = QEMU_ALIGN_DOWN(oprsz, `32`);
1223	expand_3_vec(g->vece, dofs, aofs, bofs, some, `32`, TCG_TYPE_V256,
1224	g->load_dest, g->fniv);
1225	if (some == oprsz) {
1226	break;
1227	}
1228	dofs += some;
1229	aofs += some;
1230	bofs += some;
1231	oprsz -= some;
1232	maxsz -= some;
1233	/ fallthru /
1234	case TCG_TYPE_V128:
1235	expand_3_vec(g->vece, dofs, aofs, bofs, oprsz, `16`, TCG_TYPE_V128,
1236	g->load_dest, g->fniv);
1237	break;
1238	case TCG_TYPE_V64:
1239	expand_3_vec(g->vece, dofs, aofs, bofs, oprsz, `8`, TCG_TYPE_V64,
1240	g->load_dest, g->fniv);
1241	break;
1242
1243	case `0`:
1244	if (g->fni8 && check_size_impl(oprsz, `8`)) {
1245	expand_3_i64(dofs, aofs, bofs, oprsz, g->load_dest, g->fni8);
1246	} else if (g->fni4 && check_size_impl(oprsz, `4`)) {
1247	expand_3_i32(dofs, aofs, bofs, oprsz, g->load_dest, g->fni4);
1248	} else {
1249	assert(g->fno != NULL);
1250	tcg_gen_gvec_3_ool(dofs, aofs, bofs, oprsz,
1251	maxsz, g->data, g->fno);
1252	oprsz = maxsz;
1253	}
1254	break;
1255
1256	default:
1257	g_assert_not_reached();
1258	}
1259	tcg_swap_vecop_list(hold_list);
1260
1261	if (oprsz < maxsz) {
1262	expand_clr(dofs + oprsz, maxsz - oprsz);
1263	}
1264	}
1265
1266	/ Expand a vector operation with three vectors and an immediate. /
1267	void tcg_gen_gvec_3i(uint32_t dofs, uint32_t aofs, uint32_t bofs,
1268	uint32_t oprsz, uint32_t maxsz, int64_t c,
1269	const GVecGen3i *g)
1270	{
1271	const TCGOpcode *this_list = g->opt_opc ? : vecop_list_empty;
1272	const TCGOpcode *hold_list = tcg_swap_vecop_list(this_list);
1273	TCGType type;
1274	uint32_t some;
1275
1276	check_size_align(oprsz, maxsz, dofs \| aofs \| bofs);
1277	check_overlap_3(dofs, aofs, bofs, maxsz);
1278
1279	type = `0`;
1280	if (g->fniv) {
1281	type = choose_vector_type(g->opt_opc, g->vece, oprsz, g->prefer_i64);
1282	}
1283	switch (type) {
1284	case TCG_TYPE_V256:
1285	/*
1286	* Recall that ARM SVE allows vector sizes that are not a
1287	* power of 2, but always a multiple of 16. The intent is
1288	* that e.g. size == 80 would be expanded with 2x32 + 1x16.
1289	*/
1290	some = QEMU_ALIGN_DOWN(oprsz, `32`);
1291	expand_3i_vec(g->vece, dofs, aofs, bofs, some, `32`, TCG_TYPE_V256,
1292	c, g->load_dest, g->fniv);
1293	if (some == oprsz) {
1294	break;
1295	}
1296	dofs += some;
1297	aofs += some;
1298	bofs += some;
1299	oprsz -= some;
1300	maxsz -= some;
1301	/ fallthru /
1302	case TCG_TYPE_V128:
1303	expand_3i_vec(g->vece, dofs, aofs, bofs, oprsz, `16`, TCG_TYPE_V128,
1304	c, g->load_dest, g->fniv);
1305	break;
1306	case TCG_TYPE_V64:
1307	expand_3i_vec(g->vece, dofs, aofs, bofs, oprsz, `8`, TCG_TYPE_V64,
1308	c, g->load_dest, g->fniv);
1309	break;
1310
1311	case `0`:
1312	if (g->fni8 && check_size_impl(oprsz, `8`)) {
1313	expand_3i_i64(dofs, aofs, bofs, oprsz, c, g->load_dest, g->fni8);
1314	} else if (g->fni4 && check_size_impl(oprsz, `4`)) {
1315	expand_3i_i32(dofs, aofs, bofs, oprsz, c, g->load_dest, g->fni4);
1316	} else {
1317	assert(g->fno != NULL);
1318	tcg_gen_gvec_3_ool(dofs, aofs, bofs, oprsz, maxsz, c, g->fno);
1319	oprsz = maxsz;
1320	}
1321	break;
1322
1323	default:
1324	g_assert_not_reached();
1325	}
1326	tcg_swap_vecop_list(hold_list);
1327
1328	if (oprsz < maxsz) {
1329	expand_clr(dofs + oprsz, maxsz - oprsz);
1330	}
1331	}
1332
1333	/ Expand a vector four-operand operation. /
1334	void tcg_gen_gvec_4(uint32_t dofs, uint32_t aofs, uint32_t bofs, uint32_t cofs,
1335	uint32_t oprsz, uint32_t maxsz, const GVecGen4 *g)
1336	{
1337	const TCGOpcode *this_list = g->opt_opc ? : vecop_list_empty;
1338	const TCGOpcode *hold_list = tcg_swap_vecop_list(this_list);
1339	TCGType type;
1340	uint32_t some;
1341
1342	check_size_align(oprsz, maxsz, dofs \| aofs \| bofs \| cofs);
1343	check_overlap_4(dofs, aofs, bofs, cofs, maxsz);
1344
1345	type = `0`;
1346	if (g->fniv) {
1347	type = choose_vector_type(g->opt_opc, g->vece, oprsz, g->prefer_i64);
1348	}
1349	switch (type) {
1350	case TCG_TYPE_V256:
1351	/ Recall that ARM SVE allows vector sizes that are not a*
1352	* power of 2, but always a multiple of 16. The intent is
1353	* that e.g. size == 80 would be expanded with 2x32 + 1x16.
1354	*/
1355	some = QEMU_ALIGN_DOWN(oprsz, `32`);
1356	expand_4_vec(g->vece, dofs, aofs, bofs, cofs, some,
1357	`32`, TCG_TYPE_V256, g->write_aofs, g->fniv);
1358	if (some == oprsz) {
1359	break;
1360	}
1361	dofs += some;
1362	aofs += some;
1363	bofs += some;
1364	cofs += some;
1365	oprsz -= some;
1366	maxsz -= some;
1367	/ fallthru /
1368	case TCG_TYPE_V128:
1369	expand_4_vec(g->vece, dofs, aofs, bofs, cofs, oprsz,
1370	`16`, TCG_TYPE_V128, g->write_aofs, g->fniv);
1371	break;
1372	case TCG_TYPE_V64:
1373	expand_4_vec(g->vece, dofs, aofs, bofs, cofs, oprsz,
1374	`8`, TCG_TYPE_V64, g->write_aofs, g->fniv);
1375	break;
1376
1377	case `0`:
1378	if (g->fni8 && check_size_impl(oprsz, `8`)) {
1379	expand_4_i64(dofs, aofs, bofs, cofs, oprsz,
1380	g->write_aofs, g->fni8);
1381	} else if (g->fni4 && check_size_impl(oprsz, `4`)) {
1382	expand_4_i32(dofs, aofs, bofs, cofs, oprsz,
1383	g->write_aofs, g->fni4);
1384	} else {
1385	assert(g->fno != NULL);
1386	tcg_gen_gvec_4_ool(dofs, aofs, bofs, cofs,
1387	oprsz, maxsz, g->data, g->fno);
1388	oprsz = maxsz;
1389	}
1390	break;
1391
1392	default:
1393	g_assert_not_reached();
1394	}
1395	tcg_swap_vecop_list(hold_list);
1396
1397	if (oprsz < maxsz) {
1398	expand_clr(dofs + oprsz, maxsz - oprsz);
1399	}
1400	}
1401
1402	/*
1403	* Expand specific vector operations.
1404	*/
1405
1406	static void vec_mov2(unsigned vece, TCGv_vec a, TCGv_vec b)
1407	{
1408	tcg_gen_mov_vec(a, b);
1409	}
1410
1411	void tcg_gen_gvec_mov(unsigned vece, uint32_t dofs, uint32_t aofs,
1412	uint32_t oprsz, uint32_t maxsz)
1413	{
1414	static const GVecGen2 g = {
1415	.fni8 = tcg_gen_mov_i64,
1416	.fniv = vec_mov2,
1417	.fno = gen_helper_gvec_mov,
1418	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
1419	};
1420	if (dofs != aofs) {
1421	tcg_gen_gvec_2(dofs, aofs, oprsz, maxsz, &g);
1422	} else {
1423	check_size_align(oprsz, maxsz, dofs);
1424	if (oprsz < maxsz) {
1425	expand_clr(dofs + oprsz, maxsz - oprsz);
1426	}
1427	}
1428	}
1429
1430	void tcg_gen_gvec_dup_i32(unsigned vece, uint32_t dofs, uint32_t oprsz,
1431	uint32_t maxsz, TCGv_i32 in)
1432	{
1433	check_size_align(oprsz, maxsz, dofs);
1434	tcg_debug_assert(vece <= MO_32);
1435	do_dup(vece, dofs, oprsz, maxsz, in, NULL, `0`);
1436	}
1437
1438	void tcg_gen_gvec_dup_i64(unsigned vece, uint32_t dofs, uint32_t oprsz,
1439	uint32_t maxsz, TCGv_i64 in)
1440	{
1441	check_size_align(oprsz, maxsz, dofs);
1442	tcg_debug_assert(vece <= MO_64);
1443	do_dup(vece, dofs, oprsz, maxsz, NULL, in, `0`);
1444	}
1445
1446	void tcg_gen_gvec_dup_mem(unsigned vece, uint32_t dofs, uint32_t aofs,
1447	uint32_t oprsz, uint32_t maxsz)
1448	{
1449	check_size_align(oprsz, maxsz, dofs);
1450	if (vece <= MO_64) {
1451	TCGType type = choose_vector_type(NULL, vece, oprsz, `0`);
1452	if (type != `0`) {
1453	TCGv_vec t_vec = tcg_temp_new_vec(type);
1454	tcg_gen_dup_mem_vec(vece, t_vec, cpu_env, aofs);
1455	do_dup_store(type, dofs, oprsz, maxsz, t_vec);
1456	tcg_temp_free_vec(t_vec);
1457	} else if (vece <= MO_32) {
1458	TCGv_i32 in = tcg_temp_new_i32();
1459	switch (vece) {
1460	case MO_8:
1461	tcg_gen_ld8u_i32(in, cpu_env, aofs);
1462	break;
1463	case MO_16:
1464	tcg_gen_ld16u_i32(in, cpu_env, aofs);
1465	break;
1466	default:
1467	tcg_gen_ld_i32(in, cpu_env, aofs);
1468	break;
1469	}
1470	do_dup(vece, dofs, oprsz, maxsz, in, NULL, `0`);
1471	tcg_temp_free_i32(in);
1472	} else {
1473	TCGv_i64 in = tcg_temp_new_i64();
1474	tcg_gen_ld_i64(in, cpu_env, aofs);
1475	do_dup(vece, dofs, oprsz, maxsz, NULL, in, `0`);
1476	tcg_temp_free_i64(in);
1477	}
1478	} else {
1479	/ 128-bit duplicate. /
1480	/ ??? Dup to 256-bit vector. /
1481	int i;
1482
1483	tcg_debug_assert(vece == `4`);
1484	tcg_debug_assert(oprsz >= `16`);
1485	if (TCG_TARGET_HAS_v128) {
1486	TCGv_vec in = tcg_temp_new_vec(TCG_TYPE_V128);
1487
1488	tcg_gen_ld_vec(in, cpu_env, aofs);
1489	for (i = `0`; i < oprsz; i += `16`) {
1490	tcg_gen_st_vec(in, cpu_env, dofs + i);
1491	}
1492	tcg_temp_free_vec(in);
1493	} else {
1494	TCGv_i64 in0 = tcg_temp_new_i64();
1495	TCGv_i64 in1 = tcg_temp_new_i64();
1496
1497	tcg_gen_ld_i64(in0, cpu_env, aofs);
1498	tcg_gen_ld_i64(in1, cpu_env, aofs + `8`);
1499	for (i = `0`; i < oprsz; i += `16`) {
1500	tcg_gen_st_i64(in0, cpu_env, dofs + i);
1501	tcg_gen_st_i64(in1, cpu_env, dofs + i + `8`);
1502	}
1503	tcg_temp_free_i64(in0);
1504	tcg_temp_free_i64(in1);
1505	}
1506	if (oprsz < maxsz) {
1507	expand_clr(dofs + oprsz, maxsz - oprsz);
1508	}
1509	}
1510	}
1511
1512	void tcg_gen_gvec_dup64i(uint32_t dofs, uint32_t oprsz,
1513	uint32_t maxsz, uint64_t x)
1514	{
1515	check_size_align(oprsz, maxsz, dofs);
1516	do_dup(MO_64, dofs, oprsz, maxsz, NULL, NULL, x);
1517	}
1518
1519	void tcg_gen_gvec_dup32i(uint32_t dofs, uint32_t oprsz,
1520	uint32_t maxsz, uint32_t x)
1521	{
1522	check_size_align(oprsz, maxsz, dofs);
1523	do_dup(MO_32, dofs, oprsz, maxsz, NULL, NULL, x);
1524	}
1525
1526	void tcg_gen_gvec_dup16i(uint32_t dofs, uint32_t oprsz,
1527	uint32_t maxsz, uint16_t x)
1528	{
1529	check_size_align(oprsz, maxsz, dofs);
1530	do_dup(MO_16, dofs, oprsz, maxsz, NULL, NULL, x);
1531	}
1532
1533	void tcg_gen_gvec_dup8i(uint32_t dofs, uint32_t oprsz,
1534	uint32_t maxsz, uint8_t x)
1535	{
1536	check_size_align(oprsz, maxsz, dofs);
1537	do_dup(MO_8, dofs, oprsz, maxsz, NULL, NULL, x);
1538	}
1539
1540	void tcg_gen_gvec_not(unsigned vece, uint32_t dofs, uint32_t aofs,
1541	uint32_t oprsz, uint32_t maxsz)
1542	{
1543	static const GVecGen2 g = {
1544	.fni8 = tcg_gen_not_i64,
1545	.fniv = tcg_gen_not_vec,
1546	.fno = gen_helper_gvec_not,
1547	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
1548	};
1549	tcg_gen_gvec_2(dofs, aofs, oprsz, maxsz, &g);
1550	}
1551
1552	/ Perform a vector addition using normal addition and a mask. The mask*
1553	should be the sign bit of each lane. This 6-operation form is more
1554	efficient than separate additions when there are 4 or more lanes in
1555	the 64-bit operation. /*
1556	static void gen_addv_mask(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b, TCGv_i64 m)
1557	{
1558	TCGv_i64 t1 = tcg_temp_new_i64();
1559	TCGv_i64 t2 = tcg_temp_new_i64();
1560	TCGv_i64 t3 = tcg_temp_new_i64();
1561
1562	tcg_gen_andc_i64(t1, a, m);
1563	tcg_gen_andc_i64(t2, b, m);
1564	tcg_gen_xor_i64(t3, a, b);
1565	tcg_gen_add_i64(d, t1, t2);
1566	tcg_gen_and_i64(t3, t3, m);
1567	tcg_gen_xor_i64(d, d, t3);
1568
1569	tcg_temp_free_i64(t1);
1570	tcg_temp_free_i64(t2);
1571	tcg_temp_free_i64(t3);
1572	}
1573
1574	void tcg_gen_vec_add8_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
1575	{
1576	TCGv_i64 m = tcg_const_i64(dup_const(MO_8, `0x80`));
1577	gen_addv_mask(d, a, b, m);
1578	tcg_temp_free_i64(m);
1579	}
1580
1581	void tcg_gen_vec_add16_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
1582	{
1583	TCGv_i64 m = tcg_const_i64(dup_const(MO_16, `0x8000`));
1584	gen_addv_mask(d, a, b, m);
1585	tcg_temp_free_i64(m);
1586	}
1587
1588	void tcg_gen_vec_add32_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
1589	{
1590	TCGv_i64 t1 = tcg_temp_new_i64();
1591	TCGv_i64 t2 = tcg_temp_new_i64();
1592
1593	tcg_gen_andi_i64(t1, a, ~`0xffffffffull`);
1594	tcg_gen_add_i64(t2, a, b);
1595	tcg_gen_add_i64(t1, t1, b);
1596	tcg_gen_deposit_i64(d, t1, t2, `0`, `32`);
1597
1598	tcg_temp_free_i64(t1);
1599	tcg_temp_free_i64(t2);
1600	}
1601
1602	static const TCGOpcode vecop_list_add[] = { INDEX_op_add_vec, `0` };
1603
1604	void tcg_gen_gvec_add(unsigned vece, uint32_t dofs, uint32_t aofs,
1605	uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
1606	{
1607	static const GVecGen3 g[`4`] = {
1608	{ .fni8 = tcg_gen_vec_add8_i64,
1609	.fniv = tcg_gen_add_vec,
1610	.fno = gen_helper_gvec_add8,
1611	.opt_opc = vecop_list_add,
1612	.vece = MO_8 },
1613	{ .fni8 = tcg_gen_vec_add16_i64,
1614	.fniv = tcg_gen_add_vec,
1615	.fno = gen_helper_gvec_add16,
1616	.opt_opc = vecop_list_add,
1617	.vece = MO_16 },
1618	{ .fni4 = tcg_gen_add_i32,
1619	.fniv = tcg_gen_add_vec,
1620	.fno = gen_helper_gvec_add32,
1621	.opt_opc = vecop_list_add,
1622	.vece = MO_32 },
1623	{ .fni8 = tcg_gen_add_i64,
1624	.fniv = tcg_gen_add_vec,
1625	.fno = gen_helper_gvec_add64,
1626	.opt_opc = vecop_list_add,
1627	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
1628	.vece = MO_64 },
1629	};
1630
1631	tcg_debug_assert(vece <= MO_64);
1632	tcg_gen_gvec_3(dofs, aofs, bofs, oprsz, maxsz, &g[vece]);
1633	}
1634
1635	void tcg_gen_gvec_adds(unsigned vece, uint32_t dofs, uint32_t aofs,
1636	TCGv_i64 c, uint32_t oprsz, uint32_t maxsz)
1637	{
1638	static const GVecGen2s g[`4`] = {
1639	{ .fni8 = tcg_gen_vec_add8_i64,
1640	.fniv = tcg_gen_add_vec,
1641	.fno = gen_helper_gvec_adds8,
1642	.opt_opc = vecop_list_add,
1643	.vece = MO_8 },
1644	{ .fni8 = tcg_gen_vec_add16_i64,
1645	.fniv = tcg_gen_add_vec,
1646	.fno = gen_helper_gvec_adds16,
1647	.opt_opc = vecop_list_add,
1648	.vece = MO_16 },
1649	{ .fni4 = tcg_gen_add_i32,
1650	.fniv = tcg_gen_add_vec,
1651	.fno = gen_helper_gvec_adds32,
1652	.opt_opc = vecop_list_add,
1653	.vece = MO_32 },
1654	{ .fni8 = tcg_gen_add_i64,
1655	.fniv = tcg_gen_add_vec,
1656	.fno = gen_helper_gvec_adds64,
1657	.opt_opc = vecop_list_add,
1658	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
1659	.vece = MO_64 },
1660	};
1661
1662	tcg_debug_assert(vece <= MO_64);
1663	tcg_gen_gvec_2s(dofs, aofs, oprsz, maxsz, c, &g[vece]);
1664	}
1665
1666	void tcg_gen_gvec_addi(unsigned vece, uint32_t dofs, uint32_t aofs,
1667	int64_t c, uint32_t oprsz, uint32_t maxsz)
1668	{
1669	TCGv_i64 tmp = tcg_const_i64(c);
1670	tcg_gen_gvec_adds(vece, dofs, aofs, tmp, oprsz, maxsz);
1671	tcg_temp_free_i64(tmp);
1672	}
1673
1674	static const TCGOpcode vecop_list_sub[] = { INDEX_op_sub_vec, `0` };
1675
1676	void tcg_gen_gvec_subs(unsigned vece, uint32_t dofs, uint32_t aofs,
1677	TCGv_i64 c, uint32_t oprsz, uint32_t maxsz)
1678	{
1679	static const GVecGen2s g[`4`] = {
1680	{ .fni8 = tcg_gen_vec_sub8_i64,
1681	.fniv = tcg_gen_sub_vec,
1682	.fno = gen_helper_gvec_subs8,
1683	.opt_opc = vecop_list_sub,
1684	.vece = MO_8 },
1685	{ .fni8 = tcg_gen_vec_sub16_i64,
1686	.fniv = tcg_gen_sub_vec,
1687	.fno = gen_helper_gvec_subs16,
1688	.opt_opc = vecop_list_sub,
1689	.vece = MO_16 },
1690	{ .fni4 = tcg_gen_sub_i32,
1691	.fniv = tcg_gen_sub_vec,
1692	.fno = gen_helper_gvec_subs32,
1693	.opt_opc = vecop_list_sub,
1694	.vece = MO_32 },
1695	{ .fni8 = tcg_gen_sub_i64,
1696	.fniv = tcg_gen_sub_vec,
1697	.fno = gen_helper_gvec_subs64,
1698	.opt_opc = vecop_list_sub,
1699	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
1700	.vece = MO_64 },
1701	};
1702
1703	tcg_debug_assert(vece <= MO_64);
1704	tcg_gen_gvec_2s(dofs, aofs, oprsz, maxsz, c, &g[vece]);
1705	}
1706
1707	/ Perform a vector subtraction using normal subtraction and a mask.*
1708	Compare gen_addv_mask above. /*
1709	static void gen_subv_mask(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b, TCGv_i64 m)
1710	{
1711	TCGv_i64 t1 = tcg_temp_new_i64();
1712	TCGv_i64 t2 = tcg_temp_new_i64();
1713	TCGv_i64 t3 = tcg_temp_new_i64();
1714
1715	tcg_gen_or_i64(t1, a, m);
1716	tcg_gen_andc_i64(t2, b, m);
1717	tcg_gen_eqv_i64(t3, a, b);
1718	tcg_gen_sub_i64(d, t1, t2);
1719	tcg_gen_and_i64(t3, t3, m);
1720	tcg_gen_xor_i64(d, d, t3);
1721
1722	tcg_temp_free_i64(t1);
1723	tcg_temp_free_i64(t2);
1724	tcg_temp_free_i64(t3);
1725	}
1726
1727	void tcg_gen_vec_sub8_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
1728	{
1729	TCGv_i64 m = tcg_const_i64(dup_const(MO_8, `0x80`));
1730	gen_subv_mask(d, a, b, m);
1731	tcg_temp_free_i64(m);
1732	}
1733
1734	void tcg_gen_vec_sub16_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
1735	{
1736	TCGv_i64 m = tcg_const_i64(dup_const(MO_16, `0x8000`));
1737	gen_subv_mask(d, a, b, m);
1738	tcg_temp_free_i64(m);
1739	}
1740
1741	void tcg_gen_vec_sub32_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
1742	{
1743	TCGv_i64 t1 = tcg_temp_new_i64();
1744	TCGv_i64 t2 = tcg_temp_new_i64();
1745
1746	tcg_gen_andi_i64(t1, b, ~`0xffffffffull`);
1747	tcg_gen_sub_i64(t2, a, b);
1748	tcg_gen_sub_i64(t1, a, t1);
1749	tcg_gen_deposit_i64(d, t1, t2, `0`, `32`);
1750
1751	tcg_temp_free_i64(t1);
1752	tcg_temp_free_i64(t2);
1753	}
1754
1755	void tcg_gen_gvec_sub(unsigned vece, uint32_t dofs, uint32_t aofs,
1756	uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
1757	{
1758	static const GVecGen3 g[`4`] = {
1759	{ .fni8 = tcg_gen_vec_sub8_i64,
1760	.fniv = tcg_gen_sub_vec,
1761	.fno = gen_helper_gvec_sub8,
1762	.opt_opc = vecop_list_sub,
1763	.vece = MO_8 },
1764	{ .fni8 = tcg_gen_vec_sub16_i64,
1765	.fniv = tcg_gen_sub_vec,
1766	.fno = gen_helper_gvec_sub16,
1767	.opt_opc = vecop_list_sub,
1768	.vece = MO_16 },
1769	{ .fni4 = tcg_gen_sub_i32,
1770	.fniv = tcg_gen_sub_vec,
1771	.fno = gen_helper_gvec_sub32,
1772	.opt_opc = vecop_list_sub,
1773	.vece = MO_32 },
1774	{ .fni8 = tcg_gen_sub_i64,
1775	.fniv = tcg_gen_sub_vec,
1776	.fno = gen_helper_gvec_sub64,
1777	.opt_opc = vecop_list_sub,
1778	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
1779	.vece = MO_64 },
1780	};
1781
1782	tcg_debug_assert(vece <= MO_64);
1783	tcg_gen_gvec_3(dofs, aofs, bofs, oprsz, maxsz, &g[vece]);
1784	}
1785
1786	static const TCGOpcode vecop_list_mul[] = { INDEX_op_mul_vec, `0` };
1787
1788	void tcg_gen_gvec_mul(unsigned vece, uint32_t dofs, uint32_t aofs,
1789	uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
1790	{
1791	static const GVecGen3 g[`4`] = {
1792	{ .fniv = tcg_gen_mul_vec,
1793	.fno = gen_helper_gvec_mul8,
1794	.opt_opc = vecop_list_mul,
1795	.vece = MO_8 },
1796	{ .fniv = tcg_gen_mul_vec,
1797	.fno = gen_helper_gvec_mul16,
1798	.opt_opc = vecop_list_mul,
1799	.vece = MO_16 },
1800	{ .fni4 = tcg_gen_mul_i32,
1801	.fniv = tcg_gen_mul_vec,
1802	.fno = gen_helper_gvec_mul32,
1803	.opt_opc = vecop_list_mul,
1804	.vece = MO_32 },
1805	{ .fni8 = tcg_gen_mul_i64,
1806	.fniv = tcg_gen_mul_vec,
1807	.fno = gen_helper_gvec_mul64,
1808	.opt_opc = vecop_list_mul,
1809	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
1810	.vece = MO_64 },
1811	};
1812
1813	tcg_debug_assert(vece <= MO_64);
1814	tcg_gen_gvec_3(dofs, aofs, bofs, oprsz, maxsz, &g[vece]);
1815	}
1816
1817	void tcg_gen_gvec_muls(unsigned vece, uint32_t dofs, uint32_t aofs,
1818	TCGv_i64 c, uint32_t oprsz, uint32_t maxsz)
1819	{
1820	static const GVecGen2s g[`4`] = {
1821	{ .fniv = tcg_gen_mul_vec,
1822	.fno = gen_helper_gvec_muls8,
1823	.opt_opc = vecop_list_mul,
1824	.vece = MO_8 },
1825	{ .fniv = tcg_gen_mul_vec,
1826	.fno = gen_helper_gvec_muls16,
1827	.opt_opc = vecop_list_mul,
1828	.vece = MO_16 },
1829	{ .fni4 = tcg_gen_mul_i32,
1830	.fniv = tcg_gen_mul_vec,
1831	.fno = gen_helper_gvec_muls32,
1832	.opt_opc = vecop_list_mul,
1833	.vece = MO_32 },
1834	{ .fni8 = tcg_gen_mul_i64,
1835	.fniv = tcg_gen_mul_vec,
1836	.fno = gen_helper_gvec_muls64,
1837	.opt_opc = vecop_list_mul,
1838	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
1839	.vece = MO_64 },
1840	};
1841
1842	tcg_debug_assert(vece <= MO_64);
1843	tcg_gen_gvec_2s(dofs, aofs, oprsz, maxsz, c, &g[vece]);
1844	}
1845
1846	void tcg_gen_gvec_muli(unsigned vece, uint32_t dofs, uint32_t aofs,
1847	int64_t c, uint32_t oprsz, uint32_t maxsz)
1848	{
1849	TCGv_i64 tmp = tcg_const_i64(c);
1850	tcg_gen_gvec_muls(vece, dofs, aofs, tmp, oprsz, maxsz);
1851	tcg_temp_free_i64(tmp);
1852	}
1853
1854	void tcg_gen_gvec_ssadd(unsigned vece, uint32_t dofs, uint32_t aofs,
1855	uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
1856	{
1857	static const TCGOpcode vecop_list[] = { INDEX_op_ssadd_vec, `0` };
1858	static const GVecGen3 g[`4`] = {
1859	{ .fniv = tcg_gen_ssadd_vec,
1860	.fno = gen_helper_gvec_ssadd8,
1861	.opt_opc = vecop_list,
1862	.vece = MO_8 },
1863	{ .fniv = tcg_gen_ssadd_vec,
1864	.fno = gen_helper_gvec_ssadd16,
1865	.opt_opc = vecop_list,
1866	.vece = MO_16 },
1867	{ .fniv = tcg_gen_ssadd_vec,
1868	.fno = gen_helper_gvec_ssadd32,
1869	.opt_opc = vecop_list,
1870	.vece = MO_32 },
1871	{ .fniv = tcg_gen_ssadd_vec,
1872	.fno = gen_helper_gvec_ssadd64,
1873	.opt_opc = vecop_list,
1874	.vece = MO_64 },
1875	};
1876	tcg_debug_assert(vece <= MO_64);
1877	tcg_gen_gvec_3(dofs, aofs, bofs, oprsz, maxsz, &g[vece]);
1878	}
1879
1880	void tcg_gen_gvec_sssub(unsigned vece, uint32_t dofs, uint32_t aofs,
1881	uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
1882	{
1883	static const TCGOpcode vecop_list[] = { INDEX_op_sssub_vec, `0` };
1884	static const GVecGen3 g[`4`] = {
1885	{ .fniv = tcg_gen_sssub_vec,
1886	.fno = gen_helper_gvec_sssub8,
1887	.opt_opc = vecop_list,
1888	.vece = MO_8 },
1889	{ .fniv = tcg_gen_sssub_vec,
1890	.fno = gen_helper_gvec_sssub16,
1891	.opt_opc = vecop_list,
1892	.vece = MO_16 },
1893	{ .fniv = tcg_gen_sssub_vec,
1894	.fno = gen_helper_gvec_sssub32,
1895	.opt_opc = vecop_list,
1896	.vece = MO_32 },
1897	{ .fniv = tcg_gen_sssub_vec,
1898	.fno = gen_helper_gvec_sssub64,
1899	.opt_opc = vecop_list,
1900	.vece = MO_64 },
1901	};
1902	tcg_debug_assert(vece <= MO_64);
1903	tcg_gen_gvec_3(dofs, aofs, bofs, oprsz, maxsz, &g[vece]);
1904	}
1905
1906	static void tcg_gen_usadd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
1907	{
1908	TCGv_i32 max = tcg_const_i32(-`1`);
1909	tcg_gen_add_i32(d, a, b);
1910	tcg_gen_movcond_i32(TCG_COND_LTU, d, d, a, max, d);
1911	tcg_temp_free_i32(max);
1912	}
1913
1914	static void tcg_gen_usadd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
1915	{
1916	TCGv_i64 max = tcg_const_i64(-`1`);
1917	tcg_gen_add_i64(d, a, b);
1918	tcg_gen_movcond_i64(TCG_COND_LTU, d, d, a, max, d);
1919	tcg_temp_free_i64(max);
1920	}
1921
1922	void tcg_gen_gvec_usadd(unsigned vece, uint32_t dofs, uint32_t aofs,
1923	uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
1924	{
1925	static const TCGOpcode vecop_list[] = { INDEX_op_usadd_vec, `0` };
1926	static const GVecGen3 g[`4`] = {
1927	{ .fniv = tcg_gen_usadd_vec,
1928	.fno = gen_helper_gvec_usadd8,
1929	.opt_opc = vecop_list,
1930	.vece = MO_8 },
1931	{ .fniv = tcg_gen_usadd_vec,
1932	.fno = gen_helper_gvec_usadd16,
1933	.opt_opc = vecop_list,
1934	.vece = MO_16 },
1935	{ .fni4 = tcg_gen_usadd_i32,
1936	.fniv = tcg_gen_usadd_vec,
1937	.fno = gen_helper_gvec_usadd32,
1938	.opt_opc = vecop_list,
1939	.vece = MO_32 },
1940	{ .fni8 = tcg_gen_usadd_i64,
1941	.fniv = tcg_gen_usadd_vec,
1942	.fno = gen_helper_gvec_usadd64,
1943	.opt_opc = vecop_list,
1944	.vece = MO_64 }
1945	};
1946	tcg_debug_assert(vece <= MO_64);
1947	tcg_gen_gvec_3(dofs, aofs, bofs, oprsz, maxsz, &g[vece]);
1948	}
1949
1950	static void tcg_gen_ussub_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
1951	{
1952	TCGv_i32 min = tcg_const_i32(`0`);
1953	tcg_gen_sub_i32(d, a, b);
1954	tcg_gen_movcond_i32(TCG_COND_LTU, d, a, b, min, d);
1955	tcg_temp_free_i32(min);
1956	}
1957
1958	static void tcg_gen_ussub_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
1959	{
1960	TCGv_i64 min = tcg_const_i64(`0`);
1961	tcg_gen_sub_i64(d, a, b);
1962	tcg_gen_movcond_i64(TCG_COND_LTU, d, a, b, min, d);
1963	tcg_temp_free_i64(min);
1964	}
1965
1966	void tcg_gen_gvec_ussub(unsigned vece, uint32_t dofs, uint32_t aofs,
1967	uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
1968	{
1969	static const TCGOpcode vecop_list[] = { INDEX_op_ussub_vec, `0` };
1970	static const GVecGen3 g[`4`] = {
1971	{ .fniv = tcg_gen_ussub_vec,
1972	.fno = gen_helper_gvec_ussub8,
1973	.opt_opc = vecop_list,
1974	.vece = MO_8 },
1975	{ .fniv = tcg_gen_ussub_vec,
1976	.fno = gen_helper_gvec_ussub16,
1977	.opt_opc = vecop_list,
1978	.vece = MO_16 },
1979	{ .fni4 = tcg_gen_ussub_i32,
1980	.fniv = tcg_gen_ussub_vec,
1981	.fno = gen_helper_gvec_ussub32,
1982	.opt_opc = vecop_list,
1983	.vece = MO_32 },
1984	{ .fni8 = tcg_gen_ussub_i64,
1985	.fniv = tcg_gen_ussub_vec,
1986	.fno = gen_helper_gvec_ussub64,
1987	.opt_opc = vecop_list,
1988	.vece = MO_64 }
1989	};
1990	tcg_debug_assert(vece <= MO_64);
1991	tcg_gen_gvec_3(dofs, aofs, bofs, oprsz, maxsz, &g[vece]);
1992	}
1993
1994	void tcg_gen_gvec_smin(unsigned vece, uint32_t dofs, uint32_t aofs,
1995	uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
1996	{
1997	static const TCGOpcode vecop_list[] = { INDEX_op_smin_vec, `0` };
1998	static const GVecGen3 g[`4`] = {
1999	{ .fniv = tcg_gen_smin_vec,
2000	.fno = gen_helper_gvec_smin8,
2001	.opt_opc = vecop_list,
2002	.vece = MO_8 },
2003	{ .fniv = tcg_gen_smin_vec,
2004	.fno = gen_helper_gvec_smin16,
2005	.opt_opc = vecop_list,
2006	.vece = MO_16 },
2007	{ .fni4 = tcg_gen_smin_i32,
2008	.fniv = tcg_gen_smin_vec,
2009	.fno = gen_helper_gvec_smin32,
2010	.opt_opc = vecop_list,
2011	.vece = MO_32 },
2012	{ .fni8 = tcg_gen_smin_i64,
2013	.fniv = tcg_gen_smin_vec,
2014	.fno = gen_helper_gvec_smin64,
2015	.opt_opc = vecop_list,
2016	.vece = MO_64 }
2017	};
2018	tcg_debug_assert(vece <= MO_64);
2019	tcg_gen_gvec_3(dofs, aofs, bofs, oprsz, maxsz, &g[vece]);
2020	}
2021
2022	void tcg_gen_gvec_umin(unsigned vece, uint32_t dofs, uint32_t aofs,
2023	uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
2024	{
2025	static const TCGOpcode vecop_list[] = { INDEX_op_umin_vec, `0` };
2026	static const GVecGen3 g[`4`] = {
2027	{ .fniv = tcg_gen_umin_vec,
2028	.fno = gen_helper_gvec_umin8,
2029	.opt_opc = vecop_list,
2030	.vece = MO_8 },
2031	{ .fniv = tcg_gen_umin_vec,
2032	.fno = gen_helper_gvec_umin16,
2033	.opt_opc = vecop_list,
2034	.vece = MO_16 },
2035	{ .fni4 = tcg_gen_umin_i32,
2036	.fniv = tcg_gen_umin_vec,
2037	.fno = gen_helper_gvec_umin32,
2038	.opt_opc = vecop_list,
2039	.vece = MO_32 },
2040	{ .fni8 = tcg_gen_umin_i64,
2041	.fniv = tcg_gen_umin_vec,
2042	.fno = gen_helper_gvec_umin64,
2043	.opt_opc = vecop_list,
2044	.vece = MO_64 }
2045	};
2046	tcg_debug_assert(vece <= MO_64);
2047	tcg_gen_gvec_3(dofs, aofs, bofs, oprsz, maxsz, &g[vece]);
2048	}
2049
2050	void tcg_gen_gvec_smax(unsigned vece, uint32_t dofs, uint32_t aofs,
2051	uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
2052	{
2053	static const TCGOpcode vecop_list[] = { INDEX_op_smax_vec, `0` };
2054	static const GVecGen3 g[`4`] = {
2055	{ .fniv = tcg_gen_smax_vec,
2056	.fno = gen_helper_gvec_smax8,
2057	.opt_opc = vecop_list,
2058	.vece = MO_8 },
2059	{ .fniv = tcg_gen_smax_vec,
2060	.fno = gen_helper_gvec_smax16,
2061	.opt_opc = vecop_list,
2062	.vece = MO_16 },
2063	{ .fni4 = tcg_gen_smax_i32,
2064	.fniv = tcg_gen_smax_vec,
2065	.fno = gen_helper_gvec_smax32,
2066	.opt_opc = vecop_list,
2067	.vece = MO_32 },
2068	{ .fni8 = tcg_gen_smax_i64,
2069	.fniv = tcg_gen_smax_vec,
2070	.fno = gen_helper_gvec_smax64,
2071	.opt_opc = vecop_list,
2072	.vece = MO_64 }
2073	};
2074	tcg_debug_assert(vece <= MO_64);
2075	tcg_gen_gvec_3(dofs, aofs, bofs, oprsz, maxsz, &g[vece]);
2076	}
2077
2078	void tcg_gen_gvec_umax(unsigned vece, uint32_t dofs, uint32_t aofs,
2079	uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
2080	{
2081	static const TCGOpcode vecop_list[] = { INDEX_op_umax_vec, `0` };
2082	static const GVecGen3 g[`4`] = {
2083	{ .fniv = tcg_gen_umax_vec,
2084	.fno = gen_helper_gvec_umax8,
2085	.opt_opc = vecop_list,
2086	.vece = MO_8 },
2087	{ .fniv = tcg_gen_umax_vec,
2088	.fno = gen_helper_gvec_umax16,
2089	.opt_opc = vecop_list,
2090	.vece = MO_16 },
2091	{ .fni4 = tcg_gen_umax_i32,
2092	.fniv = tcg_gen_umax_vec,
2093	.fno = gen_helper_gvec_umax32,
2094	.opt_opc = vecop_list,
2095	.vece = MO_32 },
2096	{ .fni8 = tcg_gen_umax_i64,
2097	.fniv = tcg_gen_umax_vec,
2098	.fno = gen_helper_gvec_umax64,
2099	.opt_opc = vecop_list,
2100	.vece = MO_64 }
2101	};
2102	tcg_debug_assert(vece <= MO_64);
2103	tcg_gen_gvec_3(dofs, aofs, bofs, oprsz, maxsz, &g[vece]);
2104	}
2105
2106	/ Perform a vector negation using normal negation and a mask.*
2107	Compare gen_subv_mask above. /*
2108	static void gen_negv_mask(TCGv_i64 d, TCGv_i64 b, TCGv_i64 m)
2109	{
2110	TCGv_i64 t2 = tcg_temp_new_i64();
2111	TCGv_i64 t3 = tcg_temp_new_i64();
2112
2113	tcg_gen_andc_i64(t3, m, b);
2114	tcg_gen_andc_i64(t2, b, m);
2115	tcg_gen_sub_i64(d, m, t2);
2116	tcg_gen_xor_i64(d, d, t3);
2117
2118	tcg_temp_free_i64(t2);
2119	tcg_temp_free_i64(t3);
2120	}
2121
2122	void tcg_gen_vec_neg8_i64(TCGv_i64 d, TCGv_i64 b)
2123	{
2124	TCGv_i64 m = tcg_const_i64(dup_const(MO_8, `0x80`));
2125	gen_negv_mask(d, b, m);
2126	tcg_temp_free_i64(m);
2127	}
2128
2129	void tcg_gen_vec_neg16_i64(TCGv_i64 d, TCGv_i64 b)
2130	{
2131	TCGv_i64 m = tcg_const_i64(dup_const(MO_16, `0x8000`));
2132	gen_negv_mask(d, b, m);
2133	tcg_temp_free_i64(m);
2134	}
2135
2136	void tcg_gen_vec_neg32_i64(TCGv_i64 d, TCGv_i64 b)
2137	{
2138	TCGv_i64 t1 = tcg_temp_new_i64();
2139	TCGv_i64 t2 = tcg_temp_new_i64();
2140
2141	tcg_gen_andi_i64(t1, b, ~`0xffffffffull`);
2142	tcg_gen_neg_i64(t2, b);
2143	tcg_gen_neg_i64(t1, t1);
2144	tcg_gen_deposit_i64(d, t1, t2, `0`, `32`);
2145
2146	tcg_temp_free_i64(t1);
2147	tcg_temp_free_i64(t2);
2148	}
2149
2150	void tcg_gen_gvec_neg(unsigned vece, uint32_t dofs, uint32_t aofs,
2151	uint32_t oprsz, uint32_t maxsz)
2152	{
2153	static const TCGOpcode vecop_list[] = { INDEX_op_neg_vec, `0` };
2154	static const GVecGen2 g[`4`] = {
2155	{ .fni8 = tcg_gen_vec_neg8_i64,
2156	.fniv = tcg_gen_neg_vec,
2157	.fno = gen_helper_gvec_neg8,
2158	.opt_opc = vecop_list,
2159	.vece = MO_8 },
2160	{ .fni8 = tcg_gen_vec_neg16_i64,
2161	.fniv = tcg_gen_neg_vec,
2162	.fno = gen_helper_gvec_neg16,
2163	.opt_opc = vecop_list,
2164	.vece = MO_16 },
2165	{ .fni4 = tcg_gen_neg_i32,
2166	.fniv = tcg_gen_neg_vec,
2167	.fno = gen_helper_gvec_neg32,
2168	.opt_opc = vecop_list,
2169	.vece = MO_32 },
2170	{ .fni8 = tcg_gen_neg_i64,
2171	.fniv = tcg_gen_neg_vec,
2172	.fno = gen_helper_gvec_neg64,
2173	.opt_opc = vecop_list,
2174	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
2175	.vece = MO_64 },
2176	};
2177
2178	tcg_debug_assert(vece <= MO_64);
2179	tcg_gen_gvec_2(dofs, aofs, oprsz, maxsz, &g[vece]);
2180	}
2181
2182	static void gen_absv_mask(TCGv_i64 d, TCGv_i64 b, unsigned vece)
2183	{
2184	TCGv_i64 t = tcg_temp_new_i64();
2185	int nbit = `8` << vece;
2186
2187	/ Create -1 for each negative element. /
2188	tcg_gen_shri_i64(t, b, nbit - `1`);
2189	tcg_gen_andi_i64(t, t, dup_const(vece, `1`));
2190	tcg_gen_muli_i64(t, t, (`1` << nbit) - `1`);
2191
2192	/*
2193	* Invert (via xor -1) and add one (via sub -1).
2194	* Because of the ordering the msb is cleared,
2195	* so we never have carry into the next element.
2196	*/
2197	tcg_gen_xor_i64(d, b, t);
2198	tcg_gen_sub_i64(d, d, t);
2199
2200	tcg_temp_free_i64(t);
2201	}
2202
2203	static void tcg_gen_vec_abs8_i64(TCGv_i64 d, TCGv_i64 b)
2204	{
2205	gen_absv_mask(d, b, MO_8);
2206	}
2207
2208	static void tcg_gen_vec_abs16_i64(TCGv_i64 d, TCGv_i64 b)
2209	{
2210	gen_absv_mask(d, b, MO_16);
2211	}
2212
2213	void tcg_gen_gvec_abs(unsigned vece, uint32_t dofs, uint32_t aofs,
2214	uint32_t oprsz, uint32_t maxsz)
2215	{
2216	static const TCGOpcode vecop_list[] = { INDEX_op_abs_vec, `0` };
2217	static const GVecGen2 g[`4`] = {
2218	{ .fni8 = tcg_gen_vec_abs8_i64,
2219	.fniv = tcg_gen_abs_vec,
2220	.fno = gen_helper_gvec_abs8,
2221	.opt_opc = vecop_list,
2222	.vece = MO_8 },
2223	{ .fni8 = tcg_gen_vec_abs16_i64,
2224	.fniv = tcg_gen_abs_vec,
2225	.fno = gen_helper_gvec_abs16,
2226	.opt_opc = vecop_list,
2227	.vece = MO_16 },
2228	{ .fni4 = tcg_gen_abs_i32,
2229	.fniv = tcg_gen_abs_vec,
2230	.fno = gen_helper_gvec_abs32,
2231	.opt_opc = vecop_list,
2232	.vece = MO_32 },
2233	{ .fni8 = tcg_gen_abs_i64,
2234	.fniv = tcg_gen_abs_vec,
2235	.fno = gen_helper_gvec_abs64,
2236	.opt_opc = vecop_list,
2237	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
2238	.vece = MO_64 },
2239	};
2240
2241	tcg_debug_assert(vece <= MO_64);
2242	tcg_gen_gvec_2(dofs, aofs, oprsz, maxsz, &g[vece]);
2243	}
2244
2245	void tcg_gen_gvec_and(unsigned vece, uint32_t dofs, uint32_t aofs,
2246	uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
2247	{
2248	static const GVecGen3 g = {
2249	.fni8 = tcg_gen_and_i64,
2250	.fniv = tcg_gen_and_vec,
2251	.fno = gen_helper_gvec_and,
2252	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
2253	};
2254
2255	if (aofs == bofs) {
2256	tcg_gen_gvec_mov(vece, dofs, aofs, oprsz, maxsz);
2257	} else {
2258	tcg_gen_gvec_3(dofs, aofs, bofs, oprsz, maxsz, &g);
2259	}
2260	}
2261
2262	void tcg_gen_gvec_or(unsigned vece, uint32_t dofs, uint32_t aofs,
2263	uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
2264	{
2265	static const GVecGen3 g = {
2266	.fni8 = tcg_gen_or_i64,
2267	.fniv = tcg_gen_or_vec,
2268	.fno = gen_helper_gvec_or,
2269	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
2270	};
2271
2272	if (aofs == bofs) {
2273	tcg_gen_gvec_mov(vece, dofs, aofs, oprsz, maxsz);
2274	} else {
2275	tcg_gen_gvec_3(dofs, aofs, bofs, oprsz, maxsz, &g);
2276	}
2277	}
2278
2279	void tcg_gen_gvec_xor(unsigned vece, uint32_t dofs, uint32_t aofs,
2280	uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
2281	{
2282	static const GVecGen3 g = {
2283	.fni8 = tcg_gen_xor_i64,
2284	.fniv = tcg_gen_xor_vec,
2285	.fno = gen_helper_gvec_xor,
2286	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
2287	};
2288
2289	if (aofs == bofs) {
2290	tcg_gen_gvec_dup8i(dofs, oprsz, maxsz, `0`);
2291	} else {
2292	tcg_gen_gvec_3(dofs, aofs, bofs, oprsz, maxsz, &g);
2293	}
2294	}
2295
2296	void tcg_gen_gvec_andc(unsigned vece, uint32_t dofs, uint32_t aofs,
2297	uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
2298	{
2299	static const GVecGen3 g = {
2300	.fni8 = tcg_gen_andc_i64,
2301	.fniv = tcg_gen_andc_vec,
2302	.fno = gen_helper_gvec_andc,
2303	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
2304	};
2305
2306	if (aofs == bofs) {
2307	tcg_gen_gvec_dup8i(dofs, oprsz, maxsz, `0`);
2308	} else {
2309	tcg_gen_gvec_3(dofs, aofs, bofs, oprsz, maxsz, &g);
2310	}
2311	}
2312
2313	void tcg_gen_gvec_orc(unsigned vece, uint32_t dofs, uint32_t aofs,
2314	uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
2315	{
2316	static const GVecGen3 g = {
2317	.fni8 = tcg_gen_orc_i64,
2318	.fniv = tcg_gen_orc_vec,
2319	.fno = gen_helper_gvec_orc,
2320	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
2321	};
2322
2323	if (aofs == bofs) {
2324	tcg_gen_gvec_dup8i(dofs, oprsz, maxsz, -`1`);
2325	} else {
2326	tcg_gen_gvec_3(dofs, aofs, bofs, oprsz, maxsz, &g);
2327	}
2328	}
2329
2330	void tcg_gen_gvec_nand(unsigned vece, uint32_t dofs, uint32_t aofs,
2331	uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
2332	{
2333	static const GVecGen3 g = {
2334	.fni8 = tcg_gen_nand_i64,
2335	.fniv = tcg_gen_nand_vec,
2336	.fno = gen_helper_gvec_nand,
2337	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
2338	};
2339
2340	if (aofs == bofs) {
2341	tcg_gen_gvec_not(vece, dofs, aofs, oprsz, maxsz);
2342	} else {
2343	tcg_gen_gvec_3(dofs, aofs, bofs, oprsz, maxsz, &g);
2344	}
2345	}
2346
2347	void tcg_gen_gvec_nor(unsigned vece, uint32_t dofs, uint32_t aofs,
2348	uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
2349	{
2350	static const GVecGen3 g = {
2351	.fni8 = tcg_gen_nor_i64,
2352	.fniv = tcg_gen_nor_vec,
2353	.fno = gen_helper_gvec_nor,
2354	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
2355	};
2356
2357	if (aofs == bofs) {
2358	tcg_gen_gvec_not(vece, dofs, aofs, oprsz, maxsz);
2359	} else {
2360	tcg_gen_gvec_3(dofs, aofs, bofs, oprsz, maxsz, &g);
2361	}
2362	}
2363
2364	void tcg_gen_gvec_eqv(unsigned vece, uint32_t dofs, uint32_t aofs,
2365	uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
2366	{
2367	static const GVecGen3 g = {
2368	.fni8 = tcg_gen_eqv_i64,
2369	.fniv = tcg_gen_eqv_vec,
2370	.fno = gen_helper_gvec_eqv,
2371	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
2372	};
2373
2374	if (aofs == bofs) {
2375	tcg_gen_gvec_dup8i(dofs, oprsz, maxsz, -`1`);
2376	} else {
2377	tcg_gen_gvec_3(dofs, aofs, bofs, oprsz, maxsz, &g);
2378	}
2379	}
2380
2381	static const GVecGen2s gop_ands = {
2382	.fni8 = tcg_gen_and_i64,
2383	.fniv = tcg_gen_and_vec,
2384	.fno = gen_helper_gvec_ands,
2385	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
2386	.vece = MO_64
2387	};
2388
2389	void tcg_gen_gvec_ands(unsigned vece, uint32_t dofs, uint32_t aofs,
2390	TCGv_i64 c, uint32_t oprsz, uint32_t maxsz)
2391	{
2392	TCGv_i64 tmp = tcg_temp_new_i64();
2393	gen_dup_i64(vece, tmp, c);
2394	tcg_gen_gvec_2s(dofs, aofs, oprsz, maxsz, tmp, &gop_ands);
2395	tcg_temp_free_i64(tmp);
2396	}
2397
2398	void tcg_gen_gvec_andi(unsigned vece, uint32_t dofs, uint32_t aofs,
2399	int64_t c, uint32_t oprsz, uint32_t maxsz)
2400	{
2401	TCGv_i64 tmp = tcg_const_i64(dup_const(vece, c));
2402	tcg_gen_gvec_2s(dofs, aofs, oprsz, maxsz, tmp, &gop_ands);
2403	tcg_temp_free_i64(tmp);
2404	}
2405
2406	static const GVecGen2s gop_xors = {
2407	.fni8 = tcg_gen_xor_i64,
2408	.fniv = tcg_gen_xor_vec,
2409	.fno = gen_helper_gvec_xors,
2410	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
2411	.vece = MO_64
2412	};
2413
2414	void tcg_gen_gvec_xors(unsigned vece, uint32_t dofs, uint32_t aofs,
2415	TCGv_i64 c, uint32_t oprsz, uint32_t maxsz)
2416	{
2417	TCGv_i64 tmp = tcg_temp_new_i64();
2418	gen_dup_i64(vece, tmp, c);
2419	tcg_gen_gvec_2s(dofs, aofs, oprsz, maxsz, tmp, &gop_xors);
2420	tcg_temp_free_i64(tmp);
2421	}
2422
2423	void tcg_gen_gvec_xori(unsigned vece, uint32_t dofs, uint32_t aofs,
2424	int64_t c, uint32_t oprsz, uint32_t maxsz)
2425	{
2426	TCGv_i64 tmp = tcg_const_i64(dup_const(vece, c));
2427	tcg_gen_gvec_2s(dofs, aofs, oprsz, maxsz, tmp, &gop_xors);
2428	tcg_temp_free_i64(tmp);
2429	}
2430
2431	static const GVecGen2s gop_ors = {
2432	.fni8 = tcg_gen_or_i64,
2433	.fniv = tcg_gen_or_vec,
2434	.fno = gen_helper_gvec_ors,
2435	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
2436	.vece = MO_64
2437	};
2438
2439	void tcg_gen_gvec_ors(unsigned vece, uint32_t dofs, uint32_t aofs,
2440	TCGv_i64 c, uint32_t oprsz, uint32_t maxsz)
2441	{
2442	TCGv_i64 tmp = tcg_temp_new_i64();
2443	gen_dup_i64(vece, tmp, c);
2444	tcg_gen_gvec_2s(dofs, aofs, oprsz, maxsz, tmp, &gop_ors);
2445	tcg_temp_free_i64(tmp);
2446	}
2447
2448	void tcg_gen_gvec_ori(unsigned vece, uint32_t dofs, uint32_t aofs,
2449	int64_t c, uint32_t oprsz, uint32_t maxsz)
2450	{
2451	TCGv_i64 tmp = tcg_const_i64(dup_const(vece, c));
2452	tcg_gen_gvec_2s(dofs, aofs, oprsz, maxsz, tmp, &gop_ors);
2453	tcg_temp_free_i64(tmp);
2454	}
2455
2456	void tcg_gen_vec_shl8i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
2457	{
2458	uint64_t mask = dup_const(MO_8, `0xff` << c);
2459	tcg_gen_shli_i64(d, a, c);
2460	tcg_gen_andi_i64(d, d, mask);
2461	}
2462
2463	void tcg_gen_vec_shl16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
2464	{
2465	uint64_t mask = dup_const(MO_16, `0xffff` << c);
2466	tcg_gen_shli_i64(d, a, c);
2467	tcg_gen_andi_i64(d, d, mask);
2468	}
2469
2470	void tcg_gen_gvec_shli(unsigned vece, uint32_t dofs, uint32_t aofs,
2471	int64_t shift, uint32_t oprsz, uint32_t maxsz)
2472	{
2473	static const TCGOpcode vecop_list[] = { INDEX_op_shli_vec, `0` };
2474	static const GVecGen2i g[`4`] = {
2475	{ .fni8 = tcg_gen_vec_shl8i_i64,
2476	.fniv = tcg_gen_shli_vec,
2477	.fno = gen_helper_gvec_shl8i,
2478	.opt_opc = vecop_list,
2479	.vece = MO_8 },
2480	{ .fni8 = tcg_gen_vec_shl16i_i64,
2481	.fniv = tcg_gen_shli_vec,
2482	.fno = gen_helper_gvec_shl16i,
2483	.opt_opc = vecop_list,
2484	.vece = MO_16 },
2485	{ .fni4 = tcg_gen_shli_i32,
2486	.fniv = tcg_gen_shli_vec,
2487	.fno = gen_helper_gvec_shl32i,
2488	.opt_opc = vecop_list,
2489	.vece = MO_32 },
2490	{ .fni8 = tcg_gen_shli_i64,
2491	.fniv = tcg_gen_shli_vec,
2492	.fno = gen_helper_gvec_shl64i,
2493	.opt_opc = vecop_list,
2494	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
2495	.vece = MO_64 },
2496	};
2497
2498	tcg_debug_assert(vece <= MO_64);
2499	tcg_debug_assert(shift >= `0` && shift < (`8` << vece));
2500	if (shift == `0`) {
2501	tcg_gen_gvec_mov(vece, dofs, aofs, oprsz, maxsz);
2502	} else {
2503	tcg_gen_gvec_2i(dofs, aofs, oprsz, maxsz, shift, &g[vece]);
2504	}
2505	}
2506
2507	void tcg_gen_vec_shr8i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
2508	{
2509	uint64_t mask = dup_const(MO_8, `0xff` >> c);
2510	tcg_gen_shri_i64(d, a, c);
2511	tcg_gen_andi_i64(d, d, mask);
2512	}
2513
2514	void tcg_gen_vec_shr16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
2515	{
2516	uint64_t mask = dup_const(MO_16, `0xffff` >> c);
2517	tcg_gen_shri_i64(d, a, c);
2518	tcg_gen_andi_i64(d, d, mask);
2519	}
2520
2521	void tcg_gen_gvec_shri(unsigned vece, uint32_t dofs, uint32_t aofs,
2522	int64_t shift, uint32_t oprsz, uint32_t maxsz)
2523	{
2524	static const TCGOpcode vecop_list[] = { INDEX_op_shri_vec, `0` };
2525	static const GVecGen2i g[`4`] = {
2526	{ .fni8 = tcg_gen_vec_shr8i_i64,
2527	.fniv = tcg_gen_shri_vec,
2528	.fno = gen_helper_gvec_shr8i,
2529	.opt_opc = vecop_list,
2530	.vece = MO_8 },
2531	{ .fni8 = tcg_gen_vec_shr16i_i64,
2532	.fniv = tcg_gen_shri_vec,
2533	.fno = gen_helper_gvec_shr16i,
2534	.opt_opc = vecop_list,
2535	.vece = MO_16 },
2536	{ .fni4 = tcg_gen_shri_i32,
2537	.fniv = tcg_gen_shri_vec,
2538	.fno = gen_helper_gvec_shr32i,
2539	.opt_opc = vecop_list,
2540	.vece = MO_32 },
2541	{ .fni8 = tcg_gen_shri_i64,
2542	.fniv = tcg_gen_shri_vec,
2543	.fno = gen_helper_gvec_shr64i,
2544	.opt_opc = vecop_list,
2545	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
2546	.vece = MO_64 },
2547	};
2548
2549	tcg_debug_assert(vece <= MO_64);
2550	tcg_debug_assert(shift >= `0` && shift < (`8` << vece));
2551	if (shift == `0`) {
2552	tcg_gen_gvec_mov(vece, dofs, aofs, oprsz, maxsz);
2553	} else {
2554	tcg_gen_gvec_2i(dofs, aofs, oprsz, maxsz, shift, &g[vece]);
2555	}
2556	}
2557
2558	void tcg_gen_vec_sar8i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
2559	{
2560	uint64_t s_mask = dup_const(MO_8, `0x80` >> c);
2561	uint64_t c_mask = dup_const(MO_8, `0xff` >> c);
2562	TCGv_i64 s = tcg_temp_new_i64();
2563
2564	tcg_gen_shri_i64(d, a, c);
2565	tcg_gen_andi_i64(s, d, s_mask); / isolate (shifted) sign bit /
2566	tcg_gen_muli_i64(s, s, (`2` << c) - `2`); / replicate isolated signs /
2567	tcg_gen_andi_i64(d, d, c_mask); / clear out bits above sign /
2568	tcg_gen_or_i64(d, d, s); / include sign extension /
2569	tcg_temp_free_i64(s);
2570	}
2571
2572	void tcg_gen_vec_sar16i_i64(TCGv_i64 d, TCGv_i64 a, int64_t c)
2573	{
2574	uint64_t s_mask = dup_const(MO_16, `0x8000` >> c);
2575	uint64_t c_mask = dup_const(MO_16, `0xffff` >> c);
2576	TCGv_i64 s = tcg_temp_new_i64();
2577
2578	tcg_gen_shri_i64(d, a, c);
2579	tcg_gen_andi_i64(s, d, s_mask); / isolate (shifted) sign bit /
2580	tcg_gen_andi_i64(d, d, c_mask); / clear out bits above sign /
2581	tcg_gen_muli_i64(s, s, (`2` << c) - `2`); / replicate isolated signs /
2582	tcg_gen_or_i64(d, d, s); / include sign extension /
2583	tcg_temp_free_i64(s);
2584	}
2585
2586	void tcg_gen_gvec_sari(unsigned vece, uint32_t dofs, uint32_t aofs,
2587	int64_t shift, uint32_t oprsz, uint32_t maxsz)
2588	{
2589	static const TCGOpcode vecop_list[] = { INDEX_op_sari_vec, `0` };
2590	static const GVecGen2i g[`4`] = {
2591	{ .fni8 = tcg_gen_vec_sar8i_i64,
2592	.fniv = tcg_gen_sari_vec,
2593	.fno = gen_helper_gvec_sar8i,
2594	.opt_opc = vecop_list,
2595	.vece = MO_8 },
2596	{ .fni8 = tcg_gen_vec_sar16i_i64,
2597	.fniv = tcg_gen_sari_vec,
2598	.fno = gen_helper_gvec_sar16i,
2599	.opt_opc = vecop_list,
2600	.vece = MO_16 },
2601	{ .fni4 = tcg_gen_sari_i32,
2602	.fniv = tcg_gen_sari_vec,
2603	.fno = gen_helper_gvec_sar32i,
2604	.opt_opc = vecop_list,
2605	.vece = MO_32 },
2606	{ .fni8 = tcg_gen_sari_i64,
2607	.fniv = tcg_gen_sari_vec,
2608	.fno = gen_helper_gvec_sar64i,
2609	.opt_opc = vecop_list,
2610	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
2611	.vece = MO_64 },
2612	};
2613
2614	tcg_debug_assert(vece <= MO_64);
2615	tcg_debug_assert(shift >= `0` && shift < (`8` << vece));
2616	if (shift == `0`) {
2617	tcg_gen_gvec_mov(vece, dofs, aofs, oprsz, maxsz);
2618	} else {
2619	tcg_gen_gvec_2i(dofs, aofs, oprsz, maxsz, shift, &g[vece]);
2620	}
2621	}
2622
2623	/*
2624	* Specialized generation vector shifts by a non-constant scalar.
2625	*/
2626
2627	typedef struct {
2628	void (*fni4)(TCGv_i32, TCGv_i32, TCGv_i32);
2629	void (*fni8)(TCGv_i64, TCGv_i64, TCGv_i64);
2630	void (fniv_s)(unsigned*, TCGv_vec, TCGv_vec, TCGv_i32);
2631	void (fniv_v)(unsigned*, TCGv_vec, TCGv_vec, TCGv_vec);
2632	gen_helper_gvec_2 *fno[`4`];
2633	TCGOpcode s_list[`2`];
2634	TCGOpcode v_list[`2`];
2635	} GVecGen2sh;
2636
2637	static void expand_2sh_vec(unsigned vece, uint32_t dofs, uint32_t aofs,
2638	uint32_t oprsz, uint32_t tysz, TCGType type,
2639	TCGv_i32 shift,
2640	void (fni)(unsigned*, TCGv_vec, TCGv_vec, TCGv_i32))
2641	{
2642	TCGv_vec t0 = tcg_temp_new_vec(type);
2643	uint32_t i;
2644
2645	for (i = `0`; i < oprsz; i += tysz) {
2646	tcg_gen_ld_vec(t0, cpu_env, aofs + i);
2647	fni(vece, t0, t0, shift);
2648	tcg_gen_st_vec(t0, cpu_env, dofs + i);
2649	}
2650	tcg_temp_free_vec(t0);
2651	}
2652
2653	static void
2654	do_gvec_shifts(unsigned vece, uint32_t dofs, uint32_t aofs, TCGv_i32 shift,
2655	uint32_t oprsz, uint32_t maxsz, const GVecGen2sh *g)
2656	{
2657	TCGType type;
2658	uint32_t some;
2659
2660	check_size_align(oprsz, maxsz, dofs \| aofs);
2661	check_overlap_2(dofs, aofs, maxsz);
2662
2663	/ If the backend has a scalar expansion, great. /
2664	type = choose_vector_type(g->s_list, vece, oprsz, vece == MO_64);
2665	if (type) {
2666	const TCGOpcode *hold_list = tcg_swap_vecop_list(NULL);
2667	switch (type) {
2668	case TCG_TYPE_V256:
2669	some = QEMU_ALIGN_DOWN(oprsz, `32`);
2670	expand_2sh_vec(vece, dofs, aofs, some, `32`,
2671	TCG_TYPE_V256, shift, g->fniv_s);
2672	if (some == oprsz) {
2673	break;
2674	}
2675	dofs += some;
2676	aofs += some;
2677	oprsz -= some;
2678	maxsz -= some;
2679	/ fallthru /
2680	case TCG_TYPE_V128:
2681	expand_2sh_vec(vece, dofs, aofs, oprsz, `16`,
2682	TCG_TYPE_V128, shift, g->fniv_s);
2683	break;
2684	case TCG_TYPE_V64:
2685	expand_2sh_vec(vece, dofs, aofs, oprsz, `8`,
2686	TCG_TYPE_V64, shift, g->fniv_s);
2687	break;
2688	default:
2689	g_assert_not_reached();
2690	}
2691	tcg_swap_vecop_list(hold_list);
2692	goto clear_tail;
2693	}
2694
2695	/ If the backend supports variable vector shifts, also cool. /
2696	type = choose_vector_type(g->v_list, vece, oprsz, vece == MO_64);
2697	if (type) {
2698	const TCGOpcode *hold_list = tcg_swap_vecop_list(NULL);
2699	TCGv_vec v_shift = tcg_temp_new_vec(type);
2700
2701	if (vece == MO_64) {
2702	TCGv_i64 sh64 = tcg_temp_new_i64();
2703	tcg_gen_extu_i32_i64(sh64, shift);
2704	tcg_gen_dup_i64_vec(MO_64, v_shift, sh64);
2705	tcg_temp_free_i64(sh64);
2706	} else {
2707	tcg_gen_dup_i32_vec(vece, v_shift, shift);
2708	}
2709
2710	switch (type) {
2711	case TCG_TYPE_V256:
2712	some = QEMU_ALIGN_DOWN(oprsz, `32`);
2713	expand_2s_vec(vece, dofs, aofs, some, `32`, TCG_TYPE_V256,
2714	v_shift, false, g->fniv_v);
2715	if (some == oprsz) {
2716	break;
2717	}
2718	dofs += some;
2719	aofs += some;
2720	oprsz -= some;
2721	maxsz -= some;
2722	/ fallthru /
2723	case TCG_TYPE_V128:
2724	expand_2s_vec(vece, dofs, aofs, oprsz, `16`, TCG_TYPE_V128,
2725	v_shift, false, g->fniv_v);
2726	break;
2727	case TCG_TYPE_V64:
2728	expand_2s_vec(vece, dofs, aofs, oprsz, `8`, TCG_TYPE_V64,
2729	v_shift, false, g->fniv_v);
2730	break;
2731	default:
2732	g_assert_not_reached();
2733	}
2734	tcg_temp_free_vec(v_shift);
2735	tcg_swap_vecop_list(hold_list);
2736	goto clear_tail;
2737	}
2738
2739	/ Otherwise fall back to integral... /
2740	if (vece == MO_32 && check_size_impl(oprsz, `4`)) {
2741	expand_2s_i32(dofs, aofs, oprsz, shift, false, g->fni4);
2742	} else if (vece == MO_64 && check_size_impl(oprsz, `8`)) {
2743	TCGv_i64 sh64 = tcg_temp_new_i64();
2744	tcg_gen_extu_i32_i64(sh64, shift);
2745	expand_2s_i64(dofs, aofs, oprsz, sh64, false, g->fni8);
2746	tcg_temp_free_i64(sh64);
2747	} else {
2748	TCGv_ptr a0 = tcg_temp_new_ptr();
2749	TCGv_ptr a1 = tcg_temp_new_ptr();
2750	TCGv_i32 desc = tcg_temp_new_i32();
2751
2752	tcg_gen_shli_i32(desc, shift, SIMD_DATA_SHIFT);
2753	tcg_gen_ori_i32(desc, desc, simd_desc(oprsz, maxsz, `0`));
2754	tcg_gen_addi_ptr(a0, cpu_env, dofs);
2755	tcg_gen_addi_ptr(a1, cpu_env, aofs);
2756
2757	g->fno[vece](a0, a1, desc);
2758
2759	tcg_temp_free_ptr(a0);
2760	tcg_temp_free_ptr(a1);
2761	tcg_temp_free_i32(desc);
2762	return;
2763	}
2764
2765	clear_tail:
2766	if (oprsz < maxsz) {
2767	expand_clr(dofs + oprsz, maxsz - oprsz);
2768	}
2769	}
2770
2771	void tcg_gen_gvec_shls(unsigned vece, uint32_t dofs, uint32_t aofs,
2772	TCGv_i32 shift, uint32_t oprsz, uint32_t maxsz)
2773	{
2774	static const GVecGen2sh g = {
2775	.fni4 = tcg_gen_shl_i32,
2776	.fni8 = tcg_gen_shl_i64,
2777	.fniv_s = tcg_gen_shls_vec,
2778	.fniv_v = tcg_gen_shlv_vec,
2779	.fno = {
2780	gen_helper_gvec_shl8i,
2781	gen_helper_gvec_shl16i,
2782	gen_helper_gvec_shl32i,
2783	gen_helper_gvec_shl64i,
2784	},
2785	.s_list = { INDEX_op_shls_vec, `0` },
2786	.v_list = { INDEX_op_shlv_vec, `0` },
2787	};
2788
2789	tcg_debug_assert(vece <= MO_64);
2790	do_gvec_shifts(vece, dofs, aofs, shift, oprsz, maxsz, &g);
2791	}
2792
2793	void tcg_gen_gvec_shrs(unsigned vece, uint32_t dofs, uint32_t aofs,
2794	TCGv_i32 shift, uint32_t oprsz, uint32_t maxsz)
2795	{
2796	static const GVecGen2sh g = {
2797	.fni4 = tcg_gen_shr_i32,
2798	.fni8 = tcg_gen_shr_i64,
2799	.fniv_s = tcg_gen_shrs_vec,
2800	.fniv_v = tcg_gen_shrv_vec,
2801	.fno = {
2802	gen_helper_gvec_shr8i,
2803	gen_helper_gvec_shr16i,
2804	gen_helper_gvec_shr32i,
2805	gen_helper_gvec_shr64i,
2806	},
2807	.s_list = { INDEX_op_shrs_vec, `0` },
2808	.v_list = { INDEX_op_shrv_vec, `0` },
2809	};
2810
2811	tcg_debug_assert(vece <= MO_64);
2812	do_gvec_shifts(vece, dofs, aofs, shift, oprsz, maxsz, &g);
2813	}
2814
2815	void tcg_gen_gvec_sars(unsigned vece, uint32_t dofs, uint32_t aofs,
2816	TCGv_i32 shift, uint32_t oprsz, uint32_t maxsz)
2817	{
2818	static const GVecGen2sh g = {
2819	.fni4 = tcg_gen_sar_i32,
2820	.fni8 = tcg_gen_sar_i64,
2821	.fniv_s = tcg_gen_sars_vec,
2822	.fniv_v = tcg_gen_sarv_vec,
2823	.fno = {
2824	gen_helper_gvec_sar8i,
2825	gen_helper_gvec_sar16i,
2826	gen_helper_gvec_sar32i,
2827	gen_helper_gvec_sar64i,
2828	},
2829	.s_list = { INDEX_op_sars_vec, `0` },
2830	.v_list = { INDEX_op_sarv_vec, `0` },
2831	};
2832
2833	tcg_debug_assert(vece <= MO_64);
2834	do_gvec_shifts(vece, dofs, aofs, shift, oprsz, maxsz, &g);
2835	}
2836
2837	/*
2838	* Expand D = A << (B % element bits)
2839	*
2840	* Unlike scalar shifts, where it is easy for the target front end
2841	* to include the modulo as part of the expansion. If the target
2842	* naturally includes the modulo as part of the operation, great!
2843	* If the target has some other behaviour from out-of-range shifts,
2844	* then it could not use this function anyway, and would need to
2845	* do it's own expansion with custom functions.
2846	*/
2847	static void tcg_gen_shlv_mod_vec(unsigned vece, TCGv_vec d,
2848	TCGv_vec a, TCGv_vec b)
2849	{
2850	TCGv_vec t = tcg_temp_new_vec_matching(d);
2851
2852	tcg_gen_dupi_vec(vece, t, (`8` << vece) - `1`);
2853	tcg_gen_and_vec(vece, t, t, b);
2854	tcg_gen_shlv_vec(vece, d, a, t);
2855	tcg_temp_free_vec(t);
2856	}
2857
2858	static void tcg_gen_shl_mod_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
2859	{
2860	TCGv_i32 t = tcg_temp_new_i32();
2861
2862	tcg_gen_andi_i32(t, b, `31`);
2863	tcg_gen_shl_i32(d, a, t);
2864	tcg_temp_free_i32(t);
2865	}
2866
2867	static void tcg_gen_shl_mod_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
2868	{
2869	TCGv_i64 t = tcg_temp_new_i64();
2870
2871	tcg_gen_andi_i64(t, b, `63`);
2872	tcg_gen_shl_i64(d, a, t);
2873	tcg_temp_free_i64(t);
2874	}
2875
2876	void tcg_gen_gvec_shlv(unsigned vece, uint32_t dofs, uint32_t aofs,
2877	uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
2878	{
2879	static const TCGOpcode vecop_list[] = { INDEX_op_shlv_vec, `0` };
2880	static const GVecGen3 g[`4`] = {
2881	{ .fniv = tcg_gen_shlv_mod_vec,
2882	.fno = gen_helper_gvec_shl8v,
2883	.opt_opc = vecop_list,
2884	.vece = MO_8 },
2885	{ .fniv = tcg_gen_shlv_mod_vec,
2886	.fno = gen_helper_gvec_shl16v,
2887	.opt_opc = vecop_list,
2888	.vece = MO_16 },
2889	{ .fni4 = tcg_gen_shl_mod_i32,
2890	.fniv = tcg_gen_shlv_mod_vec,
2891	.fno = gen_helper_gvec_shl32v,
2892	.opt_opc = vecop_list,
2893	.vece = MO_32 },
2894	{ .fni8 = tcg_gen_shl_mod_i64,
2895	.fniv = tcg_gen_shlv_mod_vec,
2896	.fno = gen_helper_gvec_shl64v,
2897	.opt_opc = vecop_list,
2898	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
2899	.vece = MO_64 },
2900	};
2901
2902	tcg_debug_assert(vece <= MO_64);
2903	tcg_gen_gvec_3(dofs, aofs, bofs, oprsz, maxsz, &g[vece]);
2904	}
2905
2906	/*
2907	* Similarly for logical right shifts.
2908	*/
2909
2910	static void tcg_gen_shrv_mod_vec(unsigned vece, TCGv_vec d,
2911	TCGv_vec a, TCGv_vec b)
2912	{
2913	TCGv_vec t = tcg_temp_new_vec_matching(d);
2914
2915	tcg_gen_dupi_vec(vece, t, (`8` << vece) - `1`);
2916	tcg_gen_and_vec(vece, t, t, b);
2917	tcg_gen_shrv_vec(vece, d, a, t);
2918	tcg_temp_free_vec(t);
2919	}
2920
2921	static void tcg_gen_shr_mod_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
2922	{
2923	TCGv_i32 t = tcg_temp_new_i32();
2924
2925	tcg_gen_andi_i32(t, b, `31`);
2926	tcg_gen_shr_i32(d, a, t);
2927	tcg_temp_free_i32(t);
2928	}
2929
2930	static void tcg_gen_shr_mod_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
2931	{
2932	TCGv_i64 t = tcg_temp_new_i64();
2933
2934	tcg_gen_andi_i64(t, b, `63`);
2935	tcg_gen_shr_i64(d, a, t);
2936	tcg_temp_free_i64(t);
2937	}
2938
2939	void tcg_gen_gvec_shrv(unsigned vece, uint32_t dofs, uint32_t aofs,
2940	uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
2941	{
2942	static const TCGOpcode vecop_list[] = { INDEX_op_shrv_vec, `0` };
2943	static const GVecGen3 g[`4`] = {
2944	{ .fniv = tcg_gen_shrv_mod_vec,
2945	.fno = gen_helper_gvec_shr8v,
2946	.opt_opc = vecop_list,
2947	.vece = MO_8 },
2948	{ .fniv = tcg_gen_shrv_mod_vec,
2949	.fno = gen_helper_gvec_shr16v,
2950	.opt_opc = vecop_list,
2951	.vece = MO_16 },
2952	{ .fni4 = tcg_gen_shr_mod_i32,
2953	.fniv = tcg_gen_shrv_mod_vec,
2954	.fno = gen_helper_gvec_shr32v,
2955	.opt_opc = vecop_list,
2956	.vece = MO_32 },
2957	{ .fni8 = tcg_gen_shr_mod_i64,
2958	.fniv = tcg_gen_shrv_mod_vec,
2959	.fno = gen_helper_gvec_shr64v,
2960	.opt_opc = vecop_list,
2961	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
2962	.vece = MO_64 },
2963	};
2964
2965	tcg_debug_assert(vece <= MO_64);
2966	tcg_gen_gvec_3(dofs, aofs, bofs, oprsz, maxsz, &g[vece]);
2967	}
2968
2969	/*
2970	* Similarly for arithmetic right shifts.
2971	*/
2972
2973	static void tcg_gen_sarv_mod_vec(unsigned vece, TCGv_vec d,
2974	TCGv_vec a, TCGv_vec b)
2975	{
2976	TCGv_vec t = tcg_temp_new_vec_matching(d);
2977
2978	tcg_gen_dupi_vec(vece, t, (`8` << vece) - `1`);
2979	tcg_gen_and_vec(vece, t, t, b);
2980	tcg_gen_sarv_vec(vece, d, a, t);
2981	tcg_temp_free_vec(t);
2982	}
2983
2984	static void tcg_gen_sar_mod_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
2985	{
2986	TCGv_i32 t = tcg_temp_new_i32();
2987
2988	tcg_gen_andi_i32(t, b, `31`);
2989	tcg_gen_sar_i32(d, a, t);
2990	tcg_temp_free_i32(t);
2991	}
2992
2993	static void tcg_gen_sar_mod_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
2994	{
2995	TCGv_i64 t = tcg_temp_new_i64();
2996
2997	tcg_gen_andi_i64(t, b, `63`);
2998	tcg_gen_sar_i64(d, a, t);
2999	tcg_temp_free_i64(t);
3000	}
3001
3002	void tcg_gen_gvec_sarv(unsigned vece, uint32_t dofs, uint32_t aofs,
3003	uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
3004	{
3005	static const TCGOpcode vecop_list[] = { INDEX_op_sarv_vec, `0` };
3006	static const GVecGen3 g[`4`] = {
3007	{ .fniv = tcg_gen_sarv_mod_vec,
3008	.fno = gen_helper_gvec_sar8v,
3009	.opt_opc = vecop_list,
3010	.vece = MO_8 },
3011	{ .fniv = tcg_gen_sarv_mod_vec,
3012	.fno = gen_helper_gvec_sar16v,
3013	.opt_opc = vecop_list,
3014	.vece = MO_16 },
3015	{ .fni4 = tcg_gen_sar_mod_i32,
3016	.fniv = tcg_gen_sarv_mod_vec,
3017	.fno = gen_helper_gvec_sar32v,
3018	.opt_opc = vecop_list,
3019	.vece = MO_32 },
3020	{ .fni8 = tcg_gen_sar_mod_i64,
3021	.fniv = tcg_gen_sarv_mod_vec,
3022	.fno = gen_helper_gvec_sar64v,
3023	.opt_opc = vecop_list,
3024	.prefer_i64 = TCG_TARGET_REG_BITS == `64`,
3025	.vece = MO_64 },
3026	};
3027
3028	tcg_debug_assert(vece <= MO_64);
3029	tcg_gen_gvec_3(dofs, aofs, bofs, oprsz, maxsz, &g[vece]);
3030	}
3031
3032	/ Expand OPSZ bytes worth of three-operand operations using i32 elements. /
3033	static void expand_cmp_i32(uint32_t dofs, uint32_t aofs, uint32_t bofs,
3034	uint32_t oprsz, TCGCond cond)
3035	{
3036	TCGv_i32 t0 = tcg_temp_new_i32();
3037	TCGv_i32 t1 = tcg_temp_new_i32();
3038	uint32_t i;
3039
3040	for (i = `0`; i < oprsz; i += `4`) {
3041	tcg_gen_ld_i32(t0, cpu_env, aofs + i);
3042	tcg_gen_ld_i32(t1, cpu_env, bofs + i);
3043	tcg_gen_setcond_i32(cond, t0, t0, t1);
3044	tcg_gen_neg_i32(t0, t0);
3045	tcg_gen_st_i32(t0, cpu_env, dofs + i);
3046	}
3047	tcg_temp_free_i32(t1);
3048	tcg_temp_free_i32(t0);
3049	}
3050
3051	static void expand_cmp_i64(uint32_t dofs, uint32_t aofs, uint32_t bofs,
3052	uint32_t oprsz, TCGCond cond)
3053	{
3054	TCGv_i64 t0 = tcg_temp_new_i64();
3055	TCGv_i64 t1 = tcg_temp_new_i64();
3056	uint32_t i;
3057
3058	for (i = `0`; i < oprsz; i += `8`) {
3059	tcg_gen_ld_i64(t0, cpu_env, aofs + i);
3060	tcg_gen_ld_i64(t1, cpu_env, bofs + i);
3061	tcg_gen_setcond_i64(cond, t0, t0, t1);
3062	tcg_gen_neg_i64(t0, t0);
3063	tcg_gen_st_i64(t0, cpu_env, dofs + i);
3064	}
3065	tcg_temp_free_i64(t1);
3066	tcg_temp_free_i64(t0);
3067	}
3068
3069	static void expand_cmp_vec(unsigned vece, uint32_t dofs, uint32_t aofs,
3070	uint32_t bofs, uint32_t oprsz, uint32_t tysz,
3071	TCGType type, TCGCond cond)
3072	{
3073	TCGv_vec t0 = tcg_temp_new_vec(type);
3074	TCGv_vec t1 = tcg_temp_new_vec(type);
3075	uint32_t i;
3076
3077	for (i = `0`; i < oprsz; i += tysz) {
3078	tcg_gen_ld_vec(t0, cpu_env, aofs + i);
3079	tcg_gen_ld_vec(t1, cpu_env, bofs + i);
3080	tcg_gen_cmp_vec(cond, vece, t0, t0, t1);
3081	tcg_gen_st_vec(t0, cpu_env, dofs + i);
3082	}
3083	tcg_temp_free_vec(t1);
3084	tcg_temp_free_vec(t0);
3085	}
3086
3087	void tcg_gen_gvec_cmp(TCGCond cond, unsigned vece, uint32_t dofs,
3088	uint32_t aofs, uint32_t bofs,
3089	uint32_t oprsz, uint32_t maxsz)
3090	{
3091	static const TCGOpcode cmp_list[] = { INDEX_op_cmp_vec, `0` };
3092	static gen_helper_gvec_3 * const eq_fn[`4`] = {
3093	gen_helper_gvec_eq8, gen_helper_gvec_eq16,
3094	gen_helper_gvec_eq32, gen_helper_gvec_eq64
3095	};
3096	static gen_helper_gvec_3 * const ne_fn[`4`] = {
3097	gen_helper_gvec_ne8, gen_helper_gvec_ne16,
3098	gen_helper_gvec_ne32, gen_helper_gvec_ne64
3099	};
3100	static gen_helper_gvec_3 * const lt_fn[`4`] = {
3101	gen_helper_gvec_lt8, gen_helper_gvec_lt16,
3102	gen_helper_gvec_lt32, gen_helper_gvec_lt64
3103	};
3104	static gen_helper_gvec_3 * const le_fn[`4`] = {
3105	gen_helper_gvec_le8, gen_helper_gvec_le16,
3106	gen_helper_gvec_le32, gen_helper_gvec_le64
3107	};
3108	static gen_helper_gvec_3 * const ltu_fn[`4`] = {
3109	gen_helper_gvec_ltu8, gen_helper_gvec_ltu16,
3110	gen_helper_gvec_ltu32, gen_helper_gvec_ltu64
3111	};
3112	static gen_helper_gvec_3 * const leu_fn[`4`] = {
3113	gen_helper_gvec_leu8, gen_helper_gvec_leu16,
3114	gen_helper_gvec_leu32, gen_helper_gvec_leu64
3115	};
3116	static gen_helper_gvec_3 * const * const fns[`16`] = {
3117	[TCG_COND_EQ] = eq_fn,
3118	[TCG_COND_NE] = ne_fn,
3119	[TCG_COND_LT] = lt_fn,
3120	[TCG_COND_LE] = le_fn,
3121	[TCG_COND_LTU] = ltu_fn,
3122	[TCG_COND_LEU] = leu_fn,
3123	};
3124
3125	const TCGOpcode *hold_list;
3126	TCGType type;
3127	uint32_t some;
3128
3129	check_size_align(oprsz, maxsz, dofs \| aofs \| bofs);
3130	check_overlap_3(dofs, aofs, bofs, maxsz);
3131
3132	if (cond == TCG_COND_NEVER \|\| cond == TCG_COND_ALWAYS) {
3133	do_dup(MO_8, dofs, oprsz, maxsz,
3134	NULL, NULL, -(cond == TCG_COND_ALWAYS));
3135	return;
3136	}
3137
3138	/*
3139	* Implement inline with a vector type, if possible.
3140	* Prefer integer when 64-bit host and 64-bit comparison.
3141	*/
3142	hold_list = tcg_swap_vecop_list(cmp_list);
3143	type = choose_vector_type(cmp_list, vece, oprsz,
3144	TCG_TARGET_REG_BITS == `64` && vece == MO_64);
3145	switch (type) {
3146	case TCG_TYPE_V256:
3147	/ Recall that ARM SVE allows vector sizes that are not a*
3148	* power of 2, but always a multiple of 16. The intent is
3149	* that e.g. size == 80 would be expanded with 2x32 + 1x16.
3150	*/
3151	some = QEMU_ALIGN_DOWN(oprsz, `32`);
3152	expand_cmp_vec(vece, dofs, aofs, bofs, some, `32`, TCG_TYPE_V256, cond);
3153	if (some == oprsz) {
3154	break;
3155	}
3156	dofs += some;
3157	aofs += some;
3158	bofs += some;
3159	oprsz -= some;
3160	maxsz -= some;
3161	/ fallthru /
3162	case TCG_TYPE_V128:
3163	expand_cmp_vec(vece, dofs, aofs, bofs, oprsz, `16`, TCG_TYPE_V128, cond);
3164	break;
3165	case TCG_TYPE_V64:
3166	expand_cmp_vec(vece, dofs, aofs, bofs, oprsz, `8`, TCG_TYPE_V64, cond);
3167	break;
3168
3169	case `0`:
3170	if (vece == MO_64 && check_size_impl(oprsz, `8`)) {
3171	expand_cmp_i64(dofs, aofs, bofs, oprsz, cond);
3172	} else if (vece == MO_32 && check_size_impl(oprsz, `4`)) {
3173	expand_cmp_i32(dofs, aofs, bofs, oprsz, cond);
3174	} else {
3175	gen_helper_gvec_3 * const *fn = fns[cond];
3176
3177	if (fn == NULL) {
3178	uint32_t tmp;
3179	tmp = aofs, aofs = bofs, bofs = tmp;
3180	cond = tcg_swap_cond(cond);
3181	fn = fns[cond];
3182	assert(fn != NULL);
3183	}
3184	tcg_gen_gvec_3_ool(dofs, aofs, bofs, oprsz, maxsz, `0`, fn[vece]);
3185	oprsz = maxsz;
3186	}
3187	break;
3188
3189	default:
3190	g_assert_not_reached();
3191	}
3192	tcg_swap_vecop_list(hold_list);
3193
3194	if (oprsz < maxsz) {
3195	expand_clr(dofs + oprsz, maxsz - oprsz);
3196	}
3197	}
3198
3199	static void tcg_gen_bitsel_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b, TCGv_i64 c)
3200	{
3201	TCGv_i64 t = tcg_temp_new_i64();
3202
3203	tcg_gen_and_i64(t, b, a);
3204	tcg_gen_andc_i64(d, c, a);
3205	tcg_gen_or_i64(d, d, t);
3206	tcg_temp_free_i64(t);
3207	}
3208
3209	void tcg_gen_gvec_bitsel(unsigned vece, uint32_t dofs, uint32_t aofs,
3210	uint32_t bofs, uint32_t cofs,
3211	uint32_t oprsz, uint32_t maxsz)
3212	{
3213	static const GVecGen4 g = {
3214	.fni8 = tcg_gen_bitsel_i64,
3215	.fniv = tcg_gen_bitsel_vec,
3216	.fno = gen_helper_gvec_bitsel,
3217	};
3218
3219	tcg_gen_gvec_4(dofs, aofs, bofs, cofs, oprsz, maxsz, &g);
3220	}
3221

Browse the source code of qemu/tcg/tcg-op-gvec.c